'能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法'

"
"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

如果大型強子對撞機的科學家想要保存,在一年內從高亮度大型強子對撞機收集到的所有原始碰撞數據,必須找到一種方法來存儲大約1eb(約1萬億個人外置硬盤驅動器)的數據,其中只有一小部分可能揭示出新的現象。大型強子對撞機的計算機被編程來選擇這一小部分,在瞬間決定哪些數據足夠有價值,可以被髮送到下游進行進一步研究。目前,大型強子對撞機的計算系統大約每10萬個粒子事件中就有一個發生。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

如果大型強子對撞機的科學家想要保存,在一年內從高亮度大型強子對撞機收集到的所有原始碰撞數據,必須找到一種方法來存儲大約1eb(約1萬億個人外置硬盤驅動器)的數據,其中只有一小部分可能揭示出新的現象。大型強子對撞機的計算機被編程來選擇這一小部分,在瞬間決定哪些數據足夠有價值,可以被髮送到下游進行進一步研究。目前,大型強子對撞機的計算系統大約每10萬個粒子事件中就有一個發生。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

但目前存儲協議將無法跟上未來的數據洪流,未來數據洪流將在數十年的數據採集過程中不斷積累。升級後的CMS探測器拍攝高分辨率照片也不會讓這項研究變得更容易。這一切都轉化為對計算資源的需求,是大型強子對撞機現有計算資源的10倍以上。現在的原型測試表明,隨著機器學習和計算硬件的進步,研究人員希望能夠在即將到來的高亮度大型強子對撞機(LHC)上線時,對數據進行篩選。參與CMS實驗的費米實驗室科學家Nhan Tran說:這裡的希望是,你可以用機器學習做非常複雜的事情,而且做得更快,這很重要。

機器學習拯救推理的差異

粒子物理學中的機器學習並不新鮮,在對撞機實驗中,物理學家在數據處理的每個階段都使用機器學習。但是,隨著機器學習技術能夠以比傳統方法快175倍的速度處理大型強子對撞機數據,粒子物理學家正在碰撞計算過程中邁出改變遊戲規則的一步。這種快速的速度要歸功於微軟Azure ML平臺中精心設計的硬件,它加快了一個稱為推理的過程。要理解推理,請考慮一個經過訓練算法,該算法用於識別摩托車的圖像:該對象有兩個輪子和兩個把手,連接到一個更大的金屬體上。該算法足夠聰明,可以知道具有類似屬性的獨輪車不是摩托車。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

如果大型強子對撞機的科學家想要保存,在一年內從高亮度大型強子對撞機收集到的所有原始碰撞數據,必須找到一種方法來存儲大約1eb(約1萬億個人外置硬盤驅動器)的數據,其中只有一小部分可能揭示出新的現象。大型強子對撞機的計算機被編程來選擇這一小部分,在瞬間決定哪些數據足夠有價值,可以被髮送到下游進行進一步研究。目前,大型強子對撞機的計算系統大約每10萬個粒子事件中就有一個發生。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

但目前存儲協議將無法跟上未來的數據洪流,未來數據洪流將在數十年的數據採集過程中不斷積累。升級後的CMS探測器拍攝高分辨率照片也不會讓這項研究變得更容易。這一切都轉化為對計算資源的需求,是大型強子對撞機現有計算資源的10倍以上。現在的原型測試表明,隨著機器學習和計算硬件的進步,研究人員希望能夠在即將到來的高亮度大型強子對撞機(LHC)上線時,對數據進行篩選。參與CMS實驗的費米實驗室科學家Nhan Tran說:這裡的希望是,你可以用機器學習做非常複雜的事情,而且做得更快,這很重要。

機器學習拯救推理的差異

粒子物理學中的機器學習並不新鮮,在對撞機實驗中,物理學家在數據處理的每個階段都使用機器學習。但是,隨著機器學習技術能夠以比傳統方法快175倍的速度處理大型強子對撞機數據,粒子物理學家正在碰撞計算過程中邁出改變遊戲規則的一步。這種快速的速度要歸功於微軟Azure ML平臺中精心設計的硬件,它加快了一個稱為推理的過程。要理解推理,請考慮一個經過訓練算法,該算法用於識別摩托車的圖像:該對象有兩個輪子和兩個把手,連接到一個更大的金屬體上。該算法足夠聰明,可以知道具有類似屬性的獨輪車不是摩托車。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

當系統掃描其他兩輪、兩柄物體的新圖像時,能預測或推斷出這些物體是摩托車。隨著算法預測誤差的修正,它在識別這些誤差方面變得相當熟練,10億次掃描之後,它進入了推理遊戲。大多數機器學習平臺都是為了理解如何對圖像進行分類而構建,但並不是針對特定於物理的圖像。物理學家必須教他們物理部分,比如識別希格斯玻色子所形成的軌跡,或者尋找暗物質的蛛絲馬跡。來自費米實驗室、歐洲核子研究中心、麻省理工學院、華盛頓大學和其他合作者的研究人員訓練Azure ML從模擬CMS數據中識別出頂級夸克。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

如果大型強子對撞機的科學家想要保存,在一年內從高亮度大型強子對撞機收集到的所有原始碰撞數據,必須找到一種方法來存儲大約1eb(約1萬億個人外置硬盤驅動器)的數據,其中只有一小部分可能揭示出新的現象。大型強子對撞機的計算機被編程來選擇這一小部分,在瞬間決定哪些數據足夠有價值,可以被髮送到下游進行進一步研究。目前,大型強子對撞機的計算系統大約每10萬個粒子事件中就有一個發生。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

但目前存儲協議將無法跟上未來的數據洪流,未來數據洪流將在數十年的數據採集過程中不斷積累。升級後的CMS探測器拍攝高分辨率照片也不會讓這項研究變得更容易。這一切都轉化為對計算資源的需求,是大型強子對撞機現有計算資源的10倍以上。現在的原型測試表明,隨著機器學習和計算硬件的進步,研究人員希望能夠在即將到來的高亮度大型強子對撞機(LHC)上線時,對數據進行篩選。參與CMS實驗的費米實驗室科學家Nhan Tran說:這裡的希望是,你可以用機器學習做非常複雜的事情,而且做得更快,這很重要。

機器學習拯救推理的差異

粒子物理學中的機器學習並不新鮮,在對撞機實驗中,物理學家在數據處理的每個階段都使用機器學習。但是,隨著機器學習技術能夠以比傳統方法快175倍的速度處理大型強子對撞機數據,粒子物理學家正在碰撞計算過程中邁出改變遊戲規則的一步。這種快速的速度要歸功於微軟Azure ML平臺中精心設計的硬件,它加快了一個稱為推理的過程。要理解推理,請考慮一個經過訓練算法,該算法用於識別摩托車的圖像:該對象有兩個輪子和兩個把手,連接到一個更大的金屬體上。該算法足夠聰明,可以知道具有類似屬性的獨輪車不是摩托車。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

當系統掃描其他兩輪、兩柄物體的新圖像時,能預測或推斷出這些物體是摩托車。隨著算法預測誤差的修正,它在識別這些誤差方面變得相當熟練,10億次掃描之後,它進入了推理遊戲。大多數機器學習平臺都是為了理解如何對圖像進行分類而構建,但並不是針對特定於物理的圖像。物理學家必須教他們物理部分,比如識別希格斯玻色子所形成的軌跡,或者尋找暗物質的蛛絲馬跡。來自費米實驗室、歐洲核子研究中心、麻省理工學院、華盛頓大學和其他合作者的研究人員訓練Azure ML從模擬CMS數據中識別出頂級夸克。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

具體來說,Azure的任務是尋找頂部夸克噴流圖像,這是由單個頂部夸克從碰撞中快速移動而脫離真空的粒子云。費米實驗室的科學家伯特·霍爾茲曼(Burt Holzman)說:我們給它發送圖像,用物理數據訓練它,它展示了最先進的性能。非常快。這意味著可以輸送大量這樣的東西,總的來說,這些技術相當不錯。推理加速背後的技術之一是將傳統處理器與專用處理器結合起來,這是一種稱為異構計算體系結構的結合。不同的平臺使用不同體系結構,傳統處理器是cpu(中央處理單元)。最著名的專用處理器是gpu(圖形處理單元)和fpga(現場可編程門陣列),Azure ML結合了cpu和fpga。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

如果大型強子對撞機的科學家想要保存,在一年內從高亮度大型強子對撞機收集到的所有原始碰撞數據,必須找到一種方法來存儲大約1eb(約1萬億個人外置硬盤驅動器)的數據,其中只有一小部分可能揭示出新的現象。大型強子對撞機的計算機被編程來選擇這一小部分,在瞬間決定哪些數據足夠有價值,可以被髮送到下游進行進一步研究。目前,大型強子對撞機的計算系統大約每10萬個粒子事件中就有一個發生。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

但目前存儲協議將無法跟上未來的數據洪流,未來數據洪流將在數十年的數據採集過程中不斷積累。升級後的CMS探測器拍攝高分辨率照片也不會讓這項研究變得更容易。這一切都轉化為對計算資源的需求,是大型強子對撞機現有計算資源的10倍以上。現在的原型測試表明,隨著機器學習和計算硬件的進步,研究人員希望能夠在即將到來的高亮度大型強子對撞機(LHC)上線時,對數據進行篩選。參與CMS實驗的費米實驗室科學家Nhan Tran說:這裡的希望是,你可以用機器學習做非常複雜的事情,而且做得更快,這很重要。

機器學習拯救推理的差異

粒子物理學中的機器學習並不新鮮,在對撞機實驗中,物理學家在數據處理的每個階段都使用機器學習。但是,隨著機器學習技術能夠以比傳統方法快175倍的速度處理大型強子對撞機數據,粒子物理學家正在碰撞計算過程中邁出改變遊戲規則的一步。這種快速的速度要歸功於微軟Azure ML平臺中精心設計的硬件,它加快了一個稱為推理的過程。要理解推理,請考慮一個經過訓練算法,該算法用於識別摩托車的圖像:該對象有兩個輪子和兩個把手,連接到一個更大的金屬體上。該算法足夠聰明,可以知道具有類似屬性的獨輪車不是摩托車。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

當系統掃描其他兩輪、兩柄物體的新圖像時,能預測或推斷出這些物體是摩托車。隨著算法預測誤差的修正,它在識別這些誤差方面變得相當熟練,10億次掃描之後,它進入了推理遊戲。大多數機器學習平臺都是為了理解如何對圖像進行分類而構建,但並不是針對特定於物理的圖像。物理學家必須教他們物理部分,比如識別希格斯玻色子所形成的軌跡,或者尋找暗物質的蛛絲馬跡。來自費米實驗室、歐洲核子研究中心、麻省理工學院、華盛頓大學和其他合作者的研究人員訓練Azure ML從模擬CMS數據中識別出頂級夸克。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

具體來說,Azure的任務是尋找頂部夸克噴流圖像,這是由單個頂部夸克從碰撞中快速移動而脫離真空的粒子云。費米實驗室的科學家伯特·霍爾茲曼(Burt Holzman)說:我們給它發送圖像,用物理數據訓練它,它展示了最先進的性能。非常快。這意味著可以輸送大量這樣的東西,總的來說,這些技術相當不錯。推理加速背後的技術之一是將傳統處理器與專用處理器結合起來,這是一種稱為異構計算體系結構的結合。不同的平臺使用不同體系結構,傳統處理器是cpu(中央處理單元)。最著名的專用處理器是gpu(圖形處理單元)和fpga(現場可編程門陣列),Azure ML結合了cpu和fpga。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

這些過程需要加速的原因是這些計算量很,比如250億次。把它安裝到FPGA上,映射到FPGA上,並在合理的時間內完成,這是一項真正的成就。它也開始作為一種服務提供,該測試是第一次有人演示瞭如何將這種異構的as-a-service體系結構用於基礎物理。在計算機世界中,使用“作為服務”具有特定的含義。外部組織提供資源(機器學習或硬件)作為服務,用戶(科學家)在需要時利用這些資源。這類似於視頻流媒體公司提供數小時的狂看電視服務,而不需要擁有自己的DVD和DVD播放器,而是使用它們的庫和接口。大型強子對撞機的數據通常存儲在CERN和費米實驗室等合作機構的計算機服務器上並進行處理。

"
能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

博科園:本文為粒子物理學類

大型強子對撞機的每一次質子碰撞都不同,但只有少數是特殊的。這種特殊的碰撞產生了不尋常的粒子(可能是新粒子、違反物理現象等)或者有助於填補我們對宇宙不完整的認識。發現這些碰撞比眾所周知的大海撈針要困難得多,但改變的革新正在路上。費米實驗室的科學家和其他合作者成功地測試了一種原型機器學習技術,與傳統方法相比,該技術的處理速度提高了30到175倍。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

面對每秒4000萬次的碰撞,大型強子對撞機的科學家們使用功能強大的計算機,從普通碰撞的巨大靜電中提取寶石——無論是希格斯粒子還是暗物質的跡象。機器學習技術快速瀏覽模擬的大型強子對撞機碰撞數據,成功地學會了識別一種特定的碰撞後模式,當它以驚人的每秒600幅圖像速度查閱時,傳統的方法每秒處理不到一幅圖像,這項技術甚至可以在外部計算機上提供服務。。

挑戰更多的數據,更強的計算能力

這是對機器學習服務如何支持一個已經有大量數據只會變得更大領域有希望的一瞥。研究人員目前正在升級大型強子對撞機,使其能以目前速度的五倍粉碎質子。到2026年,歐洲核子研究中心(CERN)的27千米環形地下機器將產生比現在多20倍的數據。CMS是大型強子對撞機的粒子探測器之一,CMS合作者們正在對儀器進行一些升級,使這個複雜、有故事那麼高的儀器能夠拍攝LHC粒子碰撞的更復雜照片。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

如果大型強子對撞機的科學家想要保存,在一年內從高亮度大型強子對撞機收集到的所有原始碰撞數據,必須找到一種方法來存儲大約1eb(約1萬億個人外置硬盤驅動器)的數據,其中只有一小部分可能揭示出新的現象。大型強子對撞機的計算機被編程來選擇這一小部分,在瞬間決定哪些數據足夠有價值,可以被髮送到下游進行進一步研究。目前,大型強子對撞機的計算系統大約每10萬個粒子事件中就有一個發生。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

但目前存儲協議將無法跟上未來的數據洪流,未來數據洪流將在數十年的數據採集過程中不斷積累。升級後的CMS探測器拍攝高分辨率照片也不會讓這項研究變得更容易。這一切都轉化為對計算資源的需求,是大型強子對撞機現有計算資源的10倍以上。現在的原型測試表明,隨著機器學習和計算硬件的進步,研究人員希望能夠在即將到來的高亮度大型強子對撞機(LHC)上線時,對數據進行篩選。參與CMS實驗的費米實驗室科學家Nhan Tran說:這裡的希望是,你可以用機器學習做非常複雜的事情,而且做得更快,這很重要。

機器學習拯救推理的差異

粒子物理學中的機器學習並不新鮮,在對撞機實驗中,物理學家在數據處理的每個階段都使用機器學習。但是,隨著機器學習技術能夠以比傳統方法快175倍的速度處理大型強子對撞機數據,粒子物理學家正在碰撞計算過程中邁出改變遊戲規則的一步。這種快速的速度要歸功於微軟Azure ML平臺中精心設計的硬件,它加快了一個稱為推理的過程。要理解推理,請考慮一個經過訓練算法,該算法用於識別摩托車的圖像:該對象有兩個輪子和兩個把手,連接到一個更大的金屬體上。該算法足夠聰明,可以知道具有類似屬性的獨輪車不是摩托車。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

當系統掃描其他兩輪、兩柄物體的新圖像時,能預測或推斷出這些物體是摩托車。隨著算法預測誤差的修正,它在識別這些誤差方面變得相當熟練,10億次掃描之後,它進入了推理遊戲。大多數機器學習平臺都是為了理解如何對圖像進行分類而構建,但並不是針對特定於物理的圖像。物理學家必須教他們物理部分,比如識別希格斯玻色子所形成的軌跡,或者尋找暗物質的蛛絲馬跡。來自費米實驗室、歐洲核子研究中心、麻省理工學院、華盛頓大學和其他合作者的研究人員訓練Azure ML從模擬CMS數據中識別出頂級夸克。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

具體來說,Azure的任務是尋找頂部夸克噴流圖像,這是由單個頂部夸克從碰撞中快速移動而脫離真空的粒子云。費米實驗室的科學家伯特·霍爾茲曼(Burt Holzman)說:我們給它發送圖像,用物理數據訓練它,它展示了最先進的性能。非常快。這意味著可以輸送大量這樣的東西,總的來說,這些技術相當不錯。推理加速背後的技術之一是將傳統處理器與專用處理器結合起來,這是一種稱為異構計算體系結構的結合。不同的平臺使用不同體系結構,傳統處理器是cpu(中央處理單元)。最著名的專用處理器是gpu(圖形處理單元)和fpga(現場可編程門陣列),Azure ML結合了cpu和fpga。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

這些過程需要加速的原因是這些計算量很,比如250億次。把它安裝到FPGA上,映射到FPGA上,並在合理的時間內完成,這是一項真正的成就。它也開始作為一種服務提供,該測試是第一次有人演示瞭如何將這種異構的as-a-service體系結構用於基礎物理。在計算機世界中,使用“作為服務”具有特定的含義。外部組織提供資源(機器學習或硬件)作為服務,用戶(科學家)在需要時利用這些資源。這類似於視頻流媒體公司提供數小時的狂看電視服務,而不需要擁有自己的DVD和DVD播放器,而是使用它們的庫和接口。大型強子對撞機的數據通常存儲在CERN和費米實驗室等合作機構的計算機服務器上並進行處理。

能否加速破解暗物質之謎?大型強子對撞機,再加上機器學習算法

這為實驗室提供了額外的計算能力和資源,從而增強了它們的能力,同時使它們不必自己提供服務器。加速計算的想法已經有幾十年的歷史了,但傳統模式是購買一個帶有gpu的計算機集群,並將其安裝在實驗室本地。伊利諾斯州芝加哥附近費米實驗室的計算機只需100毫秒就能將粒子事件的圖像發送到Azure雲上,對其進行處理並返回。作為一種工具,機器學習繼續為粒子物理學提供瞭解宇宙的新方法,它本身也令人印象深刻。我們可以用一些訓練有素的東西來區分動物和人的照片,做一些適度的計算,讓它告訴我們頂夸克射流和背景之間的區別。

"

相關推薦

推薦中...