由麻省理工學院助理教授Philip Harris和核科學實驗室博士后Dylan Rankin等國際科學家團隊測試的新機器學習技術可以在眨眼間發現大型強子對撞機(LHC)海量數據中的特定粒子特征。
MIT助理教授Philip Harris和核科學實驗室博士后Dylan Rankin等國際科學家團隊正在測試一種新的機器學習技術,該技術可以在眨眼間在大型強子對撞機(LHC)浩瀚如海的數據中發現特定粒子特征。
新系統既復雜又迅速,可以在數據集不斷變大變復雜的情況下,讓我們得以一窺機器學習將在粒子物理學的未來發現中,會發揮怎樣舉足輕重的作用。
機器學習成為攻堅利器
大型強子對撞機每秒造成大約4000萬次碰撞。篩選如此大量數據,需要強大的計算機,來識別其中需要科學家去關注的碰撞,無論是暗物質還是希格斯粒子。
現在,費米實驗室(Fermilab),歐洲核子研究中心(CERN),麻省理工學院,華盛頓大學和其他地方的科學家們已經測試了一種新的機器學習系統,與現有方法相比,該系統可將處理速度提高30到175倍!
傳統方法目前每秒只能處理不到一個圖像。相比之下,新的機器學習系統每秒最多可以查看600張圖像。在訓練期間,系統學會挑選出一種特定類型的后碰撞粒子模式。
哈里斯說:“我們所識別的碰撞模式,頂夸克是大型強子對撞機上探測的基本粒子之一。能夠分析盡可能多的數據非常重要,每一條數據都帶有關于粒子如何相互作用的有趣信息。“
等目前的LHC升級完成后,數據將以前所未有的方式涌入;到2026年,17英里的粒子加速器預計將產生20倍于目前的數據,同時圖像也將以比現在更高的分辨率拍攝。總而言之,科學家和工程師估計大型強子對撞機所需的計算能力是目前的10倍以上。
哈里斯繼續說道:“未來的挑戰迫在眉睫,隨著計算變得更加準確,以及探測出更加精確的效果,它變得越來越難。”
該項目的研究人員對他們的新系統進行了訓練,以識別頂夸克的圖像,這是最龐大的基本粒子類型,比質子重180倍。
“通過我們提供的機器學習架構,就能夠獲得高質量的科學質量結果,與世界上最好的頂夸克識別算法相媲美,”哈里斯解釋說。“高速實施核心算法使我們能夠靈活地在最需要的關鍵時刻增強LHC計算。”
EB級的數據集也能輕松處理
憑借大型數據集和高數據采集速率,高性能和高吞吐量計算資源是實驗粒子物理計劃的基本要素。這些實驗在探測器技術的復雜性和粒子束的強度方面不斷增加。
因此,粒子物理數據集的大小正在增加,就像處理數據的算法的復雜性一樣。例如,大型強子對撞機(HL-LHC)的高亮度階段,將提供比當前LHC運行多15倍的數據。
HL-LHC將以40 MHz的速率碰撞質子束,碰撞環境中每次碰撞的粒子數將是原來的5倍。
Compact Muon Solenoid(CMS)實驗將針對HL-LHC進行升級,讀取通道的數量將增加10倍。通過一系列在線過濾器,CMS旨在以5 kHz的速率存儲HL-LHC碰撞事件。
這樣的數據速率導致數據集的規模為EB級。未來的中微子實驗,如深層地下中微子實驗(DUNE)和宇宙學實驗、平方公里陣列(SKA),預計將產生百億億字節的數據集。
大規模粒子物理實驗面臨著高吞吐量計算資源的挑戰。在具有增強的并行化的專用硬件上新的異構計算范例,例如現場可編程門陣列(FPGA),能夠提供具有極大潛在增益的解決方案。
機器學習算法在粒子物理中用于模擬,重建和分析中,不斷增長的應用,自然地部署在這樣的平臺上。
實驗證明,機器學習推理的加速即Web服務,代表了粒子物理實驗的異構計算解決方案,只需要對當前計算模型的最小修改。
作為示例,我們重新訓練ResNet50卷積神經網絡,以展示LHC頂級夸克噴射標記的最先進性能,并應用ResNet50模型和中微子事件分類的遷移學習。
使用Microsoft的Project Brainwave來加速ResNet50圖像分類模型,我們使用Brainwave作為云(邊緣或本地)服務的實驗物理軟件框架實現了60(10)毫秒的平均推斷時間,顯示了一個因素導致模型推斷延遲比傳統CPU推斷提高了30-175倍。
作為粒子物理計算模型的邊緣或云服務,協處理器加速器可以具有更高的占空比,并且可能更具成本效益。
-
FPGA
+關注
關注
1630文章
21796瀏覽量
605905 -
圖像
+關注
關注
2文章
1089瀏覽量
40564 -
機器學習
+關注
關注
66文章
8438瀏覽量
133066
原文標題:MIT提出FPGA加速機器學習推理,提速175倍輕松處理EB數據集
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論