機器學習 (ML) 需要行業(yè)標準的性能基準,以幫助創(chuàng)建和競爭評估眾多與 ML 相關的軟件和硬件解決方案。
然而,與其他領域不同,ML 訓練面臨三個不同的基準測試挑戰(zhàn):
提高訓練吞吐量的優(yōu)化可以增加求解時間。
訓練是隨機的,解決問題的時間差異很大。
軟件和硬件系統(tǒng)如此多樣化,以至于很難使用相同的二進制文件、代碼甚至超參數(shù)進行公平的基準測試。
MLcommons 的機器學習基準測試解決方案 MLPerf 旨在解決這些問題。MLPerf 在推動性能和可擴展性改進方面的功效在來自不同制造商的兩組數(shù)據(jù)中進行了統(tǒng)計評估。
MLPerf 旨在為機器學習提供一個具有代表性的基準套件,以正確測量系統(tǒng)性能,以實現(xiàn)五個高級目標:
允許對競爭系統(tǒng)進行公平比較,同時促進機器學習創(chuàng)新。
通過以公平和相關的方式衡量 ML 開發(fā)速度。
確保一致性結(jié)果的可重復性。
為商業(yè)和學術團體提供服務。
保持較低的基準測試成本,以便每個人都可以參與。
MLPerf 創(chuàng)建了一個基準套件,其中包括各種應用程序、DNN 模型和優(yōu)化器。它還準確地指定了模型和訓練技術,以創(chuàng)建每個基準的參考實現(xiàn)。MLPerf 在比較結(jié)果時建立了時間限制以減少隨機性的影響。此外,它允許 ML 和系統(tǒng)社區(qū)通過使提交代碼開源來檢查和復制結(jié)果。
每個基準都會計算在給定數(shù)據(jù)集上訓練模型以達到給定質(zhì)量目標所需的時間。最終結(jié)果是通過以特定于基準的次數(shù)測量基準,刪除最低和最高值,并對剩余結(jié)果進行平均以解釋 ML 訓練持續(xù)時間的巨大差異來生成的。即使是平均結(jié)果數(shù)量也不足以消除所有波動。成像基準的結(jié)果通常為 +/- 2.5%,而其他基準通常為 +/- 5%。
MLPerf 希望通過讓提交者重新實現(xiàn)參考實現(xiàn)來刺激軟件和硬件方面的創(chuàng)新。MLPerf 有兩個部門,提供不同程度的重新實現(xiàn)自由度。封閉部門要求使用與參考實現(xiàn)相同的模型和優(yōu)化器,以便比較硬件平臺或軟件框架,“蘋果對蘋果”。開放部門旨在通過允許任何機器學習技術達到預期的質(zhì)量來促進更快的模型和優(yōu)化器。
ML 系統(tǒng)的行業(yè)基準
總而言之,MLPerf Training 是涵蓋商業(yè)和學術應用的機器學習基準的集合。盡管它是唯一一個廣泛使用且覆蓋范圍如此廣泛的 ML 訓練基準套件,但它幾乎沒有做出任何貢獻。首先,通過精確定義模型架構(gòu)和每個基準特征的訓練程序,可以對等效工作負載進行系統(tǒng)比較。此外,為了解決對 ML 訓練進行基準測試的挑戰(zhàn),使用了參考實現(xiàn)和規(guī)則定義。訓練過程的隨機性、為了確定性能優(yōu)化的質(zhì)量影響而需要訓練完成以及需要在各種系統(tǒng)規(guī)模下改變工作負載是一些挑戰(zhàn)。
盡管 MLPerf 側(cè)重于相對系統(tǒng)性能,但正如在線結(jié)果所證明的那樣,它還提供了 ML 和基準測試的一般課程。真實數(shù)據(jù)集的大小對于確保真實的內(nèi)存系統(tǒng)行為至關重要。例如,最初的 NCF 數(shù)據(jù)集太小而無法完全放入內(nèi)存中。此外,當對小于工業(yè)規(guī)模的數(shù)據(jù)集進行基準測試時,訓練時間不應包括啟動時間,這在實際使用中成比例地減少。
因此,MLPerf 正在迅速將自己確立為 ML 系統(tǒng)的行業(yè)基準,同時也是一個理想的論壇,用于發(fā)布分析師、投資者和買家可以依賴的基準測試結(jié)果的新產(chǎn)品。
審核編輯:郭婷
-
測量系統(tǒng)
+關注
關注
2文章
540瀏覽量
41466 -
機器學習
+關注
關注
66文章
8436瀏覽量
132889
發(fā)布評論請先 登錄
相關推薦
評論