依英特爾
概覽概覽
INT8 量子化是加速在x86 CPU平臺(tái)上進(jìn)行深層學(xué)習(xí)推斷的有力技術(shù)。 通過將模型的重量和活化的精確度從32位浮點(diǎn)(FP32)降低到8位整數(shù)(INT8 ) , INT8 量子化可以顯著提高推論速度,降低內(nèi)存要求,同時(shí)又不犧牲準(zhǔn)確性。
我們將討論P(yáng)yTorrch公司x86 CPU 的INT8 量化的最新進(jìn)展, 重點(diǎn)是新的x86 量化后端。 我們還將簡要審視與 PyTorrch 2. 0 Export (PT2E) 和TrchInducor公司(TrchInducor) 的新的量化路徑。
X86 量化后端
PyTorrch目前建議的量化方式是:FX在 PyTorrch 2. 0 之前,x86 CPU 的默認(rèn)量化后端(a.k.a.a. QEngine)是FBGEMM,它利用FBGEM 性能庫實(shí)現(xiàn)性能加速。在PyTorch 2.0 版中,引入了名為 X86 的新量化后端,以取代FBGEMM。x86 量化后端提供與FBGEM 原始后端相比,通過利用FBGEM和F英特爾-一ANAPI 深神經(jīng)網(wǎng)絡(luò)圖書館( oneDNN)內(nèi)核圖書館。
X86 后端的性能收益
為了衡量新的X86后端后端的績效效益,我們根據(jù)69個(gè)流行的深深學(xué)習(xí)模式(見圖1-3(以下) 使用第4 Genen Intelé Xeon可縮放處理器。結(jié)果顯示,與FP32 的推論性能相比,地平面性能加速2.97X,而FBGEMM后端的加速度為1.43X。下圖顯示,與x86 后端和FBGEMM后端相比,每個(gè)模型性能加速度是每模型性能加速度。
圖1 圖1: 使用 x86 后端1 的不小于 2x 的性能促進(jìn)模型1
圖2 圖2: 2x-4x 286 后端1 的 2x-4x 性能助推模型
圖3 圖3: 具有 x86 后端1 的大于 4x 性能助推的模型1
x86 后端的使用
默認(rèn)值為 2.0 時(shí), x86 平臺(tái)上的用戶將使用 x86 的量化后端, 而使用默認(rèn)后端時(shí)他們的 PyTorrch 程序?qū)⒈3植蛔儭?或者, 用戶可以指定 x86 為明確的量化后端 。
下面是PyTorrch 靜態(tài)訓(xùn)練后量化的代碼片段, 帶有 x86 量化后端 。
從 cherch.ao. quantization 導(dǎo)入的點(diǎn)火炬 獲取 _ default_ qconfig_ 映射來自 rch. quantization. quantize_ fx 導(dǎo)入準(zhǔn)備_ fx, 轉(zhuǎn)換_ fx qconfig_mapping = get_ default_ qconfig_mapping ()
x86 后端技術(shù)細(xì)節(jié)
我們根據(jù)我們基準(zhǔn)模型的性能數(shù)字設(shè)計(jì)了超速發(fā)送規(guī)則,以決定是否援引一個(gè)DNN 或FBGEMM 性能圖書館來實(shí)施演進(jìn)或矩陣乘法操作。這些規(guī)則是操作種類、形狀、CPU架構(gòu)信息等組合。在這里關(guān)于更多的設(shè)計(jì)和技術(shù)討論,請(qǐng)參看以下文件:征求評(píng)論意見.
下一個(gè)步驟, 帶有新的量化路徑 PyTorch 2. 0 導(dǎo)出
新的量化路徑,即PyTorrch 2. 0 Export (PT2E),雖然還遠(yuǎn)未最后確定,但還處于早期設(shè)計(jì)和PoC階段。新的方法將在未來取代FX量化路徑。它以TrchDymona Export 的能力為基礎(chǔ),這是PyTorrch 2.0 發(fā)布FX 圖形時(shí)引入的一個(gè)特性。這個(gè)圖隨后被量化并降為不同的后端。TrchIngentor,即新的DL PyTorrch 編譯器,在FP32 加速x86 CPU的速度方面已經(jīng)顯示出有希望的結(jié)果。我們正積極努力使它成為PT2E 的量化后端之一。我們認(rèn)為,新的路徑將導(dǎo)致INT8 推論性表現(xiàn)的進(jìn)一步改善,因?yàn)椴煌瑢哟蔚娜刍屿`活。
結(jié)語
PyTorrch 2.0 版中引入的x86 后端顯示,在x86 CPU平臺(tái)上INT8 的推斷速度有了顯著改善。 與原始的FBGEMM后端相比,它提供了1.43X的加速速度,同時(shí)保持了后向兼容性。 這一增強(qiáng)可以使終端用戶受益,而其程序只需略微修改或不作任何修改。 此外,目前正在開發(fā)一個(gè)新的量化路徑,即PT2E, 正在開發(fā)之中, 并有望在未來提供更多的可能性 。
承認(rèn)
特別感謝Nikita Sulga、Vasiliy Kuznetsov、Supriya Rao和Jongsoo公園。 我們一起在改善PyToch CPU生態(tài)系統(tǒng)的道路上又向前邁出了一步。
配置
1AWS EC2 r 7iz. metal-16xl situ (Intel(R) Xeon(R) Gold 6455B, 32-core/64-thread, Turbo Boft On, 超導(dǎo), 內(nèi)存: 8x64GB, 儲(chǔ)存: 192GB); OS: Ubuntu 22.04.1 LTS; Kernel: 5.1.50-1028-aws; 批量大小:1; 核心每例: 4; PyTorch 2.0 RC3; 火炬Vision 0.1.0 cpu, Intel于 3/77/2023 進(jìn)行測試, 5月沒有反映所有公開的安全最新情況。
審核編輯:湯梓紅
-
處理器
+關(guān)注
關(guān)注
68文章
19601瀏覽量
232300 -
內(nèi)核
+關(guān)注
關(guān)注
3文章
1401瀏覽量
40794 -
cpu
+關(guān)注
關(guān)注
68文章
10977瀏覽量
214607 -
pytorch
+關(guān)注
關(guān)注
2文章
808瀏覽量
13598
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
海光國產(chǎn)x86處理器未來可能會(huì)在中芯國際生產(chǎn)
國產(chǎn)X86處理器與國際CPU有多大差距?有人做了個(gè)測試
五廠商十月推x86處理器+Windows 8平板
政務(wù)辦公標(biāo)準(zhǔn)配置:兆芯國產(chǎn)X86處理器
Intel紀(jì)念首顆x86處理器8086 40周年,8086顆8086K免費(fèi)贈(zèng)送!
獲Zen架構(gòu)授權(quán),國產(chǎn)X86處理器即將問世
國產(chǎn)x86處理器已開啟生產(chǎn),或?qū)[脫對(duì)海外的依賴?
國產(chǎn)x86處理器發(fā)布,該芯片依據(jù)AMD Zen微架構(gòu)開發(fā)
國產(chǎn)處理器又一大踏步:linux將支持國產(chǎn)x86處理器
威盛開發(fā)出世界上第一個(gè)集成AI協(xié)處理器的x86處理器 支持AVX-512指令集
全球首款集成AI協(xié)處理器的x86處理器實(shí)照公布 采用LGA觸點(diǎn)式封裝方式
蘋果M1嚴(yán)重威脅x86處理器,關(guān)鍵因素在于錢
x86處理器如何處理MSI-X中斷請(qǐng)求

評(píng)論