色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

INT8量子化PyTorch x86處理器

jf_pJlTbmA9 ? 來源:jf_pJlTbmA9 ? 作者:jf_pJlTbmA9 ? 2023-08-31 14:27 ? 次閱讀

英特爾

概覽概覽

INT8 量子化是加速在x86 CPU平臺(tái)上進(jìn)行深層學(xué)習(xí)推斷的有力技術(shù)。 通過將模型的重量和活化的精確度從32位浮點(diǎn)(FP32)降低到8位整數(shù)(INT8 ) , INT8 量子化可以顯著提高推論速度,降低內(nèi)存要求,同時(shí)又不犧牲準(zhǔn)確性。

我們將討論P(yáng)yTorrch公司x86 CPU 的INT8 量化的最新進(jìn)展, 重點(diǎn)是新的x86 量化后端。 我們還將簡要審視與 PyTorrch 2. 0 Export (PT2E) 和TrchInducor公司(TrchInducor) 的新的量化路徑。

X86 量化后端

PyTorrch目前建議的量化方式是:FX在 PyTorrch 2. 0 之前,x86 CPU 的默認(rèn)量化后端(a.k.a.a. QEngine)是FBGEMM,它利用FBGEM 性能庫實(shí)現(xiàn)性能加速。在PyTorch 2.0 版中,引入了名為 X86 的新量化后端,以取代FBGEMM。x86 量化后端提供與FBGEM 原始后端相比,通過利用FBGEM和F英特爾-一ANAPI神經(jīng)網(wǎng)絡(luò)圖書館( oneDNN)內(nèi)核圖書館。

X86 后端的性能收益

為了衡量新的X86后端后端的績效效益,我們根據(jù)69個(gè)流行的深深學(xué)習(xí)模式(見圖1-3(以下) 使用第4 Genen Intelé Xeon可縮放處理器。結(jié)果顯示,與FP32 的推論性能相比,地平面性能加速2.97X,而FBGEMM后端的加速度為1.43X。下圖顯示,與x86 后端和FBGEMM后端相比,每個(gè)模型性能加速度是每模型性能加速度。

wKgZomTv9GyAR5-1AAIeyTAn_cA978.jpg

圖1 圖1: 使用 x86 后端1 的不小于 2x 的性能促進(jìn)模型1

wKgZomTv9KKAK1WbAAH1iRmix3A699.jpg

圖2 圖2: 2x-4x 286 后端1 的 2x-4x 性能助推模型

wKgaomTv9UmACZyeAAJ2SyQSHTY715.jpg

圖3 圖3: 具有 x86 后端1 的大于 4x 性能助推的模型1

x86 后端的使用

默認(rèn)值為 2.0 時(shí), x86 平臺(tái)上的用戶將使用 x86 的量化后端, 而使用默認(rèn)后端時(shí)他們的 PyTorrch 程序?qū)⒈3植蛔儭?或者, 用戶可以指定 x86 為明確的量化后端 。
下面是PyTorrch 靜態(tài)訓(xùn)練后量化的代碼片段, 帶有 x86 量化后端 。

從 cherch.ao. quantization 導(dǎo)入的點(diǎn)火炬 獲取 _ default_ qconfig_ 映射來自 rch. quantization. quantize_ fx 導(dǎo)入準(zhǔn)備_ fx, 轉(zhuǎn)換_ fx qconfig_mapping = get_ default_ qconfig_mapping ()

x86 后端技術(shù)細(xì)節(jié)

我們根據(jù)我們基準(zhǔn)模型的性能數(shù)字設(shè)計(jì)了超速發(fā)送規(guī)則,以決定是否援引一個(gè)DNN 或FBGEMM 性能圖書館來實(shí)施演進(jìn)或矩陣乘法操作。這些規(guī)則是操作種類、形狀、CPU架構(gòu)信息等組合。在這里關(guān)于更多的設(shè)計(jì)和技術(shù)討論,請(qǐng)參看以下文件:征求評(píng)論意見.

下一個(gè)步驟, 帶有新的量化路徑 PyTorch 2. 0 導(dǎo)出

新的量化路徑,即PyTorrch 2. 0 Export (PT2E),雖然還遠(yuǎn)未最后確定,但還處于早期設(shè)計(jì)和PoC階段。新的方法將在未來取代FX量化路徑。它以TrchDymona Export 的能力為基礎(chǔ),這是PyTorrch 2.0 發(fā)布FX 圖形時(shí)引入的一個(gè)特性。這個(gè)圖隨后被量化并降為不同的后端。TrchIngentor,即新的DL PyTorrch 編譯器,在FP32 加速x86 CPU的速度方面已經(jīng)顯示出有希望的結(jié)果。我們正積極努力使它成為PT2E 的量化后端之一。我們認(rèn)為,新的路徑將導(dǎo)致INT8 推論性表現(xiàn)的進(jìn)一步改善,因?yàn)椴煌瑢哟蔚娜刍屿`活。

結(jié)語

PyTorrch 2.0 版中引入的x86 后端顯示,在x86 CPU平臺(tái)上INT8 的推斷速度有了顯著改善。 與原始的FBGEMM后端相比,它提供了1.43X的加速速度,同時(shí)保持了后向兼容性。 這一增強(qiáng)可以使終端用戶受益,而其程序只需略微修改或不作任何修改。 此外,目前正在開發(fā)一個(gè)新的量化路徑,即PT2E, 正在開發(fā)之中, 并有望在未來提供更多的可能性 。

承認(rèn)

特別感謝Nikita Sulga、Vasiliy Kuznetsov、Supriya Rao和Jongsoo公園。 我們一起在改善PyToch CPU生態(tài)系統(tǒng)的道路上又向前邁出了一步。

配置

1AWS EC2 r 7iz. metal-16xl situ (Intel(R) Xeon(R) Gold 6455B, 32-core/64-thread, Turbo Boft On, 超導(dǎo), 內(nèi)存: 8x64GB, 儲(chǔ)存: 192GB); OS: Ubuntu 22.04.1 LTS; Kernel: 5.1.50-1028-aws; 批量大小:1; 核心每例: 4; PyTorch 2.0 RC3; 火炬Vision 0.1.0 cpu, Intel于 3/77/2023 進(jìn)行測試, 5月沒有反映所有公開的安全最新情況。


審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19601

    瀏覽量

    232300
  • 內(nèi)核
    +關(guān)注

    關(guān)注

    3

    文章

    1401

    瀏覽量

    40794
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10977

    瀏覽量

    214607
  • pytorch
    +關(guān)注

    關(guān)注

    2

    文章

    808

    瀏覽量

    13598
收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    海光國產(chǎn)x86處理器未來可能會(huì)在中芯國際生產(chǎn)

    海光方面對(duì)國產(chǎn)X86處理器一直比較低調(diào),沒有透露是哪家晶圓廠生產(chǎn)的,不過這個(gè)問題也不算復(fù)雜,AMD的第一代Zen處理器使用的是格芯的工藝。因此不難猜測。
    的頭像 發(fā)表于 06-27 16:13 ?1.3w次閱讀

    國產(chǎn)X86處理器與國際CPU有多大差距?有人做了個(gè)測試

    國產(chǎn)處理器何時(shí)能夠達(dá)到世界領(lǐng)先水平?這個(gè)問題幾乎是每一個(gè)關(guān)心國產(chǎn)半導(dǎo)體的人都在期待的,尤其是國產(chǎn)的X86處理器
    的頭像 發(fā)表于 02-04 11:35 ?8250次閱讀

    五廠商十月推x86處理器+Windows 8平板

    根據(jù)中國臺(tái)灣媒體的報(bào)道,隨著Windows 8系統(tǒng)在今年10月的發(fā)布,一線PC廠商也將在10月份推出X86處理器+Windows 8系統(tǒng)組合的平板電腦,這其中包括惠普、戴爾、聯(lián)想、宏碁
    發(fā)表于 03-23 09:31 ?1052次閱讀

    政務(wù)辦公標(biāo)準(zhǔn)配置:兆芯國產(chǎn)X86處理器

    目前,聯(lián)想開天M6100臺(tái)式機(jī)和昭陽CF03商用筆記本電腦成功入圍上海市政采購目錄并邁向大規(guī)模推廣應(yīng)用,這兩款電腦的共同之處在于都采用了具有自主國產(chǎn)芯的兆芯X86通用處理器。那么讓人不禁發(fā)問,兆芯X86
    發(fā)表于 07-27 10:56 ?2205次閱讀

    Intel紀(jì)念首顆x86處理器8086 40周年,8086顆8086K免費(fèi)贈(zèng)送!

    在本屆臺(tái)北電腦展上,Intel正式發(fā)布了i7-8086K處理器,紀(jì)念首顆x86處理器8086 40周年。
    發(fā)表于 06-08 09:51 ?1190次閱讀

    獲Zen架構(gòu)授權(quán),國產(chǎn)X86處理器即將問世

    國內(nèi)的處理器廠商在MIPS、ARM及Alpha等架構(gòu)上搞的還可以,但在桌面市場上,因?yàn)閃intel聯(lián)盟的門檻限制,沒有X86處理器是玩不轉(zhuǎn)的。
    發(fā)表于 06-12 14:27 ?1760次閱讀

    國產(chǎn)x86處理器已開啟生產(chǎn),或?qū)[脫對(duì)海外的依賴?

    由芯片制造商海光(Hygon)負(fù)責(zé)制造的中國國產(chǎn)Dhyana(禪定)x86處理器開始啟動(dòng)生產(chǎn)。值得注意的是,這款芯片是根據(jù)AMD Zen微架構(gòu)開發(fā)的。AMD將x86的IP授權(quán)給中國合作伙伴,Dhyana正是合作的結(jié)果。
    發(fā)表于 07-09 15:48 ?1486次閱讀

    國產(chǎn)x86處理器發(fā)布,該芯片依據(jù)AMD Zen微架構(gòu)開發(fā)

    北京時(shí)間7月9日上午消息,由芯片制造商海光(Hygon)負(fù)責(zé)制造的中國國產(chǎn)Dhyana(禪定)x86處理器開始啟動(dòng)生產(chǎn)。
    的頭像 發(fā)表于 07-13 13:34 ?4825次閱讀

    國產(chǎn)處理器又一大踏步:linux將支持國產(chǎn)x86處理器

    早在2年前,中國天津海光公司和AMD達(dá)成了授權(quán)協(xié)議。海光公司因此獲得了x86處理器的授權(quán),AMD也因此獲得2.93億美元授權(quán)費(fèi)。在今年的linux合并的系統(tǒng)更新源碼中,我們也發(fā)現(xiàn)了這款雙方合作的處理器Dhyana。
    發(fā)表于 10-01 19:23 ?1342次閱讀

    威盛開發(fā)出世界上第一個(gè)集成AI協(xié)處理器x86處理器 支持AVX-512指令集

    除了Intel、AMD,寶島臺(tái)灣的威盛也會(huì)造x86處理器的,不知道還有多少人知道?最近,威盛旗下已有24年歷史的處理器研發(fā)部門CenTaur開發(fā)出了世界上第一個(gè)集成AI協(xié)處理器
    發(fā)表于 12-12 13:44 ?2142次閱讀

    全球首款集成AI協(xié)處理器x86處理器實(shí)照公布 采用LGA觸點(diǎn)式封裝方式

    2019年11月,在通用x86處理器領(lǐng)域沉寂多年的威盛(VIA)高調(diào)歸來,旗下已有24年歷史的處理器研發(fā)部門CenTaur開發(fā)出了世界上第一個(gè)集成AI協(xié)處理器
    的頭像 發(fā)表于 02-19 15:15 ?2905次閱讀

    蘋果M1嚴(yán)重威脅x86處理器,關(guān)鍵因素在于錢

    最近一段時(shí)間,隨著配備M1處理器的Mac電腦上市,大部分人都被M1的性能給震撼了,此前幾乎沒有人能想到ARM架構(gòu)性能也可以正面威脅高端x86處理器了。
    的頭像 發(fā)表于 11-23 10:46 ?1947次閱讀

    x86處理器如何處理MSI-X中斷請(qǐng)求

    x86處理器如何處理MSI-X中斷請(qǐng)求PCIe設(shè)備發(fā)出MSI-X中斷請(qǐng)求的方法與發(fā)出MSI中斷請(qǐng)求的方法類似,都是向Message Addr
    發(fā)表于 12-17 18:28 ?9次下載
    <b class='flag-5'>x86</b><b class='flag-5'>處理器</b>如何<b class='flag-5'>處理</b>MSI-<b class='flag-5'>X</b>中斷請(qǐng)求

    AMD Q4季度移動(dòng)處理器x86處理器份額已超三成

    AMD 2022年第四季度在包括桌面處理器,移動(dòng)處理器和服務(wù)處理器x86處理器整體市場當(dāng)中的
    發(fā)表于 02-13 10:56 ?428次閱讀

    英特爾x86處理器市占率為68.7%,AMD則上升至31.3%

    雖然英特爾依然穩(wěn)居x86處理器市場龍頭寶座,近年來卻被AMD搶走部分市占率。Mercury Research數(shù)據(jù)顯示,去年Q4,英特爾在x86處理器市場的市占率為68.7%,AMD則上
    發(fā)表于 02-14 10:28 ?1369次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品
    主站蜘蛛池模板: 国产一卡在线观看完整版 | 国产一区二区无码蜜芽精品 | 日韩精品熟女一区二区三区中文 | 国产精品欧美一区二区在线看 | 被cao的奶水直喷高H | 美女视频黄色的 | 久久国产36精品色熟妇 | 年轻夫妇韩剧中文版免费观看 | 亚洲精品视频在线播放 | 国产99网站| 久久久精品国产免费A片胖妇女 | 成年人免费观看的视频 | 免费三级黄色 | 成人毛片100部免费看 | 羞羞漫画免费漫画页面在线看漫画秋蝉 | 草莓视频在线看免费高清观看 | 在线观看免费小视频 | 一本道色综合手机久久 | 儿子好妈妈的HD3中字抢劫 | 亚洲AV久久无码精品国产网站 | 久久香蕉国产线看观看精品 | 亚洲AV怡红院AV男人的天堂 | 找老女人泻火对白自拍 | 姐姐不~不可以动漫在线观看 | 久久精品电影久久电影大全 | 久久理论片 | 国产69精品久久久久乱码 | 一个人免费完整在线观看影院 | 视频一区国产在线第一页 | 各种肉黄浪荡故事集 | 麻豆人妻无码性色AV | 香蕉 在线播放 | 久久婷婷五月综合色精品首页 | 97夜夜澡人人爽人人模人人喊 | 麻豆精品人妻一区二区三区蜜桃 | 人人澡人人爽人人精品 | 国产一区二区无码蜜芽精品 | 亚洲春色AV无码专区456 | 啪啪羞羞GIF男女0OXX动态图 | 暖暖直播免费观看韩国 | 国产欧洲野花A级 |