色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

1024塊TPU在燃燒!將BERT預(yù)訓(xùn)練模型的訓(xùn)練時(shí)長從3天縮減到了76分鐘

電子工程師 ? 來源:lp ? 2019-04-04 16:27 ? 次閱讀

“Jeff Dean稱贊,TensorFlow官方推特支持,BERT目前工業(yè)界最耗時(shí)的應(yīng)用,計(jì)算量遠(yuǎn)高于ImageNet。我們將BERT的訓(xùn)練時(shí)間從三天縮短到了一小時(shí)多。”UC Berkeley大學(xué)在讀博士尤洋如是說道。

近日,來自Google、UC Berkeley、UCLA研究團(tuán)隊(duì)再度合作,成功燃燒1024塊TPU,將BERT預(yù)訓(xùn)練模型的訓(xùn)練時(shí)長從3天縮減到了76分鐘。batch size技術(shù)是加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵,在“Reducing BERT Pre-Training Time from 3 Days to 76 Minutes”這篇論文中,作者提出了LAMB優(yōu)化器,它支持自適應(yīng)元素更新和分層校正。

論文傳送門:https://arxiv.org/pdf/1904.00962.pdf

論文摘要:batch size增加到很大時(shí)的模型訓(xùn)練是加速大型分布式系統(tǒng)中深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵。但是,這種模型訓(xùn)練很難,因?yàn)樗鼤?huì)導(dǎo)致一種泛化差距。直接優(yōu)化通常會(huì)導(dǎo)致測試集上的準(zhǔn)確性下降。

BERT是一種先進(jìn)的深度學(xué)習(xí)模型,它建立在語義理解的深度雙向轉(zhuǎn)換器上。當(dāng)我們增加batch size的大小(如超過8192)時(shí),此前的模型訓(xùn)練技巧在BERT上表現(xiàn)得并不好。BERT預(yù)訓(xùn)練也需要很長時(shí)間才能完成,如在16個(gè)TPUv3上大約需要三天。

為了解決這個(gè)問題,我們提出了LAMB優(yōu)化器,可將batch size擴(kuò)展到65536,且不會(huì)降低準(zhǔn)確率。LAMB是一個(gè)通用優(yōu)化器,batch size大小均使用,且除了學(xué)習(xí)率之外不需要?jiǎng)e的參數(shù)調(diào)整。

基線BERT-Large模型需要100萬次迭代才能完成預(yù)訓(xùn)練,而batch size大小為65536/32768的LAMB僅需要8599次迭代。我們還將batch size進(jìn)行內(nèi)存限制,接近TPUv3 pod,結(jié)果可在76分鐘內(nèi)完成BERT訓(xùn)練。

據(jù)悉,該論文的一作是來自UC Berkeley計(jì)算機(jī)科學(xué)部的在讀博士尤洋,同時(shí)也是Google Brain的實(shí)習(xí)生。據(jù)公開信息顯示,尤洋的導(dǎo)師是美國科學(xué)院與工程院院士,ACM/IEEE fellow,伯克利計(jì)算機(jī)系主任,以及首批中關(guān)村海外顧問James Demmel教授。他當(dāng)前的研究重點(diǎn)是大規(guī)模深度學(xué)習(xí)訓(xùn)練算法的分布式優(yōu)化。2017年9月,尤洋等人的新算法以24分鐘完成ImageNet訓(xùn)練,刷新世界紀(jì)錄。

在此之前,他曾在英特爾實(shí)驗(yàn)室、微軟研究院、英偉達(dá)、IBM沃森研究中心等機(jī)構(gòu)實(shí)習(xí)。尤洋本科就讀于中國農(nóng)業(yè)大學(xué)計(jì)算機(jī)系,碩士保送清華大學(xué)計(jì)算機(jī)系,是一名杠杠的理工學(xué)霸!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4775

    瀏覽量

    100920
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    143

    瀏覽量

    20752
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5508

    瀏覽量

    121312
  • 訓(xùn)練模型
    +關(guān)注

    關(guān)注

    1

    文章

    36

    瀏覽量

    3872

原文標(biāo)題:1024塊TPU在燃燒!BERT訓(xùn)練從3天縮短到76分鐘 | 技術(shù)頭條

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1929次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    Llama 3 模型訓(xùn)練技巧

    Llama 3 模型,假設(shè)是指一個(gè)先進(jìn)的人工智能模型,可能是一個(gè)虛構(gòu)的或者是一個(gè)特定領(lǐng)域的術(shù)語。 1. 數(shù)據(jù)預(yù)處理 數(shù)據(jù)是任何機(jī)器學(xué)習(xí)模型的基礎(chǔ)。
    的頭像 發(fā)表于 10-27 14:24 ?352次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    神經(jīng)網(wǎng)絡(luò),特別是預(yù)訓(xùn)練的基礎(chǔ)模型研究得到了廣泛的應(yīng)用,但其仍然主要依賴于大量樣本上的批量式訓(xùn)練
    的頭像 發(fā)表于 10-18 08:09 ?240次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們提高模型性能、減少訓(xùn)練時(shí)間和降低對數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定
    的頭像 發(fā)表于 07-11 10:12 ?1126次閱讀

    大語言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過海量無標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?461次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢

    人工智能和自然語言處理(NLP)領(lǐng)域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-10 11:03 ?1122次閱讀

    llm模型訓(xùn)練一般用什么系統(tǒng)

    。 硬件系統(tǒng) 1.1 GPU(圖形處理器) 訓(xùn)練大型語言模型時(shí),GPU是首選的硬件設(shè)備。相比于CPU,GPU具有更高的并行處理能力,可以顯著提高訓(xùn)練速度。目前,NVIDIA的Tesl
    的頭像 發(fā)表于 07-09 10:02 ?446次閱讀

    人臉識(shí)別模型訓(xùn)練流程

    人臉識(shí)別模型訓(xùn)練流程是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)重要技術(shù)。本文詳細(xì)介紹人臉識(shí)別模型訓(xùn)練流程,包括數(shù)據(jù)準(zhǔn)備、
    的頭像 發(fā)表于 07-04 09:19 ?1020次閱讀

    預(yù)訓(xùn)練模型的基本原理和應(yīng)用

    預(yù)訓(xùn)練模型(Pre-trained Model)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,尤其是自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域中得
    的頭像 發(fā)表于 07-03 18:20 ?2969次閱讀

    解讀PyTorch模型訓(xùn)練過程

    PyTorch作為一個(gè)開源的機(jī)器學(xué)習(xí)庫,以其動(dòng)態(tài)計(jì)算圖、易于使用的API和強(qiáng)大的靈活性,深度學(xué)習(xí)領(lǐng)域得到了廣泛的應(yīng)用。本文深入解讀PyTorch模型
    的頭像 發(fā)表于 07-03 16:07 ?1104次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),
    的頭像 發(fā)表于 07-01 16:13 ?1380次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型預(yù)訓(xùn)練

    數(shù)據(jù)格式的轉(zhuǎn)換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化,可以進(jìn)一步提高數(shù)據(jù)的質(zhì)量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價(jià)值的數(shù)據(jù)支持。 到了大語言模型的數(shù)據(jù)之后,就是對其進(jìn)行預(yù)
    發(fā)表于 05-07 17:10

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    特定任務(wù)對模型進(jìn)行微調(diào)。這種方法的成功不僅是自然語言處理發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),還為許多現(xiàn)實(shí)世界的應(yīng)用場帶來了前所未有的性能提升。廣為人知的GPT到BERT,預(yù)
    發(fā)表于 05-05 12:17

    名單公布!【書籍評測活動(dòng)NO.30】大規(guī)模語言模型理論到實(shí)踐

    和強(qiáng)化學(xué)習(xí)展開,詳細(xì)介紹各階段使用的算法、數(shù)據(jù)、難點(diǎn)及實(shí)踐經(jīng)驗(yàn)。 預(yù)訓(xùn)練階段需要利用包含數(shù)千億甚至數(shù)萬億單詞的訓(xùn)練數(shù)據(jù),并借助由數(shù)千高性能GPU 和高速網(wǎng)絡(luò)組成的超級計(jì)算機(jī),花費(fèi)數(shù)十
    發(fā)表于 03-11 15:16

    谷歌模型訓(xùn)練軟件有哪些功能和作用

    谷歌模型訓(xùn)練軟件主要是指ELECTRA,這是一種新的預(yù)訓(xùn)練方法,源自谷歌AI。ELECTRA不僅擁有BERT的優(yōu)勢,而且
    的頭像 發(fā)表于 02-29 17:37 ?819次閱讀
    主站蜘蛛池模板: 视频一区亚洲视频无码| 无码99久热只有精品视频在线| 国产视频精品免费| 抽插内射高潮呻吟V杜V| Chineseman瘦老头77| 91国在线产| 一本到高清视频在线观看三区| 小柔的性放荡羞辱日记动漫| 午夜DJ国产精华日本无码| 天天操天天干天天爽| 日本一本免费线观看视频| 欧美久久综合网| 欧美人成在线观看ccc36| 欧美另类极品videosbest| 蜜芽最新域名解析网站| 两个奶头被吃得又翘又痛| 久久午夜夜伦鲁鲁片无码免费| 久久精品国产亚洲AV久五月天| 亚洲一区二区免费看| 亚洲这里只有精品| 一本道mw高清码二区三区| 亚洲免费在线视频观看| 亚洲色图19p| 伊人影院香蕉久在线26| 中文日韩亚洲欧美字幕| 97一期涩涩97片久久久久久久| 99久久亚洲精品影院| FREE乌克兰嫩交HD| cctv网站| 荡公乱妇HD中文字幕| 国产精品午夜小视频观看| 国产午夜精品久久理论片小说| 国产一级做a爰片久久毛片男| 黑吊大战白xxxxxx| 久久精品一卡二卡三卡四卡视频版| 老妇xxxxbbbb| 欧美一区二区视频高清专区| 色宅男午夜电影网站| 亚洲AV成人无码网天堂| 艳妇臀荡乳欲伦岳TXT下载| 友田真希息与子中文字幕|