色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:谷歌Transformer再升級

ss ? 來源:學(xué)術(shù)頭條 ? 作者:學(xué)術(shù)頭條 ? 2020-11-06 17:31 ? 次閱讀

當(dāng)我們在翻譯軟件上輸入 “Transformer is a novel neural network architecture based on a self-attention mechanism” 后,計(jì)算機(jī)就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機(jī)制的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)”,神奇的機(jī)器翻譯使得多語種互譯成為可能。

近年來,得益于機(jī)器學(xué)習(xí)的快速發(fā)展,自然語言處理(NLP)技術(shù)不斷突破,在人機(jī)交互、在線翻譯工具等領(lǐng)域的應(yīng)用層出不窮,不同語種的人與人、人與機(jī)器之間的無障礙自由交流得以實(shí)現(xiàn)。

當(dāng)前的主流機(jī)器翻譯主要是基于神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,這類方法是一個 “編碼器-解碼器”(encoder-decoder)架構(gòu)的系統(tǒng),編碼器對源語言序列進(jìn)行編碼,并提取信息,然后通過解碼器把信息轉(zhuǎn)換為目標(biāo)語言,完成語言翻譯過程。

自 2017 年問世以來,基于“編碼器-解碼器”架構(gòu)設(shè)計(jì)的 Transformer 模型憑借其優(yōu)越的性能,已然成為機(jī)器翻譯領(lǐng)域的主流模型,在深度學(xué)習(xí)領(lǐng)域產(chǎn)生了巨大影響。

然而,Transformer 模型并非完美,模型引入self-attention機(jī)制雖實(shí)現(xiàn)了快速并行的訓(xùn)練,但在長序列文本的處理問題上,卻需要占據(jù)大量計(jì)算資源,導(dǎo)致模型訓(xùn)練成本提高。

近日,由 Google、劍橋大學(xué)、DeepMind 和艾倫·圖靈研究院(Alan Turing Institute)的研究人員組成的團(tuán)隊(duì)基于正交隨機(jī)特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,F(xiàn)AVOR+)機(jī)制,提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型,新模型無需做出過度調(diào)整就可以變得更加高效和節(jié)能。

Performer 模型的技術(shù)突破

2017 年,谷歌大腦(Google Brain)的 Ashish Vaswani 等人發(fā)表了一篇題為 “Attention Is All You Need” 的論文,首次提出一種基于自注意力機(jī)制的 Transformer 模型。

Transformer 模型顛覆了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的架構(gòu),彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)存在的不足,在語義特征提取、長距離特征捕獲、任務(wù)綜合特征抽取等自然語言處理方面表現(xiàn)出了更優(yōu)的性能,在自然語言處理、人機(jī)對話、圖像處理等許多領(lǐng)域都達(dá)到了當(dāng)時最好的水平(SOTA)。

Transformer 架構(gòu)的核心模塊是自注意力模塊,模型在處理每個單詞(輸入序列中的每個位置)時,自注意力模塊通過計(jì)算輸入序列中所有位置對的相似度分?jǐn)?shù),來尋找能夠幫助更好地編碼該單詞的線索。

然而,隨著輸入序列長度的增加,模型需要二次方的計(jì)算時間來產(chǎn)生所有相似度分?jǐn)?shù),所需計(jì)算內(nèi)存也隨之增加,注意力機(jī)制面臨的效率問題也越來越突出。

針對那些需要長距離關(guān)注的應(yīng)用,在 Transformer 基礎(chǔ)上已經(jīng)有一些研究者提出了幾種快速的、空間利用率高的改進(jìn)方法,但是大部分常見方法都依賴于稀疏注意力機(jī)制。

然而,稀疏注意力機(jī)制仍存在一定的局限性。

(1)它們需要高效的稀疏矩陣乘法運(yùn)算,而這些運(yùn)算并不是在所有加速器上都能實(shí)現(xiàn)的;(2)它們通常不能為其表示能力提供嚴(yán)格的理論保證;(3)它們主要針對 Transformer 模型和生成式預(yù)訓(xùn)練進(jìn)行優(yōu)化;(4)它們通常會疊加更多的注意力層來補(bǔ)償稀疏表示,這使得它們很難與其他預(yù)訓(xùn)練模型一起使用,因此需要重新訓(xùn)練并消耗大量能量。

此外,稀疏注意機(jī)制通常仍然不足以解決常規(guī)注意方法應(yīng)用的全部問題,如指針網(wǎng)絡(luò)。還有一些運(yùn)算不能被稀疏化,如在工業(yè)推薦系統(tǒng)中被大量應(yīng)用的 softmax 運(yùn)算。

Performer 使用了一個高效的(線性)廣義注意力框架,能夠?qū)ΤR?guī)(softmax)全階注意力進(jìn)行可證明的、準(zhǔn)確的、實(shí)用的估計(jì),不依賴于任何稀疏性或低階等先驗(yàn)條件,從而實(shí)現(xiàn)更快的訓(xùn)練速度,同時允許模型處理更長的序列,這一特性恰恰滿足了 ImageNet64 圖像數(shù)據(jù)集和PG-19文本數(shù)據(jù)集的要求。

Performer 模型通過正交隨機(jī)特征(FAVOR+)算法實(shí)現(xiàn)快速注意力機(jī)制,并改用 Positive Orthogonal Random Features 估計(jì) softmax 和高斯核函數(shù),以實(shí)現(xiàn)在 FAVOR+ 機(jī)制中對常規(guī) softmax 注意力進(jìn)行魯棒且無偏的估計(jì)。

研究人員表示:“Performer 是第一個通過微調(diào)可以與常規(guī) Transformers 進(jìn)行完全兼容的線性架構(gòu)”。

左圖 | 原點(diǎn)對稱的通用函數(shù) r(定義為建立在:三角隨機(jī)特征和正隨機(jī)特征上的估計(jì)器的均方誤差(MSEs)的比值)是輸入特征向量與其長度l之間的角度 φ(以弧度為單位)的函數(shù), 函數(shù)的數(shù)值越大表示正隨機(jī)特征性能越好的(φ,l)空間區(qū)域;

右圖 | 當(dāng)l為定值 1 時,與變化的角度 φ 構(gòu)成的函數(shù) r 為正切函數(shù);右上角 | 比較低 softmax 內(nèi)核值區(qū)域中兩個估算器的 MSE。

作者通過比較發(fā)現(xiàn),對于 φ 足夠大的臨界區(qū)域,該方法所使用的正交隨機(jī)特征比任意的三角隨機(jī)特征更精確。

圖| 我們將原始的經(jīng)過預(yù)訓(xùn)練的 Transformer 的權(quán)重轉(zhuǎn)移到 Performer 中,Performer 產(chǎn)的精度達(dá)到 0.07 (橙色虛線),但在原來的梯度步數(shù)的一小部分中,很快就恢復(fù)了精度。然而在 PG-19 上,三角法(TRIG) softmax 逼近變得非常不穩(wěn)定,而正特征(POS)(不重繪)和 Linformer (也是逼近 softmax)即使在重繪投影的情況下,也會在同樣的復(fù)雜度中趨于平穩(wěn)。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件,SMREG 可實(shí)現(xiàn)更快的收斂。

這篇論文利用詳細(xì)的數(shù)學(xué)定理,證明了與其單純依靠計(jì)算資源來提升性能,還不如開發(fā)出改進(jìn)的、高效的 Transformer 架構(gòu),來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù),也可以有效訓(xùn)練基于 softmax 的線性 Transformer。因此 FAVOR+ 機(jī)制可以作為一個簡單的插件,而無需進(jìn)行過多的調(diào)整。

Performer 模型應(yīng)用前景廣泛

研究人員表示,Performer 模型的提出,顯著降低了常規(guī) Transformer 的空間和時間復(fù)雜度,并在 Transformer 的研究以及非稀疏注意機(jī)制的作用方面開辟了新的途徑。

該論文利用詳細(xì)的數(shù)學(xué)定理,證明了與其單純依靠計(jì)算資源來提升性能,還不如開發(fā)出改進(jìn)的、高效的 Transformer 架構(gòu),來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓(xùn)練超參數(shù),因此 FAVOR+ 機(jī)制可以作為一個簡單的插件,而無需進(jìn)行過多的調(diào)整。

該團(tuán)隊(duì)在一系列豐富的場景下測試了 Performers 的性能,執(zhí)行的任務(wù)包括像素預(yù)測、蛋白質(zhì)序列建模。在實(shí)驗(yàn)設(shè)置中,一個 Performer 只用 FAVOR+ 機(jī)制取代了常規(guī) Transformer 的注意力組件。

在使用蛋白質(zhì)序列訓(xùn)練一個 36 層模型的挑戰(zhàn)性任務(wù)上,基于 Performer 的模型(Performer-RELU)的性能優(yōu)于基線 Transformer 模型:Reformer 和 Linformer,后者的準(zhǔn)確率顯著下降。

在標(biāo)準(zhǔn)的 ImageNet64 基準(zhǔn)上,具有 6 層的 Performer 與具有 12 層的 Reformer 的準(zhǔn)確性相當(dāng)。優(yōu)化后,Performer 的速度達(dá)到了 Reformer 的兩倍。

研究人員表示,由于基于 Performer 的可擴(kuò)展 Transformer 架構(gòu)可以處理更長的序列,而不受注意力機(jī)制結(jié)構(gòu)的限制,同時保持準(zhǔn)確和魯棒性,相信它們可以在生物信息學(xué)領(lǐng)域帶來新的突破,如蛋白質(zhì)的語言建模等技術(shù)已經(jīng)顯示出強(qiáng)大的潛力。

責(zé)任編輯:xj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6192

    瀏覽量

    105817
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    6034
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13385
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    489

    瀏覽量

    22073
收藏 人收藏

    評論

    相關(guān)推薦

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer
    的頭像 發(fā)表于 11-20 09:28 ?591次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?405次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    Snapchat聊天機(jī)器人集成谷歌Gemini技術(shù)

    Snap與谷歌云的戰(zhàn)略合作升級,為Snapchat平臺注入了新的智能活力。雙方宣布,Snapchat的My AI聊天機(jī)器人將深度集成谷歌Gemini技術(shù),這一創(chuàng)新舉措標(biāo)志著Snapc
    的頭像 發(fā)表于 09-25 14:51 ?318次閱讀

    優(yōu)惠升級,華秋PCB首單最高立減100元,返2000元優(yōu)惠券

    優(yōu)惠升級,華秋PCB首單最高立減100元,返2000元優(yōu)惠券
    的頭像 發(fā)表于 08-30 12:06 ?412次閱讀
    優(yōu)惠<b class='flag-5'>再</b><b class='flag-5'>升級</b>,華秋PCB首單最高立減100元,<b class='flag-5'>再</b>返2000元優(yōu)惠券

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來,已經(jīng)在自然語言處理(NLP)、時間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問題,需
    的頭像 發(fā)表于 07-12 14:07 ?508次閱讀

    Transformer語言模型簡介與實(shí)現(xiàn)過程

    在自然語言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于
    的頭像 發(fā)表于 07-10 11:48 ?2015次閱讀

    Transformer架構(gòu)在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來了革命性的變革。本文將深入探討Transformer架構(gòu)
    的頭像 發(fā)表于 07-09 11:42 ?932次閱讀

    nlp邏輯層次模型的特點(diǎn)

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計(jì)算模型。它將自然語言文本分解為不同的層次,以便于計(jì)算機(jī)更好地處理和理解。以下是對NLP邏輯層次模型特點(diǎn)的分析: 詞匯層次 詞匯
    的頭像 發(fā)表于 07-09 10:39 ?442次閱讀

    nlp神經(jīng)語言和NLP自然語言的區(qū)別和聯(lián)系

    神經(jīng)語言(Neuro-Linguistic Programming,NLP) 神經(jīng)語言是一種心理學(xué)方法,它研究人類思維、語言和行為之間的關(guān)系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發(fā)表于 07-09 10:35 ?829次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的一個重要分支,它致力于使計(jì)算機(jī)能夠理解和處理人類語言。隨著技術(shù)的發(fā)展,NLP領(lǐng)域出現(xiàn)了
    的頭像 發(fā)表于 07-09 10:28 ?602次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)是兩種極為重要且廣泛應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。它們各自具有獨(dú)特的優(yōu)勢,適用于處理不同類型的NLP任務(wù)。本文旨在深入探討RNN與CNN
    的頭像 發(fā)表于 07-03 15:59 ?622次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中的一個重要分支,它專注于構(gòu)建能夠理解和生成人類語言的計(jì)算機(jī)系統(tǒng)。NLP的目標(biāo)是使計(jì)算機(jī)能夠像人類一樣
    的頭像 發(fā)表于 07-02 18:16 ?1307次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)
    的頭像 發(fā)表于 07-02 11:41 ?1775次閱讀

    谷歌大型模型終于開放源代碼,遲到但重要的開源戰(zhàn)略

    在人工智能領(lǐng)域,谷歌可以算是開源的鼻祖。今天幾乎所有的大語言模型,都基于谷歌在 2017 年發(fā)布的 Transformer 論文;谷歌的發(fā)布的 BERT、T5,都是最早的一批開源 AI
    發(fā)表于 02-22 18:14 ?487次閱讀
    <b class='flag-5'>谷歌</b>大型模型終于開放源代碼,遲到但重要的開源戰(zhàn)略

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?702次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法
    主站蜘蛛池模板: 日本激情在线 | 品色堂主页 | 在线天天看片视频免费观看 | 99热久这里都是精品小草 | 免费国产福利 | 老汉老太bbbbbxxxxx | 国产h视频在线观看网站免费 | 久久免费看少妇高潮A片JA | 糙汉顶弄抽插HHHH | 国产精品一区二区三区免费 | 亚洲精品无码国产爽快A片百度 | 亚洲 在线 日韩 欧美 | 被公疯狂玩弄的漂亮人妻 | 伊人久久综合成人亚洲 | 一本之道高清在线观看免费 | 国产成人在线视频观看 | 国产午夜精品不卡视频 | 欧美一夜爽爽爽爽爽爽 | 99热在线观看精品 | 高清不卡伦理电影在线观看 | 果冻传媒mv国产陈若瑶主演 | 影音先锋色av男人资源网 | 插曲的痛30分钟视频最新章节 | ai换脸女明星被躁在线观看免费 | 久久笫一福利免费导航 | 123超碰在线视频 | 囯产愉拍亚洲精品一区 | 亚洲高清在线视频 | 国产精品黄色大片 | 久久99精品国产免费观看 | 99热在线观看精品 | 日日射夜夜干夜夜插在线播放 | 捆绑白丝粉色JK震动捧喷白浆 | 国产99视频精品免费播放 | 男人插曲女人下生免费大全 | 久久AV喷吹AV高潮欧美 | 黄页网站免费视频大全9 | 亚洲精品无码久久久久A片 亚洲精品无码国产爽快A片百度 | 国产高清视频在线观看97 | 一本道久在线综合道 | 日日噜噜噜夜夜爽爽狠狠图片 |