色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SuperGLUE正式上線:NLP模型們,來迎接挑戰吧!

DPVg_AI_era ? 來源:lq ? 2019-09-13 16:51 ? 次閱讀

Facebook AI Research、Google DeepMind、華盛頓大學和紐約大學合作,共同推出了SuperGLUE,這是一系列用來衡量現代高性能語言理解AI表現的基準測試任務,SuperGLUE針對的是已經達到挑戰上限的會話式AI深度學習模型,為其提供更難的挑戰,其比GLUE基準任務更負責,旨在構建能處理更加復雜和掌握更細微差別的語言模型。

目前NLP主要著眼在多任務學習和語言模型預訓練,從而孕育出各種模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。為了評估這些模型的精準度,GLUE基準應運而生。

SuperGLUE正式上線:NLP模型們,來迎接挑戰吧!

GLUE全稱是通用語言理解評估(General Language Understanding Evaluation),基于已有的9種英文語言理解任務,涵蓋多種數據集大小、文本類型和難度。終極目標是推動研究,開發通用和強大的自然語言理解系統。

但隨著NLP模型狂飆似的發展速度,僅推出一年時間的GLUE基準,已經顯得有些力不從心。于是,Facebook AI研究院、谷歌DeepMind、華盛頓大學以及紐約大學4家公司和高校開始攜手打造進化版新基準:SuperGLUE!

近日,進化后的基準也正式宣布上線,可供大家使用了!

地址:

https://gluebenchmark.com

因為BERT在GLUE上是當前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作為模型性能基準。

什么是SuperGLUE?

如果你搜索SuperGLUE,出現在首頁的一定的各種膠水。這也是科技公司在給產品起名時特別喜歡玩兒的一個梗:利用命名的首字母縮寫成為一個十分普通、十分常見的英文單詞,這個單詞經常和實際的科技產品毫不相關。

實際上,我們今天要介紹的SuperGLUE,全稱是超(級)通用語言理解評估(Super General-Purpose Language Understanding Evaluation)。

據SuperGLUE團隊介紹,為了獲得更強悍的任務集,他們向各個NLP社區發出了征集令,并最終獲得一個包含約30種不同NLP任務的列表。隨后按照如下標準篩選:

任務本質:即測試系統理解英語的能力

任務難度:即超出當前最先進模型的能力

可評估性:具備自動評斷機制,同時還需要能夠準確對應人類的判斷或表現

公開數據:擁有可公開的數據

任務格式:提升輸入值的復雜程度,允許出現復雜句子、段落和文章等

任務許可:所用數據必須獲得研究和重新分發的許可

最終獲得一個包含7個任務的集合。然后,以這7個任務為基礎構建公開排行榜。

此外,SuperGLUE還包含基于已有數據的抽取、單個數值的表現指標,以及一套分析工具包jiant。 下載地址: https://jiant.info/

相比GLUE有哪些變化?效果如何?

進化后的新基準,難度有了大幅提升,應對起當前這些發育迅猛的NLP模型更加得心應手,從而可以鼓勵構建能夠掌握更復雜,或具有更細微差別的語言的模型。

相比上一代GLUE,首先研究人員向原有的11項任務開刀,直接砍掉其中的9項,并對剩下的2項任務進行了升級,這兩項任務分別是識別文本蘊涵(RTE)和Winograd模式挑戰賽(WSC)。

之后,5項新的評估基準也被添加進來,用于測試模型在回答問題、指代消解和常識推理方面的能力。這5項新任務分別是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基準版本包含了人類水平估計結果,擴展了GLUE中的句子和句子的分類,還包含了共指消解、句子完成和問答

SuperGLUE任務集合比較多樣化,為了幫助研究者能夠開發出統一的新方法,SuperGLUE團隊還貼心的為研究人員提供了一套基于PyTorch和AllenNLP、用來操作NLP的預訓練、多任務學習和遷移學習的模塊化建模工具包。

此外,因為考慮到公平性、信息的豐富性,管理SuperGLUE排行榜的規則也有很多地方和GLUE有所區別,以期能充分體現數據和任務創建者的貢獻。

研究人員用主流NLP模型對新基準進行了測試,效果如下圖:

任務示例:

值得一提的是,即使是當前最先進的BERT模型,量化后的綜合分數,比人類低了約16.8%。這樣的表現,恐怕只能勉強算過得去而已。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    535

    瀏覽量

    10309
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24772
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22066

原文標題:超難NLP新基準SuperGLUE正式發布:橫掃SOTA模型BERT勉強過關

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何評估AI大模型的效果

    評估AI大模型的效果是一個復雜且多維度的過程,涉及多個方面的考量。以下是一些關鍵的評估方法和步驟: 一、基準測試(Benchmarking) 使用標準數據集和任務評估模型的性能,如GLUE
    的頭像 發表于 10-23 15:21 ?1353次閱讀

    AI大模型在自然語言處理中的應用

    AI大模型在自然語言處理(NLP)中的應用廣泛且深入,其強大的語義理解和生成能力為NLP任務帶來了顯著的性能提升。以下是對AI大模型NLP
    的頭像 發表于 10-23 14:38 ?593次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態模型,現已在Amazon Bedrock和Amazon SageMak
    的頭像 發表于 10-11 18:08 ?480次閱讀

    電商搜索革命:大模型如何重塑購物體驗?

    自我介紹:京東零售搜推算法部算法工程師,專注于大模型技術以及在 AI 助手搜推等領域的應用探索和實踐。在 AI 助手,NLP 和搜索領域有十多年研發實踐經驗,在 AI/NLP 領域申請超過 15
    的頭像 發表于 08-19 15:09 ?309次閱讀

    模型發展下,國產GPU的機會和挑戰

    電子發燒友網站提供《大模型發展下,國產GPU的機會和挑戰.pdf》資料免費下載
    發表于 07-18 15:44 ?10次下載
    大<b class='flag-5'>模型</b>發展下,國產GPU的機會和<b class='flag-5'>挑戰</b>

    大語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行訓練,使模型學習到語言的通用知識,為后續的任務微調奠定基礎。本文將深入探討大語言模型
    的頭像 發表于 07-11 10:11 ?499次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次
    的頭像 發表于 07-09 10:39 ?438次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    改變我們的行為和情感。NLP的目標是幫助人們實現自我改進,提高溝通技巧,增強領導力和解決問題的能力。 NLP的主要組成部分包括: 感知:了解我們如何接收和處理信息。 語言:研究我們如何使用語言
    的頭像 發表于 07-09 10:35 ?823次閱讀

    nlp自然語言處理基本概念及關鍵技術

    、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型 語言模型NLP的基礎,它用于描述一個句子在自然語言中出現的概率。語言
    的頭像 發表于 07-09 10:32 ?699次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是一些常見的LLM
    的頭像 發表于 07-09 09:59 ?697次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構建過程,包括數據預處理、模型選擇、訓練與優化等方面。 數據預處理 數據預處理是NLP模型構建的第一步,其
    的頭像 發表于 07-05 09:59 ?685次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型的介紹
    的頭像 發表于 07-05 09:57 ?828次閱讀

    NLP技術在機器人中的應用

    人類語言的能力,還使得機器人能夠以更加自然、流暢的方式與人類進行交互,從而在服務、教育、醫療、娛樂等多個領域展現出巨大的潛力和價值。本文將從NLP技術在機器人中的應用現狀、核心技術、應用場景、面臨的挑戰及未來發展趨勢等方面進行深入探討。
    的頭像 發表于 07-04 16:04 ?548次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領域,循環神經網絡(RNN)與卷積神經網絡(CNN)是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢,適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN
    的頭像 發表于 07-03 15:59 ?605次閱讀

    模型,為什么非得和「弱智」過不去?

    國產AI大模型訓練的出路或許不止「弱智」!
    的頭像 發表于 04-25 13:38 ?579次閱讀
    大<b class='flag-5'>模型</b>,為什么非得和「弱智<b class='flag-5'>吧</b>」過不去?
    主站蜘蛛池模板: 国产剧果冻传媒星空在线观看| 精品无码国产自产在线观看水浒传 | 亚洲黄视频在线观看| 抽插H浊水H嫩B父皇| 欧美内射AAAAAAXXXXX| 97影院理论午夜伦不卡偷| 精品亚洲国产成AV人片传媒| 亚洲精品乱码久久久久久直播| 和搜子的日子 在线观看| 亚洲一卡久久4卡5卡6卡7卡| 久操久操久操| 91九色视频无限观看免费| 男子扒开美女尿口做羞羞的事| JIZZ19学生第一次| 99re6热这里在线精品视频| 美女激清床上戏大全| 99re28久久热在线观看| 漂亮的保姆6在线观看中文| 扒开女生尿口| 午夜国产理论| 九九影院午夜理论片无码| 做a爱片的全过程| 嗯别插太快好深再深点| 风车动漫(p)_在线观看官网| 性直播免费| 久99久热只有精品国产99| 91夫妻交友论坛| 日韩在线视频www色| 国产亚洲欧美高清在线| 在线欧美 精品 第1页| 欧美嫩freexxxhddvd| 国产免费变态视频网址网站| 曰本真人00XX动太图| 人人在线碰碰视频免费| 国产精品久久久久久熟妇吹潮软件| 亚洲精品无码不卡在线播HE| 美女激清床上戏大全| 国产精品无码久久av| 有人在线观看的视频吗免费| 秋霞网站一级一片| 国产无遮挡色视频免费观看性色|