色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

技術速遞 | 論文分享《Holistic Evaluation of Language Models》

華為DevCloud ? 來源:未知 ? 2023-05-11 20:16 ? 次閱讀
【摘要】 大模型(LLM)已經成為了大多數語言相關的技術的基石,然而大模型的能力、限制、風險還沒有被大家完整地認識。該文為大模型評估方向的綜述論文,由Percy Liang團隊打造,將2022年四月份前的大模型進行了統一的評估。其中,被評估的模型包括GPT-3,InstructGPT等。在經過大量的實驗之后,論文提出了一些可供參考的經驗總結。

1. 在所有被評估的模型中,InstructGPT davinci v2(175B)在準確率,魯棒性,公平性三方面上表現最好。論文主要聚焦的是國外大公司的語言大模型,而國內的知名大模型,如華為的Pangu系列以及百度的文心系列,論文并沒有給出相關的測評數據。下圖展示了各模型間在各種NLP任務中頭對頭勝率(Head-to-head win rate)的情況。可以看到,出自OpenAI的InstructGPT davinci v2在絕大多數任務中都可以擊敗其他模型。最近的大火的ChatGPT誕生于這篇論文之后,因此這篇論文沒有對ChatGPT的測評,但ChatGPT是InstructGPT的升級版,相信ChatGPT可以取得同樣優異的成績。在下圖中,準確率的綜合第二名由微軟的TNLG獲得,第三名由初創公司Anthropic獲得。同時我們也可以看到,要想在準確率額上獲得55%及以上的勝率,需要至少50B的大小,可見大模型是趨勢所向。8317f780-e42d-11ed-ab56-dac502259ad0.png

2. 由于硬件、架構、部署模式的區別,不同模型的準確率和效率之間沒有強相關性。而準確率與魯棒性(Robustness)、公平性(Fairness)之間有一定的正相關關系(如下圖所示)。

8335fb7c-e42d-11ed-ab56-dac502259ad0.png

如今,大模型的參數規模都非常巨大。GPT-3具有1750億個參數,部署這樣一個大模型,無論在成本上還是工程上都是極大的挑戰。同時,由于需要開放API給用戶使用,OpenAI還需要考慮GPT-3的推理速度。文章的測試結果顯示,GPT-3的推理速度并沒有顯著地比參數更少地模型慢,可能是在硬件、架構和部署模式上都有一定地優勢,足以彌補參數規模上的劣勢。

3. InstructGPT davinci v2(175B)在知識密集型的任務上取得了遠超其他模型的成績,在TruthfulQA數據集上獲得了62.0%的準確率,遠超第二名Anthropic-LM v4-s3 (52B) 36.2%的成績。(TruthfulQA是衡量語言模型在生成問題答案時是否真實的測評數據集。該數據集包括817個問題,涵蓋38個類別,包括健康,法律,金融和政治。作者精心設計了一些人會因為錯誤的先驗知識或誤解而錯誤回答的問題。)與此同時,TNLG v2(530B)在部分知識密集型任務上也有優異的表現。作者認為模型的規模對學習真實的知識起到很大的貢獻,這一點可以從兩個大模型的優異表現中推測得到。

4. 在推理(Reasoning)任務上,Codex davinci v2在代碼生成和文本推理任務上表現都很優異,甚至遠超一些以文本為訓練語料的模型。這一點在數學推理的數據上表現最明顯。在GSM8K數據集上,Codex davinci v2獲得了52.1%的正確率,第二名為InstructGPT davinci v2(175B)的35.0%,且沒有其他模型正確率超過16%。Codex davinci v2主要是用于解決代碼相關的問題,例如代碼生成、代碼總結、注釋生成、代碼修復等,它在文本推理任務上的優秀表現可能是其在代碼數據上訓練的結果,因為代碼是更具有邏輯關系的語言,在這樣的數據集上訓練也許可以提升模型的推理能力。

5. 所有的大模型都對輸入(Prompt)的形式非常敏感。論文主要采用few-shot這種In-context learning的形式增強輸入(Prompt)。

835fb868-e42d-11ed-ab56-dac502259ad0.png

如上圖所示,在不同任務上,in-context examples的數量影響不同,在不同的模型上也是如此。由于有些任務比較簡單,例如二分類的IMDB數據庫,增加in-context examples并不會對結果有明顯的影響。在模型方面,由于window size的限制,過多的in-context examples可能導致剩余的window size不足以生成一個完成答案,因而對生成結果造成負面的影響。

點擊“閱讀原文”,了解更多!


原文標題:技術速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信公眾號:華為DevCloud】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    216

    文章

    34530

    瀏覽量

    252603

原文標題:技術速遞 | 論文分享《Holistic Evaluation of Language Models》

文章出處:【微信號:華為DevCloud,微信公眾號:華為DevCloud】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    MAX38913AEVK-WLP: Evaluation Kit for the MAX38913 and MAX38914 Data Sheet adi

    電子發燒友網為你提供ADI(ADI)MAX38913AEVK-WLP: Evaluation Kit for the MAX38913 and MAX38914 Data Sheet相關產品參數
    發表于 01-15 18:55
    MAX38913AEVK-WLP: <b class='flag-5'>Evaluation</b> Kit for the MAX38913 and MAX38914 Data Sheet adi

    MAX15159EVKIT: Evaluation Kit for MAX15159 Data Sheet adi

    電子發燒友網為你提供ADI(ADI)MAX15159EVKIT: Evaluation Kit for MAX15159 Data Sheet相關產品參數、數據手冊,更有MAX15159EVKIT
    發表于 01-15 18:53
    MAX15159EVKIT: <b class='flag-5'>Evaluation</b> Kit for MAX15159 Data Sheet adi

    MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: Evaluation System for the MAX98361 Data Sheet adi

    電子發燒友網為你提供ADI(ADI)MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: Evaluation System for the MAX98361 Data
    發表于 01-15 18:45
    MAX98361AEVSYS-WLP-MAX98361DEVSYS-WLP: <b class='flag-5'>Evaluation</b> System for the MAX98361 Data Sheet adi

    中國電提出大模型推理加速新范式Falcon

    近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through
    的頭像 發表于 01-15 13:49 ?107次閱讀
    中國電提出大模型推理加速新范式Falcon

    大語言模型開發語言是什么

    在人工智能領域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發語言和工具的支持。下面,AI部落小編為您介紹大語言模型開發所依賴的主要編程語言。
    的頭像 發表于 12-04 11:44 ?198次閱讀

    TMAG6180EVM,TMAG6181EVM Evaluation Module用戶指南

    電子發燒友網站提供《TMAG6180EVM,TMAG6181EVM Evaluation Module用戶指南.pdf》資料免費下載
    發表于 11-14 16:09 ?0次下載
    TMAG6180EVM,TMAG6181EVM <b class='flag-5'>Evaluation</b> Module用戶指南

    LMK5C33414A Evaluation Module用戶指南

    電子發燒友網站提供《LMK5C33414A Evaluation Module用戶指南.pdf》資料免費下載
    發表于 11-07 09:12 ?0次下載
    LMK5C33414A <b class='flag-5'>Evaluation</b> Module用戶指南

    新品速遞 | TOF反射型光電,突破檢測距離天花板

    新品速遞 | TOF反射型光電,突破檢測距離天花板
    的頭像 發表于 08-13 08:24 ?405次閱讀
    新品<b class='flag-5'>速遞</b> | TOF反射型光電,突破檢測距離天花板

    微軟GitHub推出Models服務,賦能AI工程師

    微軟旗下的代碼托管巨頭 GitHub 近期宣布了一項重大更新——GitHub Models 服務,旨在成為 AI 工程師的得力助手。該服務專為開發者設計,旨在幫助他們輕松選擇并優化最適合其應用需求的 AI 模型。
    的頭像 發表于 08-05 14:16 ?523次閱讀

    GitHub推出GitHub Models服務,賦能開發者智能選擇AI模型

    8月2日,全球領先的代碼托管平臺GitHub宣布了一項重大創新——GitHub Models服務的正式推出。該服務被定位為AI時代的工程師助手,旨在幫助全球超過1億的GitHub用戶輕松找到并應用最適合其項目需求的AI模型。
    的頭像 發表于 08-02 15:39 ?643次閱讀

    大模型LLM與ChatGPT的技術原理

    在人工智能領域,大模型(Large Language Model, LLM)和ChatGPT等自然語言處理技術(Natural Language Processing, NLP)正逐步改變著人類
    的頭像 發表于 07-10 10:38 ?978次閱讀

    寬帶數控延時線芯片的研制論文

    電子發燒友網站提供《寬帶數控延時線芯片的研制論文.pdf》資料免費下載
    發表于 07-02 17:26 ?0次下載

    如何使用Wavetool Evaluation Software軟件在ADPD4100評估板上設置進行多波長監測?

    目前已有設備:1.EVAL-ADPD4100-4101;2.EVAL-ADPDUCZ; 問題情況:成功連接到電腦Wavetool Evaluation Software軟件,但是通過配置dcfg
    發表于 05-24 07:23

    【大語言模型:原理與工程實踐】核心技術綜述

    我也不打算把網上相關的信息在總結一下,這樣的話,工作量很大。 我主要看了-大語言模型基礎技術這節 大語言模型(Large Language Models,LLMs)的核心技術涵蓋了從模
    發表于 05-05 10:56

    為什么TLE9879 Evaluation Kit提供的原理圖是空的?

    為什么TLE9879 Evaluation Kit提供的原理圖是空的,用AD19打開,啥都沒有,PCB版本為:TLE9879 EvalKit V1.2
    發表于 02-20 06:57
    主站蜘蛛池模板: 黄小飞二人转 | 亚洲精品乱码久久久久久中文字幕 | WRITEAS检查身体 | 午夜伦伦电影理论片费看 | 一个人免费视频在线观看 | 蜜桃传媒星空传媒在线播放 | 亚洲精品拍拍央视网出文 | 奇虎成人网 | 国产精品夜夜春夜夜爽久久小 | 免费在线伦理片 | 婚后被调教当众高潮H喷水 回复术士勇者免费观看全集 | 夜夜狂射影院欧美极品 | 女性私密五月天 | 丝袜美女自摸 | 中文字幕在线视频在线看 | 亚洲欧美成人在线 | 久久99国产精品自在自在 | 国产亚洲日韩欧美视频 | 久久机热免费视频 | 青草久久久 | 高清无码中文字幕在线观看视频 | 黑人特黄AA完整性大片 | 新金梅瓶玉蒲团性奴3 | 成人网络电视破解版 | 67194con免费福和视频 | 国产小伙和50岁熟女23p | 国产精品久久自在自2021 | 国产偷国产偷亚洲高清SWAG | 色欲久久99精品久久久久久AV | 噜噜噜狠狠夜夜躁精品 | 性夜影院爽黄A爽免费动漫 性夜夜春夜夜爽AA片A | 97国产精品视频在线观看 | xxx性欧美在线 | 女人一级毛片免费视频观看 | 蜜芽亚洲欧美一区二区电影 | 边做边爱播放3免费观看 | 亚洲国产精品一区二区三区在线观看 | 久久亚洲AV无码精品午色夜麻豆 | gogo亚洲肉体艺术照片9090 | 国内久经典AAAAA片 | 国产色婷婷精品人妻蜜桃成熟时 |