色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

擊敗LLaMA?史上最強「獵鷹」排行存疑,符堯7行代碼親測,LeCun轉贊

AI智勝未來 ? 來源:新智元 ? 2023-06-09 16:43 ? 次閱讀

【導讀】前幾天公布的LLM排行榜引發業內人士廣泛討論,新模型Falcon在性能上真的能打過LLaMA嗎?符堯實測來了!

前段時間,初出茅廬的獵鷹(Falcon)在LLM排行榜碾壓LLaMA,在整個社區激起千層浪。

但是,獵鷹真的比LLaMA好嗎?

簡短回答:可能不是。

19efeaf0-069d-11ee-962d-dac502259ad0.png

符堯團隊對模型做了更深入的測評:

「我們在MMLU上復現了LLaMA 65B的評估,得到了61.4的分數,接近官方分數(63.4),遠高于其在Open LLM Leaderboard上的分數(48.8),而且明顯高于獵鷹(52.7)?!?/p>

沒有花哨的提示工程,沒有花哨的解碼,一切都是默認設置。

19ff18c2-069d-11ee-962d-dac502259ad0.png

目前,Github上已經公開了代碼和測試方法。

對于獵鷹超越LLaMA存疑,LeCun表態,測試腳本的問題...

1a1bd62e-069d-11ee-962d-dac502259ad0.png

LLaMA真·實力

目前在OpenLLM排行榜上,Falcon位列第一,超過了LLaMA,得到了包括Thomas Wolf在內的研究人員的力薦。

1a426a1e-069d-11ee-962d-dac502259ad0.png

然而,有些人對此表示疑慮。

先是一位網友質疑,LLaMA這些數字從哪來,看起來與論文數字不一致...

1a7e2be4-069d-11ee-962d-dac502259ad0.png

隨后,OpenAI科學家Andrej Karpathy也對LLaMA 65B為什么在Open LLM排行榜上的分數明顯低于官方(48.8 v.s. 63.4)表示關注。

并發文,到目前為止,我一直避免在推特上發表關于獵鷹的文章,因為這一點,不確定。

為了弄清楚這個問題,符堯和團隊成員決定對LLaMA 65B進行一次公開的測試,結果得到61.4分。

1a8b56de-069d-11ee-962d-dac502259ad0.png

在測試中,研究者沒有使用任何特殊機制,LLaMA 65B就能拿到這個分數。

這一結果恰恰證明了,如果想要模型實現接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

根據就是,近來符堯團隊發表的一篇Chain-of-Thought Hub論文的發現。

1ac61ce2-069d-11ee-962d-dac502259ad0.png

當然,符堯表示,他們這一測評并非想要引起LLaMA和Falcon之間的爭端,畢竟這些都是偉大的開源模型,都為這個領域做出了重大的貢獻!

另外,Falcon還有更加方便的使用許可,這也讓它有很大的發展潛力。

對于這一最新測評,網友BlancheMinerva指出,公平的比較應該在默認設置下運行獵鷹(Falcon)在MMLU上。

對此,符堯稱這是正確的,并正進行這項工作,預計在一天后可以得到結果。

1ad20016-069d-11ee-962d-dac502259ad0.png

不管最終的結果怎樣,要知道GPT-4這座山峰才是開源社區真正想要追求的目標。

OpenLLM排行榜問題

來自Meta的研究人員稱贊,符堯很好地再現了LLaMa的結果,并指出了OpenLLM排行榜的問題。

與此同時,他還分享了關于OpenLLM排行榜的一些問題。

1b14caa4-069d-11ee-962d-dac502259ad0.png

首先,MMLU的結果:LLaMa 65B MMLU結果在排行榜上是15分,但對7B模型來說是一樣的。13B、30B模型也存在較小的性能差距。

OpenLLM真的需要在公布哪個模型是最好的之前看看這個。

1b268e92-069d-11ee-962d-dac502259ad0.png

基準:這些基準是如何選擇的?

ARC 25 shot和Hellaswag 10 shot似乎與LLM并不特別相關。如果能在其中加入一些生成式基準就更好了。雖然生成式基準有其局限性,但它們仍然是有用的。

1b4a6f6a-069d-11ee-962d-dac502259ad0.png

單一平均分:將結果減少到單一分數總是很吸引人的,平均分是最容易的。

但在這種情況下,4個基準的平均值真的有用嗎?在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎?

在LLM快速迭代的世界里,開發這樣一個排行榜肯定有一定的價值。

1b574910-069d-11ee-962d-dac502259ad0.png

還有來自谷歌研究人員Lucas Beyer也發表了自己的觀點,

瘋狂的是,NLP研究人員對同一個基準有不同的理解,因此導致了完全不同的結果。同時,每當我的同事實現一個指標時,我都會立即問他們是否真的檢查將官方代碼的完美重現,如果沒有,就放棄他們的結果。

1b7a43ca-069d-11ee-962d-dac502259ad0.png

另外,他還表示,據我所知,無論模型如何,它實際上都不會重現原始基準測試的結果。

1b844f0a-069d-11ee-962d-dac502259ad0.png

網友附和道,這就是LLM基準的現實...

1bb7ef18-069d-11ee-962d-dac502259ad0.png

Falcon——開源、可商用、性能強

說到Falcon,其實值得我們再好好回顧一下。

按LeCun的說法,大模型時代,開源最重要。

1be27c1a-069d-11ee-962d-dac502259ad0.png

而在Meta的LLaMA代碼遭泄之后,各路開發者都開始躍躍欲試。

Falcon正是由阿聯酋阿布扎比的技術創新研究所(TII)開發的一支奇兵。

剛發布時從性能上看,Falcon比LLaMA的表現更好。

目前,「Falcon」有三個版本——1B、7B和40B。

TII表示,Falcon迄今為止最強大的開源語言模型。其最大的版本,Falcon 40B,擁有400億參數,相對于擁有650億參數的LLaMA來說,規模上還是小了一點。

不過,此前TII曾表示,別看咱Falcon規模雖小,性能卻很能打。

先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的發布將打破LLM的獲取方式,并讓研究人員和創業者能夠以此提出最具創新性的使用案例。

1c0db22c-069d-11ee-962d-dac502259ad0.png

FalconLM的兩個版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA則位于第三。

而前文所講的有關排行榜的問題也正是這個。

盡管「Falcon」的論文目前還沒公開發布,但Falcon 40B已經在經過精心篩選的1萬億token網絡數據集的上進行了大量訓練。

研究人員曾透露,「Falcon」在訓練過程非常重視在大規模數據上實現高性能的重要性。

我們都知道的是,LLM對訓練數據的質量非常敏感,這就是為什么研究人員會花大量的精力構建一個能夠在數萬個CPU核心上進行高效處理的數據管道。

目的就是,在過濾和去重的基礎上從網絡中提取高質量的內容。

目前,TII已經發布了精煉的網絡數據集,這是一個經過精心過濾和去重的數據集。實踐證明,非常有效。

僅用這個數據集訓練的模型可以和其它LLM打個平手,甚至在性能上超過他們。這展示出了「Falcon」卓越的質量和影響力。

1c1aa720-069d-11ee-962d-dac502259ad0.png

此外,Falcon模型也具有多語言的能力。

它理解英語、德語、西班牙語和法語,并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型發布后,第二個真正開源的模型。

另外,還有一點非常重要——Falcon是目前唯一的可以免費商用的開源模型。

在早期,TII要求,商業用途使用Falcon,如果產生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。

可是財大氣粗的中東土豪們沒過多長時間就取消了這個限制。

至少到目前為止,所有對Falcon的商業化使用和微調都不會收取任何費用。

土豪們表示,現在暫時不需要通過這個模型掙錢。

而且,TII還在全球征集商用化方案。

對于有潛力的科研和商業化方案,他們還會提供更多的「訓練算力支持」,或者提供進一步的商業化機會。

1c5e3bf2-069d-11ee-962d-dac502259ad0.png

這簡直就是在說:只要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!

對于初創企業來說,這簡直就是來自中東土豪的「AI大模型創業一站式解決方案」。

根據開發團隊稱,FalconLM 競爭優勢的一個重要方面是訓練數據的選擇。

研究團隊開發了一個從公共爬網數據集中提取高質量數據并刪除重復數據的流程。

在徹底清理多余重復內容后,保留了 5 萬億的token——足以訓練強大的語言模型。

40B的Falcon LM使用1萬億個token進行訓練, 7B版本的模型訓練token達到 1.5 萬億。

1cc787a6-069d-11ee-962d-dac502259ad0.png

(研究團隊的目標是使用RefinedWeb數據集從Common Crawl中僅過濾出質量最高的原始數據)

此外,Falcon的訓練成本相對來說更加可控。

TII稱,與GPT-3相比,Falcon在只使用75%的訓練計算預算的情況下,就實現了顯著的性能提升。

1cd32034-069d-11ee-962d-dac502259ad0.png

1cfd8810-069d-11ee-962d-dac502259ad0.png

而且在推斷(Inference)時只需要只需要20%的計算時間,成功實現了計算資源的高效利用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3248

    瀏覽量

    48860
  • 代碼
    +關注

    關注

    30

    文章

    4790

    瀏覽量

    68650
  • GitHub
    +關注

    關注

    3

    文章

    471

    瀏覽量

    16459

原文標題:擊敗LLaMA?史上最強「獵鷹」排行存疑,符堯7行代碼親測,LeCun轉贊

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集擴展了 Meta Llama 開源模型集的模型陣容,包含視覺語言模型(VLM)、小語言模型(SLM)和支持視覺的更新版 Llama Guard 模型。與 NVIDIA 加速
    的頭像 發表于 11-20 09:59 ?231次閱讀

    Llama 3 的未來發展趨勢

    在科技迅猛發展的今天,人工智能和機器學習已經成為推動社會進步的重要力量。Llama 3,作為一個劃時代的產品,正以其獨特的設計理念和卓越的性能,預示著未來科技的新方向。 一、Llama 3的核心
    的頭像 發表于 10-27 14:44 ?370次閱讀

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現,取決于你是否愿意在本地運行模型或者使用現成的API
    的頭像 發表于 10-27 14:21 ?409次閱讀

    Llama 3 語言模型應用

    在人工智能領域,語言模型的發展一直是研究的熱點。隨著技術的不斷進步,我們見證了從簡單的關鍵詞匹配到復雜的上下文理解的轉變。 一、Llama 3 語言模型的核心功能 上下文理解 :Llama 3 能夠
    的頭像 發表于 10-27 14:15 ?287次閱讀

    調用云數據庫更新排行榜單

    籍)。 互動設計 點和評論:用戶可以對排行榜中的項目進行點或評論。 投票機制:用戶可以參與投票,影響排行榜的排名。 潛在價值 提升用戶的參與感和互動性。 增強社交平臺的內容活躍度,
    發表于 09-03 16:03

    Meta Llama 3.1系列模型可在Google Cloud上使用

    我們很高興宣布,Llama 3.1 系列模型已添加到 Vertex AI Model Garden,這包括全新的 405B,即 Meta 迄今為止功能最強大、用途最廣泛的模型。這些模型的添加,表明
    的頭像 發表于 08-02 15:42 ?397次閱讀

    如何將Llama3.1模型部署在英特爾酷睿Ultra處理器

    本文從搭建環境開始,一步一步幫助讀者實現只用五代碼便可將Llama3.1模型部署在英特爾 酷睿 Ultra 處理器上。
    的頭像 發表于 07-26 09:51 ?2181次閱讀
    如何將<b class='flag-5'>Llama</b>3.1模型部署在英特爾酷睿Ultra處理器

    PerfXCloud平臺成功接入Meta Llama3.1

    近日,Meta對外宣布推出迄今為止最強大的開源模型——Llama3.1 405B,同時還發布了全新優化升級的70B和8B版本,技術革新的浪潮再次洶涌來襲!在此,我們滿懷欣喜地向您宣告,PerfXCloud平臺現已成功接入Llama
    的頭像 發表于 07-25 10:26 ?647次閱讀

    Llama 3 王者歸來,Airbox 率先支持部署

    模型。無論是在代碼生成、復雜推理,還是在遵循指令和可視化想法方面,Llama3都實現了全面領先。該模型在以下五個基準測試中均表現出色:MMLU(學科知識理解)GP
    的頭像 發表于 04-22 08:33 ?652次閱讀
    <b class='flag-5'>Llama</b> 3 王者歸來,Airbox 率先支持部署

    百度智能云國內首家支持Llama3全系列訓練推理!

    4月18日,Meta 正式發布 Llama 3,包括8B 和 70B 參數的大模型,官方號稱有史以來最強大的開源大模型。
    的頭像 發表于 04-20 09:20 ?409次閱讀
    百度智能云國內首家支持<b class='flag-5'>Llama</b>3全系列訓練推理!

    Meta推出最強開源模型Llama 3 要挑戰GPT

    Meta推出最強開源模型Llama 3 要挑戰GPT Facebook母公司Meta Platforms(META.US)推出了開源AI大模型“Llama”的最新升級版本“Llama
    的頭像 發表于 04-19 17:00 ?843次閱讀

    中穎電子入選Fabless 100排行榜TOP10微控制器公司榜單

    中穎電子入選 AspenCore 2024中國IC設計Fabless 100排行榜TOP10微控制器公司榜單
    的頭像 發表于 04-01 14:12 ?567次閱讀
    中穎電子入選Fabless 100<b class='flag-5'>排行</b>榜TOP10微控制器公司榜單

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 發布的 LLaMA 2,是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本,并且具有商業許可證。
    的頭像 發表于 02-21 16:00 ?1124次閱讀

    Meta推出最新版AI代碼生成模型Code Llama70B

    Meta近日宣布了其最新版本的AI代碼生成模型Code Llama70B,并稱其為“目前最大、最優秀的模型”。這一更新標志著Meta在AI代碼生成領域的持續創新和進步。
    的頭像 發表于 01-30 18:21 ?1455次閱讀

    Meta推出“性能最優”代碼生成AI模型Code Llama 70B

    據悉,Code Llama工具于去年8月份上線,面向公眾開放且完全免費。此次更新的Code Llama 70B不僅能處理更多復雜查詢,其在HumanEval基準測試中的準確率高達53%,超越GPT-3.5的48.1%,然而與OpenAI公布的GPT-4準確率(67%)仍有
    的頭像 發表于 01-30 10:36 ?795次閱讀
    主站蜘蛛池模板: AV精品爆乳纯肉H漫网站| 抽插嫩B乳无码漫| 亚洲午夜无码久久久久蜜臀av| 午夜想想爱| 亚洲欧洲日产国码久在线| 伊人久久大香线蕉综合高清| 欲乱艳荡少寡妇全文免费| 91久久偷偷做嫩草影院免费看| china野外18:19| 国产精品AV色欲蜜臀在线| 国精产品砖一区二区三区糖心| 久久高清一本无码| 欧美九十老太另类| 手机在线观看毛片| 亚洲黄色成人| 2224x最新网站| 成人天堂婷婷青青视频在线观看| 国产精品99久久久久久AV蜜臀| 狠狠综合久久综合88亚洲| 就去色一色| 日韩高清毛片| 亚洲免费综合色视频| 中文字幕乱码一区久久麻豆樱花| chinese极品嫩模videos| 国产精品久久久久久久人人看| 精品高潮呻吟99AV无码视频| 美女漏bb| 十八禁肉动漫无修在线播放| 野花韩国在线观看| caoporn 超碰在线视频| 国产乱妇乱子在线播视频播放网站 | 古代荡乳尤物H妓女调教| 黑丝美女被人操| 欧美阿v天堂视频在99线| 我在厨房摸岳的乳HD在线观看| 与子敌伦刺激对白亂輪亂性| 超碰caoporn| 精品国产九九| 日产国产欧美韩国在线| 一个人高清在线观看日本免费| 成人国产在线看不卡|