一个人看的视频在线www高清,亚洲视频一区在线播放,一个人看的在线www片高清

為推動大模型在產(chǎn)業(yè)落地和技術(shù)創(chuàng)新，智源研究院發(fā)布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果，打造“大模型進化流水線”，持續(xù)迭代、持續(xù)開源開放。

悟道·天鷹（Aquila）

開源商用許可語言大模型系列

悟道·天鷹（Aquila）語言大模型是首個具備中英雙語知識、支持商用許可協(xié)議、國內(nèi)數(shù)據(jù)合規(guī)需求的開源語言大模型。

悟道·天鷹（Aquila）語言大模型在中英文高質(zhì)量語料基礎(chǔ)上從 0 開始訓(xùn)練，通過數(shù)據(jù)質(zhì)量的控制、多種訓(xùn)練的優(yōu)化方法，實現(xiàn)在更小的數(shù)據(jù)集、更短的訓(xùn)練時間，獲得比其它開源模型更優(yōu)的性能。系列模型包括 Aquila基礎(chǔ)模型（7B、33B），AquilaChat對話模型（7B、33B）以及 AquilaCode-7B “文本-代碼”生成模型，

后續(xù)將持續(xù)更新迭代并開源更新版本。

開源地址：https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基礎(chǔ)模型（7B、33B）

在技術(shù)上繼承了 GPT-3、LLaMA 等的架構(gòu)設(shè)計優(yōu)點，替換了一批更高效的底層算子實現(xiàn)、重新設(shè)計實現(xiàn)了中英雙語的 tokenizer，升級了 BMTrain 并行訓(xùn)練方法，實現(xiàn)了比 Magtron+DeepSpeed ZeRO-2

將近８倍的訓(xùn)練效率

。

AquilaChat 對話模型（7B、33B）

支持流暢的文本對話及多種語言類生成任務(wù)，通過定義可擴展的特殊指令規(guī)范，實現(xiàn) AquilaChat對其它模型和工具的調(diào)用，且易于擴展。例如，調(diào)用智源開源的 AltDiffusion 多語言文圖生成模型，實現(xiàn)了流暢的文圖生成能力。配合智源 InstructF ace 多步可控文生圖模型，輕松實現(xiàn)對人臉圖像的多步可控編輯。

AquilaChat 訓(xùn)練過程中，實現(xiàn)了模型能力與指令微調(diào)數(shù)據(jù)的循環(huán)迭代，包括數(shù)據(jù)集的高效篩選與優(yōu)化，充分挖掘基礎(chǔ)模型的潛力。

AquilaChat 支持可擴展的特殊指令規(guī)范，令用戶可在AquilaChat中輕松實現(xiàn)多任務(wù)、工具的嵌入，如文圖生成，下圖示例為在對話中調(diào)用智源開源的多語言文圖生成模型 AltDiffusion。

AquilaChat 具備強大的指令分解能力，配合智源InstructFace多步可控文生圖模型，輕松實現(xiàn)對圖片的多步可控編輯。

AquilaCode-7B “文本-代碼”生成模型，

基于 Aquila-7B 強大的基礎(chǔ)模型能力，以小數(shù)據(jù)集、小參數(shù)量，實現(xiàn)高性能，是目前支持中英雙語的、性能最好的開源代碼模型，經(jīng)過了高質(zhì)量過濾、使用有合規(guī)開源許可的訓(xùn)練代碼數(shù)據(jù)進行訓(xùn)練。

此外，AquilaCode-7B 分別在英偉達和***上完成了代碼模型的訓(xùn)練，并通過對多種架構(gòu)的代碼+模型開源，推動芯片創(chuàng)新和百花齊放。

天秤（FlagEval）

大模型評測體系及開放平臺

天秤（FlagEval）大模型評測體系及開放平臺，旨在建立科學(xué)、公正、開放的評測基準(zhǔn)、方法、工具集，協(xié)助研究人員全方位評估基礎(chǔ)模型及訓(xùn)練算法的性能，同時探索利用AI方法實現(xiàn)對主觀評測的輔助，大幅提升評測的效率和客觀性。

目前已推出語言大模型評測、多國語言文圖大模型評測及文圖生成評測等工具，并對各種語言基礎(chǔ)模型、跨模態(tài)基礎(chǔ)模型實現(xiàn)評測。后續(xù)將全面覆蓋基礎(chǔ)模型、預(yù)訓(xùn)練算法、微調(diào)算法等三大評測對象，包括自然語言處理（NLP）、計算機視覺（CV）、語音（Audio）及多模態(tài)（Multimodal）等四大評測場景和豐富的下游任務(wù)。

首期推出的 FlagEval 大語言模型評測體系，創(chuàng)新構(gòu)建了“能力-任務(wù)-指標(biāo)”三維評測框架，細(xì)粒度刻畫基礎(chǔ)模型的認(rèn)知能力邊界，可視化呈現(xiàn)評測結(jié)果，總計 600+ 評測維度，任務(wù)維度包括 22 個主觀&客觀評測數(shù)據(jù)集。除了知名的公開數(shù)據(jù)集 HellaSwag、MMLU、C-Eval等，F(xiàn)lagEval 還集成了包括智源自建的主觀評測數(shù)據(jù)集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大學(xué)與閩江學(xué)院共建的語義關(guān)系判斷、多義詞理解、修辭手法判斷評測數(shù)據(jù)集。更多維度的評測數(shù)據(jù)集也在陸續(xù)集成中。

FlagEval 評測榜單目前涵蓋了前面談到的22 個主觀和客觀評測集，84433 道題目，細(xì)粒度刻畫大模型的認(rèn)知能力?；凇拔虻?· 天鷹”Aquila 基礎(chǔ)模型（7B）打造的 AquilaChat 對話模型，在 FlagEval 大語言模型評測榜單上，目前暫時在“主觀+客觀”的評測上領(lǐng)先其他同參數(shù)量級別的開源對話模型。

在我們當(dāng)前的最新評測結(jié)果中，AquilaChat 以大約相當(dāng)于其他模型 50% 的訓(xùn)練數(shù)據(jù)量（SFT 數(shù)據(jù)+預(yù)訓(xùn)練數(shù)據(jù)分別統(tǒng)計）達到了最優(yōu)性能。

但由于當(dāng)前的英文數(shù)據(jù)僅訓(xùn)練了相當(dāng)于Alpaca的40%，所以在英文的客觀評測上還暫時落后于基于 LLaMA 進行指令微調(diào)的Alpaca。隨著后續(xù)訓(xùn)練的進行，我們相信很快可以超越。

悟道·天鷹（Aquila）模型還在迭代進步的過程中，天秤（FlagEval）評測能力也在不斷的擴充中，因而此評測結(jié)果只是暫時的，新的評測結(jié)果還會不斷更新。此外，F(xiàn)lagEval的評測體系方法及相關(guān)研究還需要繼續(xù)深入，當(dāng)前對模型能力的覆蓋程度仍有很大的進步空間，智源也期待與多方合作，共同打造全面、科學(xué)的評測方法體系。

天秤（FlagEval）開放評測平臺現(xiàn)已開放申請（flageval.baai.ac.cn），打造自動化評測與自適應(yīng)評測機制，可輔助模型研發(fā)團隊利用評測結(jié)果指導(dǎo)模型訓(xùn)練，同時支持英偉達、昇騰（鵬城云腦）、寒武紀(jì)、昆侖芯等多種芯片架構(gòu)及 PyTorch、MindSpore 等多種深度學(xué)習(xí)框架。

作為“科技創(chuàng)新2030”旗艦項目重要課題，天秤（FlagEval）正與北京大學(xué)、北京航空航天大學(xué)、北京師范大學(xué)、北京郵電大學(xué)、閩江學(xué)院、南開大學(xué)、中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中國科學(xué)院自動化研究所等合作單位共建（按首字母排序），定期發(fā)布權(quán)威評測榜單。

總的來說，智源此次發(fā)布的 2 大重磅成果僅僅是一個新的起點：

一方面，悟道 · 天鷹 Aquila 語言大模型將不斷完善訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練方法、提升模型性能，在更優(yōu)秀的基礎(chǔ)模型基座上，培育枝繁葉茂的“模型樹”，持續(xù)開源開放。

另一方面，天秤 FlagEval 大模型評測體系及開放平臺將繼續(xù)拓展“大模型認(rèn)知能力”框架，集成豐富的數(shù)據(jù)集與評測指標(biāo)，并探索與心理學(xué)、教育學(xué)、倫理學(xué)等社會學(xué)科的交叉研究，以期更加科學(xué)、全面地評價語言大模型。

「模型 + 評測」雙輪驅(qū)動，

加速大模型技術(shù)創(chuàng)新與產(chǎn)業(yè)落地。歡迎學(xué)界、產(chǎn)業(yè)界同仁提供建議。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

大模型

大模型

+關(guān)注

關(guān)注
2

文章
2524

瀏覽量
2991

生成式人工智能模型的安全可信評測

受到關(guān)注。但當(dāng)前大模型仍然面臨可信瓶頸，無法開展大規(guī)模應(yīng)用。大模型的安全可信受到高度關(guān)注，國內(nèi)外已經(jīng)有多項法規(guī)與標(biāo)準(zhǔn)快速制定并落地。本文以層次化的結(jié)構(gòu)，構(gòu)建了生成式人工智能的安全可信評測

發(fā)表于 01-22 13:55 ?81次閱讀

首批首家！DataCanvas Alaya NeW智算操作系統(tǒng)通過中國信通院“大模型計算資源調(diào)度平臺” 標(biāo)準(zhǔn)評測

1月8日，“大模型工程化成果發(fā)布會”在北京圓滿召開。會上，中國信息通信研究院（簡稱“中國信通院”）正式發(fā)布6項AIInfra（人工智能基礎(chǔ)平臺）標(biāo)準(zhǔn)成果，憑借領(lǐng)先的應(yīng)用效能和靈活的擴展能力，九章云極

發(fā)表于 01-10 11:24 ?214次閱讀

騰訊混元文生圖登頂智源FlagEval評測榜首

近日，北京智源人工智能研究院(BAAI)發(fā)布了最新的FlagEval大模型評測排行榜，其中多模態(tài)模型評測榜單的文生圖

發(fā)表于 12-25 10:06 ?245次閱讀

商湯日日新多模態(tài)大模型權(quán)威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評測權(quán)威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

發(fā)表于 12-20 10:39 ?295次閱讀

國家管網(wǎng)集團與華為聯(lián)合打造“管網(wǎng)”大模型

近日，國家管網(wǎng)集團 “管網(wǎng)”大模型正式上線應(yīng)用。“管網(wǎng)”大模型基于華為算力底座和技術(shù)棧，打造“管網(wǎng)制度流程+數(shù)據(jù)+IT+大模型”體系，構(gòu)建具有管網(wǎng)特色的大

發(fā)表于 12-04 11:07 ?371次閱讀

通用大模型評測標(biāo)準(zhǔn)正式發(fā)布

近日，在2024中國移動全球合作伙伴大會上，一項關(guān)于大模型評測體系建設(shè)的新成果——《通用大模型評測標(biāo)準(zhǔn)》正式發(fā)布。這一

發(fā)表于 10-14 15:52 ?546次閱讀

云知聲山海大模型多項能力全球領(lǐng)跑

國內(nèi)人工智能權(quán)威機構(gòu)清華大學(xué)基礎(chǔ)模型研究中心發(fā)布SuperBench九月綜合榜單。本次評測選取海內(nèi)外24個具有代表性的大模型，結(jié)果顯示，山海大模型對齊、智能體、安全等多項

發(fā)表于 10-12 14:30 ?442次閱讀

云知聲山海大模型醫(yī)療專業(yè)能力全球第一

，各項指標(biāo)全面超越GPT-4，充分展現(xiàn)出山海大模型在擁有業(yè)內(nèi)一流的通用能力之外，更具備打造世界領(lǐng)先的行業(yè)大模型的能力。

發(fā)表于 09-19 15:47 ?382次閱讀

智能制造能力成熟度模型是什么？

)，賦予每個級別明確定義，相應(yīng)標(biāo)準(zhǔn)和實現(xiàn)的必要條件。從最低級到最高級，智能制造能力是逐級提升的，每個級別都在前一個級別的基礎(chǔ)上提升完善，同時也構(gòu)成了向下一個級別提升演進的基礎(chǔ)，從而體現(xiàn)了智能制造能力的層層遞進和不斷發(fā)展完善的過程

發(fā)表于 06-12 11:25 ?844次閱讀

【大語言模型：原理與工程實踐】大語言模型的評測

任務(wù)、評測集構(gòu)建標(biāo)準(zhǔn)和評測方式三個部分。特別地，為了關(guān)注大語言模型在中文場景的優(yōu)化和應(yīng)用，該框架特別注重中文特有語境下的能力考察。其貢獻在于

發(fā)表于 05-07 17:12

名單公布！【書籍評測活動NO.31】大語言模型：原理與工程實踐

放棄本次試用評測資格！緣起：為什么要寫這本書 OpenAI的ChatGPT自推出以來，迅速成為人工智能領(lǐng)域的焦點。ChatGPT在語言理解、生成、規(guī)劃及記憶等多個維度展示了強大的能力。這不僅體現(xiàn)在

發(fā)表于 03-18 15:49

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

評測資格！ 2022年11月，ChatGPT的問世展示了大模型的強大潛能，對人工智能領(lǐng)域有重大意義，并對自然語言處理研究產(chǎn)生了深遠影響，引發(fā)了大模型研究的熱潮。距ChatGPT問世不到一年，截至

發(fā)表于 03-11 15:16

華為云盤古大模型通過金融大模型標(biāo)準(zhǔn)符合性驗證

近日，在中國信通院組織的可信AI大模型標(biāo)準(zhǔn)符合性驗證中，華為云的盤古大模型表現(xiàn)出色，成功通過了金融大模型標(biāo)準(zhǔn)的符合性驗證，并榮獲優(yōu)秀級（4+

發(fā)表于 03-05 10:12 ?683次閱讀

華為云盤古大模型通過金融大模型標(biāo)桿驗證，獲最高評級

該驗證標(biāo)準(zhǔn)主要關(guān)注金融大模型對語言，語音，視覺以及多模態(tài)任務(wù)等多元領(lǐng)域的適應(yīng)能力，涵蓋數(shù)據(jù)合規(guī)性，模型安全性和服務(wù)穩(wěn)定性等關(guān)鍵要素。

發(fā)表于 03-04 15:58 ?725次閱讀

大模型開源開放評測體系司南正式發(fā)布

近日，大模型開源開放評測體系司南（OpenCompass2.0）正式發(fā)布，旨在為大語言模型、多模態(tài)模型等各類模型提供一站式

發(fā)表于 02-05 11:28 ?1106次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

悟道·天鷹 Aquila + 天秤 FlagEval，打造大模型能力與評測標(biāo)準(zhǔn)雙標(biāo)桿

評論

生成式人工智能模型的安全可信評測

首批首家！DataCanvas Alaya NeW智算操作系統(tǒng)通過中國信通院“大模型計算資源調(diào)度平臺” 標(biāo)準(zhǔn)評測

騰訊混元文生圖登頂智源FlagEval評測榜首

商湯日日新多模態(tài)大模型權(quán)威評測第一

國家管網(wǎng)集團與華為聯(lián)合打造“管網(wǎng)”大模型

通用大模型評測標(biāo)準(zhǔn)正式發(fā)布

云知聲山海大模型多項能力全球領(lǐng)跑

云知聲山海大模型醫(yī)療專業(yè)能力全球第一

智能制造能力成熟度模型是什么？

【大語言模型：原理與工程實踐】大語言模型的評測

名單公布！【書籍評測活動NO.31】大語言模型：原理與工程實踐

名單公布！【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

華為云盤古大模型通過金融大模型標(biāo)準(zhǔn)符合性驗證

華為云盤古大模型通過金融大模型標(biāo)桿驗證，獲最高評級

大模型開源開放評測體系司南正式發(fā)布

搜索歷史

悟道·天鷹 Aquila + 天秤 FlagEval，打造大模型能力與評測標(biāo)準(zhǔn)雙標(biāo)桿

評論

悟道·天鷹 Aquila + 天秤 FlagEval，打造大模型能力與評測標(biāo)準(zhǔn)雙標(biāo)桿