近日,LMSYS Org發(fā)布最新的基準(zhǔn)測(cè)試報(bào)告,顯示Cordulas公司的Claude-3在平臺(tái)大語(yǔ)言模型中的得分略勝OpenAI的GPT-4。
值得注意的是,LMSYS Org是由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校以及卡內(nèi)基梅隆大學(xué)共同發(fā)起設(shè)立的研究組織。
日前,這家機(jī)構(gòu)推出了一項(xiàng)名為Chatbot Arena的服務(wù),這是針對(duì)大語(yǔ)言模型(LLM)進(jìn)行評(píng)估的基準(zhǔn)平臺(tái),該平臺(tái)采用眾包形式對(duì)大型語(yǔ)言模型進(jìn)行匿名隨機(jī)競(jìng)爭(zhēng)打分,參考源于競(jìng)技比賽領(lǐng)域中廣泛應(yīng)用的Elo評(píng)分體系。
分?jǐn)?shù)評(píng)價(jià)結(jié)果主要取決于用戶的投票意向,每次由系統(tǒng)隨機(jī)挑選兩個(gè)不同的大語(yǔ)言模型參與與用戶的對(duì)話,同時(shí),為保障客觀性,匿名選擇哪個(gè)版本的大模型表現(xiàn)優(yōu)秀至關(guān)重要。
自去年啟動(dòng)以來(lái),GPT-4一直占據(jù)評(píng)測(cè)榜單之首。然而,昨日,由Anthropos推出的Claude 3 Opus以微弱優(yōu)勢(shì)戰(zhàn)勝了GPT-4,將OpenAI的LLM擠出了首位。
考慮到細(xì)微差距及誤差風(fēng)險(xiǎn),委員會(huì)決定授予Claude 3與GPT-4并列第一的榮譽(yù),GPT-4的另外一個(gè)預(yù)設(shè)版也被列入并列第一的行列。此外,更引人注目的是,Claude 3 Haiku成功躋身前十名。Haiku是Anthropos針對(duì)本地規(guī)模的新型模型,功能類(lèi)似谷歌的GeminiNano。
相較Opus參數(shù)高達(dá)幾萬(wàn)億,Haiku體型更為緊湊,運(yùn)行速度更快。據(jù)LMSYS數(shù)據(jù)顯示,Haikn在評(píng)測(cè)成績(jī)中排名第七,與GPT-4表現(xiàn)不遑多讓。
-
谷歌
+關(guān)注
關(guān)注
27文章
6192瀏覽量
105804 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
538瀏覽量
10315 -
GPT
+關(guān)注
關(guān)注
0文章
359瀏覽量
15465
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論