5月18日,北京智源研究院發布了關于國內外各類開/閉源語言及多模態大模型性能評估的最新研究成果。此項研究覆蓋了140余個語言模型的綜合實力對比,包括其對中文文本理解和多模態圖文問答等任務的處理能力。
研究發現,盡管國內頭部語言模型在中文環境中的整體表現已接近國際一流水平,但仍存在能力發展不平衡的問題。
在多模態理解圖文問答任務中,開源和閉源模型表現相當,而國產模型則表現出色。此外,在中文語境下的文生圖能力方面,國產多模態模型與國際一流水平的差距相對較小。
具體到語言模型的排名,在中文語境下,字節跳動的豆包Skylark2以及OpenAI的GPT-4分別名列第一和第二。值得注意的是,國產大模型在理解中國用戶需求方面具有明顯優勢。
在語言模型客觀評價中,OpenAI的GPT-4和百川智能的Baichuan3分列第一和第二。同時,百度的文心一言4.0、智譜華章的GLM-4以及月之暗面的Kimi也躋身語言模型主客觀評價的前五名。
在多模態理解模型的客觀評價中,圖文問答方面,阿里巴巴的通義Qwen-vl-max和上海人工智能實驗室的InternVL-Chat-V1.5在某些指標上超越了OpenAI的GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室的Intern-XComposer2-VL-7B緊隨其后。
-
開源
+關注
關注
3文章
3358瀏覽量
42516 -
模型
+關注
關注
1文章
3248瀏覽量
48860 -
大模型
+關注
關注
2文章
2465瀏覽量
2752
發布評論請先 登錄
相關推薦
評論