據弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯合頭豹研究院發布的《2025年中國大模型年度評測》結果顯示:在語言和多模態核心能力測評中,商湯“日日新”融合大模型斬獲國內第一梯隊成績。
其中,核心的通用基礎能力與多模態圖像理解能力上,商湯“日日新”實現雙雙登頂,在16家國產主流大模型中排名第一。
通用基礎能力:三大維度全面領先
此次評測的“通用基礎能力”涵蓋數理科學、語言能力和道德風險控制三大核心維度。商湯日日新在這三個方面均表現出色,位列第一,得分超越國際均線,展現出多維度的綜合優勢。
數理科學能力方面,商湯日日新以 88 分的高分位列第二,在數學推理、代碼編寫、科學常識等細分領域,展現出極強的邏輯推理和計算能力。報告特別指出,邏輯推理和數學能力已成為衡量大模型實力的關鍵分水嶺。而商湯在這方面的優勢尤為顯著。
語言能力方面,在意圖理解、角色扮演、開放式推理等方面表現優異,尤其是在語境適應性、指令遵循及輸出穩定性上表現出色,確保了生成內容的準確性和一致性。
道德責任能力方面,以 75.88 分的成績位居榜首,在風險信息識別、偏見控制等方面表現突出,充分體現了商湯在倫理安全與風險控制上的嚴格標準。
多模態能力:圖像理解與生成雙突破
在多模態能力評測中,商湯日日新同樣表現亮眼。在多模態圖像理解能力評測中,商湯日日新以 84.05的高分位居榜首,在文字識別、物體定位、圖像風格識別、圖片邏輯理解等九個細分維度中奪得三項第一,顯示出強大的圖像理解能力。
其中,文字識別能力在復雜背景和低質量圖像中表現遠超中國及國際行業平均水平;物體定位能力精準度國內領先;圖像風格識別準確率顯著高于中國大模型均線。
在多模態生成能力評測中,商湯秒畫在商業型和藝術型圖像生成方面表現優異,尤其是在商業圖像生成中,圖像質量、指令遵循和風格多樣性得分領先,展現出強大的技術實力和應用潛力,能夠很好地滿足廣告、電商等商業場景的需求。
專業應用能力:多行業場景表現優異
在專業應用能力評測中,商湯日日新同樣處于第一梯隊,位居前二。其綜合能力涵蓋 AI 智能體、專業文本處理及超長文本處理,展現出在復雜決策、專業知識理解與長文本推理方面的強大能力。
在行業應用能力方面,商湯日日新在金融、醫療、政務、教育等 14 個行業場景中均表現優異,體現了其對不同領域知識的深度理解和應用能力,以及強大的行業適配性和落地能力。
自 2023 年 4 月首次發布以來,日日新 SenseNova 大模型體系已進行了多次大版本迭代。今年 1 月推出的日日新融合大模型更是在行業內率先實現了原生融合模態訓練的突破,打破了大語言與多模態分立的局面,支持文本、圖像、視頻、語音等多源異構信息的綜合處理,為多場景應用奠定了堅實基礎,推動了AI大模型的工業化發展。
-
AI
+關注
關注
87文章
32604瀏覽量
271915 -
商湯科技
+關注
關注
8文章
529瀏覽量
36360 -
大模型
+關注
關注
2文章
2812瀏覽量
3456
原文標題:大語言通用能力第一!多模態圖像理解能力第一!
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
商湯日日新大模型中標上海電信訂單
商湯科技"日日新SenseNova 5.5"大模型閃耀WAIC,引領AI新紀元
商湯“日日新”大模型全面賦能2024 WAIC
商湯科技發布日日新5.5大模型體系
商湯發布日日新大模型5.0粵語版
中文大模型測評基準SuperCLUE:商湯日日新5.0,刷新國內最好成績

評論