5 月 28 日,微軟在 Build 2024 大會上推出了最新的 Phi-3 系列成員——Phi-3-vision。這一工具主打視覺應用,能有效處理圖片文字信息,且在移動設備上也能運行自如。
Phi-3-vision 是一種小型多模式語言模型(SLM),主要適用于本地人工智能場景。其模型參數高達 42 億,上下文序列包含 128k 個符號,可滿足各種視覺推理和其他任務需求。
Microsoft 通過一篇新發表的論文[PDF]展示了 Phi-3-vision 的強大實力。與其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不遜色。
此外,Microsoft 還對 Phi-3-vision 進行了多項測試,并將其與其他競品模型進行了比較,包括字節跳動的 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學、哥倫比亞大學聯合開發的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等。結果表明,Phi-3-vision 在多個項目中的表現均十分出色。
-
微軟
+關注
關注
4文章
6627瀏覽量
104441 -
人工智能
+關注
關注
1796文章
47643瀏覽量
240208 -
語言模型
+關注
關注
0文章
538瀏覽量
10340
發布評論請先 登錄
相關推薦
評論