MiniCPM-V 2.0: 具備領(lǐng)先OCR和理解能力的高效端側(cè)多模態(tài)大模型
一背景
今年4月份,面壁智能&清華大學(xué)自然語言處理實驗室推出MiniCPM系列的最新多模態(tài)版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構(gòu)建,共擁有2.8B參數(shù)。MiniCPM-V 2.0具有領(lǐng)先的光學(xué)字符識別(OCR)和多模態(tài)理解能力。該模型在綜合性O(shè)CR能力評測基準(zhǔn)OCRBench上達到開源社區(qū)的最佳水平,甚至在場景文字理解方面實現(xiàn)接近Gemini Pro的性能。簡單來說,就是能夠?qū)崿F(xiàn)更好地理解圖片中內(nèi)容,實現(xiàn)精準(zhǔn)的“以圖生文”的能力,所見即所得。
本文將通過走馬觀花的方式,初探MiniCPM-V 2.0的新特性。同時也將分享基于愛芯元智的AX650N芯片適配MiniCPM-V 2.0的最新進展,向業(yè)界對端側(cè)多模態(tài)大模型部署的開發(fā)者提供一種新的思路,促進社區(qū)對端側(cè)多模態(tài)大模型的探索。
二MiniCPM-V介紹
2.1 MiniCPM-V 2.0特性
● 領(lǐng)先的OCR和多模態(tài)理解能力。MiniCPM-V 2.0顯著提升了OCR和多模態(tài)理解能力,場景文字理解能力接近Gemini Pro,在多個主流評測基準(zhǔn)上性能超過了更大參數(shù)規(guī)模(例如17-34B)的主流模型。
● 可信行為。MiniCPM-V 2.0是第一個通過多模態(tài)RLHF對齊的端側(cè)多模態(tài)大模型。該模型在Object HalBench達到和GPT-4V相仿的性能。
● 任意長寬比高清圖像高效編碼。MiniCPM-V 2.0可以接受180萬像素的任意長寬比圖像輸入(基于最新的LLaVA-UHD技術(shù)),這使得模型可以感知到小物體、密集文字等更加細(xì)粒度的視覺信息。
● 高效部署。MiniCPM-V 2.0可以高效部署在大多數(shù)消費級顯卡、個人電腦以及移動手機等終端設(shè)備。
● 雙語支持。MiniCPM-V 2.0提供領(lǐng)先的中英雙語多模態(tài)能力支持。該能力通過VisCPM[ICLR'24]論文中提出的多模態(tài)能力的跨語言泛化技術(shù)實現(xiàn)。
2.2 多模態(tài)“小鋼炮”
MiniCPM-V 2.0與參數(shù)規(guī)模更大的多模態(tài)大模型相比,也表現(xiàn)出優(yōu)秀的成績,不愧是業(yè)界“小鋼炮”。
三芯片介紹
3.1 AX650N
愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265編解碼的 VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI輸入,千兆Ethernet、USB、以及HDMI 2.0b輸出,并支持32路1080p@30fps解碼內(nèi)置高算力和超強編解碼能力,滿足行業(yè)對高性能邊緣智能計算的需求。通過內(nèi)置多種深度學(xué)習(xí)算法,實現(xiàn)視覺結(jié)構(gòu)化、行為分析、狀態(tài)檢測等應(yīng)用,高效率支持基于Transformer結(jié)構(gòu)的視覺大模型和語言類大模型。提供豐富的開發(fā)文檔,方便用戶進行二次開發(fā)。
四上版部署
我們已實現(xiàn)“命令行”和“UI”兩種示例,其中“命令行”版本已上傳到網(wǎng)盤中,歡迎試用。
4.1 命令行版本
測試圖片:
測試結(jié)果:
4.2 GUI版本
4.3 性能統(tǒng)計
項目 | 描述 |
輸入圖片大小 | 280 x 280 |
Image Encoder | 0.8s |
Input Prompt | 96 tokens |
Prefill Time | 0.4s |
Decoder | 5 tokens/s |
五結(jié)束語
隨著大語言模型小型化的快速發(fā)展,越來越多有趣的多模態(tài)AI應(yīng)用將逐漸從云端服務(wù)遷移到邊緣側(cè)設(shè)備和端側(cè)設(shè)備。我們會緊跟行業(yè)最新動態(tài),適配更多的端側(cè)大模型,歡迎大家持續(xù)關(guān)注。
-
自然語言處理
+關(guān)注
關(guān)注
1文章
624瀏覽量
13736 -
愛芯元智
+關(guān)注
關(guān)注
1文章
87瀏覽量
4933 -
大模型
+關(guān)注
關(guān)注
2文章
2796瀏覽量
3440
原文標(biāo)題:愛芯分享 | 基于AX650N部署MiniCPM-V 2.0
文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于AX650N/AX630C部署多模態(tài)大模型InternVL2-1B

部署DeepSeek R1于AX650N與AX630C平臺

AI SoC # 愛芯元智AX650N詳細(xì)介紹:原生支持Transformer架構(gòu)模型 適用部署DeepSeek R1

愛芯元智發(fā)布第三代智能視覺芯片AX650N,為智慧生活賦能


【愛芯派 Pro 開發(fā)板試用體驗】愛芯元智AX650N部署yolov8s 自定義模型
愛芯元智第三代智能視覺芯片AX650N高能效比SoC芯片
基于AX650N部署DETR

基于AX650N部署EfficientViT
愛芯元智AX650N成端側(cè)、邊緣側(cè)Transformer最佳落地平臺

愛芯元智AX620E和AX650系列芯片正式通過PSA Certified安全認(rèn)證

PerfXCloud 重大更新 端側(cè)多模態(tài)模型 MiniCPM-Llama3-V 2.5 閃亮上架

如何在邊緣端獲得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

重磅發(fā)布 | 矽速 M4N Dock 支持 DeepSeek R1,端側(cè)大模型部署新標(biāo)桿!

評論