2023年5月,在ITF World 2023半導(dǎo)體大會(huì)上,英偉達(dá)創(chuàng)始人兼CEO黃仁勛介紹了英偉達(dá)的多模態(tài)具身智能系統(tǒng)NvidiaVIMA,能在視覺(jué)文本提示的指導(dǎo)下,執(zhí)行復(fù)雜任務(wù)、獲取概念、理解邊界、甚至模擬物理學(xué),標(biāo)志著AI能力的顯著進(jìn)步。
此外,在特斯拉召開(kāi)2023年年度股東大會(huì)上,馬斯克展示了人形機(jī)器人Optimus的全新型號(hào),和具身智能機(jī)器人幾乎劃等。馬斯克表示,人形機(jī)器人將是今后特斯拉主要的長(zhǎng)期價(jià)值來(lái)源,他也認(rèn)為以具身智能機(jī)器人為代表的產(chǎn)品有望成為人工智能的下一浪潮。
具身智能涉及多學(xué)科
具身智能有望打開(kāi) AI 新空間,引領(lǐng)人工智能下一站浪潮。實(shí)現(xiàn)具身智能需要多個(gè)學(xué)科的交叉能力。當(dāng)前具身智能產(chǎn)業(yè)鏈中包括數(shù)字基礎(chǔ)設(shè)施、機(jī)器人制造、機(jī)器視覺(jué)、多模態(tài)大模型的廠商等相關(guān)環(huán)節(jié)投資機(jī)會(huì)值得重點(diǎn)關(guān)注。機(jī)器人制造:為具身智能提供了機(jī)械的身體和基本的運(yùn)動(dòng)控制。
深度學(xué)習(xí):該學(xué)科中的神經(jīng)網(wǎng)絡(luò)仍然是具身智能中主要的工具。為具身智能提供推理能力;強(qiáng)化學(xué)習(xí),從環(huán)境反饋中,幫助具身智能調(diào)優(yōu)模型。
多模態(tài):計(jì)算機(jī)視覺(jué),為具身智能提供處理視覺(jué)信號(hào)能力;語(yǔ)音與自然語(yǔ)言處理,為具身智能提供理解與對(duì)話能力,實(shí)現(xiàn)與人類(lèi)交互。
計(jì)算機(jī)圖形學(xué):其開(kāi)發(fā)的物理仿真環(huán)境給具身智能提供了真實(shí)物理世界的替代,大大加快了學(xué)習(xí)的速度并降低了成本。認(rèn)識(shí)科學(xué):幫助具身智能理解人類(lèi),構(gòu)建認(rèn)識(shí)與價(jià)值。
具身機(jī)器人技術(shù)架構(gòu)
具身智能的出現(xiàn)有望持續(xù)引領(lǐng)“大模型+機(jī)器人”潮流。具身智能機(jī)器人是具身智能的實(shí)體形態(tài),有望成為 AI 的最終載體。其整體架構(gòu)由感知層、交互層、運(yùn)動(dòng)層組成。與工業(yè)機(jī)器人不同,具身智能機(jī)器人若能像人一樣與環(huán)境交互、感知、決策、完成任務(wù),將不得不提升感知層和認(rèn)知層的能力。因此,感知層和認(rèn)知層是工業(yè)機(jī)器人向具身智能機(jī)器人邁進(jìn)的門(mén)檻。
感知層類(lèi)似人的五官,負(fù)責(zé)收集環(huán)境信息,在單一場(chǎng)景下機(jī)器或許可以通過(guò)感知來(lái)繞過(guò)決策控制。感知層中視覺(jué)的重要程度較高,視覺(jué)感知或是具身智能機(jī)器人的核心。
感知層需要與運(yùn)動(dòng)層交互印證:首先視覺(jué)感知需要與物理實(shí)存進(jìn)行交互印證,是具身智能實(shí)現(xiàn)的基礎(chǔ);感知能力提升可使機(jī)器人運(yùn)動(dòng)更加“擬人化”:視覺(jué)感知通過(guò)與運(yùn)動(dòng)系統(tǒng)的執(zhí)行參量、信息數(shù)據(jù)交互修正,使具身機(jī)器人從傳統(tǒng)的僵化肢體運(yùn)動(dòng)提升為為高自由度、高精密、多表現(xiàn)形式的運(yùn)動(dòng)。
決策交互層作為核心處理樞紐,需要類(lèi)似人類(lèi)大腦的處理能力,滿足機(jī)器在理解指令、分解 任務(wù)、規(guī)劃子任務(wù)、識(shí)別物體完成人機(jī)交互和環(huán)境交互等方面的需求,多維度的人機(jī)交 互在傳統(tǒng)的機(jī)器人領(lǐng)域是一大難題。因而當(dāng)下的研究更多體現(xiàn)在特定指令下對(duì)于環(huán)境交互的探索,也即如何更智能地執(zhí)行特定物理任務(wù)上。
GPT-4 出現(xiàn)讓機(jī)器人對(duì)于現(xiàn)實(shí)世界中圖像、文字、數(shù)據(jù)的理解進(jìn)入新臺(tái)階。根據(jù)微軟最新的一項(xiàng)研究,將 GPT 拓展至機(jī)器人領(lǐng)域,實(shí)現(xiàn)語(yǔ)言控制機(jī)械臂、無(wú)人機(jī)等多個(gè)平臺(tái)。多模態(tài)的引入拓展了交互的豐富性,大幅提升人機(jī)交互和環(huán)境交互能力,助力機(jī)器人能 力再上新臺(tái)階。未來(lái)有望在更多場(chǎng)景落地應(yīng)用,包括自動(dòng)駕駛、工業(yè)自動(dòng)化、 醫(yī)療健康、家用服務(wù)、教育、娛樂(lè)等眾多領(lǐng)域,幫助人類(lèi)實(shí)現(xiàn)極端環(huán)境作業(yè)、 多領(lǐng)域降本增效。
多模態(tài)大模型與機(jī)器的融合
具身智能作為人工智能重要應(yīng)用,需要多復(fù)合型的模型能力。阿里巴巴張勇表示制造業(yè)是 AI 大模型的重要戰(zhàn)場(chǎng),未來(lái) 10 年最大的機(jī)會(huì)就在于云、AI 與物理世界機(jī)器的融合。
除了諸如視覺(jué)、自然語(yǔ)言處理等單領(lǐng)域模型的縱深發(fā)展,多模態(tài)大模型的加持或?qū)⒊蔀橄乱徊街匾膽?yīng)用方向。AIGC 為具身智能突破技術(shù)瓶頸提供新思路。AIGC的“智能”表現(xiàn)在能夠進(jìn)行上下文理解和情景感知,輸出文字、圖像、聲音。
進(jìn)入 AIGC 時(shí)代后,GPT 等大模型有望作為人類(lèi)與機(jī)器人溝通的橋梁。即通過(guò) 將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,并引入多模態(tài)輸入,增強(qiáng)模型對(duì)現(xiàn)實(shí)中對(duì)象的理 解,幫助機(jī)器人處理具身推理任務(wù)。AI 大模型浪潮下,谷歌、微軟、 阿里等巨頭均發(fā)力探索 AI大模型與具身智能的融合。目前,諸多大廠已在具身智能領(lǐng)域進(jìn)行布局,谷歌發(fā)布史上最大通才模型 PaLM-E;微軟探 索如何將 ChatGPT 擴(kuò)展到機(jī)器人領(lǐng)域;阿里巴巴-千問(wèn)大模型正在實(shí)驗(yàn)接入工業(yè)機(jī)器人等。
風(fēng)險(xiǎn)揭示:信息出自公開(kāi)數(shù)據(jù),內(nèi)容不做具體操作指導(dǎo),客戶 亦不應(yīng)將其作為投資決策的唯一參考因素。據(jù)此買(mǎi)入,責(zé)任自負(fù),股市有 風(fēng)險(xiǎn),投資需謹(jǐn)慎。
審核編輯黃宇
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
29015瀏覽量
210018 -
AI
+關(guān)注
關(guān)注
87文章
32823瀏覽量
272272
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
成都華微與具身科技達(dá)成戰(zhàn)略合作
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊
《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計(jì)算挑戰(zhàn)
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+兩本互為支持的書(shū)
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書(shū)概覽與第一章學(xué)習(xí)
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)
《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識(shí)與基礎(chǔ)模塊
成都匯陽(yáng)投資關(guān)于智能體時(shí)代來(lái)臨,具身智能有望成為最佳載體
名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.51】具身智能機(jī)器人系統(tǒng) | 了解AI的下一個(gè)浪潮!
力控、柔性觸覺(jué)成為核心需要,機(jī)器人要打造怎樣的具身傳感系統(tǒng)

廣和通發(fā)布基于高通高算力芯片的具身智能機(jī)器人開(kāi)發(fā)平臺(tái)Fibot

評(píng)論