3月17日下午,商湯科技聯合創始人、首席科學家、商湯絕影CEO王曉剛在NVIDIA GTC 2025發表演講《激發通用人工智能的創造力,引領智能汽車走向全新的未來》,以下為演講實錄:
各位開發者朋友大家好,我是絕影智能的王曉剛,感謝英偉達GTC活動的邀請,也非常感謝各位對絕影的關注與支持。
絕影智能是最專注汽車行業領先的AI公司,旨在推動智能汽車加速駛入通用人工智能時代。今天我想給大家分享絕影如何激發通用人工智能的創造力,引領智能汽車走向全新未來。
我常常在想AGI時代下的未來汽車出行是怎樣的。它應該是可以實現更為自然的有溫度的人車交互體驗,讓智能汽車從出行代步工具,進化為你的情感陪伴;同時它還要具備實現安全自動駕駛的能力,解放你的身心束縛,讓你的時間和精力都可以投入到與世界的連接中,盡情享受大千世界的無限可能。
因此,我認為AGI賦能下為智能汽車帶來的變革主要在三方面:
第一是通過原生流式多模態大模型帶來的人機交互體驗的變革;第二是通過端到端智駕技術的升級,帶來極致自動駕駛安全和效率;第三是艙駕融合驅動智能汽車往超級智能體方向演進,極大拓展了人與物理和數字世界的連接。
而引領智能汽車變革的核心驅動力,在于艙駕融合的AI域。絕影和英偉達深度合作,構建艙駕融合的三大核心要素,包括可支持艙駕融合的超大算力引擎,行業領先的原生流式多模態大模型,以及端云一體協同的部署框架。
依托英偉達算力引擎,絕影首創艙駕融合AI域框架。
該框架包括三層,首先是最下面的算力層,它是依托NVIDIA車端計算平臺DRIVE AGX及云端AI計算平臺共同打造的強大算力引擎;中間是系統層,它包括以多模態和端到端為核心的車端大模型,和以世界模型和大語言模型為核心的云端大模型。
基于端云協同的部署模式,配合絕影自研的模型服務框架及工具,實現系統性能的全量釋放,有效支撐最上面的應用層如自動駕駛、多模態交互、全時陪伴助理等多樣化的整車級智能化生態應用。
為打造領先的艙駕融合AI域,首先我們需要構建超大算力引擎,以賦能艙駕多元化的智能應用。NVIDIA Drive AGX平臺超大算力引擎技術支持雙芯方案,可實現大算力的翻倍擴展,提供安全的多域計算能力。
絕影在此基礎上根據功能相關性和功能安全等級的不同劃分出不同域,實現車身控制、端到端自動駕駛模型、多模態大模型、端到端語音模型等不同功能模型間的隔離保障,保障整車安全。
同時,超大算力引擎還具有高帶寬的特點,可容納約7個8B模型同時運行,配合絕影設計的AI Runtime Bus使得不同功能域運行的各個大模型在保障安全隔離的情況下也能高效通信。
扎實的系統支撐是基礎,而強大的模型能力能為車載應用開發帶來無限可能。
絕影專為車載場景定制化打造的原生流式多模態大模型,以其全場景多模感知、理解和推理能力,讓智能汽車有了類似人類的視覺、聽覺和觸覺能力,可將真實世界里包括語言、語音語調、表情、車載信號等豐富的模態信息以端到端優化的方式,準確感知和理解,并在OpenCompass多模態評測榜單中取得了第一的成績。
在應用部署上,絕影制定了端云協同的部署策略,通過意圖分流來進行任務在端云兩側的協同,當前場景任務有80%是在端側處理。端云協同的方式可覆蓋廣泛的場景交互,保證安全可靠、實時響應,并充分保障個人隱私安全。
艙駕融合的AI域打開了智能汽車的性能上限,是引領智能汽車走向AGI時代的必由之路。而絕影為加速智能汽車駛入AGI時代,也在“艙-駕-云”三方面打磨出了行業領先的技術與產品解決方案。
在智能座艙領域,絕影將推動其實現自我“叛逆”的進化。
慣性認知里,大家認為車機就應該是聽話和服從的。叛逆的進化,代表的是積極自主性,而不是對抗。這就是絕影為新一代智能座艙的人機交互打造的積極自主的座艙情感引擎「A New Member For U」,你的家庭新成員!
這個家庭成員,有三大特點:“察言觀色”“無時不在”“與你心有靈犀”。
讓我們來感受一下它的魅力。
我們的New Member不是一個聽話的工具,循規蹈矩的助手,而是提供主動溫暖關懷的“新成員”。比如,它會提醒小朋友少吃糖。他會主動學習,記得你的習慣、你的偏好。理解你,伴隨你成長。
「A New Member For U」,它將會成為你的家庭新成員!
絕影的座艙情感引擎New Member背后依靠的是我們的三大技術支撐:分別是車載類人記憶框架、持續運行框架和多模態大模型服務。
那我們先來講講車載類人記憶框架。在現實生活中,人和人是通過每一刻發生在你我之間的事情,產生了記憶,讓人和人之間產生了情感。不然你就不會記得別人是誰,人與人不會有鏈接。汽車也一樣。如果沒有記憶,就只是一個工具或助手,不會跟你有真正情感上的鏈接。
真正的智能汽車,必須要有記憶,才能與你心有靈犀!
絕影的汽車類人記憶框架,通過將“臨時記憶”和“長期記憶”融合形成“場景記憶”,做到重要信息的高效提取,為特定場景的決策和行動提供依據,賦予智能汽車真正的記憶能力。
我們的車載類人記憶框架,覆蓋人、車、物、環境四大類別,總共100多個記憶維度。動態記憶檢索,可以做到毫秒級!并且具有自成長的記憶迭代能力!
都說陪伴是最長情的告白,只有一直在你身邊,無時不在地為你準備著,才算是一個合格的NEW MEMBER。
絕影業內首創的Always-on持續運行框架,能做到零拷貝傳輸,并支持持續推理,推理速度高達96 tokens每秒,真正實現實時響應復雜場景。
絕影的New Member之所以能取得如此優異的性能,背后得益于絕影基于英偉達軟硬件能力開發出的新一代的AI推理加速引擎,它對于提升AI系統的性能和效率至關重要。
絕影聯合英偉達在算子開發、模型量化、精度支持等關鍵技術進行了一系列的深度開發與創新,從而實現GPU利用率從35%提升至 85%、低精度計算速度提升4倍、更長的視覺文本支持等一系列成績。
下面我來具體展示絕影AI加速引擎的關鍵技術:
第一個是絕影的Flash-decoding++技術,它可以充分利用空閑計算單元,極大提高解碼過程中并行的效率,從而在處理長文本的速度上提高超50%的效果。
第二個是絕影使用先進的Segment Prefill方案研發的一圖多問能力,使得多張圖片的多個問題盡可能復用先前計算的token,從而大幅度提升系統吞吐效果,將querys延遲性能提升超75%。
第三個是絕影的continue batching方案,在NVIDIA Drive AGX端側芯片上提升系統QPS能力,支持同一時間高效處理多達76個請求。實現用戶駕駛體驗提升的同時,還確保了行車過程中的安全性和便利性。
在保障以上技術性能領先的過程中,絕影對保障數據隱私的關注是始終不變的重要考慮。在保護用戶隱私上,我們有三個原則:數據跟人走、隱私數據不出車、不該說的不說。并且我們還打造了隱私保護體系,確保用戶隱私滴水不漏。
如果說,A New Member For U,給智艙以溫度,讓每一次出行溫暖愉悅。那么智能駕駛,會讓我們的出行更自由。
絕影最早在2022年提出行業首個端到端架構UniAD,并獲得了CVPR 2023最佳論文的認可。這是我們的UniAD技術的實車部署,在復雜路況下也能實現卓越的行駛效果。它不依賴高精地圖,也不依賴激光雷達,僅通過7個攝像頭的低成本傳感器方案,就能夠以老司機的實力靈活在各種復雜場景中穿梭自如,獲得「類人」駕駛體驗。
去年11月,絕影正式發布了基于全球領先端到端UniAD技術打造的,量產端到端智駕方案。這個方案基于NVIDIA Drive AGX平臺的MIG技術,實現了端到端和傳統規則的雙系統實時運行,助力更好的對行車過程中的問題進行及時校驗和處理。
影在此基礎上充分發揮雙系統協同的作用,設計了首個量產級的、極致安全的端到端智駕解決方案,能在保障整體對復雜場景交互的基礎上,保障行車安全。
同時在NVIDIA Drive AGX的高精度支持和絕影的方案設計配合下,模型不需要轉成整形運算就可以直接運行,避免了量化過程導致的精度損失,提升了開發迭代效率,有效縮短開發周期。目前我們正和中國某頭部車廠合作量產UniAD解決方案的量產落地。
同時,我們還研發了新一代融合多模態大模型的端到端智駕方案,依托多模態大模型強大的感知和推理能力,能夠更好的應對復雜場景,不斷提升整車智能的上限。
數據驅動的端到端技術的演進,需要海量高質量數據的支撐。當前特斯拉擁有超7百萬輛高階智駕量產車來實現數據回傳,中國車廠與特斯拉相比具有一個數量級的差距,想要追趕上必須要通過全新的模式來革新數據基礎設施。
絕影依托在自動駕駛和多模態大模型領域的積累,在去年年底絕影日上率先提出用量產實車采集真實數據,用世界模型生成仿真數據,形成雙輪驅動,“車云一體”的數據閉環新范式。
基于英偉達云端算力引擎,絕影打造了行業領先的世界模型“開悟”。
“開悟”可以理解真實世界中的“物理法則”和“交通規則”,并在此基礎上,能夠生成“準確”的場景,具體來說,我們生成的視頻,是11V時空一致的,時間最長可以達到150秒,分辨率能夠達到1080P;同時,“開悟”生成的場景也是可控的,能細微到“元素級別”,生成場景非常精細,完全滿足端到端模型訓練和仿真對于數據質量的高要求。
大家可以先看一下我們的世界模型生成的視頻。這些視頻里面,晴天下周邊環境的投影、夜間車輛近光燈的投射,都符合物理法則,真實呈現。這是因為「開悟」通過海量數據學習,懂得了光學原理這些物理法則。同時,「開悟」還學會了交通規則,視頻中的車輛剎車時會適當保持車距,在交通信號燈的指示下合理啟停。
真實只是基礎,世界模型要生成更加準確場景,需要保證多視角的時空一致性。這是「開悟」,行人車輛3D框和時空軌跡,作為精準的輸入控制信號,生成的11V視頻數據。
同時生成的視角越多,要保持時空一致性就越難,而這11V視角還包括了4個魚眼攝像頭,模型要準確仿真出魚眼視角的畸變。「開悟」做到了11V,可以靈活滿足從1V到11V的各類場景的訓練需求。
「開悟」生產數據的效率很高。對比行業平均水平,我們進行了一個測算,基于1張 A100 GPU,「開悟」世界模型平均每天可以生成大約20,000個bundle,相當于10臺真值車,或100臺路測車的數據采集能力,比得上500臺量產車的效率。
此外,「開悟」能夠支撐端到端智駕系統迭代的數據閉環,構建“與自車實時互動”的閉環仿真環境。
具體方案是,第一步,是路測新問題的發現,右上角邊的視頻就是我們在測試中,發現車輛向左并線是更好的選擇,但它沒有這么做,需要訓練優化,我們先用仿真,精準還原了這個場景。
第二步,針對失效案例,生成端到端訓練數據。中間部分能看到,我們依賴世界模型中仿真智能體,實現足夠多樣化和真實的場景推演和專家軌跡生成,生成并線博弈場景數據、專家軌跡數據、對應的訓練數據。
第三步,進行端到端仿真迭代驗證。我們可以看到,底下的畫面是訓練后,在相同場景下,系統選擇向左并線,通行效率提高。
此外,隨著近期基于強化學習的大模型訓練的思路得到驗證,絕影創造性地提出了“與世界模型協同交互的端到端技術路線R-UniAD”。通過“開悟”世界模型生成在線交互的仿真環境,以此進行端到端模型的強化學習訓練。基于該范式可以大幅降低端到端模型訓練的數據門檻,并在充分探索各種可能性的基礎上有望實現遠超人類的駕駛表現。
以右邊的碰撞場景為例,我們可以看到R-UniAD在復雜交互場景中,通過長思維鏈有效提升推理效果,最終自行領悟到在該場景下如何進行合理避讓,克服了訓練前期容易碰撞的問題。
當前,基于英偉達平臺,我們領先的艙駕產品,已賦能多家行業領先車企。
座艙方面,我們已于去年底在某國內頭部車企上量產首個座艙情感引擎NewMember,并且能力還將快速迭代升級;智駕方面,全球最佳UniAD端到端技術的首款車型也將于今年量產落地,敬請大家期待。
面向未來,絕影將與英偉達聯手構建的艙駕融合產品應用生態。在今年,絕影將實現艙駕融合AI域的構建,并進行多元化的艙駕融合產品的研發和打磨。明年,絕影將攜手英偉達完成艙駕融合產品在各大車廠的量產落地,并推動智能汽車向朝著超級智能體持續進化,加速智能汽車駛入AGI時代。
絕速影領,智進未來!讓我們一起奔赴AGI的曠野!
謝謝大家!
-
人工智能
+關注
關注
1801文章
48224瀏覽量
243157 -
智能汽車
+關注
關注
30文章
2950瀏覽量
107906 -
商湯科技
+關注
關注
8文章
532瀏覽量
36414
原文標題:王曉剛:商湯絕影引領智能汽車進入AGI時代 | GTC 2025
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
研華科技亮相NVIDIA GTC 2025大會
NVIDIA GTC 2025精華一文讀完 黃仁勛在GTC上的主題演講

華為李捷亮相MWC 2025并發表主題演講
NVIDIA GTC 2025大會即將啟幕
華為馬亮出席MWC 2025并發表主題演講
華為荀速亮相MWC 2025并發表主題演講
華為趙振龍亮相MWC 2025并發表主題演講
華為陳浩亮相MWC 2025并發表主題演講
華為李鵬亮相MWC 2025并發表主題演講
NVIDIA GTC 2025大會預告
NVIDIA CEO黃仁勛在 SIGGRAPH 2024 主題演講中或將首次亮相消費級GPU Blackwell

評論