2023 年廣州車展,又是煙花繚亂的新車上市,想到半年前的上海車展,一樣的百花齊放,所有車企用盡辦法留住客戶的目光。
但是似乎這半年,似乎什么都沒有發生,層出不窮的產品,不斷新品被轉移的注意力和被迫加入價格戰的各大車企。
半年前的話題是什么?
新勢力會的我們三年就學會了,我們會的新勢力永遠學不會。
德國大眾看完國內車企功能之后,火速解雇自家軟件公司 CEO。
年底百城,全國都能開城市 NOA。
可見即可說。
半年過去了,智能電動汽車的智能真的到來了嗎?多一個功能,多一種控制車的方式,就可以稱之為智能電動汽車變革了嗎?
很顯然不是,這些都只是智能汽車的表象變化。
所以廣州車展,車企宣傳的方式與上海車展幾乎沒有區別。
真正的智能,一定是從 AI 底層去思考。多一種交互方式不是真正的智能,就像人類,智慧是靠大腦決定的,而不是靠四肢。
很遺憾的是,很多車企強的是四肢的執行,而不是大腦的智慧的演進。
但是最近發布的極越 01 喊出的口號是「未來十年的車,都會有極越 01 的影子」。
那差異在什么地方,百度這么多年的 ALLIN AI, 又能給智能汽車提供什么能力?
如果我們希望真正的智能出現在汽車內,車企們需要做什么?
在回答這個問題前,我想先探討下智能的定義,為什么人工智能 發展了這么多年,直到 ChatGPT-3.5 橫空出世,學術界才認為 AI 步入爆發期。
01
人工智能的質變
很多人會給出一個答案:大模型。
可惜的是,這個答案的定義本身就不夠清晰。什么是「大模型」,沒有一個準確的定義。
我們可以給出一個模糊的定義:
我們通常所講的大模型,比如 ChatGPT,文心一言,所指的是大型語言模型(LLM,Large Language Model),也就是比較「大」的神經網絡語言模型。
這個「大」主要指模型結構容量大,結構中的參數多,用于預訓練大模型的數據量大。
一個大模型可以分三個層次:算法(模型結構)、模型參數(數量和數值)、訓練數據。
但是大是一個相對概念,并沒有一個標準的定義,而我們常說的以 ChatGPT 為代表的 LLM,也只是一個 Large Language Model 的模糊定義。
例如下圖中的模型參數,我們可以看到 GPT-3 的模型參數量已經高達千億,但是 GPT-3 出現時,并沒有引發大量的關注,人們認為這不過是一個巨量參數的模型罷了。
模型參數沒有策略地變大,其實沒有帶來真正的變化。
直到 GPT-3.5,在模型參數沒有顯著變化基礎上。
OpenAI 首次在 GPT-3 之上用人類反饋去微調模型,使得模型與人類期望相符。
團隊尋找了許多具有較高認知水平的標注員,來保證人類反饋的合理性;并且根據人類標注員的反饋訓練了一個獎勵模型,基于這個反饋模型來讓數據的標注更加趨近人類的感受。
這里的核心是:
從訓練的過程中,就保證模型正在往滿足人類偏好的方向進行演進。
這是從構建過程中就產生的本質變革,不僅是大量書籍,也包括大量人類的反饋。
就像一個學生,學習了大量書本知識之后,還需要在社會中進行歷練,才能真正成長為一個有價值的角色。
這是催生 ChatGPT 產生人工智能質變的關鍵鑰匙。
巨量數據訓練的模型讓 ChatGPT-3.5 產生了足夠的歸因和推理能力,甚至擁有自我決策的能力。
早期參加一個 AI 論壇時,一位業界大牛舉了很好的例子:
如果你問 ChatGPT,找出下面的不同的一項:狗,卷心菜,恐龍。
它可以給出自己答案。
卷心菜:蔬菜和動物的區別;
恐龍:已滅絕生物的區別。
這是 AI 的質變時刻,擁有了自己的決策和歸因能力。
探討完 AI 的變革,我們將目光回到汽車上,什么代表著汽車智能的質變?
02
汽車智能的模樣
傳統的汽車是基于按鍵進行操作的,以人類的思考為核心,擁有外化的執行能力,例如按下一個鍵空調會打開,可以打開車窗。
這是以服從和執行為基礎的人機交互方式,并不具備任何的決策和理解能力。
現在大部分智能汽車,依然遵循著這種邏輯,無非是將實體按鍵整合到屏幕上,并沒有產生實質的變化,因為并不具備決策和理解能力。
那汽車智能的質變時刻是什么?
這個問題依然不好回答,我想起 OpenAI 最近剛剛推出的一款智能硬件 AI PIN。
這是由 OpenAI 提供技術支持的可穿戴設備,專為與大型語言模型交互而設計。
這款設備允許用戶通過說話,來撥打電話、發送短信和搜索信息,還擁有激光顯示屏,直接將手掌變成一個迷你屏幕。
「AI Pin 為人們提供了一個機會,可以隨身攜帶人工智能」
AI PIN 內置的模型來自于 OpenAI,擁有與 ChatGPT 一樣的上下文理解能力,歸因能力。
為了讓人類與科技的關系真正超越屏幕,我們需要一些完全不同的東西?!笻umane 聯合創始人 Chaudhri 說道。
這款新硬件的未來似乎并不明朗,有質疑也有支持,支持者認為這就像第一代 Ipod,為智能手機變革奠定了基礎。
但是由此可見,以 AI 為核心的交互模式,不再局限在某個屏幕上的下一代智能硬件范式,幾乎成為共識。
硅谷的科技精英們,正在以此為信條,構建以 AI 為核心的智能硬件。
如果我們現在將汽車作為一種硬件來看待,那么實際上,真正的智能汽車,也應該遵循下一代智能硬件范式,以 AI 為核心。
真正理解用戶的意圖,并且通過用戶的行為推理出合適的操作,滿足用戶的需求。
AI 不是一種達成某個功能的手段,而是所有功能的底座。
那么如果以此為界,極越是否真的做了一些思考和變革?
03
極越的智能座艙變革
百度在智能化的長期投入幾乎都在極越上得到了體現,不論是 10 年之前,百度大范圍的科研投入放到自動駕駛;9 年前推出的小度;還是 6 年前,百度徹底轉型 AI 和人工智能;亦或是 4 年前,他們與國外同期搭建了學習型的文心大模型,以及兩年前文心一格等 AIGC 內容生成應用的出現,直到今年三月「文心一言」的橫空出世。
極越獲得了這些內容的深度加持,極越承載的使命是將百度這些能力具象到真實世界,與用戶進行真實的交互。
所以在車型設計之初,極越就確立了以 AI 為核心的理念,也喊出了汽車機器人的口號。
不只是屏幕
極越是第一批搭載最新高通 8295 芯片的車型,這是為了保證整個智能座艙大腦能在足夠的算力上運行,也為了保證百度的智能生態應用都能有機會在車上運行。
這是基礎。
保證了算力基礎,再加上百度業界領先的智能化水平,那就到了執行層面,如何讓智能座艙與用戶進行更加順暢的交流和響應。
極越的邏輯是:既然以 AI 為核心,那么就可以從「自然交流」出發,讓汽車從傳統的生產生活工具。
這里面有個核心點,如何構建一個「合理」的人機交互系統。
托起這套系統有兩個點,一個是外化的硬件;另一個是底層軟件。
硬件好理解,而軟件就比較有有意思,這里講的不是應用層,而是算法層,想要人機達到「自然交流」,首先要做到「全場景」。
以語言能力舉例,現在座艙語言大部分都是基于在線語言模型,但如果是無網絡狀態下語音的使用會大打折扣,而極越的本地離線語音模型。
一般來講,語音識別系統由幾個部分組成:將音頻片段(通常為 10 毫秒幀)映射到音素的聲學模型、將音素連接起來形成單詞的發聲模型,以及一個表達給定模型的語言模型。
在早期系統,這些組件是相對獨立優化的。
2014 年左右,谷歌研究人員開始專注于訓練單個神經網絡,將輸入音頻波形直接映射到輸出句子。
通過在給定一系列音頻特征的情況下生成一系列單詞或字形來學習模型,這種 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell(LAS)模型的誕生。
雖然這些模型在準確性方面表現出極大的前景,但它們通常會檢查整個輸入序列,并且在輸入時不允許輸出,這是實時語音轉錄的必要特征。
同時,一種稱為 connectionist temporal classification(CTC)的技術有助于減少當時識別系統的延時問題。
這對于后來創建 RNN-T 架構是一次重要的里程碑,也被看作是 CTC 技術的一次泛化。
CTC 其全稱為 Connectionist Temporal Classfication,由 Graves 等人于 2006 年提出,用于訓練 RNN 以解決時序可變的序列問題,它可用于在線手寫識別或識別語音音頻中音素等任務。
發展到如今,CTC 早已不是新名詞,它在工業界的應用十分成熟,到了 2021 年 例如,在百度早在 2019 年公布的在線語音模型在 CTC 的基礎上還融合了 Attention。
與谷歌關注移動端推斷不同,百度的語音識別更關注在線的實時推斷,他們提出了一種名為「流式多級的截斷注意力(SMLTA)」模型。
SMLTA 模型最核心的概念是利用 CTC 模型的尖峰對連續音頻流做截斷,然后在每個截斷的小語音片段上進行注意力建模。
這種模型利用了截斷多級注意力對長句建模的優勢,同時也解決了 CTC 模型的插入或刪除錯誤對注意力模型的影響。
此外,它采用的是一種局部注意力機制,因此能做到實時在線推斷。
百度的 SMLTA 主要用于在線語音識別,但通過對 Deep Peak 2 模型的大量工程優化,它也能提供離線語音識別。
而離線語音模型主要解決了兩個重要問題:「通信網絡的延遲」和「固有的不可靠性」。
因此,為什么極越 01 可以做語音變道?
核心是,8295 + 免喚醒 + 識別速度足夠快。
所以極越 01 幾乎取消了所有的實體按鍵,以語音作為交互方式,就像與副駕的自然交流一樣。
直接通過語音告訴 Simo 你要做的事情。例如副駕可以說需要開門,此時只有前方右邊車門會被打開,這在其他車型上是難以看到的。
實體按鍵帶來的直接反饋,極越的語音助手真的能夠完全取代嗎?
基于大模型帶來的強大的語音理解能力,我認為極越 01 做到了。
不僅如此,極越拓寬了語音伙伴的陪伴范圍,不僅僅在座艙內,也在座艙外。
通過聲紋識別之后,用戶可以在車外要求打開車門,這里面比較有意思的是泊車,極越的能力是:泊車時如果有行人擋住車輛進退路線,視覺感知到后也會車外語音和行人說「正在泊車,請讓一讓」。
這個功能很容易被理解成「炫技」,但為了炫技在車上增加幾個外擴揚聲器,以及讓工程團隊花絕對的時間去開發,這在整個汽車行業成本控制都趨于極限的條件下,顯然不合理。
那答案就顯而易見了,外部語音提醒在低速泊車場景里有其真實的安全冗余。
低速泊車場景和高速行車不同,除了目前是兩套技術棧,還有就是場景不同帶來的行車策略區別,低速場景里的參與者和復雜度往往并不低,對于感知識別和車控精度要求甚至更高,特別是盲區范圍和數量更多。
而且將語音同智駕做融合要涉及底層開發,我們都是知道極越 01 是浩瀚平臺上的產品,夏一平說過,浩瀚為我們提供了一個強有力的四肢,但極越自己定義了大腦,這個大腦具體是指,從底層自研的電子電氣架構到域控能力一體化,再到先進算法所組成的智能化能力。???????????
這套架構還進一步打通了智駕域和座艙域,實現了高速和低速泊車環境下的語音指令功能。?????????????
比如,PPA 開啟時可以通過語音實現變道指令,泊車時可以通過輔助駕駛的感知系統,實現對外部行人的識別。???????
簡單說就是,智駕域要給智艙域控制器發一個信號,說有個人在泊車行車路線上,讓系統通過語音去跟這個人交互,說讓他讓一讓。
此時,這個人讓行之后繼續給車輛 AVP以及環視感知指令去做泊車。
其實就一句話:實現「正在泊車,請讓一讓」這句話,是需要很多工程能力的,同時它是一套安全策略。
極越后期還會 OTA 更多與車外交流的能力。
當產品的核心不再是簡單加上一些屏幕,減少一些按鍵,而是對整個交互方式進行重新思考時,才會有新的座艙體驗。
04
智能化的想象
極越邁出了以 AI 為核心的第一步,那么未來還會有哪些可能的變革?
目前智能座艙還在一種無序的狀態,每個廠商都有自己的理解,每個廠商都有著一個自己的產品形態,實質是沒有構建出一種新的產品體系,像是大爆炸前的混沌宇宙。
如果我們希望我們的智能化伙伴能夠真正理解我們的需求,那么就需要更多與它們交流的時間和場合;就像我們希望交到一個真實的朋友,那么我們需要更多時間與他相處,更多真實情感的交流。
這種全天候的陪伴,極越開始做了。
通過小度上車,SIMO 可以與小度共享同一個主人,共享主人的偏好,更能理解用戶的需求。
打通 SIMO 與智能家居的的互聯互通。
例如:停好車之后自動打開家里的空調,上電梯之后,車輛自動開到電梯口來接你,通過小度與家里人直接對話。
這些普通的新勢力是無法完成的,整個家居生態它們并不滿足,目前看華為、小米、極越更加完整,也擁有更多未來的拓展的可能性。
什么是智能汽車的未來?
最近人工智能圈有一個熱詞:具身智能。
有別于傳統的人工智能概念(如 ChatGPT),強調具有真實世界的物理實體,但也有別于傳統機器人行業,強調具有足夠的自我決策和歸因能力。
當我看到極越 2022 年將汽車機器人作為主要宣傳方向時,我知道極越不將自己局限在一個汽車概念上,而是擁有足夠的智能化能力,只是汽車作為物理形態的一種產品。
這與 2023 剛流行的具身智能的概念不謀而合,是一種全新的產品定義方式。
我們可以期待一下,跳脫出汽車概念的極越,在人工智能變革的當下,還能帶給我們哪些驚喜?
-
智能化
+關注
關注
15文章
4940瀏覽量
55630 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239627 -
智能汽車
+關注
關注
30文章
2887瀏覽量
107462
原文標題:智能化的想象
文章出處:【微信號:nev360,微信公眾號:焉知新能源汽車】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論