“ 俞凱是上海交大教授,同時是思必馳聯合創始人/首席科學家,他平時出席技術性質的活動,他坦言思必馳是一個技術型驅動的公司,要做一個語音場景方案提供商,不做面向C端的產品。這篇文章講述關于思必馳在定位思考、市場觀察、技術落地等想法,這篇文章帶你更深入地了解思必馳。
億歐:對于思必馳這種創業型企業,之前對外公布主要發力車載后裝市場,究竟車載前裝市場對比后裝市場有多大呢?
俞凱:進入車載前裝市場是公司的節奏問題,前裝跟后裝最大的區別在于后裝出品速度快,前裝車廠往往會比較嚴格地審核,出品周期比較長,目前思必馳已經在對接前裝市場,但是要看到產品,估計要等上一年甚至兩年的時間。
科大訊飛自己做車載前裝語音已經做了幾年時間,能否進入前裝市場不是一個技術問題,更多的是產品對接流程耗時問題。前裝比后裝要求更多,前裝需要跟車型匹配、生產鏈條、特殊的場景測試等,對接工作量是巨大的,所以從后裝市場進入前裝市場對于思必馳而言只是節奏問題。
像寶馬和奧迪等公司也會跟我們去溝通車載語音前裝對接的事情,前裝汽車廠商不會綁定一個產品供應商,前裝市場的迭代周期跟后裝有很大的不同,思必馳并不著急,進入前裝語音廠商只是時間問題。
從市場占比上,車載硬件大部分都是后裝市場,如果從起量上講,后裝市場是更大,但是從價值收入角度講,前裝的售價是比后裝要高。
億歐:思必馳的企業定位?
俞凱:人工智能大體有三個不同的層次,第一種是專門做模塊、底層技術的傳感器公司,第二種是專門做人工智能技術的平臺,第三種是專門做人工智能應用級別的產品公司,思必馳是第二種。
思必馳希望把研發的底層技術和語音交互經驗提供給車載產品廠商或者系統集成廠商,而產品廠商只需要關注滿足市場剛需的產品,這是智能語音車載行業的上下游分工。思必馳的定位是非常明確的,不做具體的應用級產品,只做語音技術平臺。
定位是在發展過程中摸索出來的,最初我們也在手機語音上做過嘗試,但是并不成功,在2013年做過探索,做出來之后發現并不核心,做出來都是免費的,沒有收費模式。而做智能硬件的語音模塊,第一,這是剛需,第二,這是有營利模式的,手機上的語音模塊并不是剛需,因為你有文字輸入等替代手段,在硬件交互過程中,對于復雜信息交互(比如問路、聽歌、購物),除了語音交互,沒有其他替代手段,當我們發現這個點才是真正有意義的,把精力全部投進去。
億歐:車載語音產品在技術上還有多大的發展空間呢?
俞凱:語音技術層面還有兩塊可提升的。
①對接認知功能,語音目前解決了“有無”的問題,但全世界都沒有解決“好壞”的問題和對接深度的問題,目前很多車載硬件都可以搜索餐館,但是做不到語音訂餐和訂座,這是語音模塊和功能模塊的對接深度問題。
這涉及到多輪交互的問題,我們下一個發展目標,在車載情況下,實現非配合、自由、多輪交互。目前為止,這只是一個概念,并沒有很好的解決方案。無論在國內還是國外,思必馳有在比較深入對這個問題進行研究。
②第二塊突破在車載設備上,無論是車載后視鏡還是其他車機,有的是安卓系統、有的是winCE系統;在配置上也不同,有的是1個麥克風,有的是多個麥克風,這些并不統一。
車載內部是一個噪聲環境,對降噪處理仍然有很大的技術提升空間,在車內空間,簡單撥號操作是沒問題的,但是完全自由對話、多人對話,比較復雜的情況仍然不能很好解決,雖然這些需求并不高頻,但對于成熟的車載設備是必須要有的。
億歐:科大訊飛總部在安徽合肥、思必馳的總部在蘇州,人才引入跟地區是否有關系呢?
俞凱:語音行業的技術鏈條特別長,適口人才要求懂的東西特別多,懂語音的人要懂信號處理、模式識別、認知、語音、心理學、計算機科學等,需要走的鏈條特別長。同時語音人才團隊要求規模化,擁有一支語音基礎研究團隊特別重要,但凡能成為語音技術平臺型企業的,背后都要有一支基礎研發團隊。
而語音是研究鏈條特別長,沒有基礎人才,是沒有辦法做以技術驅動型公司的,沒有基礎技術團隊,最后只能做一個靠產品取勝、商業模式取勝、設計取勝的產品型公司,想要靠技術跟別人拉開差距,沒有基礎研發實力,光靠工程師,不能跟國際前沿走在一起的。
科大訊飛在安徽,是比較偏的地方,思必馳在蘇州,也不在北上深,都有一個特質,背后有一支國際級的研究團隊,科大訊飛依托中國科技大學的語音語義實驗室,這里不單聚集中國科技大學工程系做語音的人,還集聚了計算機系做自然語言處理的人。
思必馳跟上海交通大學成立了思必馳上海交大實驗室,實驗室聚集了聲學、語言到認知研究人員,聚集了計算機系的人才做支撐,同時我是上海交大的教授,能夠把最好的技術快速應用到產品上。比如說今年能夠將語音識別的速度提高3-4倍,這是一種引領。
億歐:昆仲資本姚海波說過,在人工智能領域,只投產品型公司,而基礎性研究要交給BAT,對于像思必馳這樣一家創業型公司而言,著力基礎研究會不會過重呢?
俞凱:產品公司的業績來得快,由于沒有后續的技術支撐,掉下去也快,技術平臺企業成長比較慢,一旦起來就成為核心入口,人工智能是一個顛覆性的產業,它的出現正是產業重組的時候。
目前語音搜索最強的百度嗎?其實不是。PC端所產生、積累的數據是沒有辦法轉到語音端,在比拼的時候要落實到具體場景下,在車載環境下能夠抗噪的數據,思必馳比百度要多,PC所產生的數據是用不到車載環境下的。
人工智能產生了產業顛覆性的機會,使得數據類型和形態都變得不一樣,車載場景下,思必馳做得早,有基礎,占據了一定的優勢。人工智能影響的領域很多,思必馳在這塊有80個基礎研究人員,如果按照資源投入來看,思必馳在語音領域的投入很大。
語音交互在細分市場上,可能出現新的數據聚集,新的技術平臺,從而產生新的機會,在這樣的機會面前,創業型公司和大公司是平等競爭的,在這個競爭中,創業型公司由于專注,在局部力量上反而有優勢。
億歐:思必馳目前有一塊是面向智能家居的,從空調、冰箱、電視都喊著要裝語音模塊,有這個必要嗎?這個行業是否已經過熱到產生偽需求呢?關于語音入口論的問題,多入口導致重復建設,你更贊成單一入口還是多入口?
俞凱:語音智能發展到現在,應用場景比之前多了,出現偽需求是肯定的。在智能手機之前,諾基亞的功能機都有語音撥號,當時的語音識別爛得根本不能用,就產生偽需求,表現在雖然不好用,但是你有我也要有。
對于什么是偽需求?什么是真需求?這往往是需要靠時間來驗證的,真需求是在用戶體驗當中被磨礪剩下的需求,沒有人能夠一開始就判斷需求的真偽。
拿語音入口而言,有人認為音樂盒子是智能家居的語音入口,做電視的人又認為電視是智能家居的語音入口,做節能燈的人又認為電燈是智能家居的語音入口,大家都想往這個方面靠。
我們能確定的是兩點:
①肯定有偽需求存在;
②里面一定會有真需求,這原理是智能家居智能化趨勢是沒錯的,更多企業加入到大浪淘沙競爭中,產品公司需要判斷和找尋真需求,而思必馳是給予所有可能需求提供語音基礎服務,為所有可能需求提供一個技術型的平臺,思必馳是一個產業能力、基礎能力的提供商。
億歐:在2017年,思必馳對機器人、智能家居、智能車載三個模塊的銷售預期判斷。
俞凱:2017年銷量還是以車載為主,以增量的相對幅度來講,應該會是智能家居,因為車載在經過2015-2016年的發展總量已經很大了,所以相對增量不會很大。
從2016年3月-9月的增速情況觀察(后臺語音模塊的調用次數判斷),車載語音模塊月度增速大概在97%,而智能家居的月度增速大概在120%。車載市場已經趨于穩定,明年家居的增速會超過車載,車載的增速已經降低,這是因為車載市場成熟已經兩年了,并且車載語音的存量基數大。而智能家居對語音模塊接受高,出貨量比較大。
億歐:語音識別從去年的95%提升到97%,而自然語言處理和語義理解發展比較緩慢,請問技術難在哪個點上?思必馳這邊是否有布局?
俞凱:希望同行不要過度夸大語音的識別度,在特定場景下達到97%甚至高于97%是沒有問題,但是一般場景下,或者抗噪場景下,識別率是達不到97%的。
思必馳所做的是對話技術,不僅包括語義理解,還包括機器的決策和機器的反饋,人的說話分兩塊,第一是我說話你明白了,第二是你明白了之后你知道下一個問題問什么,這是兩個不同的東西,思必馳兩塊都在做。
目前在國內對語音的識別有專業的評測方式(通過語音轉化文字的準確率),但是語義理解沒有標準的評測方式,如果需要數字評價,在特定領域都能達到97%的精確度,但是在廣泛的領域,并沒有達到上面的準確率,這是事實。
在非配合情況下,在語音識別錯誤情況下,如何做有容錯的語義理解?在國內、甚至國際做這塊研究的人幾乎都在上海交大語音實驗室。
億歐:國內和國外的語音差距?
俞凱:在算法上講,國內的水平已經不比國外差,一方面是產業的推動,另一方面是原本在國外留學的人都逐漸回國參與研發,不過在原創能力上講,相對國外還要弱一點,我們主要的能力是大量吸取國外技術,然后改良型的小創新,一些本質性的創新比較少。思必馳和科大訊飛都做出了一些全球領先的算法模型廣泛被得到認可,改良型創新是超過國外的。
對于人工智能的定義,對于語音識別的發展,隨著產業化的進程與發展,一些陌生的名詞逐漸熟悉起來,一些原本被認為是“騙子”的技術跟“狼來了”一樣在多次被解讀后,真實進入到生活場景中,語音模塊的產業鏈條逐漸完備,從傳感器公司、語音數據交易平臺、到語音技術方案提供商、產品系統集成商、產品型公司等。
從行業種類來分,無論是TO B的語音應用(醫療、客服),還是TO C的語音應用(車載、家居、機器人)都會逐漸被細分化,我們期待2017年語音的市場教育和產品更加成熟。
-
智能家居
+關注
關注
1928文章
9606瀏覽量
186122 -
人工智能
+關注
關注
1795文章
47642瀏覽量
239772 -
智能語音
+關注
關注
10文章
789瀏覽量
48858
發布評論請先 登錄
相關推薦
評論