四虎最新永久在线精品免费,亚洲免费在线视频,亚洲欧美日韩国产精品一区

時(shí)間：這篇真的太長(zhǎng)了（近3萬(wàn)字）根據(jù)預(yù)覽同學(xué)們的反饋，通常第一次閱讀到Part 3時(shí)，會(huì)消耗很多精力，但讀完P(guān)art 3才發(fā)現(xiàn)是精華（同時(shí)也是最燒腦的部分）。請(qǐng)大家酌情安排閱讀時(shí)間。

可讀性：我會(huì)在內(nèi)容里邀請(qǐng)你一起思考（無(wú)需專業(yè)知識(shí)），所以可能不適合通勤時(shí)間閱讀。你的閱讀收益取決于在過(guò)程中思考的參與程度。

適合人群：對(duì)話智能行業(yè)從業(yè)者、AIPM、關(guān)注AI的投資人、對(duì)AI有強(qiáng)烈興趣的朋友、關(guān)心自己的工作會(huì)不會(huì)被AI代替的朋友；

- 關(guān)于“人工智障”四個(gè)字-

上一片文章發(fā)出后，有朋友跟我說(shuō)，標(biāo)題里的“人工智障”這個(gè)詞貌似有點(diǎn)offensive。作為學(xué)語(yǔ)言出身的，我來(lái)解釋一下這個(gè)原因：

最開(kāi)始呢，我是在跟一位企業(yè)咨詢顧問(wèn)聊人工智能這個(gè)賽道的現(xiàn)狀。因?yàn)閷?duì)話是用英語(yǔ)展開(kāi)的，當(dāng)時(shí)為了表達(dá)我的看法 “現(xiàn)在的智能助理行業(yè)正處在一種難以逾越的困境當(dāng)中”，我就跟她說(shuō)“Currently all the digital assistants are Artificial-Intelligently challenged”。

她聽(tīng)了之后哈哈一笑。“intelligently challenged”同時(shí)也是英文中對(duì)智障的委婉表達(dá)。假設(shè)不了解這個(gè)常識(shí)，她就可能忽略掉這個(gè)梗，盡管能明白核心意思，只是不會(huì)覺(jué)得有什么好笑的。那么信息在傳遞中就有損失。

寫(xiě)文章時(shí)，我把這個(gè)信息翻譯成中文，就成了“人工智障”。但是因?yàn)橹形恼Z(yǔ)法的特性，有些信息就lost in translation了。比如實(shí)際表達(dá)的是“一種困境的狀態(tài)”而不是“一件事”。

（順便說(shuō)一下，中文的智障，實(shí)際上是政治正確的稱呼，詳見(jiàn)特殊奧運(yùn)會(huì)的用詞方法。）

為什么要寫(xiě)那么多字來(lái)解釋這個(gè)措辭？因?yàn)椴煌娜耍匆?jiàn)相同的字，也會(huì)得到不同的理解。這也是我們要討論的重點(diǎn)之一。

那么，我們開(kāi)始吧。

Part 1

對(duì)話智能的表現(xiàn)：智障

Sophia inAI for Good Global Summit 2017.Source: ITU

2017年10月，上圖這個(gè)叫Sophia的機(jī)器人，被沙特阿拉伯授予了正式的公民身份。公民身份，這個(gè)評(píng)價(jià)比圖靈測(cè)試還要牛。何況還是在沙特，他們才剛剛允許女性開(kāi)車(chē)不久（2017年9月頒布的法令）。

Sophia經(jīng)常參加各種會(huì)、“發(fā)表演講”、“接受采訪”，比如去聯(lián)合國(guó)對(duì)話，表現(xiàn)出來(lái)非常類似人類的言談；去和Will Smith拍MV；接受Good morning Britain之類的主流媒體的采訪；甚至公司創(chuàng)始人參加Jim Fallon的訪談時(shí)一本正經(jīng)的說(shuō)Sophia是“basically alive”。

Basically alive. 要知道，西方的吃瓜群眾都是看著《終結(jié)者》長(zhǎng)大的，前段時(shí)間還看了《西部世界》。在他們的世界模型里，“機(jī)器智能會(huì)覺(jué)醒” 這個(gè)設(shè)定是遲早都會(huì)發(fā)生的。

普通大眾開(kāi)始嚇得瑟瑟發(fā)抖。不僅開(kāi)始擔(dān)心自己的工作是不是會(huì)被替代，還有很多人開(kāi)始擔(dān)心AI會(huì)不會(huì)統(tǒng)治人類，這樣的話題展開(kāi)?！拔磥?lái)已來(lái)”，很多人都以為真正的人工智能已經(jīng)近在咫尺了。

只是，有些人可能會(huì)注意到有些不合理的地方：“等等，人工智能都要威脅人類了，為啥我的Siri還那么蠢？”

Source:Dumb And Dumber: Comparing Alexa, Siri, Cortana And The Google Assistant, Forbes, May 2018

我們來(lái)看看到2018年末在對(duì)話智能領(lǐng)域，各方面究竟發(fā)展的如何了。

“不要日本菜”

我在2016年底做過(guò)一個(gè)測(cè)試，對(duì)幾個(gè)智能助理提一個(gè)看似簡(jiǎn)單的需求：“推薦餐廳，不要日本菜”。只是各家的AI助理都會(huì)給出一堆餐廳推薦，全是日本菜。

2年過(guò)去了，在這個(gè)問(wèn)題的處理上有進(jìn)展么？我們又做了一次測(cè)試：

結(jié)果是依然沒(méi)有解決?！安灰眱蓚€(gè)字被所有助理一致忽略了。

為什么要關(guān)注“不要”兩個(gè)字？之前我去到一家某非常有名的智能語(yǔ)音創(chuàng)業(yè)公司，聊到這個(gè)問(wèn)題時(shí)，他家的PM顯出疑惑：“這個(gè)邏輯處理有什么用？我們后臺(tái)上看到用戶很少提出這類表達(dá)啊。”

聽(tīng)到這樣的評(píng)論，基本可以確定：這家公司還沒(méi)有深入到專業(yè)服務(wù)對(duì)話領(lǐng)域。

場(chǎng)景方面，一旦深入進(jìn)服務(wù)領(lǐng)域里的多輪對(duì)話，很容易會(huì)遇到類似這樣的表達(dá) ：“我不要這個(gè)，有更便宜的么？”。后臺(tái)沒(méi)有遇到，只能說(shuō)用戶還沒(méi)開(kāi)始服務(wù)就結(jié)束了。場(chǎng)景方面與AI公司的domain選擇有關(guān)。

但是在技術(shù)方面，則是非常重要的。因?yàn)檫@正是真正智能的核心特點(diǎn)。我們將在part 2&3詳細(xì)聊聊這個(gè)問(wèn)題。現(xiàn)在先拋個(gè)結(jié)論：這個(gè)問(wèn)題解決不了，智能助理會(huì)一直智障下去的。

“To C 團(tuán)隊(duì)轉(zhuǎn) To B ”

自從2015年幾個(gè)重要的深度學(xué)習(xí)在開(kāi)發(fā)者當(dāng)中火了起來(lái)，大小公司都想做“Her”這樣面對(duì)個(gè)人消費(fèi)者的通用型智能助理（To C類產(chǎn)品的終極目標(biāo)）。一波熱錢(qián)投給最有希望的種子隊(duì)伍（擁有Fancy背景）之后，全滅。目前為止，在2C這方面的所有商用產(chǎn)品，無(wú)論是巨頭還是創(chuàng)業(yè)公司，全部達(dá)不到用戶預(yù)期。

在人們的直覺(jué)里，會(huì)認(rèn)為“智能助理”，處理的是一些日常任務(wù)，不涉及專業(yè)的需求，應(yīng)該比“智能專家”好做。這是延續(xù)“人”的思路。推薦餐廳、安排行程是人人都會(huì)做的事情；卻只有少數(shù)受過(guò)專業(yè)訓(xùn)練的人能夠處理金融、醫(yī)療問(wèn)診這類專業(yè)問(wèn)題。

而對(duì)于現(xiàn)在的AI，情況正好相反?，F(xiàn)在能造出在圍棋上打敗柯潔的AI，但是卻造不出來(lái)能給柯潔管理日常生活的AI。

隨著to C助理賽道的崩盤(pán)，To B or not to B已經(jīng)不再是問(wèn)題，因?yàn)橐呀?jīng)沒(méi)得選了，只能To B。這不是商業(yè)模式上的選擇，而是技術(shù)的限制。目前To B，特別是限定領(lǐng)域的產(chǎn)品，相對(duì)To C類產(chǎn)品更可行：一個(gè)原因是領(lǐng)域比較封閉，用戶從思想到語(yǔ)言，不容易發(fā)揮跑題；另一方面則是數(shù)據(jù)充分。

只是To B的公司都很容易被當(dāng)成是做“外包”的。因?yàn)榭蛻羰且粋€(gè)個(gè)談下來(lái)的，項(xiàng)目是一個(gè)個(gè)交付的，這意味著增長(zhǎng)慢，靠人堆，沒(méi)有復(fù)利帶來(lái)的指數(shù)級(jí)增長(zhǎng)。大家紛紛表示不開(kāi)心。

這個(gè)“幫人造機(jī)器人”的業(yè)務(wù)有點(diǎn)像“在網(wǎng)頁(yè)時(shí)代幫人建站”。轉(zhuǎn)成To B的團(tuán)隊(duì)經(jīng)常受到資本的質(zhì)疑： “你這個(gè)屬于做項(xiàng)目，怎么規(guī)模化呢？”

要知道，國(guó)內(nèi)的很多投資機(jī)構(gòu)和里面的投資經(jīng)理入行的時(shí)間，是在國(guó)內(nèi)的移動(dòng)互聯(lián)起來(lái)的那一波。“Scalability”或者“高速增長(zhǎng)”是體系里最重要的指標(biāo)，沒(méi)有之一。而做項(xiàng)目這件事，就是Case by case，要增長(zhǎng)就要堆人，也就很難出現(xiàn)指數(shù)級(jí)增長(zhǎng)。這就有點(diǎn)尷尬了。

“你放心，我有SaaS！哦不，是AIaaS。我可以打造一個(gè)平臺(tái)，上面有一系列工具，可以讓客戶們自己組裝機(jī)器人?！?/p>

然而，這些想做技能平臺(tái)的創(chuàng)業(yè)公司，也沒(méi)有一個(gè)成功的。短期也不可能成功。

Yann LeCun對(duì)AIaas的看法

主要的邏輯是這樣的：你給客戶提供工具，但他需要的是雕像——這中間還差了一個(gè)雕塑家。佐證就是那些各家試圖開(kāi)放“對(duì)話框架”給更小的開(kāi)發(fā)者，甚至是服務(wù)提供者，幫助他們“3分鐘開(kāi)發(fā)出自己的AI機(jī)器人”，具體就不點(diǎn)名了。自己都開(kāi)發(fā)不出來(lái)一個(gè)讓人滿意的產(chǎn)品，還想抽象一個(gè)范式出來(lái)讓別人沿用你的（不work的）框架？

不過(guò)，我認(rèn)為MLaaS在長(zhǎng)期的成功是有可能的，但還需要行業(yè)發(fā)展更為成熟的時(shí)候，現(xiàn)在為時(shí)尚早。具體分析我們?cè)诤竺鍼art 5會(huì)談到。

“音箱的成功和智能的失敗 ”

對(duì)話這個(gè)領(lǐng)域，另一個(gè)比較火的賽道是智能音箱。

各大主要科技公司都出了自己的智能音箱，騰訊叮當(dāng)、阿里的天貓精靈、小米音箱、國(guó)外的Alexa、Google的音箱等等。作為一個(gè)硬件品類，這其實(shí)是個(gè)還不錯(cuò)的生意，基本屬于制造業(yè)。

不僅出貨不差，還被寄予期望，能夠成為一個(gè)生態(tài)的生意——核心邏輯看上去也是充滿想象力的：

超級(jí)終端：在后移動(dòng)時(shí)代，每家都想像iphone一樣搶用戶的入口。只要用戶習(xí)慣使用語(yǔ)音來(lái)獲得咨詢或者服務(wù)，甚至可以像Xbox/ps一樣，硬件賠錢(qián)賣(mài)，軟件來(lái)掙錢(qián)；

用語(yǔ)音做OS：開(kāi)發(fā)者打造各類語(yǔ)音的技能，然后通過(guò)大量“離不開(kāi)的技能” 反哺這個(gè)OS的市場(chǎng)占有；

提供開(kāi)發(fā)者平臺(tái)：像Xcode一樣，給開(kāi)發(fā)者提供應(yīng)用開(kāi)發(fā)的工具和分發(fā)平臺(tái)、提供使用服務(wù)的流量。

可是，這些技能使用的實(shí)際情況是這樣的：

Source: Statista

萬(wàn)眾期待的killer app并沒(méi)有出現(xiàn)；

基本沒(méi)有商業(yè)服務(wù)型的應(yīng)用；

技能開(kāi)發(fā)者都沒(méi)賺到錢(qián)，也不知道怎么賺錢(qián)；

大部分高頻使用的技能都沒(méi)有商業(yè)價(jià)值——用戶用的最多的就是“查天氣”

沒(méi)有差異性：智能的差異嘛基本都沒(méi)有的事兒。

“皇帝的新人工智能”

回過(guò)頭來(lái)，我們?cè)賮?lái)看剛剛那位沙特阿拉伯的公民，Sophia。既然剛剛提到的那么多公司投入了那么多錢(qián)和科學(xué)家，都搞成這樣，憑什么這個(gè)Sophia能一鳴驚人？

因?yàn)镾ophia的“智能” 是個(gè)騙局。

可以直接引用Yann LeCun對(duì)此的評(píng)價(jià)， “這完全是鬼扯”。

簡(jiǎn)單來(lái)說(shuō)，Sophia是一個(gè)帶喇叭的木偶——在各種大會(huì)上的發(fā)言和采訪的內(nèi)容都是人工撰寫(xiě)，然后用人人都有的語(yǔ)音合成做輸出。卻被宣傳成為是其“人工智能”的自主意識(shí)言論。

這還能拿“公民身份”，可能是人類公民被黑的最慘的一次。這感覺(jué)，好像是我家的橘貓被一所985大學(xué)授予了土木工程學(xué)士學(xué)位。

其實(shí)對(duì)話系統(tǒng)里，用人工來(lái)撰寫(xiě)內(nèi)容，或者使用模版回復(fù)，這本來(lái)就是現(xiàn)在技術(shù)的現(xiàn)狀（在后面我們會(huì)展開(kāi)）。

但刻意把“非智能”的產(chǎn)物說(shuō)成是“智能”的表現(xiàn)，這就不對(duì)了。

考慮到大部分吃瓜群眾是通過(guò)媒體渠道來(lái)了解當(dāng)前技術(shù)發(fā)展的，跟著炒作的媒體（比如被點(diǎn)名的Tech Insider）都是這場(chǎng)騙局的共犯。這些不知道是無(wú)知還是無(wú)良的文科生，真的沒(méi)有做好新聞工作者份內(nèi)的調(diào)查工作。

最近這股妖風(fēng)也吹到了國(guó)內(nèi)的韭菜園里。

Sophia出現(xiàn)在了王力宏的一首講AI的MV里；然后又2018年11月跑去給大企業(yè)站臺(tái)。

真的，行業(yè)內(nèi)認(rèn)真做事兒的小伙伴，都應(yīng)該站出來(lái)，讓大家更清晰的知道現(xiàn)在AI——或者說(shuō)機(jī)器學(xué)習(xí)的邊界在哪兒。不然甲方爸爸們信以為真了，突然指著sophia跟你說(shuō)，“ 別人都能這么自然，你也給我整一個(gè)?！?/p>

你怕不得裝個(gè)真人進(jìn)去？

對(duì)了，說(shuō)到這兒，確實(shí)現(xiàn)在也有：用人——來(lái)偽裝成人工智能——來(lái)模擬人，為用戶服務(wù)。

Source:TheGuardian

國(guó)內(nèi)的案例典型的就是銀行用的大堂機(jī)器人，其實(shí)是真人在遠(yuǎn)程語(yǔ)音（所謂Tele presence）。美國(guó)有X.ai，做基于Email的日程管理的。只是這個(gè)AI到了下午5點(diǎn)就要下班。

當(dāng)然，假如我是這些騙局背后開(kāi)發(fā)者，被質(zhì)疑的時(shí)候，我還可以強(qiáng)行拉回人工智能上：“這么做是為了積累真正的對(duì)話數(shù)據(jù)，以后用來(lái)做真的AI對(duì)話系統(tǒng)識(shí)別的訓(xùn)練?！?/p>

這么說(shuō)對(duì)外行可能是毫無(wú)破綻的。但是真正行業(yè)內(nèi)干正經(jīng)事的人，都應(yīng)該像傅盛那樣站出來(lái)，指明這些做法是騙人：“全世界沒(méi)有一家能做出來(lái)......做不到，一定做不到”。

人家沙特是把AI當(dāng)成人，這些套路是把人當(dāng)成AI。然后大眾就開(kāi)始分不清楚究竟什么是AI了。

“人工智能究竟（tmd）指的是什么？”

另一方面，既然AI現(xiàn)在的那么蠢，為什么馬一龍 (Elon Musk) 卻說(shuō)“AI很有可能毀滅人類”；霍金甚至直接說(shuō) “AI可能是人類文明里最糟糕的事件”。

而在另一邊，F(xiàn)acebook和Google的首席科學(xué)家卻在說(shuō)，現(xiàn)在的AI都是渣渣，根本不需要擔(dān)心，甚至應(yīng)該推翻重做。

大家該相信誰(shuí)的？一邊是要去火星的男人，和說(shuō)不定已經(jīng)去了火星的男人；另一邊是當(dāng)前兩家科技巨頭的領(lǐng)軍人物。

其實(shí)他們說(shuō)的都對(duì)，因?yàn)檫@里說(shuō)到的“人工智能”是兩碼事。

馬一龍和霍金擔(dān)心的人工智能，是由人造出來(lái)的真正的智能，即通用人工智能（AGI, Artificial General Intelligence）甚至是超級(jí)智能（Super Intelligence）。

而Yann LeCun 和Hinton指的人工智能則是指的當(dāng)前用來(lái)實(shí)現(xiàn)“人工智能效果”的技術(shù)（基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)）。這兩位的觀點(diǎn)是“用這種方式來(lái)實(shí)現(xiàn)人工智能是行不通的”。

兩者本質(zhì)是完全不同的，一個(gè)指的是結(jié)果，一個(gè)指的是（現(xiàn)在的）過(guò)程。

那么當(dāng)我們?cè)谟懻撊斯ぶ悄艿臅r(shí)候，究竟在說(shuō)什么？

John McCathy

John McCathy在1956年和Marvin Minsky，Nathaniel Rochester 以及Claude Shannon在達(dá)特貌似研討會(huì)上打造了AI這個(gè)詞，但是到目前為止，學(xué)界工業(yè)界并沒(méi)有一個(gè)統(tǒng)一的理解。

最根本的問(wèn)題是目前人類對(duì)“智能”的定義還不夠清楚。何況人類本身是否是智能的最佳體現(xiàn)，還不一定呢。想想每天打交道的一些人：）

一方面，在大眾眼中，人工智能是 “人造出來(lái)的，像人的智能”，比如Siri。同時(shí)，一個(gè)AI的水平高低，則取決于它有多像人。所以當(dāng)Sophia出現(xiàn)在公眾眼中的時(shí)候，普通人會(huì)很容易被蒙蔽（甚至能通過(guò)圖靈測(cè)試）。

Oracle對(duì)AI的定義也是 “只要是能讓計(jì)算機(jī)可以模擬人類行為的技術(shù)，都算！”

而另一方面，從字面上來(lái)看“Artificial Intelligence”，只要是人造的智能產(chǎn)品，理論上都算作人工智能。

也就是說(shuō)，一個(gè)手持計(jì)算器，盡管不像人，也應(yīng)算是人工智能產(chǎn)品。但我相信大多數(shù)人都不會(huì)把計(jì)算器當(dāng)成是他們所理解的人工智能。

這些在認(rèn)識(shí)上不同的解讀，導(dǎo)致當(dāng)前大家對(duì)AI應(yīng)用的期望和評(píng)估都有很多差異。

再加上還有“深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)” 這些概念紛紛跟著人工智能一起出現(xiàn)。但是各自意味著什么，之間是什么關(guān)系，普通大眾都不甚了解。

“ 沒(méi)關(guān)系，韭菜不用懂?！?但是想要割韭菜的人，最好能搞清楚吧。連有些投資人自己也分不清，你說(shuō)怎么做判斷，如何投項(xiàng)目？當(dāng)然是投胸大的。

以上，就是到2018年末，在對(duì)話領(lǐng)域的人工智能的現(xiàn)狀：智能助理依然智障；大部分To B的給人造機(jī)器人的都無(wú)法規(guī)模化；對(duì)話方面沒(méi)有像AlphaZero在圍棋領(lǐng)域那樣的讓人震驚的產(chǎn)品；沒(méi)有商業(yè)上大規(guī)模崛起的跡象；有的是一團(tuán)渾水，和渾水摸魚(yú)的人。

為什么會(huì)這樣？為什么人工智能在圖像識(shí)別，人臉識(shí)別，下圍棋這些方面都那么快的進(jìn)展，而在對(duì)話智能這個(gè)領(lǐng)域卻是如此混亂？

既然你都看到這里了，我相信你是一個(gè)愿意探究本質(zhì)的好同志。那么我們來(lái)了解，對(duì)話的本質(zhì)是什么；以及現(xiàn)在的對(duì)話系統(tǒng)的本質(zhì)又是什么。

Part 2

當(dāng)前對(duì)話系統(tǒng)的本質(zhì)：填表

“AI thinks, man laughs”

Source:The Globe and Mail

有一群小雞出生在一個(gè)農(nóng)場(chǎng)，無(wú)憂無(wú)慮安心地生活。

雞群中出現(xiàn)了一位科學(xué)家，它注意到了一個(gè)現(xiàn)象：每天早上，食槽里會(huì)自動(dòng)出現(xiàn)糧食。

作為一名優(yōu)秀的歸納法信徒(Inductivist)，這只科學(xué)雞并不急于給出結(jié)論。它開(kāi)始全面觀察并做好記錄，試圖發(fā)現(xiàn)這個(gè)現(xiàn)象是否在不同的條件下都成立。

“星期一是這樣，星期二是這樣；樹(shù)葉變綠時(shí)是這樣，樹(shù)葉變黃也是這樣；天氣冷是這樣，天氣熱也是這樣；下雨是這樣，出太陽(yáng)也是這樣！”

每天的觀察，讓它越來(lái)越興奮，在心中，它離真相越來(lái)越接近。直到有一天，這只科學(xué)雞再也沒(méi)有觀察到新的環(huán)境變化，而到了當(dāng)天早上，雞舍的門(mén)一打開(kāi)，它跑到食槽那里一看，依然有吃的！

科學(xué)雞，對(duì)他的小伙伴，志在必得地宣布：“我預(yù)測(cè)，每天早上，槽里會(huì)自動(dòng)出現(xiàn)食物。明天早上也會(huì)有！以后都會(huì)有！我們不用擔(dān)心餓死了！”

經(jīng)過(guò)好幾天，小伙伴們都驗(yàn)證了這個(gè)預(yù)言，科學(xué)雞驕傲的并興奮的把它歸納成“早起的小雞有食吃定理”。

正好，農(nóng)場(chǎng)的農(nóng)夫路過(guò)，看到一只興奮的雞不停的咯咯叫，他笑了：“這只雞很可愛(ài)哦，不如把它做成叫花雞好了” 。

科學(xué)雞，卒于午飯時(shí)間。

在這個(gè)例子里，這只羅素雞（Bertrand Russell’s chicken）只對(duì)現(xiàn)象進(jìn)行統(tǒng)計(jì)和歸納，不對(duì)原因進(jìn)行推理。

而主流的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)，也是通過(guò)大量的案例，靠對(duì)文本的特征進(jìn)行歸類，來(lái)實(shí)現(xiàn)對(duì)識(shí)別語(yǔ)義的效果。這個(gè)做法，就是羅素雞。

目前，這是對(duì)話式人工智能的主流技術(shù)基礎(chǔ)。其主要應(yīng)用方向，就是對(duì)話系統(tǒng)，或稱為Agent。之前提到的智能助理Siri，Cortana，Google Assistant以及行業(yè)里面的智能客服這些都算是對(duì)話智能的應(yīng)用。

“對(duì)話智能的黑箱”

這些產(chǎn)品的交互方式，是人類的自然語(yǔ)言，而不是圖像化界面。

圖形化界面（GUI）的產(chǎn)品，比如網(wǎng)頁(yè)或者APP的產(chǎn)品設(shè)計(jì)，是所見(jiàn)即所得、界面即功能。

對(duì)話智能的交互（CUI, Conversational UI）是個(gè)黑箱：終端用戶能感知到自己說(shuō)出的話（輸入）和機(jī)器人的回答（輸出）——但是這個(gè)處理的過(guò)程是感覺(jué)不到的。就好像跟人說(shuō)話，你并不知道他是怎么想的。

每一個(gè)對(duì)話系統(tǒng)的黑箱里，都是開(kāi)發(fā)者自由發(fā)揮的天地。

雖說(shuō)每家的黑箱里面都不同，但是最底層的思路，都萬(wàn)變不離其宗，核心就是兩點(diǎn)：聽(tīng)人話（識(shí)別）+講人話（對(duì)話管理）。

如果你是從業(yè)人員，那么請(qǐng)回答一個(gè)問(wèn)題：你們家的對(duì)話管理是不是填槽？若是，你可以跳過(guò)這一節(jié)（主要科普填槽是怎么回事），請(qǐng)直接到本章的第五節(jié)“當(dāng)前對(duì)話系統(tǒng)的局限” 。

“AI如何聽(tīng)懂人話？”

對(duì)話系統(tǒng)這個(gè)事情在2015年開(kāi)始突然火起來(lái)了，主要是因?yàn)橐粋€(gè)技術(shù)的普及：機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)帶來(lái)的語(yǔ)音識(shí)別和NLU(自然語(yǔ)言理解)——主要解決的是識(shí)別人講的話。

這個(gè)技術(shù)的普及讓很多團(tuán)隊(duì)都掌握了一組關(guān)鍵技能：意圖識(shí)別和實(shí)體提取。這意味著什么？我們來(lái)看一個(gè)例子。

在生活中，如果想要訂機(jī)票，人們會(huì)有很多種自然的表達(dá)：

“訂機(jī)票”；

“有去上海的航班么？”；

“看看航班，下周二出發(fā)去紐約的”；

“要出差，幫我查下機(jī)票”；

等等等等

可以說(shuō)“自然的表達(dá)” 有無(wú)窮多的組合（自然語(yǔ)言）都是在代表 “訂機(jī)票” 這個(gè)意圖的。而聽(tīng)到這些表達(dá)的人，可以準(zhǔn)確理解這些表達(dá)指的是“訂機(jī)票”這件事。

而要理解這么多種不同的表達(dá)，對(duì)機(jī)器是個(gè)挑戰(zhàn)。在過(guò)去，機(jī)器只能處理“結(jié)構(gòu)化的數(shù)據(jù)”（比如關(guān)鍵詞），也就是說(shuō)如果要聽(tīng)懂人在講什么，必須要用戶輸入精確的指令。

所以，無(wú)論你說(shuō)“我要出差”還是“幫我看看去北京的航班”，只要這些字里面沒(méi)有包含提前設(shè)定好的關(guān)鍵詞“訂機(jī)票”，系統(tǒng)都無(wú)法處理。而且，只要出現(xiàn)了關(guān)鍵詞，比如“我要退訂機(jī)票”里也有這三個(gè)字，也會(huì)被處理成用戶想要訂機(jī)票。

自然語(yǔ)言理解這個(gè)技能出現(xiàn)后，可以讓機(jī)器從各種自然語(yǔ)言的表達(dá)中，區(qū)分出來(lái)，哪些話歸屬于這個(gè)意圖；而那些表達(dá)不是歸于這一類的，而不再依賴那么死板的關(guān)鍵詞。比如經(jīng)過(guò)訓(xùn)練后，機(jī)器能夠識(shí)別“幫我推薦一家附近的餐廳”，就不屬于“訂機(jī)票”這個(gè)意圖的表達(dá)。

并且，通過(guò)訓(xùn)練，機(jī)器還能夠在句子當(dāng)中自動(dòng)提取出來(lái)“上?！?，這兩個(gè)字指的是目的地這個(gè)概念（即實(shí)體）；“下周二”指的是出發(fā)時(shí)間。

這樣一來(lái)，看上去“機(jī)器就能聽(tīng)懂人話啦！”。

這個(gè)技術(shù)為啥會(huì)普及？主要是因?yàn)闄C(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)氛圍，導(dǎo)致重要的論文基本都是公開(kāi)的。不同團(tuán)隊(duì)要做的是考慮具體工程實(shí)施的成本。

最后的效果，就是在識(shí)別自然語(yǔ)言這個(gè)領(lǐng)域里，每家的基礎(chǔ)工具都差不多。在意圖識(shí)別和實(shí)體提取的準(zhǔn)確率，都是百分點(diǎn)的差異。既然這個(gè)工具本身不是核心競(jìng)爭(zhēng)力，甚至你可以用別家的，大把可以選，但是關(guān)鍵是你能用它來(lái)干什么？

“Due to the academic culture that ML comes from, pretty much all of the primary science is published as soon as it’s created - almost everything new is a paper that you can read and build with. But what do you build? ”

——Benedict Evans （A16Z合伙人）

在這方面，最顯而易見(jiàn)的價(jià)值，就是解放雙手。語(yǔ)音控制類的產(chǎn)品，只需要聽(tīng)懂用戶的自然語(yǔ)言，就去執(zhí)行這個(gè)操作：在家里要開(kāi)燈，可以直接說(shuō) “開(kāi)燈”，而不用去按開(kāi)關(guān)；在車(chē)上，說(shuō)要“開(kāi)天窗”，天窗就打開(kāi)了，而不用去找對(duì)應(yīng)的按鈕在哪里。

這類系統(tǒng)的重點(diǎn)在于，清楚聽(tīng)清哪個(gè)用戶在講是什么。所以麥克風(fēng)陣列、近場(chǎng)遠(yuǎn)場(chǎng)的抗噪、聲紋識(shí)別講話的人的身份、ASR（語(yǔ)音轉(zhuǎn)文字），等等硬件軟件的技術(shù)就相應(yīng)出現(xiàn)，向著前面這個(gè)目標(biāo)不斷優(yōu)化。

“講人話”在這類應(yīng)用當(dāng)中，并不那么重要。通常任務(wù)的執(zhí)行，以結(jié)果進(jìn)行反饋，比如燈應(yīng)聲就亮了。而語(yǔ)言上的反饋，只是一個(gè)輔助作用，可有可無(wú)。

但是任務(wù)類的對(duì)話智能，往往不止是語(yǔ)音控制這樣一輪交互。如果一個(gè)用戶說(shuō)，“看看明天的機(jī)票”——這表達(dá)正常，但無(wú)法直接去執(zhí)行。因?yàn)槿鄙賵?zhí)行的必要信息：1）從哪里出發(fā)？和 2）去哪里？

如果我們希望AI Agent來(lái)執(zhí)行這個(gè)任務(wù)，一定要獲得這兩個(gè)信息。對(duì)于人來(lái)完成這個(gè)業(yè)務(wù)的話，要獲得信息，就得靠問(wèn)這個(gè)用戶問(wèn)題，來(lái)獲得信息。很多時(shí)候，這樣的問(wèn)題，還不止一個(gè)，也就意味著，要發(fā)起多輪對(duì)話。

對(duì)于AI而言，也是一樣的。

要知道 “去哪里” = Agent 問(wèn)用戶“你要去哪里？”

要知道 “從哪里出發(fā)” = Agent 問(wèn)用戶“你要從哪里出發(fā)呢？”

這就涉及到了對(duì)話語(yǔ)言的生成。

“AI如何講人話？”

決定“該說(shuō)什么話”，才是對(duì)話系統(tǒng)的核心——無(wú)論是硅基的還是碳基的智能。但是深度學(xué)習(xí)在這個(gè)版塊，并沒(méi)有起到什么作用。

在當(dāng)前，處理“該說(shuō)什么”這個(gè)問(wèn)題，主流的做法是由所謂“對(duì)話管理”系統(tǒng)決定的。

盡管每一個(gè)對(duì)話系統(tǒng)背后的“對(duì)話管理”機(jī)制都不同，每家都有各種理解、各種設(shè)計(jì)，但是萬(wàn)變不離其宗——目前所有任務(wù)類對(duì)話系統(tǒng)，無(wú)論是前段時(shí)間的Google duplex，還是智能客服，或者智能助理，最核心的對(duì)話管理方法，有且僅有一個(gè)：“填槽”，即Slot filling。

如果你并不懂技術(shù)，但是又要迅速知道一家做對(duì)話AI的水平如何，到底有沒(méi)有黑科技(比如剛剛開(kāi)始看AI領(lǐng)域的做投資的朋友 )，你只需要問(wèn)他一個(gè)問(wèn)題：“是不是填槽？”

如果他們（誠(chéng)實(shí)地）回答“是”，那你就可以放下心來(lái)，黑科技尚未出現(xiàn)。接下來(lái)，能討論的范圍，無(wú)非都是產(chǎn)品設(shè)計(jì)、工程實(shí)現(xiàn)、如何解決體驗(yàn)和規(guī)?；睦Ь?，這類的問(wèn)題?；旧显撝钦系?，還是會(huì)智障。

要是他們回答“不是填槽”，而且產(chǎn)品的效果還很好，那么就有意思了，值得研究，或者請(qǐng)速速聯(lián)系我：）

那么這個(gè)“填槽”究竟是個(gè)什么鬼？嗯，不搞開(kāi)發(fā)的大家可以簡(jiǎn)單的把它理解為“填表”：好比你要去銀行辦個(gè)業(yè)務(wù)，先要填一張表。

如果這張表上的空沒(méi)有填完，柜臺(tái)小姐姐就不給你辦。她會(huì)紅筆給你圈出來(lái)：“必須要填的空是這些，別的你都可以不管?！?你全部填好了，再遞給小姐姐，她就去給你辦理業(yè)務(wù)了。

還記得剛剛那個(gè)機(jī)票的例子么？用戶說(shuō)“看看明天的機(jī)票”，要想執(zhí)行“查機(jī)票”，就得做以下的步奏，還要按順序來(lái)：

1. ASR：把用戶的語(yǔ)音，轉(zhuǎn)化成文字。

2. NLU語(yǔ)義識(shí)別：識(shí)別上面的文字，屬于（之前設(shè)定好的）哪一個(gè)意圖，在這里就是“訂機(jī)票”；然后，提取文字里面的實(shí)體，“明天”作為訂票日期，被提取出來(lái)啦。

3. 填表：這個(gè)意圖是訂機(jī)票，那么就選“訂機(jī)票”這張表來(lái)填；這表里有三個(gè)空，時(shí)間那個(gè)空里，就放進(jìn)“明天”。

（這個(gè)時(shí)候，表里的3個(gè)必填項(xiàng)，還差兩個(gè)：“出發(fā)地”和“到達(dá)地”）

4. 開(kāi)始跑之前編好的程序：如果差“出發(fā)地”，就回“從哪里走??？”；如果差“目的地”，就回“你要去哪里？”（NLG上打引號(hào)，是因?yàn)椴⒉皇钦嬲饬x上的自然語(yǔ)言生成，而是套用的對(duì)話模版）

5. TTS：把回復(fù)文本，合成為語(yǔ)音，播放出去

在上面這個(gè)過(guò)程當(dāng)中，1和2步奏都是用深度學(xué)習(xí)來(lái)做識(shí)別。如果這個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題，后面就會(huì)連續(xù)出錯(cuò)。

循環(huán)1-5這個(gè)過(guò)程，只要表里還有空要填，就不斷問(wèn)用戶，直到所有的必填項(xiàng)都被填完。于是，表就可以提交小姐姐（后端處理）了。

后端看了要查的條件，返回滿足這些條件的機(jī)票情況。Agent再把查詢結(jié)果用之前設(shè)計(jì)好的回復(fù)模板發(fā)回給用戶。

順便說(shuō)一下，我們經(jīng)常聽(tīng)到有些人說(shuō)“我們的多輪對(duì)話可以支持xx輪，最多的時(shí)候有用戶能說(shuō)xx輪”。現(xiàn)在大家知道，在任務(wù)類對(duì)話系統(tǒng)里，“輪數(shù)的產(chǎn)生”是由填表的次數(shù)決定的，那么這種用“輪數(shù)多少”來(lái)衡量產(chǎn)品水平的方法，在這個(gè)任務(wù)類對(duì)話里里完全無(wú)意義。

一定要有意義，也應(yīng)該是：在達(dá)到目的、且不影響體驗(yàn)的前提下，輪數(shù)越少越好。

在當(dāng)前，只要做任務(wù)類的多輪對(duì)話，基本跑不掉填表。

5月的時(shí)候，Google I/O發(fā)布了Duplex的錄音Demo，場(chǎng)景是Google Assistant代替用戶打電話去訂餐廳，和店員溝通，幫助用戶預(yù)定位子。值得注意，這并不是Live demo。

Google's Assistant. CREDIT:GOOGLE

那Google的智能助理（后稱IPA）又怎么知道用戶的具體需求呢？跑不掉的是，用戶還得給Google Assistant填一張表，用對(duì)話來(lái)交代自己的具體需求，比如下面這樣：

圖中左邊是一個(gè)使用Google Assistant訂餐廳的真實(shí)案例，來(lái)自The Verge。

“當(dāng)前對(duì)話系統(tǒng)的局限”

我剛剛花了兩千來(lái)個(gè)字來(lái)說(shuō)明對(duì)話系統(tǒng)的通用思路。接下來(lái)，要指出這個(gè)做法的問(wèn)題

還記得之前提到的 “不要日本菜”測(cè)試么？我們把這個(gè)測(cè)試套用在“訂機(jī)票”這個(gè)場(chǎng)景上，試試看：“看看明天去北京的航班，東航以外的都可以”，還是按步奏來(lái)：

1. ASR語(yǔ)音轉(zhuǎn)文字，沒(méi)啥問(wèn)題；

2. 語(yǔ)義識(shí)別，貌似有點(diǎn)問(wèn)題

- 意圖：是訂機(jī)票，沒(méi)錯(cuò)；

- 實(shí)體提取：跟著之前的訓(xùn)練來(lái)；

- 時(shí)間：明天

- 目的地：北京

- 出發(fā)地：這個(gè)用戶沒(méi)說(shuō)，一會(huì)得問(wèn)問(wèn)他...

等等，他說(shuō)的這個(gè)“東航以外的都可以”，指的是啥？之前沒(méi)有訓(xùn)練過(guò)與航空公司相關(guān)的表達(dá)啊。

沒(méi)關(guān)系，咱們可以把這個(gè)表達(dá)的訓(xùn)練加上去：東航 = 航司。多找些表達(dá)，只要用戶說(shuō)了各個(gè)航空公司的名字的，都訓(xùn)練成航司這個(gè)實(shí)體好啦。

另外，咱們還可以在填表的框里，添加一個(gè)航司選擇，就像這樣（黃色部分）：

（嗯，好多做TO B的團(tuán)隊(duì)，都是掉在這個(gè)“在后面可以加上去”的坑里。）

但是，這么理所當(dāng)然的訓(xùn)練之后，實(shí)體提取出來(lái)的航司卻是“東航”——而用戶說(shuō)的是 “東航以外的”，這又指的哪個(gè)（些）航司呢？

“要不，咱們做點(diǎn)Trick把‘以外’這樣的邏輯單獨(dú)拿出來(lái)手工處理掉？”——如果這個(gè)問(wèn)題可以這么容易處理掉，你覺(jué)得Siri等一干貨色還會(huì)是現(xiàn)在這個(gè)樣子？難度不在于“以外”提取不出來(lái)，而是在處理“這個(gè)以外，是指哪個(gè)實(shí)體以外？

當(dāng)前基于深度學(xué)習(xí)的NLU在“實(shí)體提取”這個(gè)技術(shù)上，就只能提取“實(shí)體”。

而人能夠理解，在這個(gè)情況下，用戶是指的“排除掉東航以外的其他選擇”，這是因?yàn)槿顺俗觥皩?shí)體提取”以外，還根據(jù)所處語(yǔ)境，做了一個(gè)對(duì)邏輯的識(shí)別：“xx以外”。然后，自動(dòng)執(zhí)行了這個(gè)邏輯的處理，即推理，去進(jìn)一步理解，對(duì)方真正指的是什么（即指代）。

而這個(gè)邏輯推理的過(guò)程，并不存在于之前設(shè)計(jì)好的步奏（從1到5）里。

更麻煩的是，邏輯的出現(xiàn)，不僅僅影響“實(shí)體”，還影響“意圖”：

“hi Siri，別推薦餐廳”——它還是會(huì)給你推薦餐廳；

“hi Siri，除了推薦餐廳，你還能推薦什么？”——它還是會(huì)給你推薦餐廳。

中文英文都是一樣的；Google assistant也是一樣的。

想要處理這個(gè)問(wèn)題，不僅僅是要識(shí)別出“邏輯”；還要正確判斷出，這個(gè)邏輯是套用在哪個(gè)實(shí)體，或者是不是直接套用在某一個(gè)意圖上。這個(gè)判斷如何做？用什么做？都不在當(dāng)前SLU的范圍內(nèi)。

對(duì)這些問(wèn)題的處理，如果是集中在一些比較封閉的場(chǎng)景下，還可以解決個(gè)七七八八。但是，如果想要從根本上、泛化的處理，希望一次處理就解決所有場(chǎng)景的問(wèn)題，到目前都無(wú)解。在這方面，Siri是這樣，Google Assistant也是這樣，任意一家，都是這樣。

為啥說(shuō)無(wú)解？我們來(lái)看看測(cè)試。

“用圖靈測(cè)試來(lái)測(cè)對(duì)話系統(tǒng)沒(méi)用”

一說(shuō)到對(duì)人工智能進(jìn)行測(cè)試，大部分人的第一反應(yīng)是圖靈測(cè)試。

5月Google I/O大會(huì)的那段時(shí)間，我們團(tuán)隊(duì)正在服務(wù)一家全球100強(qiáng)企業(yè)，為他們規(guī)劃基于AI Agent的服務(wù)。

在發(fā)布會(huì)的第二天，我收到這家客戶的Tech Office的好心提醒：Google這個(gè)像真人一樣的黑科技，會(huì)不會(huì)顛覆現(xiàn)有的技術(shù)方案？我的回答是并不會(huì)。

話說(shuō)Google Duplex在發(fā)布會(huì)上的demo確實(shí)讓人印象深刻，而且大部分看了Demo的人，都分辨不出打電話去做預(yù)定的是不是真人。

“這個(gè)效果在某種意義上，算是通過(guò)了圖靈測(cè)試。”

Google母公司的Chairman說(shuō)google duplex可以算過(guò)了圖靈測(cè)試了

由于圖靈測(cè)試的本質(zhì)是“欺騙”(A game of deception，詳見(jiàn)Toby Walsh的論文)，所以很多人批評(píng)它，這只能用來(lái)測(cè)試人有多好騙，而不是用來(lái)測(cè)智能的。在這一點(diǎn)上，我們?cè)诤笪腜art 4對(duì)話的本質(zhì)中會(huì)有更多解釋。

人們被這個(gè)Demo騙到的主要原因，是因?yàn)楹铣傻恼Z(yǔ)音非常像真人。

這確實(shí)是Duplex最牛的地方：語(yǔ)音合成。不得不承認(rèn)，包括語(yǔ)氣、音調(diào)等等模擬人聲的效果，確實(shí)是讓人嘆為觀止。只是，單就在語(yǔ)音合成方面，就算是做到極致，在本質(zhì)上就是一只鸚鵡——最多可以騙騙Alexa（所以你看活體識(shí)別有多么重要）。

只是，Google演示的這個(gè)對(duì)話系統(tǒng)，一樣處理不了邏輯推理、指代這類的問(wèn)題。這意味著，就它算能過(guò)圖靈測(cè)試，也過(guò)不了Winograd Schema Challenge測(cè)試。

相比圖靈測(cè)試，這個(gè)測(cè)試是直擊深度學(xué)習(xí)的要害。當(dāng)人類對(duì)句子進(jìn)行語(yǔ)法分析時(shí)，會(huì)用真實(shí)世界的知識(shí)來(lái)理解指代的對(duì)象。這個(gè)測(cè)試的目標(biāo)，就是測(cè)試目前深度學(xué)習(xí)欠缺的常識(shí)推理能力。

如果我們用Winograd Schema Challenge的方法，來(lái)測(cè)試AI在“餐廳推薦”這個(gè)場(chǎng)景里的水平，題目會(huì)是類似這樣的：

A. “四川火鍋比日料更好，因?yàn)樗芾薄?/p>

B. “四川火鍋比日料更好，因?yàn)樗焕薄?/p>

AI需要能準(zhǔn)確指出：在A句里，“它”指的是四川火鍋；而在B句里，“它”指的則是日料。

還記得在本文Part 1里提到的那個(gè)“不要日本菜測(cè)試”么？我真的不是在強(qiáng)調(diào)“回字有四種寫(xiě)法”——這個(gè)測(cè)試的本質(zhì)，是測(cè)試對(duì)話系統(tǒng)能不能使用簡(jiǎn)單邏輯來(lái)做推理（指代的是什么）。

而在Winograd Schema Challenge中，則是用世界知識(shí)（包括常識(shí)）來(lái)做推理：

如果系統(tǒng)不知道相應(yīng)的常識(shí)（四川火鍋是辣的；日料是不辣的），就沒(méi)有推理的基礎(chǔ)。更不用說(shuō)推理還需要被準(zhǔn)確地執(zhí)行。

有人說(shuō)，我們可以通過(guò)上下文處理來(lái)解決這個(gè)問(wèn)題。不好意思，上面這個(gè)常識(shí)根本就沒(méi)有出現(xiàn)在整個(gè)對(duì)話當(dāng)中。不在“上文”里面，又如何處理？

對(duì)于這個(gè)部分的詳細(xì)解釋，請(qǐng)看下一章（Part 3 對(duì)話的本質(zhì)）。

盡管指代問(wèn)題和邏輯問(wèn)題，看上去，在應(yīng)用方面已經(jīng)足夠致命了；但這些也只是深度學(xué)習(xí)表現(xiàn)出來(lái)的諸多局限性中的一部分。

哪怕更進(jìn)一步，再過(guò)一段時(shí)間，有一家AI在Winograd Schema Challenge拿了100%的正確率，我們也不能期望它在自然語(yǔ)言處理中的表現(xiàn)如同人一樣，因?yàn)檫€有更嚴(yán)重和更本質(zhì)的問(wèn)題在后面等著。

“對(duì)話系統(tǒng)更大的挑戰(zhàn)不是NLU”

我們來(lái)看問(wèn)題表現(xiàn)在什么地方。

現(xiàn)在我們知道了，當(dāng)人跟現(xiàn)在的AI對(duì)話的時(shí)候，AI能識(shí)別你說(shuō)的話，是靠深度學(xué)習(xí)對(duì)你說(shuō)出的自然語(yǔ)言進(jìn)行分類，歸于設(shè)定好的意圖，并找出來(lái)文本中有哪些實(shí)體。

而AI什么時(shí)候回答你，什么時(shí)候反問(wèn)你，基本都取決于背后的“對(duì)話管理”系統(tǒng)里面的各種表上還有啥必填項(xiàng)沒(méi)有填完。而問(wèn)你的話，則是由產(chǎn)品經(jīng)理和代碼小哥一起手動(dòng)完成的。

那么，這張表是誰(shuí)做的？

或者說(shuō)，是誰(shuí)決定，對(duì)于“訂機(jī)票”這件事，要考慮哪些方面？要獲得哪些信息？需要問(wèn)哪些問(wèn)題？機(jī)器又是怎么知道的？

是人。是產(chǎn)品經(jīng)理，準(zhǔn)確點(diǎn)說(shuō)。

就像剛才的“訂機(jī)票”的案例，當(dāng)用戶問(wèn)到“航司”的時(shí)候，之前的表里并沒(méi)有設(shè)計(jì)這個(gè)概念，AI就無(wú)法處理了。

要讓AI能處理這樣的新條件，得在“訂機(jī)票”這張表上，新增加“航空公司”一欄（黃色部分）。而這個(gè)過(guò)程，都得人為手動(dòng)完成：產(chǎn)品經(jīng)理設(shè)計(jì)好后，工程師編程完成這張表的編程。

所以AI并不是真的，通過(guò)案例學(xué)習(xí)就自動(dòng)理解了“訂機(jī)票”這件事情，包含了哪些因素。只要這個(gè)表還是由人來(lái)設(shè)計(jì)和編程實(shí)現(xiàn)的，在產(chǎn)品層面，一旦用戶稍微談及到表以外的內(nèi)容，智障的情況就自然出現(xiàn)了。

因此，當(dāng)Google duplex出現(xiàn)的時(shí)候，我并不那么關(guān)心 Google duplex發(fā)音和停頓有多像一個(gè)人——實(shí)際上，當(dāng)我觀察任意一個(gè)對(duì)話系統(tǒng)的時(shí)候，我都只關(guān)心1個(gè)問(wèn)題：

“是誰(shuí)設(shè)計(jì)的那張表：人，還是AI？”

只是，深度學(xué)習(xí)在對(duì)話系統(tǒng)里面，能做的只是識(shí)別用戶講出的那句話那部分——嚴(yán)格依照被人為訓(xùn)練的那樣（監(jiān)督學(xué)習(xí)）。至于其他方面，比如該講什么話？該在什么時(shí)候講話？它都無(wú)能為力。

但是真正人們?cè)趯?duì)話時(shí)的過(guò)程，卻不是上面提到的對(duì)話系統(tǒng)這么設(shè)計(jì)的，而且相差十萬(wàn)八千里。人的對(duì)話，又是怎么開(kāi)展的？這個(gè)差異究竟在哪里？為什么差異那么大？所謂深度學(xué)習(xí)很難搞定的地方，是人怎么搞定的呢？畢竟在這個(gè)星球上，我們自身就是70億個(gè)完美的自然語(yǔ)言處理系統(tǒng)呢。

我們需要了解要解決的問(wèn)題，才可能開(kāi)展解決問(wèn)題的工作。在對(duì)話領(lǐng)域，我們需要知道人們對(duì)話的本質(zhì)是什么。下一章比較燒腦，我們將討論“思維”這件事情，是如何主導(dǎo)人們的對(duì)話的。

Part 3

人類對(duì)話的本質(zhì)：思維

“對(duì)話的最終目的是為了同步思維”

你是一位30出頭的職場(chǎng)人士，每天上午9點(diǎn)半，都要過(guò)辦公樓的旋轉(zhuǎn)門(mén)，進(jìn)大堂的，然后刷工牌進(jìn)電梯，去到28樓，你的辦公室。今天是1月6日，平淡無(wú)奇的一天。你剛進(jìn)電梯，電梯里只有你一個(gè)人，正要關(guān)門(mén)的時(shí)候，有一個(gè)人匆忙擠進(jìn)來(lái)。

進(jìn)來(lái)的快遞小哥，他進(jìn)電梯時(shí)看到只有你們兩人，就說(shuō)了一聲“你好”，然后又低頭找樓層按鈕了。

你很自然的回復(fù)：“你好”，然后目光轉(zhuǎn)向一邊。

兩邊都沒(méi)什么話好講——實(shí)際上，是對(duì)話雙方認(rèn)為彼此沒(méi)有什么情況需要同步的。

人們用語(yǔ)言來(lái)對(duì)話，其最終的目的是為了讓雙方對(duì)當(dāng)前場(chǎng)景模型（Situation model）保持同步。（大家先了解到這個(gè)概念就夠了。更感興趣的，詳情請(qǐng)見(jiàn) Toward a neural basis of interactive alignment in conversation）。

The interactive-alignment model (based on Pickering and Garrod, 2004)

上圖中，A和B兩人之間發(fā)展出來(lái)所有對(duì)話，都是為了讓紅框中的兩個(gè)“Situation model” 保持同步。Situation model 在這里可以簡(jiǎn)單理解為對(duì)事件的各方面的理解，包括Context。

不少做對(duì)話系統(tǒng)的朋友會(huì)認(rèn)為Context是僅指“對(duì)話中的上下文”，我想要指出的是，除此以外，Context還應(yīng)該包含了對(duì)話發(fā)生時(shí)人們所處的場(chǎng)景。這個(gè)場(chǎng)景模型涵蓋了對(duì)話那一刻，除了明文以外的所有已被感知的信息。比如對(duì)話發(fā)生時(shí)的天氣情況，只要被人感知到了，也會(huì)被放入Context中，并影響對(duì)話內(nèi)容的發(fā)展。

A: “你對(duì)這個(gè)事情怎么看？”

B: “這天看著要下雨了，咱們進(jìn)去說(shuō)吧”——盡管本來(lái)對(duì)話內(nèi)容并沒(méi)有涉及到天氣。

對(duì)同一件事情，不同的人在腦海里構(gòu)建的場(chǎng)景模型是不一樣的。 (想要了解更多，可以看 Situation models in language comprehension and memory. Zwaan, R. A., & Radvansky, G. A. (1998). )

所以，如果匆忙進(jìn)電梯來(lái)的是你的項(xiàng)目老板，而且假設(shè)他和你（多半都是他啦）都很關(guān)注最近的新項(xiàng)目進(jìn)展，那么你們要開(kāi)展的對(duì)話就很多了。

在電梯里，你跟他打招呼：“張總，早！”，他會(huì)回你 “早啊，對(duì)了昨天那個(gè)…”

不待他問(wèn)完，優(yōu)秀如你就能猜到“張總” 大概后面要聊的內(nèi)容是關(guān)于新項(xiàng)目的，這是因?yàn)槟阏J(rèn)為張總對(duì)這個(gè)“新項(xiàng)目”的理解和你不同，有同步的必要。甚至，你可以通過(guò)昨天他不在辦公室，大概漏掉了這個(gè)項(xiàng)目的哪些部分，來(lái)推理你這個(gè)時(shí)候應(yīng)該回復(fù)他關(guān)于這個(gè)項(xiàng)目的具體什么方面的問(wèn)題。

“昨天你不在，別擔(dān)心，客戶那邊都處理好了。打款的事情也溝通好了，30天之內(nèi)搞定?！?——你看，不待張總問(wèn)完，你都能很棒的回答上。這多虧了你對(duì)他的模型的判斷是正確的。

一旦你對(duì)對(duì)方的情景模型判斷失誤，那么可能完全“沒(méi)打中點(diǎn)上”。

“我知道，昨天晚上我回了趟公司，小李跟我說(shuō)過(guò)了。我是要說(shuō)昨天晚上我回來(lái)辦公室的時(shí)候，你怎么沒(méi)有在加班呀？小王，你這樣下去可不行啊…”

所以，人們?cè)谶M(jìn)行對(duì)話的過(guò)程中，并不是僅靠對(duì)方上一句話說(shuō)了什么（對(duì)話中明文所包含的信息）就來(lái)決定回復(fù)什么。而這和當(dāng)前的對(duì)話系統(tǒng)的回復(fù)機(jī)制非常不同。

“對(duì)話是思想從高維度向低維的投影”

我們假設(shè)，在另一個(gè)平行宇宙里，還是你到了辦公樓。

今天還是1月6日，但2年前的今天，你與交往了5年的女友分手了，之后一直對(duì)她念念不忘，也沒(méi)有交往新人。

你和往日一樣，進(jìn)電梯的，剛要關(guān)門(mén)的時(shí)候，匆忙進(jìn)來(lái)的一個(gè)人，要關(guān)的門(mén)又打開(kāi)了。就是你2年前分手的那位前女友。她進(jìn)門(mén)時(shí)看到只有你們兩，她抬頭看了一下你，然后又低頭找樓層電梯了，這時(shí)她說(shuō)：“你好”。

請(qǐng)問(wèn)你這時(shí)腦袋里是不是有很多信息洶涌而過(guò)？這時(shí)該回答什么？是不是類似“一時(shí)不知道該如何開(kāi)口”的感覺(jué)？

這個(gè)感覺(jué)來(lái)自（你認(rèn)為）你和她之間的情景模型有太多的不同（分手2年了），甚至你都無(wú)法判斷缺少哪些信息。有太多的信息想要同步了，卻被貧瘠的語(yǔ)言困住了。

在信息豐富的程度上，語(yǔ)言是貧瘠的，而思想則要豐富很多“Language is sketchy, thought is rich” (New perspectives on language and thought，Lila Gleitman, The Oxford Handbook of Thinking and Reasoning；更多相關(guān)討論請(qǐng)看, Fisher & Gleitman, 2002; Papafragou, 2007)

有人做了一個(gè)比喻：語(yǔ)言和思維的豐富程度相比，是冰山的一角。我認(rèn)為遠(yuǎn)遠(yuǎn)不止如此：對(duì)話是思想在低維的投影。

如果是冰山，你還可以從水面上露出來(lái)的部分反推水下大概還有多大。屬于維度相同，但是量不同。但是語(yǔ)言的問(wèn)題在，只用聽(tīng)到文字信息，來(lái)反推講話的人的思想，失真的情況會(huì)非常嚴(yán)重。

為了方便理解這個(gè)維度差異，在這兒用3D和2D來(lái)舉例：思維是高維度（立體3D的形狀），對(duì)話是低維度（2D的平面上的陰影）。如果咱們要從平面上的陰影的形狀，來(lái)反推，上面懸著的是什么物體，就很困難了。兩個(gè)陰影的形狀一模一樣，但是上面的3D物體，可能完全不同。

對(duì)于語(yǔ)言而言，陰影就像是兩個(gè) “你好”在字面上是一模一樣的，但是思想里的內(nèi)容卻完全不同。在見(jiàn)面的那一瞬間，這個(gè)差異是非常大的：

你在想（圓柱）：一年多不見(jiàn)了，她還好么？

前女友在想（球）：這個(gè)人好眼熟，好像認(rèn)識(shí)…

“挑戰(zhàn)：用低維表達(dá)高維”

要用語(yǔ)言來(lái)描述思維有多困難？這就好比，當(dāng)你試圖給另一位不在現(xiàn)場(chǎng)的朋友，解釋一件剛剛發(fā)生過(guò)的事情的時(shí)候，你可以做到哪種程度的還原呢？

試試用語(yǔ)言來(lái)描述你今天的早晨是怎么過(guò)的。

當(dāng)你用文字完整描述后，我一定能找到一個(gè)事物或者某個(gè)具體的細(xì)節(jié)，它在你文字描述以外，但是卻確實(shí)存在在你今天早晨那個(gè)時(shí)空里。

Source:The Challenger

比如，你可能會(huì)跟朋友提到，早飯吃了一碗面；但你一定不會(huì)具體去描述面里一共有哪些調(diào)料。傳遞信息時(shí)，缺少了這些細(xì)節(jié)(信息)，會(huì)讓聽(tīng)眾聽(tīng)到那碗面時(shí)，在腦海里呈現(xiàn)的一定不是你早上吃的“那碗面”的樣子。

這就好比讓你用平面上（2D）陰影的樣子，來(lái)反推3D的形狀。你能做的，只是盡可能的增加描述的視角，盡可能給聽(tīng)眾提供不同的2D的素材，來(lái)盡量還原3D的效果。

為了解釋腦中“語(yǔ)言”和“思想”之間的關(guān)系（與讀者的情景模型進(jìn)行同步），我畫(huà)了上面那張對(duì)比圖，來(lái)幫助傳遞信息。如果要直接用文字來(lái)精確描述，還要盡量保全信息不丟失，那么我不得不用多得多的文字來(lái)描述細(xì)節(jié)。（比如上面的描述中，尚未提及陰影的面積的具體大小、顏色等等細(xì)節(jié)）。

這還只是對(duì)客觀事物的描述。當(dāng)人在試圖描述更情緒化的主觀感受時(shí)，則更難用具體的文字來(lái)表達(dá)。

比如，當(dāng)你看到Angelina Jordan這樣的小女生，卻能唱出I put a spell on you這樣的歌的時(shí)候，請(qǐng)嘗試用語(yǔ)言精確描述你的主觀感受。是不是很難？能講出來(lái)話，都是類似“鵝妹子嚶”這類的？這些文字能代表你腦中的感受的多少部分？1%？

希望此時(shí)，你能更理解所謂 “語(yǔ)言是貧瘠的，而思維則要豐富很多”。

那么，既然語(yǔ)言在傳遞信息時(shí)丟失了那么多信息，人們?yōu)槭裁蠢斫馄饋?lái)，好像沒(méi)有遇到太大的問(wèn)題？

“為什么人們的對(duì)話是輕松的？”

假設(shè)有一種方式，可以把此刻你腦中的感受，以完全不失真的效果傳遞給另一個(gè)人。這種信息的傳遞和上面用文字進(jìn)行描述相比，豐富程度會(huì)有多大差異？

可惜，我們沒(méi)有這種工具。我們最主要的交流工具，就是語(yǔ)言，靠著對(duì)話，來(lái)試圖讓對(duì)方了解自己的處境。

那么，既然語(yǔ)言這么不精準(zhǔn)，又充滿邏輯上的漏洞，信息量又不夠，那么人怎么能理解，還以此為基礎(chǔ)，建立起來(lái)了整個(gè)文明？

比如，在一個(gè)餐廳里，當(dāng)服務(wù)員說(shuō) “火腿三明治要買(mǎi)單了”，我們都能知道這和“20號(hào)桌要買(mǎi)單了”指代的是同樣的事情 (Nuberg,1978)。是什么讓字面上那么大差異的表達(dá)，也能有效傳遞信息？

人能通過(guò)對(duì)話，有效理解語(yǔ)言，靠的是解讀能力——更具體的點(diǎn)，靠的是對(duì)話雙方的共識(shí)和基于共識(shí)的推理能力。

當(dāng)人接收到低維的語(yǔ)言之后，會(huì)結(jié)合引用常識(shí)、自身的世界模型（后詳），來(lái)重新構(gòu)建一個(gè)思維中的模型，對(duì)應(yīng)這個(gè)語(yǔ)言所代表的含義。這并不是什么新觀點(diǎn)，大家熟悉的開(kāi)復(fù)老師，在1991年在蘋(píng)果搞語(yǔ)音識(shí)別的時(shí)候，就在采訪里科普，“人類利用常識(shí)來(lái)幫助理解語(yǔ)音”。

當(dāng)對(duì)話的雙方認(rèn)為對(duì)一件事情的理解是一樣的，或者非常接近的時(shí)候，他們就不用再講。需要溝通的，是那些（彼此認(rèn)為）不一樣的部分。

當(dāng)你聽(tīng)到“蘋(píng)果”兩個(gè)字的時(shí)候，你過(guò)去建立過(guò)的蘋(píng)果這個(gè)模型的各個(gè)維度，就被引用出來(lái)，包括可能是綠或紅色的、味道的甜、大概拳頭大小等等。如果你聽(tīng)到對(duì)方說(shuō)“藍(lán)色的蘋(píng)果”時(shí)，這和你過(guò)去建立的關(guān)于蘋(píng)果的模型不同（顏色）。思維就會(huì)產(chǎn)生一個(gè)提醒，促使你想要去同步或者更新這個(gè)模型，“蘋(píng)果為什么是藍(lán)色的？”

還記得，在Part 2 里我們提到的那個(gè)測(cè)試指代關(guān)系的Winograd Schema Challenge么？這個(gè)測(cè)試的名字是根據(jù)Terry Winograd的一個(gè)例子而來(lái)的。

“議員們拒絕給抗議者頒發(fā)許可證，因?yàn)樗麄?[害怕/提倡] 暴力?！?/p>

當(dāng) [害怕] 出現(xiàn)在句子當(dāng)中的時(shí)候，“他們”指的應(yīng)該是議員們；當(dāng)[提倡]出現(xiàn)在句子當(dāng)中的時(shí)候，“他們”則指的是“抗議者”。

1. 人們能夠根據(jù)具體情況，作出判斷，是因?yàn)楦鶕?jù)常識(shí)做出了推理，“議員害怕暴力；抗議者提倡暴力。”

2. 說(shuō)這句話的人，認(rèn)為這個(gè)常識(shí)對(duì)于聽(tīng)眾應(yīng)該是共識(shí)，就直接把它省略掉了。

同理，之前（Part 2）我們舉例時(shí)提到的那個(gè)常識(shí) （“四川火鍋是辣的；日料不是辣的”），也在表達(dá)中被省略掉了。常識(shí)（往往也是大多數(shù)人的共識(shí)）的總量是不計(jì)其數(shù)，而且總體上還會(huì)隨著人類社會(huì)發(fā)展的演進(jìn)而不斷新增。

例子1，如果你的世界模型里已經(jīng)包含了“華農(nóng)兄弟” （你看過(guò)并了解他們的故事），你會(huì)發(fā)現(xiàn)我在Part 2最開(kāi)始的例子，藏了一個(gè)梗（做成叫花雞）。但因?yàn)椤叭A農(nóng)兄弟”并不是大多數(shù)人都知道的常識(shí)，而是我與特定人群的共識(shí)，所以你看到這句話時(shí)，獲得的信息就比其人多。而不了解這個(gè)梗的人，看到那里時(shí)就不會(huì)接收到這個(gè)額外的信息，反而會(huì)覺(jué)得這個(gè)表達(dá)好像有點(diǎn)點(diǎn)奇怪。

例子2，創(chuàng)投圈的朋友應(yīng)該都有聽(tīng)說(shuō)過(guò) Elevator pitch，就是30秒，把你要做什么事情講清楚。通常的案例諸如：“我們是餐飲界的Uber”，或者說(shuō)“我們是辦公室版的Airbnb”。這個(gè)典型結(jié)構(gòu)是“XX版的YY”，要讓這句話起到效果，前提條件是XX和YY兩個(gè)概念在發(fā)生對(duì)話之前，已經(jīng)納入到聽(tīng)眾的模型里面去了。如果我給別人說(shuō)，我是“對(duì)話智能行業(yè)的麥肯錫”，要能讓對(duì)方理解，對(duì)方就得既了解對(duì)話智能是什么，又了解麥肯錫是什么。

“基于世界模型的推理”

場(chǎng)景模型是基于某一次對(duì)話的，對(duì)話不同，場(chǎng)景模型也不同；而世界模型則是基于一個(gè)人的，相對(duì)而言長(zhǎng)期不變。

對(duì)世界的感知，包括聲音、視覺(jué)、嗅覺(jué)、觸覺(jué)等感官反饋，有助于人們對(duì)世界建立起一個(gè)物理上的認(rèn)識(shí)。對(duì)常識(shí)的理解，包括各種現(xiàn)象和規(guī)律的感知，在幫助人們生成一個(gè)更完整的模型：世界模型。

無(wú)論精準(zhǔn)、或者對(duì)錯(cuò)，每一個(gè)人的世界模型都不完全一樣，有可能是觀察到的信息不同，也有可能是推理能力不一樣。世界模型影響的是人的思維本身，繼而影響思維在低維的投影：對(duì)話。

讓我們從一個(gè)例子開(kāi)始：假設(shè)現(xiàn)在咱們一起來(lái)做一個(gè)不那么智障的助理。我們希望這個(gè)助理能夠推薦餐廳酒吧什么的，來(lái)應(yīng)付下面這樣的需求：

當(dāng)用戶說(shuō)：“我想喝點(diǎn)東西”的時(shí)候，系統(tǒng)該怎么回答這句話？經(jīng)過(guò)Part 2，我相信大家都了解，我們可以把它訓(xùn)練成為一個(gè)意圖“找喝東西的店”，然后把周?chē)牡隀z索出來(lái)，然后回復(fù)這句話給他：“在你附近找到這些選擇”。

恭喜，咱們已經(jīng)達(dá)到Siri的水平啦！

但是，剛剛我們開(kāi)頭就說(shuō)了，要做不那么智障的助理。這個(gè)“喝東西的店”是奶茶點(diǎn)還是咖啡店？還是全部都給他？

嗯，這就涉及到了推理。我們來(lái)手動(dòng)模擬一個(gè)。假設(shè)我們有用戶的Profile數(shù)據(jù)，把這個(gè)用上：如果他的偏好中最愛(ài)的飲品是咖啡，就給他推薦咖啡店。

這樣一來(lái)，我們就可以更“個(gè)性化”的給他回復(fù)了：“在你附近找到這些咖啡店”。

這個(gè)時(shí)候，咱們的AI已經(jīng)達(dá)到了不少“智能系統(tǒng)”最喜歡鼓吹的個(gè)性化概念——“千人千面”啦！

然后我們來(lái)看這個(gè)概念有多蠢。

一個(gè)人喜歡喝咖啡，那么他一輩子的任意時(shí)候就都要喝咖啡么？人是怎么處理這個(gè)問(wèn)題的呢？如果用戶是在下午1點(diǎn)這么問(wèn)，這么回他還好；如果是在晚上11點(diǎn)呢？我們還要給他推薦咖啡店么？還是應(yīng)該給他推薦一個(gè)酒吧？

或者，除此之外，如果今天是他的生日，那么我們是不是該給他點(diǎn)不同的東西？或者，今天是圣誕節(jié)，該不該給他推薦熱巧克力？

你看，時(shí)間是一個(gè)維度，在這個(gè)維度上的不同值都在影響給用戶回復(fù)什么不同的話。

時(shí)間和用戶的Profile不同的是：

1. 時(shí)間這個(gè)維度上的值有無(wú)限多；

2. 每個(gè)刻度還都不一樣。比如雖然生日是同一個(gè)日期，但是過(guò)生日的次數(shù)卻不重復(fù)；

除了時(shí)間這個(gè)維度以外，還有空間。

于是我們把空間這個(gè)維度疊加（到時(shí)間）上去。你會(huì)發(fā)現(xiàn)，如果用戶在周末的家里問(wèn)這個(gè)問(wèn)題（可能想叫奶茶外賣(mài)到家？），和他在上班時(shí)間的辦公室里問(wèn)這個(gè)問(wèn)題（可能想出去走走換換思路），咱們給他的回復(fù)也應(yīng)該不同。

光是時(shí)空這兩個(gè)維度，就有無(wú)窮多的組合，用"if then"的邏輯也沒(méi)法全部手動(dòng)寫(xiě)完。我們?cè)鞕C(jī)器人的工具，到這個(gè)需求，就開(kāi)始捉襟見(jiàn)肘了。

何況時(shí)間和空間，只是世界模型當(dāng)中最顯而易見(jiàn)的兩個(gè)維度。還有更多的，更抽象的維度存在，并且直接影響與用戶的對(duì)話。比如，人物之間的關(guān)系；人物的經(jīng)歷；天氣的變化；人和地理位置的關(guān)系（是經(jīng)常來(lái)出差、是當(dāng)?shù)赝林?、是第一次?lái)旅游）等等等等。咱們聊到這里，感覺(jué)還在聊對(duì)話系統(tǒng)么？是不是感覺(jué)有點(diǎn)像在聊推薦系統(tǒng)？

要想效果更好，這些維度的因素都要疊加在一起進(jìn)行因果推理，然后把結(jié)果給用戶。

至此，影響人們對(duì)話的，光是信息（還不含推理）至少就有這三部分：明文（含上下文）+ 場(chǎng)景模型（Context）+ 世界模型。

普通人都能毫不費(fèi)力地完成這個(gè)工作。但是深度學(xué)習(xí)只能處理基于明文的信息。對(duì)于場(chǎng)景模型和世界模型的感知、生成、基于模型的推理，深度學(xué)習(xí)統(tǒng)統(tǒng)無(wú)能為力。

這就是為什么現(xiàn)在炙手可熱的深度學(xué)習(xí)無(wú)法實(shí)現(xiàn)真正的智能（AGI）的本質(zhì)原因：不能進(jìn)行因果推理。

根據(jù)世界模型進(jìn)行推理的效果，不僅僅體現(xiàn)上在對(duì)話上，還能應(yīng)用在所有現(xiàn)在成為AI的項(xiàng)目上，比如自動(dòng)駕駛。

經(jīng)過(guò)大量訓(xùn)練的自動(dòng)駕駛汽車(chē)，在遇到偶發(fā)狀況時(shí)，就沒(méi)有足夠的訓(xùn)練素材了。比如，突然出現(xiàn)在路上的嬰兒車(chē)和突然滾到路上的垃圾桶，都會(huì)被視為障礙物，但是剎不住車(chē)的情況下，一定要撞一個(gè)的時(shí)候，撞哪一個(gè)？

又比如，對(duì)侯世達(dá)(Douglas Hofstardler )而言，“駕駛”意味著當(dāng)要趕著去一個(gè)地方的時(shí)候，要選擇超速還是不超速；要從堵車(chē)的高速下來(lái)，還是在高速上慢慢跟著車(chē)流走...這些決策都是駕駛的一部分。他說(shuō)：“ 世界上各方面的事情都在影響著“駕駛”這件事的本質(zhì) ”。

“人腦有兩套系統(tǒng)：系統(tǒng)1和系統(tǒng)2”

關(guān)于 “系統(tǒng)1和系統(tǒng)2”的詳情，請(qǐng)閱讀 Thinking, Fast and Slow, by Daniel Kahneman，一本非常好的書(shū)，對(duì)人的認(rèn)知工作是如何展開(kāi)的進(jìn)行了深入的分析。在這兒，我給還不了解的朋友介紹一下，以輔助本文前后的觀點(diǎn)。

心理學(xué)家認(rèn)為，人思考和認(rèn)知工作分成了兩個(gè)系統(tǒng)來(lái)處理：

系統(tǒng)1是快思考：無(wú)意識(shí)、快速、不怎么費(fèi)腦力、無(wú)需推理

系統(tǒng)2是慢思考：需要調(diào)動(dòng)注意力、過(guò)程更慢、費(fèi)腦力、需要推理

系統(tǒng)1先上，遇到搞不定的事情，系統(tǒng)2會(huì)出面解決。

系統(tǒng)1做的事情包括: 判斷兩個(gè)物體的遠(yuǎn)近、追溯聲音的來(lái)源、完形填空 ( "我愛(ài)北京天安 " )等等。

順帶一提，下象棋的時(shí)候，一眼看出這是一步好棋，這個(gè)行為也是系統(tǒng)1實(shí)現(xiàn)的——前提是你是一位優(yōu)秀的玩家。

對(duì)于中國(guó)學(xué)生而言，你突然問(wèn)他：“7乘以7”，他會(huì)不假思索的說(shuō)：“49！”這是系統(tǒng)1在工作，因?yàn)槲覀冊(cè)谛W(xué)都會(huì)背99乘法表。這個(gè)49并非來(lái)自計(jì)算結(jié)果，而是背下來(lái)的（反復(fù)重復(fù)）。

相應(yīng)的，如果你問(wèn)：“3287 x 2234等于多少？”，這個(gè)時(shí)候人就需要調(diào)用世界模型中的乘法規(guī)則，加以應(yīng)用（計(jì)算）。這就是系統(tǒng)2的工作。

另外，在系統(tǒng)1所設(shè)定的世界里，貓不會(huì)像狗一樣汪汪叫。若事物違反了系統(tǒng)1所設(shè)定的世界模型，系統(tǒng)2也會(huì)被激活。

在語(yǔ)言方面，Yoshua Bengio 認(rèn)為系統(tǒng)1不做與語(yǔ)言有關(guān)的工作；系統(tǒng)2才負(fù)責(zé)語(yǔ)言工作。對(duì)于深度學(xué)習(xí)而言，它更適合去完成系統(tǒng)1的工作，實(shí)際上它根本沒(méi)有系統(tǒng)2的功能。

關(guān)于這兩個(gè)系統(tǒng)，值得一提的是，人是可以通過(guò)訓(xùn)練，把部分系統(tǒng)2才能做的事情，變成系統(tǒng)1來(lái)完成的。比如中國(guó)學(xué)生得經(jīng)過(guò)“痛苦的記憶過(guò)程”才能熟練掌握99乘法表，而不是隨著出生到長(zhǎng)大的自然經(jīng)驗(yàn)，慢慢學(xué)會(huì)的。

但是這里有2個(gè)有意思的特征：

1. 變成系統(tǒng)1來(lái)處理問(wèn)題的時(shí)候，可以節(jié)約能量。人們偏向相信自己的經(jīng)驗(yàn)，是因?yàn)槟X力對(duì)能量的消耗很大，這是一個(gè)節(jié)能的做法。

2. 變成系統(tǒng)1的時(shí)候，會(huì)犧牲辯證能力，因?yàn)橄到y(tǒng)1對(duì)于邏輯相關(guān)的問(wèn)題一無(wú)所知?！拔易鲞@個(gè)事情已經(jīng)幾十年了”這種經(jīng)驗(yàn)主義思維就是典型案例。

想想自己長(zhǎng)期積累的案例是如何在影響自己做判斷的？

“單靠深度學(xué)習(xí)搞不定語(yǔ)言，現(xiàn)在不行，將來(lái)也不行”

在人工智能行業(yè)里，你經(jīng)常會(huì)聽(tīng)到有人這么說(shuō) “盡管當(dāng)前技術(shù)還實(shí)現(xiàn)不了理想中的人工智能，但是技術(shù)是會(huì)不斷演進(jìn)的，隨著數(shù)據(jù)積累的越來(lái)越多，終將會(huì)實(shí)現(xiàn)讓人滿意的人工智能?！?/p>

如果這個(gè)說(shuō)法，是指寄希望于僅靠深度學(xué)習(xí)，不斷積累數(shù)據(jù)量，就能翻盤(pán)——那就大錯(cuò)特錯(cuò)了。

無(wú)論你怎么優(yōu)化“馬車(chē)”的核心技術(shù)（比如更壯、更多的馬），都無(wú)法以此造出汽車(chē)(下圖右)。

對(duì)于大眾而言，技術(shù)的可演進(jìn)性，是以宏觀的視角看人類和技術(shù)的關(guān)系。但是發(fā)動(dòng)機(jī)的演化和馬車(chē)的關(guān)鍵技術(shù)沒(méi)有半點(diǎn)關(guān)系。

深度學(xué)習(xí)領(lǐng)域的3大牛，都認(rèn)為單靠深度學(xué)習(xí)這條路（不能最終通向AGI）。感興趣的朋友可以沿著這個(gè)方向去研究:

Geoffrey Hinton的懷疑：“我的觀點(diǎn)是都扔掉重來(lái)吧”

Yoshua Bengio的觀點(diǎn)：“如果你對(duì)于這個(gè)每天都在接觸的世界，有一個(gè)好的因果模型，你甚至可以對(duì)不熟悉的情況進(jìn)行抽象。這很關(guān)鍵......機(jī)器不能，因?yàn)闄C(jī)器沒(méi)有這些因果模型。我們可以手工制作這些模型，但是這遠(yuǎn)不足夠。我們需要能發(fā)現(xiàn)因果模型的機(jī)器?！?/p>

Yann LeCun的觀點(diǎn)：“A learning predictive world model is what we’re missing today, and in my opinion is the biggest obstacle to significant progress in AI.”

至于深度學(xué)習(xí)在將來(lái)真正的智能上扮演的角色，在這兒我引用Gary Marcus的說(shuō)法：“I don’t think that deep learning won’t play a role in natural understanding, only that deep learning can’t succeed on its own.”

“解釋人工智障產(chǎn)品”

現(xiàn)在，我們了解了人們對(duì)話的本質(zhì)是思維的交換，而遠(yuǎn)不只是明文上的識(shí)別和基于識(shí)別的回復(fù)。而當(dāng)前的人工智能產(chǎn)品則完全無(wú)法實(shí)現(xiàn)這個(gè)效果。那么當(dāng)用戶帶著人類的世界模型和推理能力來(lái)跟機(jī)器，用自然語(yǔ)言交互時(shí)，就很容易看到破綻。

Sophia是一個(gè)技術(shù)上的騙局（凡是鼓吹Sophia是真AI的，要么是不懂，要么是忽悠）；

現(xiàn)在的AI，都不會(huì)有真正的智能（推理能力什么的不存在的，包括Alpha go在內(nèi)）；

只要是深度學(xué)習(xí)還是主流，就不用擔(dān)心AI統(tǒng)治人類；

對(duì)話產(chǎn)品感覺(jué)用起來(lái)智障，都是因?yàn)橄胩^(guò)思維，直接模擬對(duì)話（而現(xiàn)在也只能這樣）；

“用的越多，數(shù)據(jù)越多，智能會(huì)越強(qiáng)，產(chǎn)品就會(huì)越好，使用就會(huì)越多”——對(duì)于任務(wù)類對(duì)話產(chǎn)品，這是一個(gè)看上去很酷，實(shí)際上不靠譜的觀點(diǎn)；

一個(gè)AI agent，能對(duì)話多少輪，毫無(wú)意義；

to C的助理產(chǎn)品做不好，是因?yàn)榻鉀Q不了“如何獲得用戶的世界模型數(shù)據(jù)，并加以利用”這個(gè)問(wèn)題；

to B的對(duì)話智能公司為何很難規(guī)模化？（因?yàn)閳?chǎng)景模型是手動(dòng)生成的）

先有智能，后有語(yǔ)言：要做到真正意義上的自然語(yǔ)言對(duì)話，至少要實(shí)現(xiàn)基于常識(shí)和世界模型的推理能力。而這一點(diǎn)如果能實(shí)現(xiàn)，那么我們作為人類，就可能真的需要開(kāi)始擔(dān)心前文提到的智能了。

不要用NLP評(píng)價(jià)一個(gè)對(duì)話智能產(chǎn)品：年底了，有些媒體開(kāi)始出各種AI公司榜單，其中有不少把做對(duì)話的公司分在NLP下面。這就好比，不要用觸摸屏來(lái)衡量一款智能手機(jī)。在這兒我不是說(shuō)觸摸屏或者NLP不重要(Essential)，反而因?yàn)樘匾?，這個(gè)環(huán)節(jié)成為了每一家的標(biāo)配，以至于在這方面基本已經(jīng)做到頭了，差異不過(guò)1%。

對(duì)于一個(gè)對(duì)話類產(chǎn)品而言，NLU盡管重要，但只應(yīng)占個(gè)整體配件的5-10%左右。更進(jìn)一步來(lái)說(shuō)，甚至意圖識(shí)別和實(shí)體提取的部分用大廠的，產(chǎn)品間差異也遠(yuǎn)小于對(duì)話管理部分的差距。真正決定產(chǎn)品的是剩下的90%的系統(tǒng)。

到此，是不是有一種絕望的感覺(jué)？這些學(xué)界和行業(yè)的大牛都沒(méi)有解決方案，或者說(shuō)連有把握的思路都沒(méi)有。是不是做對(duì)話智能這類的產(chǎn)品就沒(méi)戲了？上限就是這樣了么？

不是。對(duì)于一項(xiàng)技術(shù)而言，可能確實(shí)觸底了；但是對(duì)于應(yīng)用和產(chǎn)品設(shè)計(jì)而言，并不是由一個(gè)技術(shù)決定的，而是很多技術(shù)的結(jié)合，這里還有很大的空間。

作為產(chǎn)品經(jīng)理，讓我來(lái)?yè)Q一個(gè)角度。我們來(lái)研究一下，既然手中的工具是這些，我們能用他們來(lái)做點(diǎn)什么？

Part 4

AI產(chǎn)品的潛力在于設(shè)計(jì)

“AI的歸AI，產(chǎn)品的歸產(chǎn)品”

《The Prestige》2006，劇照

有一部我很喜歡的電影，The Prestige，里面講了一個(gè)關(guān)于“瞬間移動(dòng)”的魔術(shù)。對(duì)于觀眾而言，就是從一個(gè)地方消失，然后瞬間又從另一個(gè)地方出現(xiàn)。

第一個(gè)魔術(shù)師，成功的在舞臺(tái)上實(shí)現(xiàn)了這個(gè)效果。他打開(kāi)舞臺(tái)上的右邊的門(mén)，剛一進(jìn)去的一瞬間，就從舞臺(tái)左邊的門(mén)出來(lái)了。對(duì)觀眾而言，這完全符合他們的期望。

第二個(gè)魔術(shù)師在觀眾席里，看到效果后驚呆了，他感覺(jué)這根本毫無(wú)破綻。但是他是魔術(shù)師——作為一個(gè)產(chǎn)品經(jīng)理——他就想研究這個(gè)產(chǎn)品是怎么實(shí)現(xiàn)的。但是魔術(shù)行業(yè)里，最不受人待見(jiàn)的，就是魔術(shù)揭秘。

影片最后，他得到了答案（劇透預(yù)警）：所有的工程機(jī)關(guān)、升降機(jī)、等等，都如他所料的藏在了舞臺(tái)下面。但真正的核心是，第一個(gè)魔術(shù)師一直隱藏著自己的另一個(gè)雙胞胎兄弟。當(dāng)他打開(kāi)一個(gè)門(mén)，從洞口跳下舞臺(tái)的那一刻，雙胞胎的另一位就馬上從另一邊升上舞臺(tái)。

看到這里，大家可能就恍然大悟：“ 原來(lái)是這樣，雙胞胎??！”

這感覺(jué)是不是有點(diǎn)似曾相識(shí)？在本文Part 2，我們聊到把對(duì)話系統(tǒng)的黑箱打開(kāi)，里面就是填一張表的時(shí)候，是不是有類似的感覺(jué)？對(duì)話式人工智能的產(chǎn)品（對(duì)話系統(tǒng)）就像魔術(shù)，是一個(gè)黑箱，用戶是以感知來(lái)判斷價(jià)值的。

“ 我還以為有什么黑科技呢，我是雙胞胎我也可以啊?！?/p>

其實(shí)這并不容易。我們先不說(shuō)魔術(shù)的舞臺(tái)里面的工程設(shè)計(jì)，這個(gè)魔術(shù)最難的地方是如何能在魔術(shù)師的生活中，讓另一個(gè)雙胞胎在大眾視野里完全消失掉。如果觀眾們都知道魔術(shù)師是雙胞胎，就很可能猜到舞臺(tái)上的魔術(shù)是兩個(gè)人一起表演的。所以這個(gè)雙胞胎，一定不能出現(xiàn)在大眾的“世界模型”里。

為了讓雙胞胎的另一個(gè)消失在大眾視野里，這兩兄弟付出了很多代價(jià)，身心磨，絕非一般人能接受的，比如共享同一個(gè)老婆。

這也是我的建議：技術(shù)不夠的時(shí)候，設(shè)計(jì)來(lái)補(bǔ)。做AI產(chǎn)品的同學(xué)，不要期待給你智能。要是真的有智能了，還需要你干什么？人工智能產(chǎn)品經(jīng)理需要設(shè)計(jì)一套龐大的系統(tǒng)，其中包括了填表、也當(dāng)然包括深度學(xué)習(xí)帶來(lái)的意圖識(shí)別和實(shí)體提取等等標(biāo)準(zhǔn)做法、也包括了各種可能的對(duì)話管理、上下文的處理、邏輯指代等等。

這些部分，都是產(chǎn)品設(shè)計(jì)和工程力量發(fā)揮的空間。

“設(shè)計(jì)思路的基礎(chǔ)”

我需要強(qiáng)調(diào)一下，在這里，咱們講的是AI產(chǎn)品思路，不是AI的實(shí)現(xiàn)思路。

對(duì)于對(duì)話類產(chǎn)品的設(shè)計(jì)，以現(xiàn)在深度學(xué)習(xí)的基礎(chǔ)，語(yǔ)義理解應(yīng)該只占整個(gè)產(chǎn)品的5%-10%；而其他的，都是想盡一切辦法來(lái)模擬“傳送”這個(gè)效果——畢竟我們都知道，這是個(gè)魔術(shù)。如果只是識(shí)別就占了你家產(chǎn)品的大量心血，其他的不去拉開(kāi)差異，基本出來(lái)就是智障無(wú)疑。

在產(chǎn)品研發(fā)方面上，如果研發(fā)團(tuán)隊(duì)能提供多種技術(shù)混用的工具，肯定會(huì)增加開(kāi)發(fā)團(tuán)隊(duì)和設(shè)計(jì)的發(fā)揮空間。這個(gè)做法也就是DL(Deep Learning) +GOFAI (Good Old Fashioned AI)的結(jié)合。GOFAI是John Haugeland首先提出的，也就是深度學(xué)習(xí)火起來(lái)之前的symbolic AI，也就是專家系統(tǒng)，也就是大多數(shù)在AI領(lǐng)域的人都看不起的 “if then…”

DL+GOFAI 這個(gè)前提，是當(dāng)前一切后續(xù)產(chǎn)品設(shè)計(jì)思路的基礎(chǔ)。

“Design Principle：存在即為被感知”

“存在即為被感知” 是18世紀(jì)的哲學(xué)家George Berkeley的名言。加州大學(xué)伯克利分校的命名來(lái)源也是為了紀(jì)念這位唯心主義大師。這個(gè)意思呢，就是如果你不能被感知到，你就是不存在的！

我認(rèn)為“存在即為被感知” 是對(duì)話類AI產(chǎn)品的Design principle。對(duì)話產(chǎn)品背后的智能，是被用戶感知到而存在的。直到有一天AI可以代替產(chǎn)品經(jīng)理，在那之前，所有的設(shè)計(jì)都應(yīng)該圍繞著，如何可以讓用戶感覺(jué)和自己對(duì)話的AI是有價(jià)值的，然后才是聰明的。

要非常明確自己的目的，設(shè)計(jì)的是AI的產(chǎn)品，而不是AGI本身。就像魔術(shù)的設(shè)計(jì)者，給你有限的基礎(chǔ)技術(shù)條件，你能組裝出一個(gè)產(chǎn)品，體驗(yàn)是人們難以想到。

同時(shí)，也要深刻的認(rèn)識(shí)到產(chǎn)品的局限性。魔術(shù)就是魔術(shù)，并不是現(xiàn)實(shí)。

這意味著，在舞臺(tái)上的魔術(shù)，如果改變一些重要的條件，它就不成立了。比如，如果讓觀眾跑到舞臺(tái)的頂上，從上往下看這個(gè)魔術(shù)，就會(huì)發(fā)現(xiàn)舞臺(tái)上有洞?；蛘摺八查g移動(dòng)”的不是這對(duì)雙胞胎中的一個(gè)，而是一個(gè)觀眾跑上去說(shuō)，“讓我來(lái)瞬間移動(dòng)試試”，就穿幫了。

Narrow AI的產(chǎn)品，也是一樣的。如果你設(shè)計(jì)好了一個(gè)Domain，無(wú)論其中體驗(yàn)如何，只要用戶跑到Domain的邊界以外了，就崩潰了。先設(shè)定好產(chǎn)品邊界，設(shè)計(jì)好“越界時(shí)給用戶的反饋”，然后在領(lǐng)域里面，盡可能的模擬這個(gè)魔術(shù)的效果。

假設(shè)Domain的邊界已經(jīng)設(shè)定清晰了，哪些方面可以通過(guò)設(shè)計(jì)和工程的力量，來(lái)大幅增加效果呢？

其實(shí)，在“Part 3 對(duì)話的本質(zhì)” 里談到的與思維相關(guān)的部分，在限定Domain的前提下，都可以作為設(shè)計(jì)的出發(fā)點(diǎn)：你可以用GOFAI來(lái)模擬世界模型、也可以模擬場(chǎng)景模型、你可以Fake邏輯推理、可以Fake上下文指代——只要他們都限定在Domain里。

“選擇合適的Domain”

成本（工程和設(shè)計(jì)的量）和給用戶的價(jià)值并不是永遠(yuǎn)成正比，也根據(jù)不同的Domain的不同。

比如，我認(rèn)為現(xiàn)在所有的閑聊機(jī)器人都沒(méi)有什么價(jià)值。開(kāi)放Domain，沒(méi)有目標(biāo)、沒(méi)有限定和邊界，對(duì)用戶而言，會(huì)認(rèn)為什么都可以聊。但是其自身“場(chǎng)景模型”一片空白，對(duì)用戶所知的常識(shí)也一無(wú)所知。導(dǎo)致用戶稍微試一下，就碰壁了。我把這種用戶體驗(yàn)稱為 “每次嘗試都容易遇到挫折”。

可能，有些Domain對(duì)回復(fù)的內(nèi)容并不那么看重。也就并不需要那么強(qiáng)壯的場(chǎng)景模型和推理機(jī)制來(lái)生成回復(fù)內(nèi)容。

我們假設(shè)做一個(gè)“樹(shù)洞機(jī)器人”，可以把產(chǎn)品定義是為，扮演一個(gè)好的聽(tīng)眾，讓用戶把心中的壓力煩惱傾訴出來(lái)。

Human Counseling. Source:Bradley University Online

這個(gè)產(chǎn)品的邊界，需要非常明確的，在用戶剛剛接觸到的時(shí)候，強(qiáng)化到用戶的場(chǎng)景模型中。主要是系統(tǒng)通過(guò)一些語(yǔ)言的反饋，鼓勵(lì)用戶繼續(xù)說(shuō)。而不要鼓勵(lì)用戶來(lái)期望對(duì)話系統(tǒng)能輸出很多正確且有價(jià)值的話。當(dāng)用戶做出一些陳述之后，可以跟上一些對(duì)“場(chǎng)景模型”依賴較小，泛泛的話。

“我從來(lái)沒(méi)有這么考慮過(guò)這個(gè)問(wèn)題，你為什么會(huì)這么想呢？”

“關(guān)于這個(gè)人，你還有哪些了解？”

“你覺(jué)得他為什么會(huì)這樣？”

……

這樣一來(lái)，產(chǎn)品在需求上，就大幅減輕了對(duì)“自然語(yǔ)言生成”的依賴。因?yàn)檫@個(gè)產(chǎn)品的價(jià)值，不在回復(fù)的具體內(nèi)容是否精準(zhǔn)，是否有價(jià)值上。這就同時(shí)降低了對(duì)話背后的“場(chǎng)景模型”、“世界模型”、以及“常識(shí)推理”這些高維度模塊的需求。訓(xùn)練的素材嘛，也就是某個(gè)特定分支領(lǐng)域（比如職場(chǎng)、家庭等）的心理咨詢師的對(duì)話案例。產(chǎn)品定義上，這得是一個(gè)Companion型的產(chǎn)品，不能真正起到理療的作用。

當(dāng)然，以上并不是真正的產(chǎn)品設(shè)計(jì)，僅僅是用一個(gè)例子來(lái)說(shuō)明，不同的Domain對(duì)背后的語(yǔ)言交互的能力要求不同，進(jìn)而對(duì)更后面的“思維能力”要求不同。選擇產(chǎn)品的Domain時(shí)，盡量遠(yuǎn)離那些嚴(yán)重依賴世界模型和常識(shí)推理，才能進(jìn)行對(duì)話的場(chǎng)景。

有人可能說(shuō)，你這不就是Sophia的做法么？不是。這里需要強(qiáng)調(diào)的是Sophia的核心問(wèn)題是欺騙。產(chǎn)品開(kāi)發(fā)者是想忽悠大眾，他們真的做出了智能。

在這里，我提倡的是明確告訴用戶，這就是對(duì)話系統(tǒng)，而不是真的造出了智能。這也是為什么，在我自己的產(chǎn)品設(shè)計(jì)中，如果遇到真人和AI同時(shí)為用戶服務(wù)的時(shí)候（產(chǎn)品上稱為Hybrid Model），我們總是會(huì)偏向明確讓用戶知道，什么時(shí)候是真人在服務(wù)，什么時(shí)候是機(jī)器人在服務(wù)。這么做的好處是，控制用戶的預(yù)期，以避免用戶跑到設(shè)計(jì)的Domain以外去了；不好的地方是，你可能“聽(tīng)上去”沒(méi)有那么酷。

所以，當(dāng)我說(shuō)“存在即為被感知”的時(shí)候，強(qiáng)調(diào)的是對(duì)價(jià)值的感知；而不是對(duì)“像人一樣”的感知。

“對(duì)話智能的核心價(jià)值：在內(nèi)容，不在交互”

多年前，還在英國(guó)讀書(shū)的時(shí)候，我曾經(jīng)在一個(gè)非常有名歷史悠久的秘密結(jié)社里工作。我對(duì)當(dāng)時(shí)的那位照顧會(huì)員需求的大管家印象深刻。你可以想象她好像是“美國(guó)運(yùn)通黑卡服務(wù)”的超級(jí)禮賓，她有兩個(gè)超能力：

1. Resourceful，會(huì)員的奇葩需求都能想盡辦法的實(shí)現(xiàn)：一個(gè)身在法蘭克福的會(huì)員半夜里遇到急事，臨時(shí)想盡快回倫敦，半夜沒(méi)有航班了，打電話找到大管家求助。最后大管家找到另一個(gè)會(huì)員的朋友借了私人飛機(jī)，送他一程，凌晨回到了倫敦。

2. Mind-reading，會(huì)員想要什么，無(wú)需多言：

“Oliver，我想喝點(diǎn)東西…”

“當(dāng)然沒(méi)問(wèn)題，我待會(huì)給你送過(guò)來(lái)。” 她也不需要問(wèn)喝什么，或者送到哪里。

人人都想要一個(gè)這樣的管家。蝙蝠俠需要Alfred；鋼鐵俠需要Javis；西奧多需要Her（盡管這哥們后來(lái)走偏了）；iPhone 需要Siri；這又回到了我們?cè)赑art1里提到的，AI的to C 終極產(chǎn)品是智能助理。

但是，人們需要這個(gè)助理的根本原因，是因?yàn)槿藗冃枰膶?duì)話能力么？這個(gè)世界上已經(jīng)有70億個(gè)自然語(yǔ)言對(duì)話系統(tǒng)了（就是人），為什么我們還需要制造更多的對(duì)話系統(tǒng)？

我們需要的是對(duì)話系統(tǒng)后面的思考能力，解決問(wèn)題的能力。而對(duì)話，只是這個(gè)思考能力的交互方式（Conversational User Interface）。如果真能足夠聰明的把問(wèn)題提前解決了，用戶甚至連話都不想說(shuō)。

我們來(lái)看個(gè)例子。

我知道很多產(chǎn)品經(jīng)理已經(jīng)把這個(gè)iPhone初代發(fā)布的東西講爛了。但是，在這兒確實(shí)是一個(gè)非常好的例子：我們來(lái)探討一下iPhone用虛擬鍵盤(pán)代替實(shí)體鍵盤(pán)的原因。

普通用戶，從最直觀的視角，能得出結(jié)論：這樣屏幕更大！需要鍵盤(pán)的時(shí)候就出現(xiàn)，不需要的時(shí)候就消失。而且還把看上去挺復(fù)雜的產(chǎn)品設(shè)計(jì)給簡(jiǎn)化了，更好看了。甚至很多產(chǎn)品經(jīng)理也是這么想的。實(shí)際上，這根本不是硬件設(shè)計(jì)的問(wèn)題。原因見(jiàn)下圖。

其實(shí)喬布斯在當(dāng)時(shí)也講的很清楚：物理鍵盤(pán)的核心問(wèn)題是，（作為交互UI）你不能改變它。物理交互方式（鍵盤(pán)）不會(huì)根據(jù)不同的軟件發(fā)生改變。

如果要在手機(jī)上加載各種各樣的內(nèi)容，如果要?jiǎng)?chuàng)造各種各樣的軟件生態(tài)，這些不同的軟件都會(huì)有自己不同的UI，但是交互方式都得依賴同一種（物理鍵盤(pán)無(wú)法改變），這就行不通了。

所以，實(shí)際代替這些物理鍵盤(pán)的，不是虛擬鍵盤(pán)，而是整個(gè)觸摸屏。因?yàn)閕Phone（當(dāng)時(shí)的）將來(lái)會(huì)搭載豐富的生態(tài)軟件內(nèi)容，就必須要有能與這些還沒(méi)出現(xiàn)的想法兼容的交互方式。

在我看來(lái)，上述一切都是為了豐富的內(nèi)容服務(wù)。再一次的，交互本身不是核心，它背后搭載的內(nèi)容才是。

但是在當(dāng)初看這個(gè)發(fā)布會(huì)的時(shí)候，我是真的沒(méi)有g(shù)et到這個(gè)點(diǎn)。那個(gè)時(shí)候真的難以想象，整個(gè)移動(dòng)互聯(lián)時(shí)代會(huì)誕生的那么多APP，都有各自不同的UI，來(lái)搭載各式各樣的服務(wù)。

你想想，如果以上面這些實(shí)體鍵盤(pán)，讓你來(lái)操作大眾點(diǎn)評(píng)、打開(kāi)地圖、Instagram或者其他你熟悉的APP，是一種怎樣的體驗(yàn)？更有可能的是，只要是這樣的交互方式，根本設(shè)計(jì)不出剛才提到的那些APP。

與之同時(shí)，這也引申出一個(gè)問(wèn)題：如果設(shè)備上，并沒(méi)有多樣的軟件和內(nèi)容生態(tài)，那還應(yīng)該把實(shí)體鍵設(shè)計(jì)成觸摸和虛擬的方式么？比如，一個(gè)挖掘機(jī)的交互方式，應(yīng)該使用觸屏么？甚至對(duì)話界面？

“對(duì)話智能解決重復(fù)思考”

同樣的，對(duì)話智能的產(chǎn)品的核心價(jià)值，應(yīng)該在解決問(wèn)題的能力上，而不是停留在交互這個(gè)表面。這個(gè)“內(nèi)容” 或者 “解決問(wèn)題的能力” 是怎么體現(xiàn)的呢？

工業(yè)革命給人類帶來(lái)的巨大價(jià)值在于解決“重復(fù)體力勞動(dòng)”這件事。

經(jīng)濟(jì)學(xué)家Tyler Cowen 認(rèn)為，“ 什么行業(yè)的就業(yè)人越多，顛覆這個(gè)工種就會(huì)創(chuàng)造更大的商業(yè)價(jià)值。” 他在Average Is Over這本書(shū)里描述到：

“ 20世紀(jì)初，美國(guó)就業(yè)人口最多的是農(nóng)民；二戰(zhàn)后的工業(yè)化、第三產(chǎn)業(yè)的發(fā)展，再加上婦女解放運(yùn)動(dòng)，就業(yè)人工最多的工種變成輔助商業(yè)的文字工作者比如秘書(shū)助理呼叫中心（文員，信息輸入）。1980/90年代的個(gè)人計(jì)算機(jī)，以及Office 的普及，大量秘書(shū)，助理類工作消失。”

這里提及的工作，都是需要大量重復(fù)的工作。而且不停的演變，從重復(fù)的體力，逐步到重復(fù)的腦力。

從這個(gè)角度出發(fā)，對(duì)一個(gè)場(chǎng)景背后的“思考能力”沒(méi)有把控的AI產(chǎn)品，會(huì)很快被代替掉。首當(dāng)其沖的，就是典型意義上的智能客服。

在市場(chǎng)上，有很多這樣的智能客服的團(tuán)隊(duì)，他們能夠做對(duì)話系統(tǒng)（詳見(jiàn)Part 2），但是對(duì)這各領(lǐng)域的專業(yè)思考，卻不甚了解。

我把“智能客服” 稱為“前臺(tái)小姐姐”——無(wú)意冒犯，但是前臺(tái)小姐姐的主要工作和專業(yè)技能并沒(méi)有關(guān)系。他們最重要的技能就是對(duì)話，準(zhǔn)確點(diǎn)說(shuō)是用對(duì)話來(lái)“路由”——了解用戶什么需求，把不合適的需求過(guò)濾掉，再把需求轉(zhuǎn)給專家去解決。

但是對(duì)于一個(gè)企業(yè)而言，客服是只嘴和耳，而專家才是腦，才是內(nèi)容，才是價(jià)值。客服有多不核心？想想大量被外包出去的呼叫中心，就知道了。

與這類客服機(jī)器人產(chǎn)品對(duì)應(yīng)的，就是專家機(jī)器人。一個(gè)專家，必定有識(shí)別用戶需求的能力，反之不亦然。你可以想象一個(gè)企業(yè)支付給一個(gè)客服多少薪資，又支付給一個(gè)專家多少薪資？一個(gè)專家需要多少時(shí)間培訓(xùn)和準(zhǔn)備才能上崗，客服小姐姐呢？于此同時(shí)，專業(yè)能力是這個(gè)機(jī)構(gòu)的核心，而客服不是。

正因?yàn)槿绱?，很多人認(rèn)為，人工的呼叫中心，以后會(huì)被AI呼叫中心代替掉；而我認(rèn)為，用AI做呼叫中心的工作，是一個(gè)非常短暫的過(guò)渡型方案。很快代替人工呼叫中心的，甚至代替AI呼叫中心，是具備交互能力的專家AI中心。在這兒，“專家”的意義大于“呼叫”。

在經(jīng)歷過(guò)工具化帶來(lái)的產(chǎn)能爬坡和規(guī)模效應(yīng)之后，他們成本差不多，但是卻專業(yè)很多。比如他直接鏈接后端的供給系統(tǒng)的同時(shí)，還具備專業(yè)領(lǐng)域的推理能力，也能與用戶直接交互。

NLP在對(duì)話系統(tǒng)里解決的是交互的問(wèn)題。

在人工智能產(chǎn)品領(lǐng)域里，給與一定時(shí)間，掌握專業(yè)技能的團(tuán)隊(duì)一定能對(duì)話系統(tǒng)；而掌握對(duì)話系統(tǒng)的團(tuán)隊(duì)則很難掌握專業(yè)技能。試想一下在幾年前，移動(dòng)互聯(lián)剛剛出現(xiàn)的時(shí)候，會(huì)做app的開(kāi)發(fā)者，去幫銀行做app；而幾年之后銀行都會(huì)自己開(kāi)發(fā)app，而開(kāi)發(fā)者干不了銀行的事。

在這個(gè)例子里，做AI產(chǎn)品定義的朋友，你的產(chǎn)品最好是要代替（或者輔助）某個(gè)領(lǐng)域?qū)＜?；而不要瞄?zhǔn)那些過(guò)渡性崗位，比如客服。

從這個(gè)角度出發(fā)，對(duì)話智能類的產(chǎn)品最核心的價(jià)值，是進(jìn)一步的代替用戶的重復(fù)思考。Work on the mind not the mouth.哪怕已經(jīng)是在解決腦袋的問(wèn)題，也盡量去代替用戶系統(tǒng)2的工作，而不只是系統(tǒng)1的工作。

在你的產(chǎn)品中，加入專業(yè)級(jí)的推理；幫助用戶進(jìn)行抽象概念與具象細(xì)節(jié)之間的轉(zhuǎn)化；幫助用戶去判斷那些出現(xiàn)在他的模型中，但是他口頭還沒(méi)有提及的問(wèn)題；考慮他當(dāng)前的環(huán)境模型、發(fā)起對(duì)話時(shí)所處的物理時(shí)空、過(guò)去的經(jīng)歷；推測(cè)他的心態(tài)，他的世界模型。

先解決思考的問(wèn)題，再盡可能的轉(zhuǎn)化成語(yǔ)言。

Part 5

AIPM

“缺了什么？”

2018年10月底，我在慕尼黑為企業(yè)客戶做on site support。期間與客戶的各個(gè)BU、市場(chǎng)老板們以及自身的研發(fā)團(tuán)隊(duì)交流對(duì)話AI的應(yīng)用。作為全球最頂尖的汽車(chē)品牌之一，他們也在積極尋求AI在自身產(chǎn)品和服務(wù)上的應(yīng)用。

不缺技術(shù)人才。盡管作為傳統(tǒng)行業(yè)的大象，可能會(huì)被外界視為不擅長(zhǎng)AI，其實(shí)他們自身并不缺少NLP的研發(fā)。當(dāng)我跟他們的NLP團(tuán)隊(duì)交流時(shí)，發(fā)現(xiàn)基本都有世界名校的PHD。而且，在閉門(mén)的供應(yīng)商大會(huì)上，基本全球所有的科技大廠和咨詢公司都在場(chǎng)了。就算實(shí)在搞不了，也大有人排著隊(duì)的想幫他們搞。

創(chuàng)新的意愿強(qiáng)烈。在我接觸過(guò)的大企業(yè)當(dāng)中，特別是傳統(tǒng)世界100強(qiáng)當(dāng)中中，這個(gè)巨頭企業(yè)是非常重視創(chuàng)新的。經(jīng)過(guò)移動(dòng)互聯(lián)時(shí)代，丟掉的陣地，他們是真心想一點(diǎn)點(diǎn)搶回來(lái)，并試圖領(lǐng)導(dǎo)所在的行業(yè)，而不是follow別人的做法。不僅僅是像“傳統(tǒng)的大企業(yè)創(chuàng)新”那樣做一些不痛不癢的POC，來(lái)完成創(chuàng)新部門(mén)的KPI。他們則真的很積極地推進(jìn)AI的商業(yè)化，而且勇于嘗試改變過(guò)去和Tech provider之間的關(guān)系。這點(diǎn)讓我印象深刻，限于保密條款，在此略過(guò)細(xì)節(jié)。（關(guān)于國(guó)際巨型企業(yè)借新技術(shù)的初創(chuàng)團(tuán)隊(duì)之手來(lái)做顛覆式創(chuàng)新，也是一個(gè)很有意思的話題，以后新開(kāi)一個(gè)Topic。）

數(shù)據(jù)更多。那么傳統(tǒng)巨頭的優(yōu)勢(shì)就在于，真正擁有業(yè)務(wù)場(chǎng)景和實(shí)際的數(shù)據(jù)。賣(mài)出去的每一臺(tái)產(chǎn)品都是他們的終端，而且開(kāi)始全面聯(lián)網(wǎng)和智能化。再加上，各種線下的渠道、海量的客服，其實(shí)他們有能力和空間來(lái)搜集更完整的用戶生命周期數(shù)據(jù)。

當(dāng)然，作為硬幣的另一面，百年品牌也自然會(huì)有嚴(yán)重的歷史牽絆。機(jī)構(gòu)內(nèi)部的合規(guī)、采購(gòu)流程、數(shù)據(jù)的管控、BU之間的數(shù)據(jù)和行政壁壘也是跑不掉的。這些環(huán)節(jié)的Trade off確實(shí)大大的影響了對(duì)上述優(yōu)勢(shì)的利用。

但是最缺少的還是產(chǎn)品定義能力。

如果對(duì)話智能的產(chǎn)品定義失敗，后面的執(zhí)行就算是完美的，出來(lái)的效果也是智障。有些銀行的AI機(jī)器人就是例子：立項(xiàng)用半年，競(jìng)標(biāo)用半年，開(kāi)發(fā)用一年，然后上線跑一個(gè)月就因?yàn)樘老戮€了。

但這其實(shí)并不是傳統(tǒng)行業(yè)的特點(diǎn)，而是目前所有玩家的問(wèn)題——互聯(lián)網(wǎng)或科技公司的對(duì)話AI產(chǎn)品也逃不掉?？赡芑ヂ?lián)網(wǎng)企業(yè)還自我感覺(jué)良好，在這產(chǎn)品設(shè)計(jì)部分，人才最不缺了——畢竟“人人都是產(chǎn)品經(jīng)理” 嘛。但在目前，咱們看到的互聯(lián)網(wǎng)公司出來(lái)的產(chǎn)品也都是差不多的效果，具體情況咱們?cè)赑art 2里已經(jīng)介紹足夠多了。

我們來(lái)看看難點(diǎn)在哪里。

AI產(chǎn)品該怎么做定義呢？也就是，需要怎樣的產(chǎn)品才能實(shí)現(xiàn)商業(yè)需求。技術(shù)部門(mén)往往主要關(guān)注技術(shù)實(shí)現(xiàn)，而不背商業(yè)結(jié)果KPI；而業(yè)務(wù)部門(mén)的同事對(duì)AI的理解又很有限，也就容易提出不合適的需求。

關(guān)鍵是，在做產(chǎn)品定義時(shí)，你想要描述 “我想要一個(gè)這樣的AI，它可以說(shuō)…” 的時(shí)候你會(huì)發(fā)現(xiàn)，因?yàn)槭菍?duì)話界面，你根本無(wú)法窮盡這個(gè)產(chǎn)品的可能性。其中一個(gè)具體細(xì)節(jié)就是，產(chǎn)品文檔該怎么寫(xiě)，這就足夠挑戰(zhàn)了。

“對(duì)話AI產(chǎn)品的管理方法”

先給結(jié)論：如果還想沿用管理GUI產(chǎn)品的方法論來(lái)管理對(duì)話智能產(chǎn)品，這是不可能的。

從行業(yè)角度來(lái)看，沒(méi)有大量成功案例，就不會(huì)有流水線；沒(méi)有流水線，就沒(méi)有基于流水線的項(xiàng)目管理。

也就是說(shuō)，從1886年開(kāi)始第一輛現(xiàn)代汽車(chē)出現(xiàn)，到1913年才出現(xiàn)第一條流水線——中間有27年的跨度。再到后來(lái)豐田提出The Toyota Way，以精益管理(Lean Management)來(lái)快速迭代（類似敏捷開(kāi)發(fā)）以盡量避免浪費(fèi)，即Kaizen(改善)，這已經(jīng)是2001年的事情了。

這兩天和其他也在給大企業(yè)做對(duì)話的同行交流的時(shí)候，聽(tīng)到很多不太成功的產(chǎn)品案例，歸結(jié)起來(lái)幾乎都是因?yàn)?“產(chǎn)品Scope定義不明”，導(dǎo)致項(xiàng)目開(kāi)展到后面根本收不了尾。而且因?yàn)楣δ苤g的耦合緊密，連線都上不了（遇到上下文對(duì)話依賴的任務(wù)時(shí)，中間環(huán)節(jié)一但有缺失，根本走不通流程）。這些都是行業(yè)早期不成熟的標(biāo)志。

“對(duì)話AI產(chǎn)品的Design Principle尚未出現(xiàn)”

對(duì)話智能領(lǐng)域相對(duì)視覺(jué)類的產(chǎn)品，有幾個(gè)特性上的差異：

1）是產(chǎn)品化遠(yuǎn)不如視覺(jué)類AI成熟；

2）深度學(xué)習(xí)在整個(gè)系統(tǒng)里扮演的角色雖然重要，但是還是很少，遠(yuǎn)不夠撐起來(lái)有價(jià)值的對(duì)話系統(tǒng)；

3）產(chǎn)品都是黑箱，目前在行業(yè)中尚無(wú)比較共同認(rèn)可的設(shè)計(jì)標(biāo)準(zhǔn)。

APP發(fā)展到后面，隨著用戶的使用習(xí)慣的形成，和業(yè)界內(nèi)成功案例的“互相交流”，逐步形成了一些設(shè)計(jì)上的共識(shí)，比如下面這一排，最右邊紅圈里的 “我”：

但是，從2007年iPhone發(fā)布，到這些移動(dòng)產(chǎn)品的設(shè)計(jì)規(guī)范逐步形成，也花了近6、7年時(shí)間，且不提這是圖形化界面。

到如今，這類移動(dòng)設(shè)備上的產(chǎn)品設(shè)計(jì)標(biāo)準(zhǔn)已經(jīng)成熟到，如果在設(shè)計(jì)師不遵循一些設(shè)計(jì)思路，反而會(huì)引起用戶的不習(xí)慣。只是對(duì)話系統(tǒng)的設(shè)計(jì)規(guī)范，現(xiàn)在談還為時(shí)尚早。

到這里，結(jié)合上述兩個(gè)點(diǎn)（對(duì)話AI產(chǎn)品的管理方法、設(shè)計(jì)規(guī)范都不成熟），也就可以解釋為什么智能音箱都不智能。因?yàn)橹悄芤粝涞谋澈蠖际且惶住凹寄艽蛟炜蚣堋?，給開(kāi)發(fā)者，希望開(kāi)發(fā)者能用這套框架來(lái)制作各種“技能”。

而“對(duì)話技能類平臺(tái)”在目前根本走不通。任何場(chǎng)景一旦涉及到明文識(shí)別以外的，需要對(duì)特定的任務(wù)和功能進(jìn)行建模，然后再融合進(jìn)多輪對(duì)話管理里的場(chǎng)景，以現(xiàn)在的產(chǎn)品成熟程度，都無(wú)法抽象成有效的設(shè)計(jì)規(guī)范?，F(xiàn)在能抽象出來(lái)的，都是非常簡(jiǎn)單的上下文管理（還記得Part 2里的“填表”么？）。

我就舉一個(gè)例子，絕大部分的技能平臺(tái)，根本就沒(méi)有“用戶生命周期管理”的概念。這和服務(wù)流程是兩碼事，也是很多機(jī)器人智障的諸多原因之一。因?yàn)樯婕暗教?xì)節(jié)和專業(yè)的部分，咱們暫且不展開(kāi)。

也有例外的情況：技能全部是語(yǔ)音控制型，比如“關(guān)燈開(kāi)燈” “開(kāi)空調(diào)25度”。這類主要依賴明文識(shí)別的技能，也確實(shí)能用框架實(shí)現(xiàn)比較好的效果。但這樣的問(wèn)題在于，開(kāi)放給開(kāi)發(fā)者沒(méi)有意義：這類技能既不需要多樣的產(chǎn)品化；開(kāi)發(fā)者從這類開(kāi)發(fā)中也根本賺不到錢(qián)——幾乎沒(méi)有商業(yè)價(jià)值。

另一個(gè)例外是大廠做MLaaS類平臺(tái)，這還是很有價(jià)值的。能解決開(kāi)發(fā)者對(duì)深度學(xué)習(xí)的需求，比如意圖識(shí)別、分詞、實(shí)體提取等最底層的需求。但整個(gè)識(shí)別部分，就如我在Part 3&4里提到的，只應(yīng)占到任務(wù)對(duì)話系統(tǒng)的10%，也僅此而已。剩下的90%的工作，也是真正決定產(chǎn)品價(jià)值的工作，都得開(kāi)發(fā)者自己搞。

他們會(huì)經(jīng)歷些什么？我隨便舉幾個(gè)最簡(jiǎn)單的例子（行業(yè)外的朋友可以忽略）：

如果你需要訓(xùn)練一個(gè)意圖，要生成1000句話來(lái)做素材，那么“找100個(gè)人，每人寫(xiě)10句” 的訓(xùn)練效果要遠(yuǎn)好于 “找10個(gè)人，每人寫(xiě)100句”；

是用場(chǎng)景來(lái)分意圖、用語(yǔ)義來(lái)分意圖和用謂語(yǔ)來(lái)拆分意圖，怎么選？這不僅影響機(jī)器人是否能高效支持“任務(wù)”之間的跳轉(zhuǎn)，還影響訓(xùn)練效率、開(kāi)發(fā)成本；

有時(shí)候意圖的訓(xùn)練出錯(cuò)，是訓(xùn)練者把自己腦補(bǔ)的內(nèi)容放進(jìn)去了；

話術(shù)的重要性，不僅影響用戶看著舒不舒服，更決定了他的回復(fù)的可能性——以及回復(fù)的回復(fù)的可能性——畢竟他說(shuō)的每一句后面的話，都需要被識(shí)別后，再回復(fù)；

如果你要給一個(gè)電影院做產(chǎn)品，最好用圖形化界面，而不要用語(yǔ)言來(lái)選座位：“現(xiàn)在空著的座位有，第一排的1，2，3，4….”

這些方面的經(jīng)驗(yàn)和技巧數(shù)都數(shù)不完，而且還是最淺顯、最皮毛的部分。你可以想象，對(duì)話智能的設(shè)計(jì)規(guī)范還有多少路要走——記得，每個(gè)產(chǎn)品還是黑箱，就算出了好效果，也看不到里面是怎么設(shè)計(jì)的。

“一個(gè)合適的AIPM”

當(dāng)真正的人工智能實(shí)現(xiàn)之后，所有產(chǎn)品經(jīng)理所需要做的思考，都會(huì)被AI代替。所以，真正的人工智能也許是人類最后的一個(gè)發(fā)明。在那一天之前，對(duì)話智能產(chǎn)品經(jīng)理的工作，是使用各種力量來(lái)創(chuàng)造智能給人的感覺(jué)。

AIPM一定要在心中非常明確 “AI的歸AI，產(chǎn)品的歸產(chǎn)品”。做工具的和用工具的，出發(fā)點(diǎn)是完全不同。應(yīng)該是帶著做產(chǎn)品的目的，來(lái)使用AI；千萬(wàn)不要出現(xiàn)“AIPM是來(lái)實(shí)現(xiàn)AI的”這樣的幻覺(jué)。

我們都熟悉，PM需要站在“人文和技術(shù)的十字路口”來(lái)設(shè)計(jì)產(chǎn)品。那么對(duì)話智能的AIPM可能在這方面可能人格分裂的情況更極端，以至于甚至需要2個(gè)人來(lái)做配合成緊密的產(chǎn)品小組——我認(rèn)為一個(gè)優(yōu)秀的對(duì)話智能產(chǎn)品經(jīng)理，需要在這三個(gè)表現(xiàn)優(yōu)秀：

1.懂商業(yè)：就是理解價(jià)值。

對(duì)話產(chǎn)品的價(jià)值一定不在對(duì)話上，而是通過(guò)對(duì)話這種交互方式（CUI）來(lái)完成背后的任務(wù)或者解決具體問(wèn)題。一個(gè)本來(lái)就很強(qiáng)的APP，就不要想著去用對(duì)話重新做一遍。反而是一些APP/WEB還沒(méi)有能很好解決的問(wèn)題，可以多花點(diǎn)時(shí)間研究看看。

這方面在Part 4 里的對(duì)話智能的核心價(jià)值部分，當(dāng)中有詳細(xì)闡述，在這里就不重復(fù)了。

2.懂技術(shù)：理解手中的工具（深度學(xué)習(xí)+ GOFAI）

一個(gè)大廚，應(yīng)該熟悉食材的特性；一個(gè)音樂(lè)家，應(yīng)該熟悉樂(lè)器的特征；一個(gè)雕塑家，應(yīng)該熟悉手中的鑿子。大家工具都差不多，成果如何，完全取決于藝術(shù)家。

現(xiàn)在，AIPM手中有深度學(xué)習(xí)，那么就應(yīng)該了解它擅長(zhǎng)什么和不擅長(zhǎng)什么。以避免提出太過(guò)于荒謬的需求，導(dǎo)致開(kāi)發(fā)的同學(xué)向你發(fā)起攻擊。了解深度學(xué)習(xí)的特性，會(huì)直接幫助我們判斷哪些產(chǎn)品方向更容易出效果。比如，做一個(gè)推薦餐廳的AI，就比做一個(gè)下圍棋的AI難太多了。

下圍棋的產(chǎn)品成功，并不需要人類理解這個(gè)過(guò)程，接受這個(gè)結(jié)果就行。而推薦一個(gè)餐廳給用戶，則必須要去模擬人的思維后，再投其所好。

人們?cè)谙胍扑]餐廳的時(shí)候，通過(guò)對(duì)話，了解他的需求（絕對(duì)不能問(wèn)太多，特別是顯而易見(jiàn)的問(wèn)題，比如他在5點(diǎn)的時(shí)候，你問(wèn)他要定幾點(diǎn)的餐廳）

對(duì)于圍棋而言，每次（單次）輸入的可能性只有不超過(guò)棋盤(pán)上19x19=361種可能性；一局棋的過(guò)程盡管千變?nèi)f化，我們可以交給深度學(xué)習(xí)的黑箱；最后決定輸贏所需要的信息，全部呈現(xiàn)在棋盤(pán)上的落子上，盡管量大，但與落子以外的信息毫無(wú)關(guān)系，全在黑箱里，只是這個(gè)黑箱很大。最后，輸出的結(jié)果的可能性只有兩種：輸或者贏。

對(duì)于推薦餐廳。每次輸入的信息，實(shí)際并不包含決策所需要的全部信息（無(wú)法用語(yǔ)言表達(dá)所有相關(guān)的影響因素，參考Part 3 里世界模型部分）；而且輸出的結(jié)果是開(kāi)放的，因?yàn)橥扑]的餐廳，既不可被量化，更不存在絕對(duì)的對(duì)錯(cuò)。

了解CUI的特性后，不該用對(duì)話的就不要強(qiáng)上對(duì)話交互；有些使用對(duì)話成本非常高，又很不Robust的環(huán)節(jié)，同時(shí)用戶價(jià)值和使用頻次又很低的，就要考慮規(guī)避——咱們是做產(chǎn)品的，不是實(shí)現(xiàn)真正的AI的，要分清楚。

3.懂人：心理和語(yǔ)言

這可能是當(dāng)前對(duì)話類產(chǎn)品最重要的地方，也是拉開(kāi)和其他產(chǎn)品設(shè)計(jì)的核心部分。也可能是中年人做產(chǎn)品的第二春。

對(duì)心理的理解，指的是當(dāng)用戶在說(shuō)話的時(shí)候，對(duì)他腦中的模型的理解。英文中“Read the room”就是指講話之前，先觀察一下了解周?chē)?tīng)眾的情況，揣摩一下他們的心理，再恰當(dāng)?shù)恼f(shuō)話。

比如，講話的時(shí)候，是否聽(tīng)眾開(kāi)始反復(fù)的看表？這會(huì)讓直接影響對(duì)話的進(jìn)程。你有遇到過(guò)和某人對(duì)話起來(lái)感覺(jué)很舒服的么？這個(gè)人，不僅僅是語(yǔ)言組織能力強(qiáng)，更重要的則是他對(duì)你腦中的對(duì)話進(jìn)程的把握，以及場(chǎng)景模型，甚至對(duì)你的世界模型有把握。他還知道怎么措辭，會(huì)更容易讓你接受，甚至引導(dǎo)（Manipulate）你對(duì)一些話題的放棄，或者是加強(qiáng)。

對(duì)話系統(tǒng)的設(shè)計(jì)也是一樣的。哪些要點(diǎn)在上文中說(shuō)過(guò)？哪些類型的指代可以去模擬？如果是文字界面，用戶會(huì)不會(huì)拉回去看之前的內(nèi)容？如果是語(yǔ)音界面，用戶腦中還記不記得??？如果記得住，還強(qiáng)調(diào)，會(huì)感覺(jué)重復(fù)；如果記不住，又不重復(fù)，會(huì)感覺(jué)困惑。

對(duì)語(yǔ)言的理解，則是指對(duì)口語(yǔ)特性的理解。我知道Frederick Jelinek說(shuō)的“每當(dāng)我開(kāi)除一個(gè)語(yǔ)言學(xué)家，Speech識(shí)別的準(zhǔn)確率就會(huì)增高”。只是，現(xiàn)在根本沒(méi)有真正意義上的自然語(yǔ)言生成（NLG），因?yàn)闆](méi)有真正的思維生成。

所以，任務(wù)類的對(duì)話的內(nèi)容，系統(tǒng)不會(huì)自然產(chǎn)生，也無(wú)法用深度學(xué)習(xí)生成。對(duì)于AIPM而言，要考慮的還是有很多語(yǔ)言上的具體問(wèn)題。一個(gè)回復(fù)里，內(nèi)容會(huì)不會(huì)太長(zhǎng)？要點(diǎn)該有幾個(gè)？謂語(yǔ)是否明確，用戶是否清晰被告知要做什么？條件又是什么？這樣的回復(fù)，能引發(fā)多少種可能的問(wèn)詢？?jī)?nèi)容措辭是否容易引起誤解（比如因?yàn)槁?tīng)眾的背景不同，可能會(huì)有不同的解讀）？

從這個(gè)角度而言，一個(gè)好的對(duì)話系統(tǒng)，必定出自一個(gè)很能溝通的人或者團(tuán)隊(duì)之手。能為他人考慮，心思細(xì)膩，使用語(yǔ)言的能力高效，深諳人們的心理變化。對(duì)業(yè)務(wù)熟悉，能洞察到用戶的Context的變化，而其格調(diào)又幫助用戶控制對(duì)話的節(jié)奏，以最終解決具體問(wèn)題。

Part 6

可見(jiàn)的未來(lái)是現(xiàn)狀的延續(xù)

“過(guò)渡技術(shù)”

在幾周前，我與行業(yè)里另一家做對(duì)話的CEO討論行業(yè)的將來(lái)。當(dāng)我聊到“深度學(xué)習(xí)做對(duì)話還遠(yuǎn)達(dá)不到效果”的態(tài)度時(shí)，他問(wèn)我：“如果是悲觀的，那么怎么給團(tuán)隊(duì)希望繼續(xù)往前進(jìn)呢？”

其實(shí)我并不是悲觀的，可能只是更客觀一點(diǎn)。

既然深度學(xué)習(xí)在本質(zhì)上搞不定對(duì)話，那么現(xiàn)在做對(duì)話AI的實(shí)現(xiàn)方式，是不是個(gè)過(guò)渡技術(shù)？這是一個(gè)好問(wèn)題。

我認(rèn)為，用現(xiàn)在的技術(shù)用來(lái)制作AI的產(chǎn)品，還會(huì)持續(xù)很長(zhǎng)時(shí)間，直到真正智能的到來(lái)。

如果是個(gè)即將被替代或者顛覆的技術(shù)，那就不應(yīng)該加碼投入。如果可以預(yù)見(jiàn)未來(lái)，沒(méi)人想在數(shù)碼相機(jī)崛起的前期，加入柯達(dá)；或者在LED電視普及之前，重金投入在背投電視的研發(fā)上。而且難以預(yù)測(cè)的不僅僅是技術(shù)，還有市場(chǎng)的發(fā)展趨勢(shì)。比如在中國(guó)，作為無(wú)現(xiàn)金支付方式，信用卡還沒(méi)來(lái)得及覆蓋足夠多的支付場(chǎng)景，就被移動(dòng)支付斷了后路。

而現(xiàn)在的對(duì)話智能所使用的技術(shù)，還遠(yuǎn)沒(méi)到這個(gè)階段。

Clayton M. Christensen在《創(chuàng)新者的窘境》里描述了每個(gè)技術(shù)的三個(gè)階段：

第一個(gè)階段，緩步爬坡；

第二個(gè)階段開(kāi)始迅猛發(fā)展，但是到接近發(fā)展的高地（進(jìn)步減速）的時(shí)候，另一個(gè)顛覆式技術(shù)可能已經(jīng)悄悄萌芽，并重復(fù)著第一個(gè)技術(shù)的發(fā)展歷程；

第三個(gè)階段，則進(jìn)入發(fā)展瓶頸，并最終被新技術(shù)顛覆

下圖黑色部分，為書(shū)中原圖：

而當(dāng)前對(duì)話AI的技術(shù)，還在第一階段（藍(lán)色旗幟位置）稱不上是高速發(fā)展，還處于探索的早期。黑箱的情況，會(huì)使得這個(gè)周期（第一階段）可能比移動(dòng)時(shí)代更長(zhǎng)。

以當(dāng)前的技術(shù)發(fā)展方向，結(jié)合學(xué)術(shù)界與工業(yè)界的進(jìn)展來(lái)看，第二個(gè)技術(shù)還沒(méi)有出現(xiàn)的影子。

但是同樣因?yàn)樯疃葘W(xué)習(xí)在對(duì)話系統(tǒng)中，只扮演的一小部分角色，所以大部分的空間，也是留給大家探索和成長(zhǎng)的空間。換句話來(lái)講，還有很多發(fā)展的潛力。

前提是，我們?cè)谟懻搶?duì)話類的產(chǎn)品，而不是實(shí)現(xiàn)AI本身。只是，這個(gè)階段的對(duì)話AI，還不會(huì)達(dá)到人們?cè)陔娪袄锟吹降哪菢?，能自如的用人類語(yǔ)言溝通。

2）服務(wù)提供者崛起的機(jī)會(huì)

因?yàn)樯鲜龅募夹g(shù)發(fā)展特點(diǎn)，在短期的將來(lái)，數(shù)據(jù)和設(shè)計(jì)是對(duì)話智能類產(chǎn)品的壁壘，技術(shù)不是。

只是這里說(shuō)的數(shù)據(jù)，不是指的用來(lái)訓(xùn)練的數(shù)據(jù)。而是供給端能完成服務(wù)的數(shù)據(jù)；能夠照顧用戶整個(gè)生命周期的數(shù)據(jù)；是當(dāng)對(duì)話發(fā)生的時(shí)候，用戶的明文以外的數(shù)據(jù)這些數(shù)據(jù)；影響用戶腦中的環(huán)境模型、影響對(duì)任務(wù)執(zhí)行相關(guān)的常識(shí)推理數(shù)據(jù)，等等。

而隨著IOT的發(fā)展，服務(wù)提供者，作為與用戶在線下直接打交道的一方，是最有可能掌握這些數(shù)據(jù)。他們能在各個(gè)Touch point去部署這些IOT設(shè)備，來(lái)搜集環(huán)境數(shù)據(jù)。并且，由他們決定要不要提供這些數(shù)據(jù)給平臺(tái)方。

但是，往往這些行業(yè)里的玩家都是歷史悠久、行動(dòng)緩慢。其組織機(jī)構(gòu)龐大，而且是組織結(jié)構(gòu)并不是為了創(chuàng)新而設(shè)計(jì)，而是圍繞著如何能讓龐大的軀干不用思考，高速執(zhí)行。而這也正是互聯(lián)網(wǎng)企業(yè)和創(chuàng)業(yè)企業(yè)的機(jī)會(huì)。

3）超級(jí)終端與入口之爭(zhēng)

對(duì)話智能類的產(chǎn)品必須搭載在硬件終端上。很多相關(guān)的硬件嘗試，都是在賭哪個(gè)設(shè)備能夠成為繼手機(jī)之后的下一個(gè)超級(jí)終端。就好像智能手機(jī)作為計(jì)算設(shè)備，代替了PC的地位一樣。

畢竟，在移動(dòng)時(shí)代，搶到了超級(jí)終端，就搶到了用戶獲取服務(wù)的入口。在入口的基礎(chǔ)之上，才是各個(gè)應(yīng)用。

如果對(duì)話智能發(fā)展到足夠好的體驗(yàn)，并能覆蓋更多的服務(wù)領(lǐng)域時(shí)，哪一個(gè)終端更有可能成為下一個(gè)超級(jí)終端呢？智能音箱、帶屏幕的音箱、車(chē)載設(shè)備甚至車(chē)機(jī)、穿戴設(shè)備等等都可以搭載對(duì)話智能。在5G的時(shí)代，更多的計(jì)算交給云端，在本地設(shè)備上留下能耗較低的OS和基礎(chǔ)設(shè)施，I/O交給麥克風(fēng)和音頻播放就完成了。

credit:Pixabay

因此任意一個(gè)聯(lián)網(wǎng)設(shè)備，都可能具備交互和傳遞服務(wù)的能力，進(jìn)一步削弱超級(jí)終端的存在。也就是說(shuō)，作為個(gè)人用戶，在任意一個(gè)聯(lián)網(wǎng)設(shè)備上，只要具備語(yǔ)音交互和聯(lián)網(wǎng)能力，都可能獲得服務(wù)。特別是一些場(chǎng)景依賴的商業(yè)服務(wù)，如酒店、醫(yī)院、辦公室等等。

隨著這些入口的出現(xiàn)，在移動(dòng)時(shí)代的以流量為中心的商業(yè)模式，可能將不再成立。而新的模式可能誕生，想象一下，每一個(gè)企業(yè)，每一個(gè)品牌都會(huì)有自己的AI。一個(gè)或是多個(gè)，根據(jù)不同的業(yè)務(wù)而產(chǎn)生；對(duì)內(nèi)部員工服務(wù)或者協(xié)助其工作，同時(shí)也接待外部的客服，管理整個(gè)生命周期從注冊(cè)成這家企業(yè)的用戶開(kāi)始，到最后（不幸地）中斷服務(wù)為止。

只是這個(gè)發(fā)展順序是，先有服務(wù)，再有對(duì)話系統(tǒng)——就好像人，是有腦袋里的想法，再用對(duì)話來(lái)表達(dá)。

結(jié)語(yǔ)

在本文中，所有與技術(shù)和產(chǎn)品相關(guān)的討論，都是在強(qiáng)調(diào)一個(gè)觀點(diǎn)：一個(gè)產(chǎn)品是由很多技術(shù)組合而成。我不希望傳達(dá)錯(cuò)誤的想法，類似“深度學(xué)習(xí)不重要”之類的；相反，我是希望每一類技術(shù)都得到正確的認(rèn)識(shí)，畢竟我們離真正的人工智能還有距離，能用上的都有價(jià)值。

作為AI從業(yè)者，心中也會(huì)留有非理性的希望，能早日見(jiàn)證到人造的智能的到來(lái)。畢竟，如果真正的智能出現(xiàn)了，可能產(chǎn)品經(jīng)理（以及其他很多崗位）就徹底解放了（或者被摧毀了）。

這或許就是人類的最后一個(gè)發(fā)明。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1792

文章
47442

瀏覽量
238991
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5507

瀏覽量
121298

原文標(biāo)題：人工智障 : 你看到的AI與智能無(wú)關(guān)

文章出處：【微信號(hào)：TheAlgorithm，微信公眾號(hào)：算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

為什么現(xiàn)在的人工智能助理都像人工智障

評(píng)論

嵌入式和人工智能究竟是什么關(guān)系?

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

《AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

risc-v在人工智能圖像處理應(yīng)用前景分析

人工智能ai 數(shù)電模電模擬集成電路原理電路分析

人工智能ai4s試讀申請(qǐng)

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science：人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

報(bào)名開(kāi)啟！深圳（國(guó)際）通用人工智能大會(huì)將啟幕，國(guó)內(nèi)外大咖齊聚話AI

FPGA在人工智能中的應(yīng)用有哪些？

Python中的人工智能框架與實(shí)例

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開(kāi)發(fā)（SC171開(kāi)發(fā)套件V2）

5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開(kāi)發(fā)（SC171開(kāi)發(fā)套件V1）

嵌入式人工智能的就業(yè)方向有哪些?

生成式人工智能和感知式人工智能的區(qū)別