人類的智慧寬廣而復雜。有些人類成就遠遠超出現今機器可達的領域,要想讓機器觸及這些領域,還需要一段漫長的時間。對于解決抽象問題、概念生成、情緒知識、創造力甚至是自我認知,即便是最強有力的深度學習算法,也無法在這些領域與人類智慧相提并論。
把所有這些認知能力融合到一臺機器中,從而能夠應對所有通用場景的人工智能稱為通用人工智能。目前,通用人工智能還停留在理論階段。
不過,當前的技術在執行特定類型任務方面取得了較大成功,這些任務過去都依賴于人類智力。我們稱這類人工智能為狹義人工智能或弱人工智能。弱人工智能主要指三種能力:學習、感知和認知。
▲AI能力備忘單
上圖概述了本文介紹的AI的核心能力。
談到AI的時候,客戶們不停地在問:“這事兒成了嗎?”在一個AI被過度炒作的世界,確實很難分清AI是幻想還是現實,是實際能力還是營銷表演。
所有這些能力在今天都是真實存在的。今天的AI是真實的,成千上萬的公司正在使用AI進行業務轉型。關注AI未來的可能性固然重要,但是你更需要了解現在的AI能做些什么。
01 學習
▲學習——無顯式編程的學習
機器學習的首要特征就是隨時間學習的能力,并且不需要明確編程。和人類一樣,機器學習算法通過探索與實踐學習,而不是遵循一步步的指令(當然我知道有些讀者是小孩子的父母,有時候你們可不希望孩子們這樣)。
機器學習算法是按照學習方式分類的。當下最流行的、你的企業90%的時間可能都會采用的技術就是有監督學習。
有監督學習使用包含輸入和期望輸出的數據集。通過迭代優化,學習算法可以找到一個函數,對輸入如何轉化為輸出進行建模。這個模型會被應用于訓練集外的新的輸入,并預測對應的輸出。
找到正確的算法和參數,部分靠科學,部分靠創造力和直覺。如何將機器學習應用于這一過程本身就是個研究課題——這種技術稱為自動化機器學習(AutoML)。
有監督學習算法都有相同的缺陷:它們需要大量數據。而且不是任何數據都行,它們需要同時包含輸入和對應輸出的訓練數據,也稱之為標記數據。
有時我們會有在記錄系統或交互系統中存儲的已經標記過的歷史數據。例如,對于客戶流失模型——我們可以查看流失客戶的歷史數據,加上客戶的歷史交互一起作為訓練數據的輸出部分。通過使用正確的算法,我們僅僅通過查看一系列的交互,就能夠預測未來的客戶流失情況。
然而有時我們不會如此幸運,數據并不會被標記。無監督學習算法會處理一組沒有標記的數據并找出其中的結構。聚類算法是無監督學習算法中最流行的一種,它通過不同的技術,在數據中找到共性并對其分組。你可能使用這種算法對你的客戶群或網頁訪問者進行客戶細分。
其他常用的無監督學習算法有關聯規則(定義數據間的關聯,如購買某種特定產品的用戶會對其他特定產品感興趣)和異常檢測(找出與主體數據不同的罕見或可疑部分數據)。
在其他情況下,我們完全不使用訓練數據。想想人們如何學會玩一款視頻游戲。解決這個問題的有監督方法就是觀看成千上萬的游戲視頻并從中學習。這是許多Youtube播主的商業模式,我的孩子們就看這種視頻,但我發現這種方式極度枯燥。
一個更有趣的學習方法是實際上手玩這個游戲。在玩的過程中,如果我們做對了(比如得分)就會得到正向強化,如果我們做錯了(比如被殺死)就會得到負向強化。強化學習算法就是這么做的:它們通過探索環境并強化正確的行為來學習機器學習的功能。
強化學習由于其不需要數據的特性,成為商業上一種極其有前途的機器學習方式。它特別適合自動化系統——無論是移動的(如車輛、遙控飛機)還是靜止的(如空調系統、電力系統)——同時也可以應用于復雜的業務流程。強化學習通常被認為是AI中最困難的學科。
02 感知
▲感知——解釋周邊世界
如果說有某個領域為人類所獨有,那就是感知了。數十年來,我們嘗試模仿人類的能力去感知周圍的世界,卻鮮有成功。理解一幅圖畫或將語音轉文字的復雜度使其幾乎無法用編程的方式實現——想象一下如何用一步步的指令來定義圖片里的一匹馬。
機器學習算法更適合解決這類問題。然而,傳統機器學習算法在處理感知任務時的準確性與人類能做到的程度相去甚遠(我仍然記得在Windows Vista上給開發們演示語音識別功能的情景……這件事教我學會要做個更堅強的人!)。
以圖像分類為例。ImageNet是圖像分類中最著名的挑戰。自2010年起,全球的參與者提交他們的算法來創建最精準的模型。在競賽初期(即2010年),能達到的較好的誤差率約在25%左右。作為比較,同一數據集下人類對應的誤差率約為5.1%。
到了2012年,Alex Krizhevsky(一位來自多倫多大學的學生)提交了他的方案:一個包含8層名為AlexNet的神經網絡。AlexNet擊敗了其他競爭對手,達到了15.3%的誤差率—比僅次于他的競爭者低了10個點。
在接下來的數年內,他引入的技術被持續改進并增加了更多層數,直到2014年,一個名為GoogLeNet的22層神經網絡達到了6.7%的誤差率。
次年,一個來自微軟研究院的團隊提交了使用全新神經網絡技術的作品,其神經網絡的深度達到了超大的152層,誤差率僅為3.57%,首次超過了人類的表現。
深度學習永遠地改變了計算機視覺。如今,這項技術實際上已經被用于計算機視覺的所有高精度場景,這使其成為企業中最常見的用例。以下是一些計算機視覺在當今的應用:
為圖像的內容分類(影像分類)
識別一幅圖像中的多個物體,并識別每個物體的邊界(物體檢測)
識別圖像中的場景或行為(如:工作場所的不安全情形,或零售商店的補貨)
檢測人臉,識別身份,甚至辨識每張臉的情緒
識別書寫文本,包含手寫體文本(光學字符識別)
鑒別圖像或視頻里的攻擊性行為
研究員Harold Stolovitch和Erica Keeps在他們的書Telling Ain’t Training(ASTD出版社)中斷言,我們獲取的信息中,有83%來自視覺,次之是聽覺,提供了11%的感覺輸入。兩者合起來占據了我們從外界獲取信息的94%。毫無疑問,音頻處理是人工智能關注的另一個較大領域,僅次于計算機視覺。
相似的深度學習技術可以應用到音頻信號上,幫助計算機識別聲音。你可以利用這項能力區分鳥兒們的歌聲,或通過風力渦輪機發出的聲音來預測故障。
不過人工智能在音頻處理方面最激動人心的還是語音識別。用于語音識別的參照數據集被稱為總機,它包含了約260小時的電話交談錄音。測量后人類的轉錄誤差率為5.9%。該誤差率在2016年被微軟研究院設計的神經網絡追平,并于1年后被其以5.1%的誤差率擊敗。有史以來第一次,一臺機器可以比人類自身更好地理解人類。
這些突破不但讓機器更懂我們,而且使得機器可以用自然的方式與我們溝通。2018年,Azure上線了基于深度學習開發的文字轉語音服務,該服務能夠合成出與真人無異的人聲。
這些能力的結合將實現計算機科學的法寶:全自然用戶接口(NUI)。機器既可以看見和理解人類,又可以用自然語言與人類交流,這看起來就像是我們已經實現了科幻電影的幻想一樣。不過,我們真的做到了嗎?要與計算機進行真正有意義的交流,計算機不但要能轉錄我們說的話,還要能理解話里的意思。
自然語言處理(NLP)是人工智能中從人類語言中分析、理解并提取含義的領域。NLP最常見的場景之一就是語言理解,語言理解是現代會話型人工智能體驗(比如數字助理)的基礎。
當你向Siri、Alexa或Cortana詢問天氣時,系統首先將你的會話音頻轉換成文字,然后通過自然語言理解模型抽取出你的意圖,然后將意圖(如“獲取天氣”)映射到對應輸出(在這個例子中,就是提供當地的天氣信息)。
NLP技術在過去幾年中飛速發展。有些只能處理簡單任務,比如情緒分析、關鍵字抽取或個體識別,有些則可以處理更復雜的任務,如文本歸納或翻譯。2018年,微軟的機器翻譯團隊首次在自動翻譯方面達到人類水平——這是個極度復雜的任務,曾一度被認為是不可能實現的。
自然語言理解最激動人心的應用之一便是機器閱讀理解。2018年1月,來自微軟亞洲研究院的團隊使用斯坦福問答數據集(SQuAD)達到了人類的水平,該數據集由針對一組維基百科文章的問題所組成。實際上,有關這些文章的開放性問題,系統能夠給出比人類更好的答案。許多公司為之做出了貢獻,幫助它走得更遠。
盡管如此,這些系統仍然無法達到人類的抽象層次。在其核心,問答算法會搜索文本來尋找可以指向正確答案的線索。對于每個問題,系統都要搜索整個文本來匹配。人類也這么做(特別是當我們很匆忙時),但是當我們真正想理解一段文字時,我們會從中抽取知識,進行概括,并使其更易于理解。
想象一段描述加利福尼亞的文字。人類會從這段文字中歸納出“加利福尼亞”這個實體并給它賦予屬性(如人口、面積),甚至與其他實體的關系(如鄰州、地方長官)。歸納后,我們不再需要那段文字來回答關于加利福尼亞的問題。我們已經概括了有關的知識。
人工智能中與此過程對應的是知識抽取,其對企業有著深遠的意義。通過使用這些技術,我們可以從混沌、無序,甚至令人困惑的信息中抽取高階概念。結果知識圖不但能用于回答關于整個數據產業的寬泛問題,還能瀏覽和理解這些信息。
這種水平的抽象遠遠超出了傳統NLP的能力范圍,使其更接近我們所說的認知。
03 認知
▲認知——基于數據進行推理
嚴格來說,認知是獲取和處理知識的能力。它包含人腦用于推理、理解、解決問題、計劃和決策的高層次概念。
我們目前探索的技術包含了一定程度的認知,雖然有時不那么明顯。以圖像分類為例,如果我們仔細審視用于圖像分類的深度神經網絡,實際上就可以看出神經網絡是如何在每一層將問題分解成更小的步驟的。
沒有人工干預,神經網絡自動展示了某種程度的概括:第一層檢測簡單的特性,如邊緣或紋理。往更深層走,每一層都能夠抽取更復雜的屬性,如圖案或元素。某種意義上,神經網絡已經可以獲取一些知識并使用這些知識做一些基礎推理。
自然語言處理展示了類似的內在抽象。在其核心,大部分現代的NLP技術都使用了被稱為詞嵌入的技術。通過詞嵌入技術,文本中的每個詞都轉換為一個代表單詞含義的向量。在這個新的空間,語義相似的詞(如“天氣”和“預報”)彼此接近。
通過這種方式,系統會將“今天天氣如何?”和“獲取未來24小時的預報”匹配為相同的意圖。即使詞不同,它們的含義卻是相似的,因為它們的語義相近。翻譯也是相同的工作原理:翻譯技術使用詞嵌入來抽象輸入的文本,將其轉換為與語言無關的“想法”,再用反向流程將其翻譯為任意一種語言。
在這些例子中,認知是感知的內在。然而,許多人工智能場景是單純的認知。它們不專注于感知周圍的世界,而是專注于抽象這個世界并基于抽象進行推理。一些最基礎的有監督學習方法便是如此。回歸分析是根據現有信息預測數值的能力,例如基于房屋的特征和位置評估其價值,或根據歷史數據預估其銷售額。
分類是根據物品自身特征對其分級或分類的能力,例如,判斷一棟房屋是不是會被出售給某個特定的買家。優化算法則是基于流程進行推論,從而最大化某個特定的結果,比如在醫院里分配資源。
推薦系統僅通過評分或購買習慣就能夠找出電影、書籍或歌曲等物品間不為人知的共性。其他技術,如前所述,如聚類分析能找出數據中的模式,并以無監督方式對物品歸類。
我們在強化學習技術中也能看到認知能力。2017年,蒙特利爾微軟研究院(前馬魯巴島)跨越了100萬分大關,創造了吃豆人游戲的新紀錄。該系統通過玩成千上萬把游戲來實現自我訓練。
同樣地,在2018年,OpenAI Five(一個由五個神經網絡組成的團隊)在Dota2游戲中打敗了人類隊伍。OpenAI Five通過自我對戰進行訓練,每天的訓練量相當于180年游戲時長。
最著名的例子應該是由Google DeepMind取得的成就:其系統AlphaGo第一次擊敗了一位9段圍棋專業選手。相對于其他游戲(如象棋),圍棋被認為是對電腦來說更為困難的游戲。
深入觀察所有AI系統參與的游戲,你會覺得它們展現出了認知的另外一種特征——計劃。系統能夠提前“思考”最佳的方式來獲得長期看來最大化的分數。
責編AJX
評論
查看更多