機器學習是關于計算機基于數據構建模型并運用模型來模擬人類智能活動的一門學科。隨著計算機與網絡的飛速發展,機器學習在我們的生活與工作中起著越來越大的作用,正在改變著我們的生活和工作。日常生活中的機器學習我們在日常生活經常使用數碼相機。你也許不知道,數碼相機上的人臉檢測技術是基于機器學習技術的!我認識三位了不起的科學家與工程師,他們是Robert Schapire,Paul Viola,勞世竑。他們三位都與這有關。R o b e r t與Y oav Freund一起發明了非常有效的機器學習算法A d a B o o s t。P a u l將A d a B o o s t算法成功地應用到人臉檢測。勞世竑和他領導的Omr o n團隊將A d a B o o s t人臉檢測算法做到了芯片上。據說現在世界上有百分之六七十的數碼相機上的人臉檢測都是用Omr o n的芯片。
在我們的工作與生活中,這種例子曾出不窮。互聯網搜索、在線廣告、機器翻譯、手寫識別、垃圾郵件過濾等等都是以機器學習為核心技術的。不久以前,機器學習國際大會(International Conference onMachine Learning,ICML 2011)在美國華盛頓州的B e l l e v u e市舉行。約有7百多位科研人員、教授、學生參加,創造了歷史最高紀錄。大會的三個主題演講分別介紹了機器學習在微軟的Kinnect游戲機用戶感應系統、谷歌的G o g g l e s圖片搜索系統、I B M的Watson自動問答系統中的應用。這些事實讓人預感到機器學習被更廣泛應用的一個新時代的到來。機器學習與人工智能智能化是計算機發展的必然趨勢。人類從事的各種智能性活動,如數學、美術、語言、音樂、運動、學習、游戲、設計、研究、教學等等,讓計算機做起來,現在還都是很困難的。這是幾十年來人工智能研究得到的結論。
人工智能研究中,人們曾嘗試過三條路。我將它們稱之為外觀(extrospection)、內省(introspection)和模擬(simulation)。所謂外觀,指的是觀察人的大腦工作情況,探求其原理,解明其機制, 從而在計算機上“ 實現” 人類大腦的功能。比如, 計算神經學(computationalneuroscience)的研究就是基于這個動機的。然而,人腦的復雜信息處理過程很難觀測和模型化。就像我們僅僅觀測某個計算機內的信號傳輸過程,很難判斷它正在做什么樣的計算一樣。內省就是反思自己的智能行為,將自己意識到的推理、知識等記錄到計算機上,從而“再現”人的智能,比如專家系統(expert system)的嘗試就屬于這一類。內省的最大問題是它很難泛化,也就是舉一反三。無論是在什么樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉。
這種能力稱為泛化能力。通過內省的方法很難使計算機擁有泛化能力。自己的智能原理,對人類來說很有可能是不可知的(agnostic)。
籠子里的老鼠可能認為觸動把手是得到食物的“原因”,但它永遠也不能了解到整個籠子的食物投放機制。模擬就是將人的智能化操作的輸入與輸出記錄下來,用模型來模擬,使模型對輸入輸出給出同人類相似的表現,比如統計機器學習(statisticalmachine learning)。實踐表明,統計機器學習是實現計算機智能化這一目標的最有效手段。統計學習最大的優點是它具有泛化能力;而缺點是它得到的永遠是統計意義下的最優解(例如,人臉檢測)。現在當人們提到機器學習時,通常是指統計機器學習或統計學習。
機器學習的優缺點下面看一個簡單的例子。由這個例子可以說明統計學習的基本原理,以及由此帶來的優缺點。假設我們觀測到一個系統的輸出是一系列的1和0,要預測它的下一個輸出是什么。如果觀測數據中1和0各占一半,那么我們只能以0.5的準確率做出預測。但是,如果我們同時觀測到這個系統有輸入,也是一系列的1和0,并且輸入是1時輸出是0的比例是0.9,輸入是0時輸出是1的比例也是0.9。這樣我們就可以從已給數據中學到“模型”,根據系統的輸入預測其輸出,并且把預測準確率從0.5提高到0.9。以上就是統計學習,特別是監督學習的基本想法。事實上,這是世界上最簡單的統計機器學習模型!條件概率分布P(Y|X),其中隨機變量X與Y表示輸入與輸出,取值1與0。可以認為所有的監督學習模型都是這個簡單模型的復雜版。我們用這個模型根據給定的輸入特征,預測可能的輸出。統計學習最大的優點是它具有泛化能力,對于任意給定的X,它都能預測相應的Y。Vapnik的統計學習理論還能對預測能力進行分析,給出泛化上界。但從這個例子中也可以看到統計學習的預測準確率是不能保證100%的。比如,人臉檢測會出錯,漢語分詞會出錯。
統計學習是“鄉下人”的辦法。有個笑話。一個鄉下人進城,到餐館吃飯,不知如何在餐館用餐,就模仿旁邊的人。別人做什么,他也就學著做什么。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅里,趁鄉下人不注意時把蠟燭扔到地上,然后咬了一口卷著的餅。鄉下人也跟著學,大咬了一口自己的餅。統計學習只是根據觀測的輸入與輸出,“模仿”人的機器學習是關于計算機基于數據構建模型并運用模型來模擬人類智能活動的一門學科。隨著計算機與網絡的飛速發展,機器學習在我們的生活與工作中起著越來越大的作用,正在改變著我們的生活和工作。日常生活中的機器學習我們在日常生活經常使用數碼相機。你也許不知道,數碼相機上的人臉檢測技術是基于機器學習技術的!我認識三位了不起的科學家與工程師,他們是Robert Schapire,Paul Viola,勞世竑。他們三位都與這有關。R o b e r t與Y oav Freund一起發明了非常有效的機器學習算法A d a B o o s t。P a u l將A d a B o o s t算法成功地應用到人臉檢測。勞世竑和他領導的Omr o n團隊將A d a B o o s t人臉檢測算法做到了芯片上。據說現在世界上有百分之六七十的數碼相機上的人臉檢測都是用Omr o n的芯片。
在我們的工作與生活中,這種例子曾出不窮。互聯網搜索、在線廣告、機器翻譯、手寫識別、垃圾郵件過濾等等都是以機器學習為核心技術的。不久以前,機器學習國際大會(International Conference onMachine Learning,ICML 2011)在美國華盛頓州的B e l l e v u e市舉行。約有7百多位科研人員、教授、學生參加,創造了歷史最高紀錄。大會的三個主題演講分別介紹了機器學習在微軟的Kinnect游戲機用戶感應系統、谷歌的G o g g l e s圖片搜索系統、I B M的Watson自動問答系統中的應用。這些事實讓人預感到機器學習被更廣泛應用的一個新時代的到來。機器學習與人工智能智能化是計算機發展的必然趨勢。人類從事的各種智能性活動,如數學、美術、語言、音樂、運動、學習、游戲、設計、研究、教學等等,讓計算機做起來,現在還都是很困難的。這是幾十年來人工智能研究得到的結論。
人工智能研究中,人們曾嘗試過三條路。我將它們稱之為外觀(extrospection)、內省(introspection)和模擬(simulation)。所謂外觀,指的是觀察人的大腦工作情況,探求其原理,解明其機制, 從而在計算機上“ 實現” 人類大腦的功能。比如, 計算神經學(computationalneuroscience)的研究就是基于這個動機的。然而,人腦的復雜信息處理過程很難觀測和模型化。就像我們僅僅觀測某個計算機內的信號傳輸過程,很難判斷它正在做什么樣的計算一樣。內省就是反思自己的智能行為,將自己意識到的推理、知識等記錄到計算機上,從而“再現”人的智能,比如專家系統(expert system)的嘗試就屬于這一類。內省的最大問題是它很難泛化,也就是舉一反三。無論是在什么樣的圖片中,甚至是在抽象畫中,人們能夠輕而易舉地找出其中的人臉。
這種能力稱為泛化能力。通過內省的方法很難使計算機擁有泛化能力。自己的智能原理,對人類來說很有可能是不可知的(agnostic)。
籠子里的老鼠可能認為觸動把手是得到食物的“原因”,但它永遠也不能了解到整個籠子的食物投放機制。模擬就是將人的智能化操作的輸入與輸出記錄下來,用模型來模擬,使模型對輸入輸出給出同人類相似的表現,比如統計機器學習(statisticalmachine learning)。實踐表明,統計機器學習是實現計算機智能化這一目標的最有效手段。統計學習最大的優點是它具有泛化能力;而缺點是它得到的永遠是統計意義下的最優解(例如,人臉檢測)。現在當人們提到機器學習時,通常是指統計機器學習或統計學習。
機器學習的優缺點下面看一個簡單的例子。由這個例子可以說明統計學習的基本原理,以及由此帶來的優缺點。假設我們觀測到一個系統的輸出是一系列的1和0,要預測它的下一個輸出是什么。如果觀測數據中1和0各占一半,那么我們只能以0.5的準確率做出預測。但是,如果我們同時觀測到這個系統有輸入,也是一系列的1和0,并且輸入是1時輸出是0的比例是0.9,輸入是0時輸出是1的比例也是0.9。這樣我們就可以從已給數據中學到“模型”,根據系統的輸入預測其輸出,并且把預測準確率從0.5提高到0.9。以上就是統計學習,特別是監督學習的基本想法。事實上,這是世界上最簡單的統計機器學習模型!條件概率分布P(Y|X),其中隨機變量X與Y表示輸入與輸出,取值1與0。可以認為所有的監督學習模型都是這個簡單模型的復雜版。我們用這個模型根據給定的輸入特征,預測可能的輸出。統計學習最大的優點是它具有泛化能力,對于任意給定的X,它都能預測相應的Y。Vapnik的統計學習理論還能對預測能力進行分析,給出泛化上界。但從這個例子中也可以看到統計學習的預測準確率是不能保證100%的。比如,人臉檢測會出錯,漢語分詞會出錯。
統計學習是“鄉下人”的辦法。有個笑話。一個鄉下人進城,到餐館吃飯,不知如何在餐館用餐,就模仿旁邊的人。別人做什么,他也就學著做什么。鄰桌的一位故意戲弄他,將桌上的蠟燭卷在餅里,趁鄉下人不注意時把蠟燭扔到地上,然后咬了一口卷著的餅。鄉下人也跟著學,大咬了一口自己的餅。統計學習只是根據觀測的輸入與輸出,“模仿”人的智能行為。有時能夠顯得非常智能化。但它本質上只是基于數據的,是統計平均意義下的“模仿”。如果觀測不到關鍵的特征,它就會去“咬卷著蠟燭的餅”。
機器學習與互聯網搜索我與同事們在從事互聯網搜索相關的研究。據調查,60%的互聯網用戶每天至少使用一次搜索引擎,90%的互聯網用戶每周至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學習以及生活的質量。而互聯網搜索的基本技術中,機器學習占據著重要的位置。在我看來,互聯網搜索有兩大挑戰和一大優勢。挑戰包括規模挑戰與人工智能挑戰;優勢主要是規模優勢。規模挑戰:比如,搜索引擎能看到trillion量級的URL,每天有幾億、幾十億的用戶查詢,需要成千上萬臺的機器抓取、處理、索引網頁,為用戶提供服務。這需要系統、軟件、硬件等多方面的技術研發與創新。人工智能挑戰:搜索最終是人工智能問題。搜索系統需要幫助用戶盡快、盡準、盡全地找到信息。這從本質上需要對用戶需求(如查詢語句),以及互聯網上的文本、圖像、視頻等多種數據進行“理解”。
? ? ? ?現在的搜索引擎通過關鍵詞匹配以及其他“信號”,能夠在很大程度上幫助用戶找到信息。但是,還是遠遠不夠的。規模優勢:互聯網上有大量的內容數據,搜索引擎記錄了大量的用戶行為數據。這些數據能夠幫助我們找到看似很難找到的信息。比如,“紐約市的人口是多少”,“約市的人口是多少”,“春風又綠江南岸作者是誰”。注意這些數據都是遵循冪函數分布的。它們能幫助Head(高頻)需求,對 tail(低頻)需求往往是困難的。所以,對tail來說人工智能的挑戰就更顯著。現在的互聯網搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求。
這歸結于許多尖端技術包括機器學習技術的成功開發與應用,比如排序學習算法、網頁重要度算法等等。這些機器學習算法在一定程度上能夠利用規模優勢去應對人工智能挑戰。但是、當今的互聯網搜索距離“有問必答,且準、快、全、好”這一理想還是有一定距離的。這就需要開發出更多更好的機器學習技術解決人工智能的挑戰,特別是在tail中的挑戰。展望未來,機器學習技術的研究與開發會幫助我們讓明天更美好!智能行為。有時能夠顯得非常智能化。但它本質上只是基于數據的,是統計平均意義下的“模仿”。如果觀測不到關鍵的特征,它就會去“咬卷著蠟燭的餅”。
機器學習與互聯網搜索我與同事們在從事互聯網搜索相關的研究。據調查,60%的互聯網用戶每天至少使用一次搜索引擎,90%的互聯網用戶每周至少使用一次搜索引擎。搜索引擎大大提高了人們工作、學習以及生活的質量。而互聯網搜索的基本技術中,機器學習占據著重要的位置。在我看來,互聯網搜索有兩大挑戰和一大優勢。挑戰包括規模挑戰與人工智能挑戰;優勢主要是規模優勢。規模挑戰:比如,搜索引擎能看到trillion量級的URL,每天有幾億、幾十億的用戶查詢,需要成千上萬臺的機器抓取、處理、索引網頁,為用戶提供服務。這需要系統、軟件、硬件等多方面的技術研發與創新。
人工智能挑戰:搜索最終是人工智能問題。搜索系統需要幫助用戶盡快、盡準、盡全地找到信息。這從本質上需要對用戶需求(如查詢語句),以及互聯網上的文本、圖像、視頻等多種數據進行“理解”。現在的搜索引擎通過關鍵詞匹配以及其他“信號”,能夠在很大程度上幫助用戶找到信息。但是,還是遠遠不夠的。規模優勢:互聯網上有大量的內容數據,搜索引擎記錄了大量的用戶行為數據。這些數據能夠幫助我們找到看似很難找到的信息。比如,“紐約市的人口是多少”,“約市的人口是多少”,“春風又綠江南岸作者是誰”。注意這些數據都是遵循冪函數分布的。它們能幫助Head(高頻)需求,對 tail(低頻)需求往往是困難的。所以,對tail來說人工智能的挑戰就更顯著。現在的互聯網搜索在一定程度上能夠滿足用戶信息訪問的一些基本需求。
這歸結于許多尖端技術包括機器學習技術的成功開發與應用,比如排序學習算法、網頁重要度算法等等。這些機器學習算法在一定程度上能夠利用規模優勢去應對人工智能挑戰。但是、當今的互聯網搜索距離“有問必答,且準、快、全、好”這一理想還是有一定距離的。這就需要開發出更多更好的機器學習技術解決人工智能的挑戰,特別是在tail中的挑戰。展望未來,機器學習技術的研究與開發會幫助我們讓明天更美好!
評論
查看更多