1、機器學習定義
我們一起看看AI界的大牛對機器學習的定義
(1)機器學習中經典的“支持向量機(SVM)”的主要提出者弗拉基米爾·萬普尼克(Vladimir Vapnik),在其著作《統計學習理論的本質》中這樣定義機器學習“機器學習就是一個基于經驗數據的函數估計問題”。
(2)卡耐基梅隆大學的機器學習和人工智能領域知名教授湯姆·米切爾(Tom Mitchell),在他經典教材《機器學習》中很抽象的定義了機器學習:對于某類任務(Task,簡稱T)和某項性能評價準則(Performance,簡稱P),如果一個計算機程序在T上以P作為性能度量,隨著經驗(Experience,簡稱E)的積累,不斷自我完善,那么我們稱這個計算機程序從經驗E中進行了學習。比如學習圍棋的程序AlphaGo,它可以通過和自己下棋獲取經驗,那么它的任務T就是“參與圍棋對弈”,它的性能P就是用“贏得比賽的百分比”來度量的。米切爾教授認為,在機器學習中我們需要明確三個特征:任務的類型、衡量任務性能提升的標準以及獲取經驗的來源。
(3)南京大學的機器學習專家周志華在經典教材《機器學習》中這樣定義:機器學習致力于研究如何通過計算的手段,利用經驗來改善系統自身的性能,而在計算機系統中,“經驗”通常以“數據”形式存在,因此機器學習研究的主要內容是關于在計算機上從數據中產生“模型”(model)的算法,即“學習算法”。有了學習算法,我們把經驗數據提供給它,它就能基于這些數據產生模型,而在面對新的情況時,模型會給我們提供相應的判斷。比如我們在買瓜的時候看到一個沒剖開的西瓜,我們可以利用經驗對這個瓜的好壞進行判斷。
結合這些行業大牛的定義,我們可以這樣理解機器學習,“從數據中學習,形成有效經驗,提升執行任務/工作的表現”,而我們對于機器學習的研究就是一個不斷找尋更有效算法的過程。對于計算機系統而言,所有的“經驗”都是以數據的形式存在的,而數據作為學習的對象類型是多樣的,可以是數字、文字、圖像、音頻、視頻,也可以是它們的各種組合。經典機器學習中還要依賴人類的先驗知識,把原始數據預處理成各種特征,然后對特征進行分類。而這種分類的效果,高度取決于特征選取的好壞,因此傳統的機器學習專家們,把大部分時間都花在如何尋找更加合適的特征上。我們進入在“數據泛濫,信息超量”的大數據時代后,能自動從大數據中獲取知識的機器學習一定會扮演重要角色。
2、機器學習的主要形式
機器學習的主要形式有監督學習、無監督學習、半監督學習及強化學習,我們再來回顧一下每一種形式的特點
(1)有監督學習:有監督學習使用有標簽的訓練數據,“監督”可以理解為已經知道訓練樣本(輸入數據)中期待的輸出信號(標簽)。監督學習過程是,先為機器學習算法提供打過標簽的訓練數據以擬合預測模型,然后用該模型對未打過標簽的新數據進行預測。以垃圾郵件過濾為例,可以采用監督機器學習算法在打過標簽的(正確標識垃圾與非垃圾)電子郵件的語料庫上訓練模型,然后用該模型來預測新郵件是否屬于垃圾郵件。當前火熱的神經網絡就屬于有監督學習。
(2)無監督學習:無監督學習的使用未標記過的訓練數據,“無監督”就不知道輸入對應的輸出結果了,無監督學習讓算法自身發現數據的模型和規律。比如“聚類”,利用距離的親疏遠近來衡量不同類型。還有“異常檢測”,判斷某些點不合群。“異常檢測”也是“聚類”的反向應用。
(3)半監督學習:則采用“中庸之道”,利用聚類技術擴大已知標簽范圍,也就是說,訓練中使用的數據只有一小部分是標記過的,而大部分是沒有標記的,然后逐漸擴大標記數據的范圍。
(4)強化學習:強化學習也使用未標記的數據,它可以通過某種方法(獎懲函數)知道你是離正確答案越來越近,還是越來越遠。強化學習的目標是開發一個系統,通過與環境的交互來提高其性能,我們也可以把強化學習看作一個與監督學習相關的領域,然而強化學習的反饋并非標定過的正確標簽或數值,而是獎勵函數對行動度量的結果。強化學習的常見示例是國際象棋,系統根據棋盤的狀態或環境來決定一系列的行動,獎勵定義為比賽的輸或贏。
3、機器學習系統的路線圖
(1)預處理:我們能夠獲得的原始數據很少以理想形式出現,無法滿足學習算法的最佳性能,因此數據的預處理是所有機器學習應用中最關鍵的步驟。為了獲得模型的最佳性能,許多機器學習算法要求所選特征的測量結果單位相同,通常通過把特征數據變換到[0,1]的取值范圍,或者均值為0、方差為1的標準正態分布來實現。由于某些選定的特征相互之間可能高度相關,因此在某種程度上呈現冗余的現象。在這種情況下,可以通過降維技術將特征壓縮到低維子空間,減少存儲空間,提高算法的運行速度。預處理中為了確定機器學習算法不僅在訓練數據集上表現良好,而且對新數據也有很好的適應性,我們將數據集隨機分成單獨的訓練數據集和測試數據集。用訓練數據集來訓練和優化機器學習模型,同時把測試數據集保留到最后以評估最終的模型。
(2)訓練和選擇預測模型:為了完成各種不同的任務,目前開發了許多不同的機器學習算法,但沒有哪個分類算法是完美的。例如,每個分類算法都存在著固有的偏置,如果不對分類任務做任何假設,沒有哪個分類模型會占上風。因此,在實際應用中我們至少要比較幾種不同的算法,以便訓練和選擇性能最好的模型。在比較不同的模型之前,我們首先要確定度量性能的指標,通常用分類準確率作為度量指標,其定義為正確分類的個體占所有個體的百分比。我們不能期望軟件庫所提供的不同機器學習算法的默認參數值對特定問題最優,因此使用超參數調優技術來調優模型的性能就特別重要,我們可以這樣理解超參數,這不是從數據中學習的參數,而是模型的調節旋鈕,可以來回旋轉調整模型的性能。
(3)評估模型并對未曾謀面的數據進行預測:在訓練數據集上擬合并選擇模型之后,我們可以用測試數據集來評估它在從來沒見過的新數據上的表現,以評估泛化誤差。如果我們對模型的表現滿意,那么就可以用它來預測未來的新數據。
4、機器學習函數化
(1)機器學習就是找一個好用的函數
《未來簡史》的作者赫拉利這樣定義,人工智能實際上就是找到一種高效的“電子算法”,用以代替或在某項指標上超越人類的“生物算法”。那么,任何一個“電子算法”都要實現一定的功能(Function)才有意義,這種“功能”就是我們使用的“函數”。
臺灣大學李宏毅博士的說法更通俗一些,機器學習在形式上可近似等同于在數據對象中通過統計或推理的方法,尋找一個有關特定輸入和預期輸出的功能函數f。
通常我們把輸入變量空間記作X,也就是特征,變量既可以是標量(scalar),也可以是向量(vector),包括各種數據表或矩陣的列;而把輸出變量空間記作Y,也就是目標。所謂的機器學習就是完成如下變換:Y=f (X)。
在這樣的函數中,針對語音識別功能,如果輸入一個音頻信號,就能輸出諸如“你好”或“How are you?”等這類識別信息;針對圖片識別功能,如果輸入的是一張圖片,在這個函數的加工下,就能輸出一個或貓或狗的判定;針對下棋博弈功能,如果輸入的是一個圍棋的棋譜局勢,它能輸出這盤圍棋下
一步的“最佳”走法;而對于具備智能交互功能的系統(比如微軟小冰),當我們給這個函數輸入諸如“How are you?”,它就能輸出諸如“I am fine,thank you,and you?”等智能的回應。
總結這一下,機器學習的過程和目標就是在尋找一個“好用的”函數。
(2)如何才能尋找到一個好用的函數
“好用的”函數并不那么好找,輸入一只貓的圖像后,這個f函數并不一定就能輸出一只貓,可能它會錯誤地輸出為一條狗或一條蛇,開發者想要找到好的函數必須要走好三大步
如何找一系列的函數來實現預期的功能,這是建模問題。
如何找出一系列評價標準來評估函數的好壞,這是評估問題。
如何快速找到性能最佳的函數,這是優化問題。
審核編輯:郭婷
-
函數
+關注
關注
3文章
4338瀏覽量
62749 -
機器學習
+關注
關注
66文章
8425瀏覽量
132771
原文標題:機器學習為什么要找一個好用的函數?
文章出處:【微信號:Hardware_10W,微信公眾號:硬件十萬個為什么】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論