誕生于1956年的人工智能,由于受到智能算法、計算速度、存儲水平等因素的影響,在六十多年的發展過程中經歷了多次高潮和低谷。最近幾年,得益于數據量的上漲、運算力的提升,特別是機器學習新算法的出現,人工智能迎來了大爆發的時代。
提到機器學習這個詞時,有些人首先想到的可能是科幻電影里的機器人。事實上,機器學習是一門多領域交叉學科,涉及概率論、統計學、算法復雜度理論等多門學科。專門研究計算機如何模擬或實現人類的學習行為,利用數據或以往的經驗,以此優化計算機程序的性能標準。
根據學習任務的不同,我們可以將機器學習分為監督學習、非監督學習、強化學習三種類型,而每種類型又對應著一些算法。
各種算法以及對應的任務類型
接下來就簡單介紹幾種常用的機器學習算法及其應用場景,通過本篇文章大家可以對機器學習的常用算法有個常識性的認識。
一、監督學習
(1)支持向量機(Support Vector Machine,SVM):是一類按監督學習方式對數據進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。例如,在紙上有兩類線性可分的點,支持向量機會尋找一條直線將這兩類點區分開來,并且與這些點的距離都盡可能遠。
優點:泛化錯誤率低,結果易解釋。
缺點:對大規模訓練樣本難以實施,解決多分類問題存在困難,對參數調節和核函數的選擇敏感。
應用場景:文本分類、人像識別、醫學診斷等。
(2)決策樹(Decision Tree):是一個預測模型,代表的是對象屬性與對象值之間的一種映射關系。下圖是如何在決策樹中建模的簡單示例:
優點:易于理解和解釋,可以可視化分析,容易提取出規則;能夠處理不相關的特征。
缺點:對缺失數據處理比較困難。
應用場景:在決策過程應用較多。
(3)樸素貝葉斯分類(Naive Bayesian classification):對于給出的待分類項,求解此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類屬于哪個類別。貝葉斯公式為:p(A|B)= p(B|A)*p(A/p(B),其中P(A|B)表示后驗概率,P(B|A)是似然值,P(A)是類別的先驗概率,P(B)代表預測器的先驗概率。
優點:在數據較少的情況下仍然有效,可以處理多類別問題。
缺點:對輸入數據的準備方式較為敏感。
應用場景:文本分類、人臉識別、欺詐檢測。
(4)k-近鄰算法(K-Nearest Neighbor,KNN):是一種基于實例的學習,采用測量不同特征值之間的距離方法進行分類。其基本思路是:給定一個訓練樣本集,然后輸入沒有標簽的新數據,將新數據的每個特征與樣本集中數據對應的特征進行比較,找到最鄰近的k個(通常是不大于20的整數)實例,這k個實例的多數屬于某個類,就把該輸入實例分類到這個類中。
優點:簡單、易于理解、易于實現,無需估計參數。此外,與樸素貝葉斯之類的算法比,無數據輸入假定、準確度高、對異常數據值不敏感。
缺點:對于訓練數據依賴程度比較大,并且缺少訓練階段,無法應對多樣本。
應用場景:字符識別、文本分類、圖像識別等領域。
二、非監督學習
(1)主成分分析(Principal Component Analysis,PCA):是一種統計方法。其主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征。
優點:降低數據的復雜性,識別最重要的多個特征。
缺點:主成分各個特征維度的含義具有一定的模糊性,不如原始樣本特征的解釋性強;有可能損失有用的信息。
應用場景:語音、圖像、通信的分析處理。
(2)奇異值分解(Singular Value Decomposition,SVD):可以將一個比較復雜的矩陣用更小更簡單的幾個子矩陣的相乘來表示,這些小矩陣描述的是矩陣的重要的特性。
優點:簡化數據,去除噪聲點,提高算法的結果。
缺點:數據的轉換可能難以理解。
應用場景:推薦系統、圖片壓縮等。
(3)K-均值聚類(K-Means):是一種迭代求解的聚類分析算法,采用距離作為相似性指標。其工作流程是隨機確定K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
優點:算法簡單容易實現。
缺點:可能收斂到局部最小值,在大規模數據集上收斂較慢。
應用場景:圖像處理、數據分析以及市場研究等。
三、強化學習
Q-learning:是一個基于值的強化學習算法,它根據動作值函數評估應該選擇哪個動作,這個函數決定了處于某一個特定狀態以及在該狀態下采取特定動作的獎勵期望值。
優點:可以接收更廣的數據范圍。
缺點:缺乏通用性。
應用場景:游戲開發。
以上就是文章的全部內容,相信大家對常用的機器學習算法應該有了大致的了解。
現如今,我們越來越多地看到機器學習算法為人類帶來的實際價值,如它們提供了關鍵的洞察力和信息來報告戰略決策。可以肯定的是,隨著機器學習越來越流行,未來還將出現越來越多能很好地處理任務的算法。
-
算法
+關注
關注
23文章
4622瀏覽量
93060 -
機器學習
+關注
關注
66文章
8425瀏覽量
132773
發布評論請先 登錄
相關推薦
評論