在人工智能發(fā)展中,離不開三個關(guān)鍵詞:算法、大數(shù)據(jù)、計算能力。
算法作為人工智能的核心內(nèi)容之一,直接影響系統(tǒng)的準確度,算法的優(yōu)劣不僅影響了人工智能的發(fā)展,同時也決定了人工智能未來走向。
而在這一過程中,哪些算法影響了人工智能產(chǎn)業(yè)的發(fā)展?跟隨OFweek維科網(wǎng)編輯一起來看看吧。
1.線性回歸
線性回歸是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,運用十分廣泛。其表達形式為y = w'x+e,e為誤差服從均值為0的正態(tài)分布。
回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
線性回歸是回歸分析中第一種經(jīng)過嚴格研究并在實際應(yīng)用中廣泛使用的類型。這是因為線性依賴于其未知參數(shù)的模型比非線性依賴于其未知參數(shù)的模型更容易擬合,而且產(chǎn)生的估計的統(tǒng)計特性也更容易確定。
線性回歸模型經(jīng)常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的。
2.邏輯回歸
logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用于數(shù)據(jù)挖掘,疾病自動診斷,經(jīng)濟預(yù)測等領(lǐng)域。例如,探討引發(fā)疾病的危險因素,并根據(jù)危險因素預(yù)測疾病發(fā)生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌,值為“是”或“否”,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。然后通過logistic回歸分析,可以得到自變量的權(quán)重,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據(jù)該權(quán)值可以根據(jù)危險因素預(yù)測一個人患癌癥的可能性。
logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。它們的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求參數(shù),其區(qū)別在于他們的因變量不同,多重線性回歸直接將w‘x+b作為因變量,即y =w‘x+b,而logistic回歸則通過函數(shù)L將w‘x+b對應(yīng)一個隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。如果L是logistic函數(shù),就是logistic回歸,如果L是多項式函數(shù)就是多項式回歸。
logistic回歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋,多類可以使用softmax方法進行處理。實際中最為常用的就是二分類的logistic回歸。
3.決策樹
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學(xué)習(xí)中,決策樹是一個預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。
分類樹(決策樹)是一種十分常用的分類方法。它是一種監(jiān)督學(xué)習(xí),所謂監(jiān)督學(xué)習(xí)就是給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那么通過學(xué)習(xí)得到一個分類器,這個分類器能夠?qū)π鲁霈F(xiàn)的對象給出正確的分類。這樣的機器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。
4.支持向量機
支持向量機(Support Vector Machine, SVM)是一類按監(jiān)督學(xué)習(xí)(supervised learning)方式對數(shù)據(jù)進行二元分類的廣義線性分類器(generalized linear classifier),其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面(maximum-margin hyperplane) 。
SVM使用鉸鏈損失函數(shù)(hinge loss)計算經(jīng)驗風險(empirical risk)并在求解系統(tǒng)中加入了正則化項以優(yōu)化結(jié)構(gòu)風險(structural risk),是一個具有稀疏性和穩(wěn)健性的分類器 。SVM可以通過核方法(kernel method)進行非線性分類,是常見的核學(xué)習(xí)(kernel learning)方法之一 。
SVM被提出于1964年,在二十世紀90年代后得到快速發(fā)展并衍生出一系列改進和擴展算法,在人像識別、文本分類等模式識別(pattern recognition)問題中有得到應(yīng)用。
5.樸素貝葉斯
樸素貝葉斯分類是一種十分簡單的分類算法:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。
樸素貝葉斯分類分為三個階段,1.根據(jù)具體情況確定特征屬性,并對每個特征屬性進行適當劃分,形成訓(xùn)練樣本集合2.計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計3.使用分類器對待分類項進行分類。
6.K近鄰
K緊鄰算法的核心是未標記樣本的類別,計算待標記樣本和數(shù)據(jù)集中每個樣本的距離,取距離最近的k個樣本。待標記的樣本所屬類別就由這k個距離最近的樣本投票產(chǎn)生,給定其測試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個訓(xùn)練樣本,然后基于這k個“鄰居”的信息來進行預(yù)測。
K緊鄰算法準確性高,對異常值和噪聲有較高的容忍度,但計算量較大,對內(nèi)存的需求也較大。該算法主要應(yīng)用于文本分類、模式識別、圖像及空間分類。
7.聚類算法
聚類算法是機器學(xué)習(xí)中涉及對數(shù)據(jù)進行分組的一種算法。在給定的數(shù)據(jù)集中,我們可以通過聚類算法將其分成一些不同的組。應(yīng)用中科利用聚類分析,通過將數(shù)據(jù)分組可以比較清晰的獲取到數(shù)據(jù)信息。該算法讓數(shù)據(jù)變得有意義,但存在結(jié)果難以解讀,針對不尋常的數(shù)據(jù)組,結(jié)果可能無用。
在商業(yè)領(lǐng)域中,聚類可以幫助市場分析人員從消費者數(shù)據(jù)庫中區(qū)分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習(xí)慣。
8.隨機森林
隨機森林是一種有監(jiān)督學(xué)習(xí)算法,基于決策樹為學(xué)習(xí)器的集成學(xué)習(xí)算法。隨機森林非常簡單,易于實現(xiàn),計算開銷也很小,但是它在分類和回歸上表現(xiàn)出非常驚人的性能,因此,隨機森林被譽為“代表集成學(xué)習(xí)技術(shù)水平的方法”。
隨機森林擁有廣泛的應(yīng)用前景,從市場營銷到醫(yī)療保健保險,既可以用來做市場營銷模擬的建模,統(tǒng)計客戶來源,保留和流失,也可用來預(yù)測疾病的風險和病患者的易感性。
9.降維算法
降維法(method of reduction dimensions)是一類優(yōu)選方法,用低維的概念去類比高維的概念.將高維的圖形轉(zhuǎn)化為低維的圖形的方法。縱橫對折法、等高線法、平行線法等都是降維法。
降維法是把一個多因素問題轉(zhuǎn)化成一個較少因素(降低問題的維數(shù))問題,而且較容易進行合理安排,找到最優(yōu)點或近似最優(yōu)點,以期達到滿意的試驗結(jié)果的方法。主要類型有縱橫對折法、等高線法和平行線法。
10.AdaBoost
Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。
Boosting,也稱為增強學(xué)習(xí)或提升法,是一種重要的集成學(xué)習(xí)技術(shù),能夠?qū)㈩A(yù)測精度僅比隨機猜度略高的弱學(xué)習(xí)器增強為預(yù)測精度高的強學(xué)習(xí)器,這在直接構(gòu)造強學(xué)習(xí)器非常困難的情況下,為學(xué)習(xí)算法的設(shè)計提供了一種有效的新思路和新方法。作為一種元算法框架,Boosting幾乎可以應(yīng)用于所有目前流行的機器學(xué)習(xí)算法以進一步加強原算法的預(yù)測精度,應(yīng)用十分廣泛,產(chǎn)生了極大的影響。而AdaBoost正是其中最成功的代表,被評為數(shù)據(jù)挖掘十大算法之一。
在AdaBoost提出至今的十幾年間,機器學(xué)習(xí)領(lǐng)域的諸多知名學(xué)者不斷投入到算法相關(guān)理論的研究中去,扎實的理論為AdaBoost算法的成功應(yīng)用打下了堅實的基礎(chǔ)。AdaBoost的成功不僅僅在于它是一種有效的學(xué)習(xí)算法,還在于1)它讓Boosting從最初的猜想變成一種真正具有實用價值的算法;2)算法采用的一些技巧,如:打破原有樣本分布,也為其他統(tǒng)計學(xué)習(xí)算法的設(shè)計帶來了重要的啟示;3)相關(guān)理論研究成果極大地促進了集成學(xué)習(xí)的發(fā)展。
對adaBoost算法的研究以及應(yīng)用大多集中于分類問題,同時也出現(xiàn)了一些在回歸問題上的應(yīng)用。就其應(yīng)用adaBoost系列主要解決了: 兩類問題、多類單標簽問題、多類多標簽問題、大類單標簽問題、回歸問題。它用全部的訓(xùn)練樣本進行學(xué)習(xí)。
小結(jié)
算法是計算機科學(xué)領(lǐng)域最重要的基石之一,當下需要處理的信息量是呈指數(shù)級的增長,每人每天都會創(chuàng)造出大量數(shù)據(jù),無論是三維圖形、海量數(shù)據(jù)處理、機器學(xué)習(xí)、語音識別,都需要極大的計算量,在AI時代越來越多的挑戰(zhàn)需要靠卓越的算法來解決。
責任編輯:xj
-
算法
+關(guān)注
關(guān)注
23文章
4629瀏覽量
93201 -
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269976 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132954
發(fā)布評論請先 登錄
相關(guān)推薦
評論