大家好,我是花哥。
近期,吳恩達老師 在其創辦的人工智能周訊《The Batch》上更新了一篇博文,總結了機器學習領域多個基礎算法的歷史溯源,并總結到:(機器學習中)不斷學習與更新基礎知識是十分重要的。與其他技術領域一樣,隨著研究人員的增加、研究成果數量的增長,機器學習領域也在不斷發展,但有些基礎算法與核心思想的貢獻是經得起時間考驗的。
這六種算法分別是:線性回歸、邏輯回歸、梯度下降、神經網絡、決策樹與k均值聚類算法。
本文會深入介紹下這六種基礎算法的背景、原理、優缺點、應用場景。
1、線性回歸
?
算法歷程:線性回歸是一種古老的統計方法,它試圖找到最佳擬合數據的直線或超平面,最早可以追溯到19世紀初的高斯最小二乘法理論。
原理:線性回歸通過最小化預測值與真實值之間的平方誤差來找到最佳擬合的線性方程。
訓練過程:
選擇一個線性方程的形式(例如:y = mx + b)。
通過最小化平方誤差來找到最佳參數(m 和 b)。
使用梯度下降或最小二乘法算法來學習參數。
優點:
簡單易懂,計算效率高。
適用于線性關系的數據。
缺點:
對非線性關系的數據效果不佳。
對異常值敏感。
適用場景:房價預測、股票預測、銷售預測等線性關系明顯的場景。
Python示例代碼:
?
?
from?sklearn.linear_model?import?LinearRegression import?numpy?as?np #?假設X是特征數據,y是目標變量 X?=?np.array([[1],?[2],?[3],?[4],?[5]]) y?=?np.array([2,?4,?6,?8,?10]) #?創建并訓練模型 model?=?LinearRegression() model.fit(X,?y) #?預測 prediction?=?model.predict([[6]]) print(prediction)
二、邏輯回歸
?
算法歷程:邏輯回歸最初是由David Cox在1958年提出,但真正被廣泛應用是在統計和機器學習領域對二分類問題的研究中。
原理:邏輯回歸是一種廣義線性模型,通過邏輯函數(通常是sigmoid函數)將線性回歸的輸出映射到[0, 1]區間,從而得到屬于某個類別的概率。
訓練過程:
選擇sigmoid函數作為激活函數。
通過最大化對數似然函數或使用梯度下降來找到最佳參數。
優點:
計算效率高,實現簡單。
可以輸出概率,便于解釋。
缺點:
對非線性可分的數據效果可能不佳。
對特征間的多重共線性敏感。
適用場景:二分類問題,如垃圾郵件分類、疾病檢測等。
Python示例代碼:
from?sklearn.linear_model?import?LogisticRegression import?numpy?as?np #?假設X是特征數據,y是二分類標簽 X?=?np.array([[1,?2],?[3,?4],?[5,?6],?[7,?8]]) y?=?np.array([0,?0,?1,?1]) #?創建并訓練模型 model?=?LogisticRegression() model.fit(X,?y) #?預測概率 probs?=?model.predict_proba([[9,?10]]) print(probs)
?
?
三、梯度下降
?
算法歷程:梯度下降是一種優化算法,最早由Cauchy在1847年提出,用于求解函數的局部最小值。梯度下降對復雜的神經網絡提供了一種有效的優化方法,大大推進了深度學習的發展。
原理:通過計算損失函數關于模型參數的梯度,并沿梯度的反方向更新參數,以逐漸減小損失函數的值。
訓練過程:
初始化模型參數。
計算損失函數關于參數的梯度。
使用學習率乘以梯度來更新參數。
重復步驟2和3,直到滿足停止條件(如達到最大迭代次數或梯度足夠小)。
優點:
通用性強,可用于多種機器學習模型。
簡單直觀,易于實現。
缺點:
對學習率的設置敏感。
可能陷入局部最小值。
適用場景:用于訓練各種機器學習模型,如線性回歸、邏輯回歸、神經網絡等。
Python示例代碼(以線性回歸為例):
import?numpy?as?np #?假設X是特征數據,y是目標變量 X?=?np.array([[1],?[2],?[3],?[4],?[5]]) y?=?np.array([2,?4,?6,?8,?10]) #?初始化參數 m,?b?=?0,?0 learning_rate?=?0.01 epochs?=?1000 #?梯度下降訓練過程 for?epoch?in?range(epochs): ????y_pred?=?m?*?X?+?b ????loss?=?np.mean((y_pred?-?y)?**?2) ????grad_m?=?2?*?np.mean((y_pred?-?y)?*?X) ????grad_b?=?2 ????*grad_b?=?2?*?np.mean(y_pred?-?y) ???? ????#?更新參數 ????m?-=?learning_rate?*?grad_m ????b?-=?learning_rate?*?grad_b ???? ????#?可選:打印損失值以觀察收斂情況 ????if?epoch?%?100?==?0: ????????print(f'Epoch?{epoch},?Loss:?{loss}') #?打印最終參數和損失 print(f'Final?m:?{m},?Final?b:?{b},?Final?Loss:?{loss}')
?
?
四、神經網絡
?
算法歷程:神經網絡的研究始于20世紀40年代,由于早期算力的瓶頸,經歷了多次興衰。直到2006年深度學習的提出,數據、算力、算法的發展,神經網絡再次成為研究熱點。
原理:神經網絡通過模擬人腦神經元的連接和工作方式,構建多層的神經元網絡來學習和逼近復雜的函數。
訓練過程:
前向傳播:輸入數據通過神經網絡得到輸出。
計算損失:比較輸出與真實值之間的差距。
反向傳播:根據損失函數計算梯度,并通過鏈式法則逐層回傳梯度。
更新參數:使用梯度下降或其他優化算法更新神經網絡的權重和偏置。
優點:
強大的表示學習能力,適用于復雜的問題。
可以自動提取特征。
缺點:
容易過擬合,需要正則化技術。
訓練需要大量數據和時間。
適用場景:圖像識別、語音識別、自然語言處理等復雜任務。
Python示例代碼(使用Keras庫構建簡單神經網絡):
?
?
from?keras.models?import?Sequential from?keras.layers?import?Dense import?numpy?as?np #?假設X是特征數據,y是目標變量 X?=?np.array([[0,?0],?[0,?1],?[1,?0],?[1,?1]]) y?=?np.array([0,?1,?1,?0]) #?創建神經網絡模型 model?=?Sequential() model.add(Dense(2,?input_dim=2,?activation='relu'))??#?隱藏層 model.add(Dense(1,?activation='sigmoid'))??#?輸出層 #?編譯模型 model.compile(loss='binary_crossentropy',?optimizer='adam',?metrics=['accuracy']) #?訓練模型 model.fit(X,?y,?epochs=100,?batch_size=1) #?預測 predictions?=?model.predict(X) print(predictions)
?
?
五、決策樹
?
算法歷程:決策樹算法最早由Ross Quinlan在1986年提出,用于解決分類和回歸問題。基于決策樹的集成學習模型,無疑是數據挖掘任務上的王者。
原理:決策樹通過一系列的問題(即決策節點)對數據進行劃分,每個劃分基于某個特征的值,最終到達葉子節點得到預測結果。
訓練過程:
選擇最優特征進行劃分(基于信息增益、基尼不純度等指標)。
對每個劃分遞歸地構建子樹,直到滿足停止條件(如所有樣本屬于同一類、特征用盡等)。
優點:
易于理解和解釋。
可以處理非數值型數據。
對缺失值不敏感。
缺點:
容易過擬合,需要剪枝技術。
對不平衡數據敏感。
適用場景:分類問題,尤其是需要有很強的決策解釋性的場景(如貸款審批、客戶分類等)。
Python示例代碼:
?
?
from?sklearn.tree?import?DecisionTreeClassifier import?numpy?as?np #?假設X是特征數據,y是目標變量 X?=?np.array([[1,?2],?[1,?3],?[2,?1],?[3,?1],?[4,?4],?[5,?5]]) y?=?np.array([0,?0,?1,?1,?0,?0]) #?創建并訓練決策樹模型 model?=?DecisionTreeClassifier() model.fit(X,?y) #?預測 prediction?=?model.predict([[2,?2]]) print(prediction)
?
?
六、k均值
?
算法歷程:k均值算法最早由MacQueen在1967年提出,是一種非常流行的無監督學習算法。
原理:k均值算法通過迭代的方式將數據劃分為k個簇,每個簇由其質心(即簇中所有點的均值)表示。
訓練過程:
隨機選擇k個點作為初始質心。
將每個數據點分配給最近的質心,形成k個簇。
重新計算每個簇的質心,即簇中所有點的均值。
重復步驟2和3,直到質心的位置不再發生顯著變化或達到最大迭代次數。
優點:
實現簡單,計算效率高。
對大數據集處理效果良好。
缺點:
需要預先設定簇的數量k。
對初始質心的選擇敏感,可能導致不同的聚類結果。
對于非凸形狀的簇或大小差異很大的簇,效果可能不佳。
適用場景:數據聚類、文檔分類等。
Python示例代碼:
?
?
from?sklearn.cluster?import?KMeans import?numpy?as?np #?假設X是需要聚類的數據 X?=?np.array([[1,?2],?[1,?4],?[1,?0],?[4,?2],?[4,?4],?[4,?0]]) #?創建并訓練k均值模型 kmeans?=?KMeans(n_clusters=2,?random_state=0) kmeans.fit(X) #?預測簇標簽和質心 labels?=?kmeans.labels_ centroids?=?kmeans.cluster_centers_ print("Labels:",?labels) print("Centroids:",?centroids) 審核編輯:黃飛
?
?
?
評論
查看更多