色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python中進行特征重要性分析的9個常用方法

科技綠洲 ? 來源:Deephub Imba ? 作者:Deephub Imba ? 2023-10-16 11:09 ? 次閱讀

如果有一個包含數十個甚至數百個特征的數據集,每個特征都可能對你的機器學習模型的性能有所貢獻。但是并不是所有的特征都是一樣的。有些可能是冗余的或不相關的,這會增加建模的復雜性并可能導致過擬合。特征重要性分析可以識別并關注最具信息量的特征,從而帶來以下幾個優勢:

  • 改進的模型性能
  • 減少過度擬合
  • 更快的訓練和推理
  • 增強的可解釋性

下面我們深入了解在Python中的一些特性重要性分析的方法。

特征重要性分析方法

1、排列重要性 PermutationImportance

該方法會隨機排列每個特征的值,然后監控模型性能下降的程度。如果獲得了更大的下降意味著特征更重要。

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
 
cancer = load_breast_cancer()
 
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=1)
 
rf = RandomForestClassifier(n_estimators=100, random_state=1)
rf.fit(X_train, y_train)
 
baseline = rf.score(X_test, y_test)
result = permutation_importance(rf, X_test, y_test, n_repeats=10, random_state=1, scoring='accuracy')
 
importances = result.importances_mean
 
# Visualize permutation importances
plt.bar(range(len(importances)), importances)
plt.xlabel('Feature Index')
plt.ylabel('Permutation Importance')
plt.show()

圖片

2、內置特征重要性(coef_或feature_importances_)

一些模型,如線性回歸和隨機森林,可以直接輸出特征重要性分數。這些顯示了每個特征對最終預測的貢獻。

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
 
X, y = load_breast_cancer(return_X_y=True)
 
rf = RandomForestClassifier(n_estimators=100, random_state=1)
rf.fit(X, y)
 
importances = rf.feature_importances_
 
# Plot importances
plt.bar(range(X.shape[1]), importances)
plt.xlabel('Feature Index')
plt.ylabel('Feature Importance')
plt.show()

3、Leave-one-out

迭代地每次刪除一個特征并評估準確性。

from sklearn.datasets import load_breast_cancer
 from sklearn.model_selection import train_test_split
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.metrics import accuracy_score
 import matplotlib.pyplot as plt
 import numpy as np
 
 # Load sample data
 X, y = load_breast_cancer(return_X_y=True)
 
 # Split data into train and test sets
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
 
 # Train a random forest model
 rf = RandomForestClassifier(n_estimators=100, random_state=1)
 rf.fit(X_train, y_train)
 
 # Get baseline accuracy on test data
 base_acc = accuracy_score(y_test, rf.predict(X_test))
 
 # Initialize empty list to store importances
 importances = []
 
 # Iterate over all columns and remove one at a time
 for i in range(X_train.shape[1]):
    X_temp = np.delete(X_train, i, axis=1)
    rf.fit(X_temp, y_train)
    acc = accuracy_score(y_test, rf.predict(np.delete(X_test, i, axis=1)))
    importances.append(base_acc - acc)
     
 # Plot importance scores    
 plt.bar(range(len(importances)), importances)
 plt.show()

圖片

4、相關性分析

計算各特征與目標變量之間的相關性。相關性越高的特征越重要。

import pandas as pd
from sklearn.datasets import load_breast_cancer
 
X, y = load_breast_cancer(return_X_y=True)
df = pd.DataFrame(X, columns=range(30))
df['y'] = y
 
correlations = df.corrwith(df.y).abs()
correlations.sort_values(ascending=False, inplace=True)
 
correlations.plot.bar()

圖片

5、遞歸特征消除 Recursive Feature Elimination

遞歸地刪除特征并查看它如何影響模型性能。刪除時會導致更大下降的特征更重要。

from sklearn.ensemble import RandomForestClassifier
 from sklearn.feature_selection import RFE
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 rf = RandomForestClassifier()
 
 rfe = RFE(rf, n_features_to_select=10)
 rfe.fit(X, y)
 
 print(rfe.ranking_)
輸出為[6 4 11 12 7 11 18 21 8 16 10 3 15 14 19 17 20 13 11 11 12 9 11 5 11]

6、XGBoost特性重要性

計算一個特性用于跨所有樹拆分數據的次數。更多的分裂意味著更重要。

import xgboost as xgb
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 model = xgb.XGBClassifier()
 model.fit(X, y)
 
 importances = model.feature_importances_
 importances = pd.Series(importances, index=range(X.shape[1]))
 importances.plot.bar()

圖片

7、主成分分析 PCA

對特征進行主成分分析,并查看每個主成分的解釋方差比。在前幾個組件上具有較高負載的特性更為重要。

from sklearn.decomposition import PCA
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 pca = PCA()
 pca.fit(X)
 
 plt.bar(range(pca.n_components_), pca.explained_variance_ratio_)
 plt.xlabel('PCA components')
 plt.ylabel('Explained Variance')

圖片

8、方差分析 ANOVA

使用f_classif()獲得每個特征的方差分析f值。f值越高,表明特征與目標的相關性越強。

from sklearn.feature_selection import f_classif
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 fval = f_classif(X, y)
 fval = pd.Series(fval[0], index=range(X.shape[1]))
 fval.plot.bar()

9、卡方檢驗

使用chi2()獲得每個特征的卡方統計信息。得分越高的特征越有可能獨立于目標。

from sklearn.feature_selection import chi2
 import pandas as pd
 from sklearn.datasets import load_breast_cancer
 import matplotlib.pyplot as plt
 
 X, y = load_breast_cancer(return_X_y=True)
 df = pd.DataFrame(X, columns=range(30))
 df['y'] = y
 
 chi_scores = chi2(X, y)
 chi_scores = pd.Series(chi_scores[0], index=range(X.shape[1]))
 chi_scores.plot.bar()

圖片

為什么不同的方法會檢測到不同的特征?

不同的特征重要性方法有時可以識別出不同的特征是最重要的,這是因為:

1、他們用不同的方式衡量重要性:

有的使用不同特特征進行預測,監控精度下降

像XGBOOST或者回國模型使用內置重要性來進行特征的重要性排列

而PCA著眼于方差解釋

2、不同模型有不同模型的方法:

線性模型傾向于線性關系、樹模型傾向于接近根的特征

3、交互作用:

有的方法可以獲取特征之間的相互左右,而有一些則不行,這就會導致結果的差異

4、不穩定:

使用不同的數據子集,重要性值可能在同一方法的不同運行中有所不同,這是因為數據差異決定的

5、Hyperparameters:

通過調整超參數,如PCA組件或樹深度,也會影響結果

所以不同的假設、偏差、數據處理和方法的可變性意味著它們并不總是在最重要的特征上保持一致。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3419

    瀏覽量

    49483
  • 機器學習
    +關注

    關注

    66

    文章

    8461

    瀏覽量

    133438
  • python
    +關注

    關注

    56

    文章

    4813

    瀏覽量

    85319
  • 數據集
    +關注

    關注

    4

    文章

    1212

    瀏覽量

    25006
收藏 人收藏

    評論

    相關推薦

    失效分析重要性

    應用(鐳射光束誘發阻抗值變化測試):OBIRCH常用于芯片內部高阻抗及低阻抗分析,線路漏電路徑分析。利用OBIRCH方法,可以有效地對電路中缺陷定位,如線條中的空洞、通孔下的空洞。通孔
    發表于 05-04 15:39

    Syncer模塊的重要性是什么?

    我在我的項目中使用25G以太網IP。通過打開此IP的示例設計,我們可以看到許多SYNCER模塊,一FSM模塊和一流量生成器模塊。我想問一下這些Syncer模塊的重要性是什么,我是否需要在我的最終設計中使用所有syncer模塊
    發表于 05-18 09:25

    代碼規范的重要性是什么

    論代碼規范的重要性
    發表于 05-19 13:07

    使用ODDR原語的重要性是什么?

    你好我將virtex5 LX50與具有應根據standardEIA / TIA-644 LVDS規范終止的輸出數據的設備連接起來我在用著IBUFDS用于將輸入LVDS轉換為LVTTL,OBUFDS用于輸出信號和時鐘這是這樣做的正確方法為此目的使用ODDR原語的重要性是什么
    發表于 06-17 14:59

    傳感器波形分析在汽車故障診斷中的重要性

    傳感器波形分析在汽車故障診斷中的重要性
    發表于 05-12 06:27

    時鐘系統的重要性

    時鐘系統就是CPU的脈搏,像人的心跳一樣,重要性不言而喻。由于STM32本身十分復雜,外設非常多,但并不是所有的外設都需要系統時鐘那么高的頻率,比如看門狗以及RTC只需要幾十k的時鐘即可。并且
    發表于 08-20 07:59

    時鐘服務器的重要性是什么?

    時鐘服務器的重要性是什么?
    發表于 11-08 08:31

    UPS的重要性

    中心機房的UPS太重要了,前不久就出現過停電壞了一磁盤陳列硬盤的事故,一2T的硬盤壞了,還好有一備用的硬盤使用,否則磁盤陳列里的資料就岌岌可危了。服務器多了,UPS的
    發表于 11-16 09:09

    arm匯編的重要性是什么?

    arm匯編的重要性是什么?
    發表于 11-30 08:03

    討論紋理分析在圖像分類中的重要性及其在深度學習中使用紋理分析

    紋理就能被更準確地捕捉和分類。  在基于紋理的分類任務重,紋理分析對于深度學習的重要性  由于紋理基于局部模式,而傳統的深度學習方法強調復雜的特征,對紋理分類沒有幫助,因此,傳統的CN
    發表于 10-26 16:57

    Python語言在AI、大數據方面的重要性

    Python語言在AI、大數據方面的重要性
    發表于 09-02 16:20 ?25次下載

    RFE遞歸特征消除特征排序

    本文主要從股市數據變量的特征分布及特征重要性角度對數據進行分析
    的頭像 發表于 03-16 17:26 ?6203次閱讀

    射頻芯片測試的重要性方法

    顯得尤為重要。下面將探討射頻芯片測試的重要性以及常用的測試方法。 首先,了解射頻芯片測試的重要性是必要的。射頻芯片的設計和制造中,可能會出現
    的頭像 發表于 06-29 10:01 ?1984次閱讀

    Python如何進行特征重要性分析

    特征重要性分析用于了解每個特征(變量或輸入)對于做出預測的有用或價值。目標是確定對模型輸出影響最大的最
    發表于 10-13 12:32 ?431次閱讀
    <b class='flag-5'>Python</b>如何<b class='flag-5'>進行</b><b class='flag-5'>特征</b><b class='flag-5'>重要性</b><b class='flag-5'>分析</b>

    露天礦邊坡監測的重要性方法

    露天礦邊坡監測的重要性方法
    的頭像 發表于 05-28 16:24 ?591次閱讀
    主站蜘蛛池模板: 野花日本完整版在线观看免费高清 | 最近免费中文字幕MV免费高清 | 微拍秒拍99福利精品小视频 | 99午夜高清在线视频在观看 | AV福利无码亚洲网站麻豆 | 免费麻豆国产黄网站在线观看 | 好嗨哟在线看片免费 | 亚洲永久精品AV在线观看 | 秋霞久久久久久一区二区 | 毛片免费观看的视频在线 | 老师的丝袜脚 | 日本精品久久久久中文字幕 1 | 嗯啊快停下我是你老师啊H 嗯啊快拔出来我是你老师视频 | 姑娘视频日本在线播放 | 青青草原国产在线观看 | 日日摸天天添天天添无码蜜臀 | 小玲被公扒开腿 | 伊人久久国产精品 | 99影视久久电影网久久看影院 | xvideos中文版在线视频 | 国产精品一区二区制服丝袜 | 国产性色AV内射白浆肛交后入 | 久久一区精品 | 久久精品国产亚洲AV忘忧草蜜臀 | 免费看黄色小说 | 毛片内射久久久一区 | 簧片高清在线观看 | 国产精品99久久久久久AV下载 | 国产成人高清精品免费观看 | 动漫美女被吸奶 | 国产日韩亚洲精品视频 | 西施打开双腿下面好紧 | 一道本在线伊人蕉无码 | 国产私拍福利精品视频 | 暖暖高清视频免费 | 美女内射少妇一区二区四区 | 最新国产三级在线不卡视频 | 精品少妇高潮蜜臀涩涩AV | 午夜理伦片免费 | 免费亚洲视频在线观看 | 亚洲高清国产拍精品5g |