知識點離散數據的處理
若數據存在“序”關系則連續化,如:
離散 | 連續 |
高/m | 高 |
10 | 1 |
5 | 0.5 |
1 | 0 |
否則,轉為K維向量代碼可見本實例中的Pd.get_dummies(X['state'])。但要注意虛擬變量,例如“性別”變量,可虛擬出“男”和”女”兩個變量,
男 | 1 | 0 |
女 | 0 | 1 |
這里所說的虛擬變量陷阱是兩個或多個變量高度相關的情況,簡單地說,一個變量可以從其他變量中預測出來,那么這里就有一個重復的類別,可以去掉一個變量,節約內存計算機內存空間,減少計算量。
本實例用的數據集是50_Startups.csv,
代碼如下:
importnumpyasnp pipinstallmatplotlib importmatplotlib.pyplotasplt importpandasaspd dataset=pd.read_csv("D:/python/50.csv") X=dataset.iloc[:,0:4]#0到3列的所有行數據(共4列) X["State"].unique() y=dataset.iloc[:,4]#第5列的所有行數據 pd.get_dummies(X['State'])#離散數據轉為K維向量 statesdump=pd.get_dummies(X['State'],drop_first=True)#去掉X['State']的第一列數據(減少虛擬變量) X=X.drop('State',axis=1) X=pd.concat([X,statesdump],axis=1) from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0) x_train #引入線性回歸模型擬合訓練集 from sklearn.linear_model import LinearRegression regressor=LinearRegression() model=regressor.fit(x_train,y_train) #預測測試集的結果 y_predict=regressor.predict(x_test) from sklearn.metrics import r2_score# score1=r2_score(y_test,y_predict) model.coef_#多元函數的系數 model.intercept_#函數的截距 model.score(X,y)
審核編輯:劉清
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
向量機
+關注
關注
0文章
166瀏覽量
20905 -
虛擬機
+關注
關注
1文章
931瀏覽量
28368 -
機器學習
+關注
關注
66文章
8438瀏覽量
132957 -
python
+關注
關注
56文章
4807瀏覽量
84970 -
線性回歸
+關注
關注
0文章
41瀏覽量
4315
原文標題:機器學習-多元線性回歸數據集(50_Startups.csv)及代碼實現
文章出處:【微信號:智行RFID,微信公眾號:智行RFID】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
回歸算法有哪些,常用回歸算法(3種)詳解
因變量和自變量之間的關系實現對數據的預測。例如,對房價估計時,需要確定房屋面積(自變量)與其價格(因變量)之間的關系,可以利用這一關系來預測給定面積的房屋的價格??梢杂卸鄠€影響因變量的自變量。因此,回歸
發表于 07-28 14:36
TensorFlow csv文件讀取數據(代碼實現)詳解
大多數人了解 Pandas 及其在處理大數據文件方面的實用性。TensorFlow 提供了讀取這種文件的方法。前面章節中,介紹了如何在 TensorFlow 中讀取文件,本節將重點介紹如何從 CSV
發表于 07-28 14:40
TensorFlow邏輯回歸處理MNIST數據集
本節基于回歸學習對 MNIST 數據集進行處理,但將添加一些 TensorBoard 總結以便更好地理解 MNIST 數據集。MNIST由h
發表于 08-11 19:36
TensorFlow邏輯回歸處理MNIST數據集
本節基于回歸學習對 MNIST 數據集進行處理,但將添加一些 TensorBoard 總結以便更好地理解 MNIST 數據集。MNIST由h
發表于 08-11 19:36
使用PyMC3包實現貝葉斯線性回歸
1、如何使用PyMC3包實現貝葉斯線性回歸 PyMC3(現在簡稱為PyMC)是一個貝葉斯建模包,它使數據科學家能夠輕松地進行貝葉斯推斷?! yMC3采用馬爾可夫鏈蒙特卡羅(MCMC
發表于 10-08 15:59
基于Weierstrass逼近定理在非線性回歸模型中應用
基于Weierstrass逼近定理,闡釋了將一般非線性回歸模型近似為多項式模型來處理的數學原理,從而引入了把多元非線性回歸分析轉化為多元線性
發表于 01-12 09:59
?0次下載
評論