色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析特征抽取的經典算法PCA

格創東智 ? 2019-01-10 13:40 ? 次閱讀

之前格物匯的文章給大家介紹過,隨著近幾年大數據技術的普及,企業可以獲取海量數據,但是這些海量數據帶給我們更多信息的同時,也帶來了更多的噪音和異常數據,如何降維去噪成為很多企業關注的焦點。而特征抽取和特征選擇都是降維的重要方法,針對于the curse of dimensionality(維數災難),都可以達到降維的目的,但是這兩種方法有所不同。

>>>>

特征抽取(Feature Extraction)

Creatting a subset ofnew features by combinations of the exsiting features.也就是說,特征抽取后的新特征是原來特征的一個映射。

>>>>

特征選擇(Feature Selection)

choosing a subset of allthe features(the ones more informative。也就是說,特征選擇后的特征是原來特征的一個子集。

特征抽取是如何對數據進行變換的呢?其兩個經典的方法:主成分分析(Principle Components Analysis ,PCA)和線性評判分析(LinearDiscriminant Analysis,LDA)給出了解答,今天我們就先來看一下什么是主成分分析。

什么是主成分分析

主成分分析(principal component analysis),PCA是其縮寫。此方法是一種無監督線性轉換技術,其目標是找到數據中最主要的元素和結構,去除噪音和冗余,將原有的復雜數據降維,揭露出隱藏在復雜數據背后的簡單結構。

主成分分析就是試圖在力保數據信息丟失最少的原則下,對這種多變量的數據表進行最佳綜合簡化。這些綜合指標就稱為主成分,也就是說,對高維變量空間進行降維處理,從線性代數角度來看,PCA目標是找到一組新正交基去重新描述得到的數據空間,這些新維度就是主成分。

PCA的原理

我們現在來看一下PCA算法是如何實現的,我們通過一個具體實例來理解,假設我們有這樣一些標準化后的數據:[-1,-2],[-1,0],……,[2,1],[0,1]。我們寫成向量的形式如下:

1.jpg

我們還可以在二維坐標系中畫出來:

2.jpg

PCA主要的目的是降維簡化數據,這些數據本就是二維,想要再降維則需要重新找一個方向,并把這些點映射到這個方向上(降到1維)。試想,怎么才能找到這個方向,且不損失大部分信息呢?PCA的做法是,找到新映射的方法需要滿足如下兩個原則:

在新映射的方向上每個數據的映射點方差盡可能大。因為方差大的數據所包含的信息量越大。

新映射的方向應彼此正交,這樣映射出的坐標點選取才更有意義。

尋找新映射也可以看作基變換,我們可以不斷旋轉基,尋找滿足上面兩個原則的情況。如下圖所示,中間的映射方向圖里數據在新基上映射點的方差就比右邊圖映射點方差大的多。而方差大則表示該數據在該方向上含有的信息量多,反之另一個新基的方向上含有的信息量就少的多。如果這個方向上的信息量非常少,即使舍去也無傷大雅,我們就可以考慮將其舍去,實現降維的操作。

3.jpg


新基可以看成是由以前標準直角坐標系旋轉而成,在線性代數中,這樣的坐標軸旋轉操作可以通過原本直角坐標系坐標乘轉換矩陣得到:

4.jpg

所以我們就將問題轉換成找轉移矩陣W上,如何去求W呢?我們希望降維后的數據要盡可能的與原數據非常接近(不丟失信息)。我們可以計算轉換后的坐標Z與轉換之前的坐標X之間的距離:

5.jpg

因此為了讓轉換距離最小,我們可以將問題等價轉換成:

6.jpg

由于中間推導過程較為復雜,故在此省略,最后求解推導的結果為:

7.jpg

這不正是特征值的定義公式嗎?所以只需要對協方差矩陣進行特征值分解,并將求得的特征值排序,取前N(PCA所要降低的目標維度)個特征值構成的向量W,即為PCA的解。

PCA優缺點



優點

(1)它是無監督學習,只與數據相關,無參數限制。

(2)通過PCA降維,可以達到簡化模型和對數據進行壓縮的效果。同時最大程度的保持了原有數據的信息。

(3)各主成分之間正交,可消除原始數據成分間的相互影響

(4)計算方法簡單,易于在計算機上實現。

缺點

(1)如果用戶對觀測對象有一定的先驗知識,掌握了數據的一些特征,卻無法通過參數化等方法對處理過程進行干預,可能會得不到預期的效果,效率也不高

(2)貢獻率小的主成分往往可能含有對樣本差異的重要信息

好了,今天格物匯的內容就到這里,近期我們還將介紹特征抽取的另一種方法LDA(線性評判分析),敬請期待。


本文作者:格創東智OT團隊(轉載請注明作者及來源)


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2921

    文章

    45636

    瀏覽量

    384526
  • PCA
    PCA
    +關注

    關注

    0

    文章

    91

    瀏覽量

    29964
  • 智能制造
    +關注

    關注

    48

    文章

    5760

    瀏覽量

    77272
  • 工業互聯網
    +關注

    關注

    28

    文章

    4348

    瀏覽量

    94704
收藏 1人收藏

    評論

    相關推薦

    RTC芯片有Linux PCA2131驅動程序嗎?

    RTC 芯片有 Linux PCA2131驅動程序嗎? 1) 如果沒有,我可以使用任何兼容的驅動程序來驅動這個 RTC 芯片嗎? 2) 如果是,我在哪里可以找到它?
    發表于 03-31 06:22

    PID控制算法的C語言實現:PID算法原理

    的是,在我所接觸的控制算法當中,PID 控制算法又是最簡單,最能體現反饋思想的控制算法,可謂經典中的經典
    發表于 02-26 15:24

    戴爾I7的圖紙下載 版號是PCA40D

    戴爾I7的圖紙 版號是PCA40D
    發表于 12-20 14:43 ?0次下載

    【「從算法到電路—數字芯片算法的電路實現」閱讀體驗】+內容簡介

    的乘法器和除法器設計,在不同專業芯片領域有著廣泛應用的數字信號發生器、復數求模求角度運算器、普通濾波器、E△ADC中使用的抽取濾波器、基于 E△結構實現的小數倍分頻器、CRC校驗器等。每個電路均給出了算法
    發表于 11-21 17:14

    ADS1299用ADS采集數據,ADS可以不抽取看原始得數據嗎?

    1.用ADS采集數據,將時域的數據進行FFT變換,得到頻譜里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得數據嗎? 2.這個和手冊上的頻譜不一樣? 請問這個是什么問題呢?
    發表于 11-20 06:05

    求助,關于AMC1306M25抽取率OSR的疑問求解

    我客戶目前正在評估AMC1306M25,有以下疑問需要解答,可否幫忙確認一下: 圖為官方的例程,兩個都應該指的是抽取率OSR。但是當客戶在第一個函數中填的抽取率為64,到第二張圖中ratio的值
    發表于 11-14 07:09

    技術科普 | 芯片設計中的LEF文件淺析

    技術科普 | 芯片設計中的LEF文件淺析
    的頭像 發表于 11-13 01:03 ?588次閱讀
    技術科普 | 芯片設計中的LEF文件<b class='flag-5'>淺析</b>

    特征工程實施步驟

    數據中提取數值表示以供無監督模型使用的方法(例如,試圖從之前非結構化的數據集中提取結構)。特征工程包括這兩種情況,以及更多內容。數據從業者通常依賴ML和深度學習算法
    的頭像 發表于 10-23 08:07 ?634次閱讀
    <b class='flag-5'>特征</b>工程實施步驟

    求助,AD7190關于Σ-Δ ADC其中的抽取濾波器的數據轉換問題求解

    AD7190可以通過模式寄存器的FS[0:9]設置輸出速率, 0-1023的范圍;此時設置的數據速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比? 關于抽取濾波器,此時我設置的為1023,那我是否
    發表于 09-09 06:11

    圖像識別算法的核心技術是什么

    圖像識別算法是計算機視覺領域的一個重要研究方向,其目標是使計算機能夠像人類一樣理解和識別圖像中的內容。圖像識別算法的核心技術包括以下幾個方面: 特征提取 特征提取是圖像識別
    的頭像 發表于 07-16 11:02 ?998次閱讀

    使用rtthread settings配置完i2c后,與pca9535pw的第一通訊報錯,為什么?

    在使用rtthread settings配置完i2c后,與pca9535pw的第一通訊報錯,不知道為什么?代碼如下: main: /* 初始化PCA
    發表于 07-09 08:04

    PCA9655E I / O端口擴展器 I

    電子發燒友網為你提供ON Semiconductor(ON Semiconductor)PCA9655E相關產品參數、數據手冊,更有PCA9655E的引腳圖、接線圖、封裝手冊、中文資料、英文資料,PCA9655E真值表,
    發表于 06-28 16:28
    <b class='flag-5'>PCA</b>9655E I / O端口擴展器 I

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據集是一個經典數據集,在統計學習和機器學習領域都經常被用作示例。數據集內包含3類共150條記錄,每類各50個數
    的頭像 發表于 06-27 08:27 ?1865次閱讀
    機器學習的<b class='flag-5'>經典</b><b class='flag-5'>算法</b>與應用

    簡單認識變頻器和PLC/PCA系統

    在工業自動化領域,變頻器和PLC/PCA系統是兩個不可或缺的核心組成部分。變頻器以其對電機轉速和扭矩的精確控制,為工業自動化提供了強大的動力支持;而PLC/PCA系統則以其強大的邏輯處理能力和靈活
    的頭像 發表于 06-25 14:48 ?1041次閱讀

    ICY DOCK Expresscage MB038SP-B硬盤抽取盒評測

    ICYDOCK最近又推出了一款ExpressCage系列的有趣產品,適用于SoHo、服務器和工業應用。今天,我們將測試這臺ExpressCageMB038SP-B全金屬硬盤抽取盒,該硬盤抽取盒有8個
    的頭像 發表于 05-17 16:20 ?694次閱讀
    ICY DOCK Expresscage MB038SP-B硬盤<b class='flag-5'>抽取</b>盒評測

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品
    主站蜘蛛池模板: 无颜之月全集免费观看 | 国产欧美日韩国产高清 | 美女胸被男子强捏视频 | 性虎成人网 | av天堂网2017avtt | 色多多污污版免费下载安装 | 极品网红液液酱粉嫩福利照子凌酱 | 欧美eee114 | 799是什么意思网络用语 | 国产精品欧美亚洲 | 久久91精品国产91久久户 | 国产精品第十页 | 超碰 无码 中文字幕 | 99久久亚洲综合精品 | 男男校园园bl文全肉高h寝室 | 欧美同志高清vivoeso | 欧美激情性AAAAA片欧美 | 麻豆高清免费国产一区 | 日本xxxx裸体xxxx | 亚洲精品久久无码AV片WWW | 99热久久爱五月天婷婷 | 伊人久久大香线蕉综合bd高清 | 日本十八禁无遮无挡漫画 | 亚洲综合日韩中文字幕v在线 | 野花社区WWW韩国日本 | 亚洲黄色大片 | 调教椅上的调教SM总裁被调教 | 嗯啊哈啊好棒用力插啊 | 午夜影院老司机 | 99久视频只有精品2019 | 秋霞电影网午夜鲁丝片无码 | 欧美黑人巨大videos免费 | 成人免费在线视频 | 一本道在线综合久久88 | 含羞草在线免费观看 | 影视先锋男人无码在线 | 日本成熟bbxxxxxxxx | 色噜噜视频 | 日韩精品无码视频一区二区蜜桃 | 精品AV亚洲乱码一区二区 | 久久热精品18国产 |