色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文帶你快速讀懂支持向量機 SVM 算法

h1654155999.2342 ? 來源:博客園 ? 作者: JerryLead ? 2021-08-26 15:27 ? 次閱讀

簡介

支持向量機基本上是最好的有監督學習算法了。最開始接觸SVM是去年暑假的時候,老師要求交《統計學習理論》的報告,那時去網上下了一份入門教程,里面講的很通俗,當時只是大致了解了一些相關概念。

這次斯坦福提供的學習材料,讓我重新學習了一些SVM知識。我看很多正統的講法都是從VC 維理論和結構風險最小原理出發,然后引出SVM什么的,還有些資料上來就講分類超平面什么的。

這份材料從前幾節講的logistic回歸出發,引出了SVM,既揭示了模型間的聯系,也讓人覺得過渡更自然。

重新審視logistic回歸

Logistic回歸目的是從特征學習出一個0/1分類模型,而這個模型是將特性的線性組合作為自變量,由于自變量的取值范圍是負無窮到正無窮。

因此,使用logistic函數(或稱作sigmoid函數)將自變量映射到(0,1)上,映射后的值被認為是屬于y=1的概率。

形式化表示就是

假設函數

aa5ecf14-f846-11eb-9bcf-12bb97331649.png

其中x是n維特征向量,函數g就是logistic函數。

aa77a2dc-f846-11eb-9bcf-12bb97331649.png的圖像是

aa93046e-f846-11eb-9bcf-12bb97331649.png

可以看到,將無窮映射到了(0,1)。

而假設函數就是特征屬于y=1的概率。

aabd24d8-f846-11eb-9bcf-12bb97331649.png

當我們要判別一個新來的特征屬于哪個類時,只需求aaeb088a-f846-11eb-9bcf-12bb97331649.png,若大于0.5就是y=1的類,反之屬于y=0類。

再審視一下aaeb088a-f846-11eb-9bcf-12bb97331649.png,發現aaeb088a-f846-11eb-9bcf-12bb97331649.png只和ab32d732-f846-11eb-9bcf-12bb97331649.png有關,ab32d732-f846-11eb-9bcf-12bb97331649.png>0,那么ab60cbce-f846-11eb-9bcf-12bb97331649.png,g(z)只不過是用來映射,真實的類別決定權還在ab32d732-f846-11eb-9bcf-12bb97331649.png。還有當ab869638-f846-11eb-9bcf-12bb97331649.png時,aaeb088a-f846-11eb-9bcf-12bb97331649.png=1,反之aaeb088a-f846-11eb-9bcf-12bb97331649.png=0。

如果我們只從ab32d732-f846-11eb-9bcf-12bb97331649.png出發,希望模型達到的目標無非就是讓訓練數據中y=1的特征ab869638-f846-11eb-9bcf-12bb97331649.png,而是y=0的特征abd0d748-f846-11eb-9bcf-12bb97331649.png

Logistic回歸就是要學習得到abef8eea-f846-11eb-9bcf-12bb97331649.png,使得正例的特征遠大于0,負例的特征遠小于0,強調在全部訓練實例上達到這個目標。

圖形化表示如下:

ac0c8c5c-f846-11eb-9bcf-12bb97331649.png

中間那條線是ac2780c0-f846-11eb-9bcf-12bb97331649.png,logistic回顧強調所有點盡可能地遠離中間那條線。學習出的結果也就中間那條線。

考慮上面3個點A、B和C。從圖中我們可以確定A是×類別的,然而C我們是不太確定的,B還算能夠確定。這樣我們可以得出結論,我們更應該關心靠近中間分割線的點,讓他們盡可能地遠離中間線,而不是在所有點上達到最優。

因為那樣的話,要使得一部分點靠近中間線來換取另外一部分點更加遠離中間線。我想這就是支持向量機的思路和logistic回歸的不同點,一個考慮局部(不關心已經確定遠離的點),一個考慮全局(已經遠離的點可能通過調整中間線使其能夠更加遠離)。這是我的個人直觀理解。

形式化表示

我們這次使用的結果標簽是y=-1,y=1,替換在logistic回歸中使用的y=0和y=1。同時將abef8eea-f846-11eb-9bcf-12bb97331649.png替換成w和b。

以前的ac5a1a08-f846-11eb-9bcf-12bb97331649.png,其中認為ac8034f4-f846-11eb-9bcf-12bb97331649.png。現在我們替換aca11cfa-f846-11eb-9bcf-12bb97331649.png為b,后面替換acbfbaf2-f846-11eb-9bcf-12bb97331649.pngacdc3b1e-f846-11eb-9bcf-12bb97331649.png(即ad0adbea-f846-11eb-9bcf-12bb97331649.png)。這樣,我們讓ad2249ce-f846-11eb-9bcf-12bb97331649.png,進一步ad4341e2-f846-11eb-9bcf-12bb97331649.png

也就是說除了y由y=0變為y=-1,只是標記不同外,與logistic回歸的形式化表示沒區別。再明確下假設函數

ad715730-f846-11eb-9bcf-12bb97331649.png

上一節提到過我們只需考慮ab32d732-f846-11eb-9bcf-12bb97331649.png的正負問題,而不用關心g(z),因此我們這里將g(z)做一個簡化,將其簡單映射到y=-1和y=1上。映射關系如下:

ad98c93c-f846-11eb-9bcf-12bb97331649.png

函數間隔(functional margin)和幾何間隔(geometric margin)

給定一個訓練樣本adb55e08-f846-11eb-9bcf-12bb97331649.png,x是特征,y是結果標簽。i表示第i個樣本。我們定義函數間隔如下:

addd8388-f846-11eb-9bcf-12bb97331649.png

可想而知,當ae151190-f846-11eb-9bcf-12bb97331649.png時,在我們的g(z)定義中,ae30ac84-f846-11eb-9bcf-12bb97331649.pngae4fc01a-f846-11eb-9bcf-12bb97331649.png的值實際上就是ae6752b6-f846-11eb-9bcf-12bb97331649.png。反之亦然。

為了使函數間隔最大(更大的信心確定該例是正例還是反例),當ae151190-f846-11eb-9bcf-12bb97331649.png時,ae8e9f6a-f846-11eb-9bcf-12bb97331649.png應該是個大正數,反之是個大負數。因此函數間隔代表了我們認為特征是正例還是反例的確信度。

繼續考慮w和b,如果同時加大w和b,比如在aeac850c-f846-11eb-9bcf-12bb97331649.png前面乘個系數比如2,那么所有點的函數間隔都會增大二倍,這個對求解問題來說不應該有影響,因為我們要求解的是aec9ada8-f846-11eb-9bcf-12bb97331649.png,同時擴大w和b對結果是無影響的。

這樣,我們為了限制w和b,可能需要加入歸一化條件,畢竟求解的目標是確定唯一一個w和b,而不是多組線性相關的向量。這個歸一化一會再考慮。

剛剛我們定義的函數間隔是針對某一個樣本的,現在我們定義全局樣本上的函數間隔

aee7afba-f846-11eb-9bcf-12bb97331649.png

說白了就是在訓練樣本上分類正例和負例確信度最小那個函數間隔。

接下來定義幾何間隔

假設我們有了B點所在的aec9ada8-f846-11eb-9bcf-12bb97331649.png分割面。任何其他一點,比如A到該面的距離以af54e79c-f846-11eb-9bcf-12bb97331649.png表示,假設B就是A在分割面上的投影。

我們知道向量BA的方向是af7d4476-f846-11eb-9bcf-12bb97331649.png(分割面的梯度),單位向量是afb3cdac-f846-11eb-9bcf-12bb97331649.png。A點是adb55e08-f846-11eb-9bcf-12bb97331649.png,所以B點是x=afdf28bc-f846-11eb-9bcf-12bb97331649.png(利用初中的幾何知識),帶入aec9ada8-f846-11eb-9bcf-12bb97331649.png得,

進一步得到

b02d5640-f846-11eb-9bcf-12bb97331649.png

af54e79c-f846-11eb-9bcf-12bb97331649.png實際上就是點到平面距離。

再換種更加優雅的寫法:

b057aa76-f846-11eb-9bcf-12bb97331649.png

b075fd32-f846-11eb-9bcf-12bb97331649.png時,不就是函數間隔嗎?是的,前面提到的函數間隔歸一化結果就是幾何間隔。

他們為什么會一樣呢?因為函數間隔是我們定義的,在定義的時候就有幾何間隔的色彩。同樣,同時擴大w和b,w擴大幾倍,b09437e8-f846-11eb-9bcf-12bb97331649.png就擴大幾倍,結果無影響。同樣定義全局的幾何間隔b0b3917e-f846-11eb-9bcf-12bb97331649.png

最優間隔分類器(optimal margin classifier)

回想前面我們提到我們的目標是尋找一個超平面,使得離超平面比較近的點能有更大的間距。也就是我們不考慮所有的點都必須遠離超平面,我們關心求得的超平面能夠讓所有點中離它最近的點具有最大間距。

形象的說,我們將上面的圖看作是一張紙,我們要找一條折線,按照這條折線折疊后,離折線最近的點的間距比其他折線都要大。形式化表示為:

b0ce205c-f846-11eb-9bcf-12bb97331649.png

這里用b09437e8-f846-11eb-9bcf-12bb97331649.png=1規約w,使得b0f630a6-f846-11eb-9bcf-12bb97331649.png是幾何間隔。

到此,我們已經將模型定義出來了。如果求得了w和b,那么來一個特征x,我們就能夠分類了,稱為最優間隔分類器。接下的問題就是如何求解w和b的問題了。

由于b112b91a-f846-11eb-9bcf-12bb97331649.png不是凸函數,我們想先處理轉化一下,考慮幾何間隔和函數間隔的關系,b12f9620-f846-11eb-9bcf-12bb97331649.png,我們改寫一下上面的式子:

b149fb8c-f846-11eb-9bcf-12bb97331649.png

這時候其實我們求的最大值仍然是幾何間隔,只不過此時的w不受b112b91a-f846-11eb-9bcf-12bb97331649.png的約束了。然而這個時候目標函數仍然不是凸函數,沒法直接代入優化軟件里計算。我們還要改寫。

前面說到同時擴大w和b對結果沒有影響,但我們最后要求的仍然是w和b的確定值,不是他們的一組倍數值,因此,我們需要對b1b4ebd6-f846-11eb-9bcf-12bb97331649.png做一些限制,以保證我們解是唯一的。

這里為了簡便我們取b1d495d0-f846-11eb-9bcf-12bb97331649.png。這樣的意義是將全局的函數間隔定義為1,也即是將離超平面最近的點的距離定義為b1ed6cc2-f846-11eb-9bcf-12bb97331649.png。由于求b1ed6cc2-f846-11eb-9bcf-12bb97331649.png的最大值相當于求b21a0b6a-f846-11eb-9bcf-12bb97331649.png的最小值,因此改寫后結果為:

b23844cc-f846-11eb-9bcf-12bb97331649.png

這下好了,只有線性約束了,而且是個典型的二次規劃問題(目標函數是自變量的二次函數)。代入優化軟件可解。

到這里發現,這個講義雖然沒有像其他講義一樣先畫好圖,畫好分類超平面,在圖上標示出間隔那么直觀,但每一步推導有理有據,依靠思路的流暢性來推導出目標函數和約束。

—版權聲明—

僅用于學術分享,版權屬于原作者。

若有侵權,請聯系 刪除或修改!

轉自:JerryLead

http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4622

    瀏覽量

    93063
  • 向量機
    +關注

    關注

    0

    文章

    166

    瀏覽量

    20888
  • SVM
    SVM
    +關注

    關注

    0

    文章

    154

    瀏覽量

    32503

原文標題:優雅的讀懂支持向量機 SVM 算法

文章出處:【微信號:gh_f39db674fbfd,微信公眾號:尖刀視】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    讀懂單燈控制器工作原理

    讀懂單燈控制器工作原理
    的頭像 發表于 11-11 13:13 ?281次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>單燈控制器工作原理

    智慧公交是什么?帶你詳解智慧公交的解決方案!

    智慧公交是什么?帶你詳解智慧公交的解決方案!
    的頭像 發表于 11-05 12:26 ?321次閱讀
    智慧公交是什么?<b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>帶你</b>詳解智慧公交的解決方案!

    讀懂MSA(測量系統分析)

    讀懂MSA(測量系統分析)
    的頭像 發表于 11-01 11:08 ?1001次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>MSA(測量系統分析)

    讀懂新能源汽車的功能安全

    電子發燒友網站提供《讀懂新能源汽車的功能安全.pdf》資料免費下載
    發表于 09-04 09:22 ?3次下載

    讀懂什么單片:組成結構與應用

    歡迎來到單片的世界,這是種微小(但功能強大)的設備,改變了嵌入式系統的面貌。在本文中,您將了解單片些基本知識、單片的結構以及微處
    的頭像 發表于 08-09 11:49 ?1749次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>讀懂</b>什么單片<b class='flag-5'>機</b>:組成結構與應用

    計算機視覺技術的AI算法模型

    技術AI算法模型,包括卷積神經網絡(CNN)、循環神經網絡(RNN)、支持向量SVM)、卡爾曼濾波器(Kalman Filter)和隨機
    的頭像 發表于 07-24 12:46 ?947次閱讀

    機器學習算法原理詳解

    機器學習作為人工智能的個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習算法原理,包括線性回歸、邏輯回歸、支持向量
    的頭像 發表于 07-02 11:25 ?1140次閱讀

    帶你讀懂什么是工控

    簡單來說,工控是專為工業用途而設計的計算機。這意味著它可以在各種溫度范圍內提供工業自動化,具有增強的耐用性,并且通常包括專為工業應用設計的功能,例如過程控制和數據采集。體化設計用于輕松集成到更大
    的頭像 發表于 06-03 17:00 ?504次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>帶你</b><b class='flag-5'>讀懂</b>什么是工控<b class='flag-5'>機</b>

    如何利用些小技巧實現SVM的增量式訓練

    同時根據測試精度,可以看出,通過添加第次訓練多得到的支持向量,而非將全體數據進行二次訓練,能夠達到同樣的效果。
    發表于 04-25 11:05 ?952次閱讀
    如何利用<b class='flag-5'>一</b>些小技巧實現<b class='flag-5'>SVM</b>的增量式訓練

    電主軸:教您如何讀懂?|深圳恒興隆機電.

    電主軸:教您如何讀懂?|深圳恒興隆機電電主軸是種利用電機作為驅動源的主軸。它具有高速、高精度和高剛性等特點,廣泛應用于機械加工、數控機床、機器人等領域。本文將詳細介紹電主軸的原理
    發表于 03-27 10:30

    擴展包x-cube-ai能實現SVM支持向量嗎?

    擴展包x-cube-ai能實現SVM支持向量
    發表于 03-22 07:26

    瑞薩電子宣布已開發具有快速讀寫操作的測試芯片MRAM

    瑞薩電子公司日前宣布,該公司已開發出用于嵌入式自旋轉移矩磁阻隨機存取存儲器(STT-MRAM)的電路技術,以下簡稱MRAM)具有快速讀寫操作的測試芯片。
    的頭像 發表于 02-25 10:53 ?928次閱讀

    讀懂寬帶、帶寬、網速之間的區別與關系

    讀懂寬帶、帶寬、網速之間的區別與關系? 寬帶、帶寬和網速是在網絡領域中經常使用的術語,它們之間有定的區別和關系。在深入理解寬帶、帶寬和網速之間的關系之前,讓我們先了解
    的頭像 發表于 01-31 09:11 ?7473次閱讀

    SVM的使用方法

    篇本著回歸傳統的觀點,在這個深度學習繁榮發展的時期,帶著大家認識了位新朋友,英文名SVM,中文名為支持向量
    的頭像 發表于 01-25 09:23 ?1653次閱讀
    <b class='flag-5'>SVM</b>的使用方法

    支持向量的基本原理 支持向量可以解決什么問題

    支持向量(Support Vector Machine,簡稱SVM)是種非常流行和強大的機器學習算法
    的頭像 發表于 01-17 11:17 ?1709次閱讀
    主站蜘蛛池模板: 王晶经典三级| 护士被老头边摸边吃奶的视频| 日韩精品一区二区三区AV在线观看| 国产精品亚洲专区在线播放| 538prom精品视频我们不只是| 手机移动oa| 男人J放进女人P全黄网站| 好色女博士| 国产精品久久久久久人妻精品流| 99国产精品人妻无码免费| 亚洲免费观看| 肉动漫无修3D在线观看| 狼与美女谐音歌词| 黄色网址在线看| 国产精品搬运| 成人免费视频网站www| 亚洲精品不卡在线| 日韩中文网| 免费一级特黄欧美大片久久网| 韩国演艺圈悲惨在线| 国产精品99精品无码视亚| 阿v天堂2017在无码| 稚嫩挤奶h调教h| 亚洲这里只有精品| 亚洲av欧美在我| 甜性涩爱下载| 日韩欧美中文字幕一区| 欧美特黄99久久毛片免费| 美女的jj| 久久久黄色片| 饥渴的护士自慰被发现| 国产又粗又猛又爽黄老大爷| 国产成人在线播放| 俄罗斯老妇女BBXX| 草莓视频在线免费观看| videos gratis欧美另类| 99re28久久热在线观看| 7723日本高清完整版在线观看| 中文字幕精品视频在线| 在线亚洲视频无码天堂| 在线二区 中文 无码|