色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決二分類問題的算法——AdaBoost算法

lviY_AI_shequ ? 來源:未知 ? 作者:李倩 ? 2018-09-23 10:02 ? 次閱讀

1.集成學(xué)習(xí)

集成學(xué)習(xí)(ensemble learning)通過組合多個(gè)基分類器(base classifier)來完成學(xué)習(xí)任務(wù),頗有點(diǎn)“三個(gè)臭皮匠頂個(gè)諸葛亮”的意味?;诸惼饕话悴捎玫氖侨蹩蓪W(xué)習(xí)(weakly learnable)分類器,通過集成學(xué)習(xí),組合成一個(gè)強(qiáng)可學(xué)習(xí)(strongly learnable)分類器。所謂弱可學(xué)習(xí),是指學(xué)習(xí)的正確率僅略優(yōu)于隨機(jī)猜測(cè)的多項(xiàng)式學(xué)習(xí)算法;強(qiáng)可學(xué)習(xí)指正確率較高的多項(xiàng)式學(xué)習(xí)算法。集成學(xué)習(xí)的泛化能力一般比單一的基分類器要好,這是因?yàn)榇蟛糠只诸惼鞫挤诸愬e(cuò)誤的概率遠(yuǎn)低于單一基分類器的。

偏差與方差

“偏差-方差分解”(bias variance decomposition)是用來解釋機(jī)器學(xué)習(xí)算法的泛化能力的一種重要工具。對(duì)于同一個(gè)算法,在不同訓(xùn)練集上學(xué)得結(jié)果可能不同。對(duì)于訓(xùn)練集,由于噪音,樣本的真實(shí)類別為(在訓(xùn)練集中的類別為),則噪聲為

學(xué)習(xí)算法的期望預(yù)測(cè)為

使用樣本數(shù)相同的不同訓(xùn)練集所產(chǎn)生的方法

期望輸入與真實(shí)類別的差別稱為bias,則

為便于討論,假定噪聲的期望為0,即,通過多項(xiàng)式展開,可對(duì)算法的期望泛化誤差進(jìn)行分解(詳細(xì)的推導(dǎo)參看[2]):

也就是說,誤差可以分解為3個(gè)部分:bias、variance、noise。bias度量了算法本身的擬合能力,刻畫模型的準(zhǔn)確性;variance度量了數(shù)據(jù)擾動(dòng)所造成的影響,刻畫模型的穩(wěn)定性。為了取得較好的泛化能力,則需要充分?jǐn)M合數(shù)據(jù)(bias小),并受數(shù)據(jù)擾動(dòng)的影響?。╲ariance?。5?,bias與variance往往是不可兼得的:

當(dāng)訓(xùn)練不足時(shí),擬合能力不夠強(qiáng),數(shù)據(jù)擾動(dòng)不足以產(chǎn)生較大的影響,此時(shí)bias主導(dǎo)了泛化錯(cuò)誤率;

隨著訓(xùn)練加深時(shí),擬合能力隨之加強(qiáng),數(shù)據(jù)擾動(dòng)漸漸被學(xué)習(xí)到,variance主導(dǎo)了泛化錯(cuò)誤率。

Bagging與Boosting

集成學(xué)習(xí)需要解決兩個(gè)問題:

如何調(diào)整輸入訓(xùn)練數(shù)據(jù)的概率分布及權(quán)值;

如何訓(xùn)練與組合基分類器。

從上述問題的角度出發(fā),集成學(xué)習(xí)分為兩類流派:Bagging與Boosting。Bagging(BootstrapAggregating)對(duì)訓(xùn)練數(shù)據(jù)擦用自助采樣(boostrap sampling),即有放回地采樣數(shù)據(jù);每一次的采樣數(shù)據(jù)集訓(xùn)練出一個(gè)基分類器,經(jīng)過MM次采樣得到MM個(gè)基分類器,然后根據(jù)最大表決(majority vote)原則組合基分類器的分類結(jié)果。

Boosting的思路則是采用重賦權(quán)(re-weighting)法迭代地訓(xùn)練基分類器,即對(duì)每一輪的訓(xùn)練數(shù)據(jù)樣本賦予一個(gè)權(quán)重,并且每一輪樣本的權(quán)值分布依賴上一輪的分類結(jié)果;基分類器之間采用序列式的線性加權(quán)方式進(jìn)行組合。

從“偏差-方差分解”的角度看,Bagging關(guān)注于降低variance,而Boosting則是降低bias;Boosting的基分類器是強(qiáng)相關(guān)的,并不能顯著降低variance。Bagging與Boosting有分屬于自己流派的兩大殺器:Random Forests(RF)和Gradient Boosting Decision Tree(GBDT)。本文所要講的AdaBoost屬于Boosting流派。

2.AdaBoost算法

AdaBoost是由Freund與Schapire [1] 提出來解決二分類問題

根據(jù)加型模型(additive model),第m輪的分類函數(shù)

其中,為基分類器的組合系數(shù)。AdaBoost采用前向分布(forward stagewise)這種貪心算法最小化損失函數(shù)(1),求解子模型的

其中,的分類誤差率。第m+1輪的訓(xùn)練數(shù)據(jù)集權(quán)值分布

其中,為規(guī)范化因子

則得到最終分類器

的單調(diào)遞減函數(shù),特別地,當(dāng)時(shí),;當(dāng)時(shí),即基分類器不滿足弱可學(xué)習(xí)的條件(比隨機(jī)猜測(cè)好),則應(yīng)該停止迭代。具體算法流程如下:

在算法第4步,學(xué)習(xí)過程有可能停止,導(dǎo)致學(xué)習(xí)不充分而泛化能力較差。因此,可采用“重采樣”(re-sampling)避免訓(xùn)練過程過早停止;即拋棄當(dāng)前不滿足條件的基分類器,基于重新采樣的數(shù)據(jù)訓(xùn)練分類器,從而獲得學(xué)習(xí)“重啟動(dòng)”機(jī)會(huì)。

AdaBoost能夠自適應(yīng)(addaptive)地調(diào)整樣本的權(quán)值分布,將分錯(cuò)的樣本的權(quán)重設(shè)高、分對(duì)的樣本的權(quán)重設(shè)低;所以被稱為“Adaptive Boosting”。sklearn的AdaBoostClassifier實(shí)現(xiàn)了AdaBoost,默認(rèn)的基分類器是能fit()帶權(quán)值樣本的DecisionTreeClassifier。

老師木在微博上提出了關(guān)于AdaBoost的三個(gè)問題:

1,adaboost不易過擬合的神話。

2,adaboost人臉檢測(cè)器好用的本質(zhì)原因,

3,真的要求每個(gè)弱分類器準(zhǔn)確率不低于50%。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4629

    瀏覽量

    93193
  • 集成學(xué)習(xí)
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    7330
  • 分類器
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    13212

原文標(biāo)題:【十大經(jīng)典數(shù)據(jù)挖掘算法】AdaBoost

文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于邏輯回歸算法的乳腺癌腫瘤二分類預(yù)測(cè)

    ML之LoR:基于LoR(邏輯回歸)算法對(duì)乳腺癌腫瘤進(jìn)行二分類預(yù)測(cè)(良惡性)
    發(fā)表于 06-18 07:06

    實(shí)現(xiàn)AdaBoost算法的代碼

    AdaBoost算法實(shí)現(xiàn)
    發(fā)表于 11-07 09:19

    利用單詞超團(tuán)的二分圖文本聚算法

    鑒于目前傳統(tǒng)文本聚方法中利用文檔間的相似度進(jìn)行聚存在的問題,在傳統(tǒng)的文本挖掘基礎(chǔ)上提出了一種新的文本聚算法—— 利用單詞超團(tuán)的二分圖文
    發(fā)表于 02-27 15:39 ?21次下載

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)_徐凱
    發(fā)表于 01-07 18:56 ?2次下載

    基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost改進(jìn)算法

    針對(duì)不平衡分類中小樣本識(shí)別率低問題,提出一種基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost改進(jìn)算法。首先,利用主動(dòng)學(xué)習(xí)方法通過多次迭代抽樣,選取
    發(fā)表于 11-30 17:12 ?3次下載

    一種多分類AdaBoost算法

    指數(shù)損失函數(shù)逐步添加模型( SAMME)是一種多分類AdaBoost算法,為進(jìn)一步提升SAMME算法的性能,針對(duì)使用加權(quán)概率和偽損失對(duì)
    發(fā)表于 12-01 16:50 ?1次下載

    基于聚算法二分網(wǎng)絡(luò)社區(qū)挖掘算法

    針對(duì)二分網(wǎng)絡(luò)中社區(qū)挖掘的準(zhǔn)確性不高、對(duì)額外參數(shù)的依賴較大的問題,基于譜聚算法的思想,從二分網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)展開,提出了一種改進(jìn)的社區(qū)挖掘算法
    發(fā)表于 12-27 10:06 ?0次下載
    基于聚<b class='flag-5'>類</b><b class='flag-5'>算法</b>的<b class='flag-5'>二分</b>網(wǎng)絡(luò)社區(qū)挖掘<b class='flag-5'>算法</b>

    非線性AdaBoost算法

    AdaBoost是數(shù)據(jù)挖掘領(lǐng)域最常見的提升算法之一。對(duì)傳統(tǒng)AdaBoost將各個(gè)基分類器線性相加所存在的不足進(jìn)行分析,并針對(duì)AdaBoost
    發(fā)表于 01-04 16:58 ?0次下載

    基于可能性均值聚二分類支持向量機(jī)

    提出基于可能性均值聚(Possibilistic Two Means, P2M)的二分類支持向量機(jī)(Support Vector Machine,SVM)。該算法先用P2M對(duì)未知類
    發(fā)表于 01-09 10:45 ?0次下載

    閾值分類器組合的多標(biāo)簽分類算法

    ,證明了該算法能克服固定分段閾值分類器對(duì)分類邊界附近點(diǎn)分類不穩(wěn)定的缺點(diǎn)從而提高分類準(zhǔn)確率;然后,采用二分
    發(fā)表于 01-22 17:01 ?1次下載

    Adaboost算法總結(jié)

    集成學(xué)習(xí)的Boosting算法通過結(jié)合多個(gè)弱學(xué)習(xí)器組成強(qiáng)學(xué)習(xí)器,AdaBoost算法是Boosting算法中的一種,本文詳細(xì)的總結(jié)了AdaBoost
    的頭像 發(fā)表于 12-29 16:08 ?3124次閱讀
    <b class='flag-5'>Adaboost</b><b class='flag-5'>算法</b>總結(jié)

    基于AdaBoost算法的復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測(cè)

    鄰接矩陣,完成樣本的矩陣化處理;然后采用 Adaboost算法進(jìn)行分類訓(xùn)練,通過權(quán)重投票獲取預(yù)測(cè)結(jié)果;最后,考慮到復(fù)雜網(wǎng)絡(luò)弱分類器預(yù)測(cè)正負(fù)誤差分布的不均衡問題,設(shè)置權(quán)重調(diào)整因子η及其調(diào)
    發(fā)表于 04-08 11:21 ?15次下載
    基于<b class='flag-5'>AdaBoost</b><b class='flag-5'>算法</b>的復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測(cè)

    一種融合語義模型的二分網(wǎng)絡(luò)推薦算法

    當(dāng)前基于二分網(wǎng)絡(luò)的推薦算法未考慮推薦對(duì)象之間的語義關(guān)系,因此文中提出一種融合語義模型的二分網(wǎng)絡(luò)推薦算法。該算法利用作者主題模型將推薦對(duì)象的語
    發(fā)表于 04-28 13:53 ?4次下載
    一種融合語義模型的<b class='flag-5'>二分</b>網(wǎng)絡(luò)推薦<b class='flag-5'>算法</b>

    二分搜索算法運(yùn)用的框架套路

    我們前文 我作了首詩,保你閉著眼睛也能寫對(duì)二分查找 詳細(xì)介紹了二分搜索的細(xì)節(jié)問題,探討了「搜索一個(gè)元素」,「搜索左側(cè)邊界」,「搜索右側(cè)邊界」這三個(gè)情況,教你如何寫出正確無 bug 的二分搜索
    的頭像 發(fā)表于 08-25 16:06 ?1860次閱讀

    如何理解二分查找算法

    本文就來探究幾個(gè)最常用的二分查找場(chǎng)景:尋找一個(gè)數(shù)、尋找左側(cè)邊界、尋找右側(cè)邊界。 而且,我們就是要深入細(xì)節(jié),比如不等號(hào)是否應(yīng)該帶等號(hào),mid 是否應(yīng)該加一等等。分析這些細(xì)節(jié)的差異以及出現(xiàn)這些差異的原因,保證你能靈活準(zhǔn)確地寫出正確的二分查找
    的頭像 發(fā)表于 04-19 11:10 ?653次閱讀
    如何理解<b class='flag-5'>二分</b>查找<b class='flag-5'>算法</b>
    主站蜘蛛池模板: 高H高肉强J短篇NP | 亚洲欧美成人无码久久久 | 中文字幕s级优女区 | 青青草在现线免费观看 | 日本精品久久久久中文字幕2 | 在线电影一区二区 | 成人国产精品玖玖热色欲 | 午夜理伦大片一级 | 婷婷六月激情综合一区 | 亚洲中文字幕AV在天堂 | 亚洲欧洲免费三级网站 | 91久久偷偷做嫩草影院免费看 | 男人插女人动态图 | 佐山爱巨大肥臀在线 | 嫩草AV久久伊人妇女 | 国产乱码精品一区二区三区四川 | 暖暖视频免费高清在线观看 视频 | 毛片基地看看成人免费 | japansemature护士 JAPANRCEP老熟妇乱子伦视频 | ABO成结顶腔锁住 | 久久这里的只有是精品23 | 无码国产色欲XXXX视频 | 午夜福利网国产A | 国产AV果冻传奇麻豆 | zxfuli午夜福利在线 | 免费无码又爽又黄又刺激网站 | 皮皮在线精品亚洲 | 免费在线观看黄色网址 | 色男人的天堂久久综合 | 日本中文字幕巨大的乳专区 | 九九夜夜妹子 | 亚洲国产高清在线观看视频 | 国产毛片女人高潮叫声 | 国产精品一区二区人妻无码 | 好男人在线高清WWW免费观看 | 久久精品久久精品 | ass亚洲熟妇毛耸耸pics | 狠狠撸亚洲视频 | 亚洲高清无码在线 视频 | 一本道dvd久久综合高清免费 | x69老师x日本 |