伊人色爱久久88亚洲综合网,亚洲天堂在线视频播放,中文成人在线视频

正則化是一種為了減小測(cè)試誤差的行為(有時(shí)候會(huì)增加訓(xùn)練誤差)。當(dāng)我們用較為復(fù)雜的模型擬合數(shù)據(jù)時(shí)，容易出現(xiàn)過擬合現(xiàn)象，導(dǎo)致模型的泛化能力下降，這時(shí)我們就需要使用正則化，降低模型的復(fù)雜度。本文總結(jié)闡釋了正則化的相關(guān)知識(shí)點(diǎn)，幫助大家更好的理解正則化這一概念。

LP范數(shù)

L1范數(shù)

L2范數(shù)

L1范數(shù)和L2范數(shù)的區(qū)別

Dropout

Batch Normalization

歸一化、標(biāo)準(zhǔn)化 & 正則化

Reference

在總結(jié)正則化（Regularization）之前，我們先談一談?wù)齽t化是什么，為什么要正則化。

個(gè)人認(rèn)為正則化這個(gè)字眼有點(diǎn)太過抽象和寬泛，其實(shí)正則化的本質(zhì)很簡(jiǎn)單，就是對(duì)某一問題加以先驗(yàn)的限制或約束以達(dá)到某種特定目的的一種手段或操作。在算法中使用正則化的目的是防止模型出現(xiàn)過擬合。一提到正則化，很多同學(xué)可能馬上會(huì)想到常用的L1范數(shù)和L2范數(shù)，在匯總之前，我們先看下LP范數(shù)是什么鬼。

LP范數(shù)

范數(shù)簡(jiǎn)單可以理解為用來表征向量空間中的距離，而距離的定義很抽象，只要滿足非負(fù)、自反、三角不等式就可以稱之為距離。

LP范數(shù)不是一個(gè)范數(shù)，而是一組范數(shù)，其定義如下：

pp的范圍是[1,∞)[1,∞)。pp在(0,1)(0,1)范圍內(nèi)定義的并不是范數(shù)，因?yàn)檫`反了三角不等式。

根據(jù)pp的變化，范數(shù)也有著不同的變化，借用一個(gè)經(jīng)典的有關(guān)P范數(shù)的變化圖如下：

上圖表示了pp從0到正無窮變化時(shí)，單位球（unit ball）的變化情況。在P范數(shù)下定義的單位球都是凸集，但是當(dāng)0

那問題來了，L0范數(shù)是啥玩意？

L0范數(shù)表示向量中非零元素的個(gè)數(shù)，用公式表示如下：

我們可以通過最小化L0范數(shù)，來尋找最少最優(yōu)的稀疏特征項(xiàng)。但不幸的是，L0范數(shù)的最優(yōu)化問題是一個(gè)NP hard問題（L0范數(shù)同樣是非凸的）。因此，在實(shí)際應(yīng)用中我們經(jīng)常對(duì)L0進(jìn)行凸松弛，理論上有證明，L1范數(shù)是L0范數(shù)的最優(yōu)凸近似，因此通常使用L1范數(shù)來代替直接優(yōu)化L0范數(shù)。

L1范數(shù)

根據(jù)LP范數(shù)的定義我們可以很輕松的得到L1范數(shù)的數(shù)學(xué)形式：

通過上式可以看到，L1范數(shù)就是向量各元素的絕對(duì)值之和，也被稱為是"稀疏規(guī)則算子"（Lasso regularization）。那么問題來了，為什么我們希望稀疏化？稀疏化有很多好處，最直接的兩個(gè)：

特征選擇

可解釋性

L2范數(shù)

L2范數(shù)是最熟悉的，它就是歐幾里得距離，公式如下：

L2范數(shù)有很多名稱，有人把它的回歸叫“嶺回歸”（Ridge Regression），也有人叫它“權(quán)值衰減”（Weight Decay）。以L2范數(shù)作為正則項(xiàng)可以得到稠密解，即每個(gè)特征對(duì)應(yīng)的參數(shù)ww都很小，接近于0但是不為0；此外，L2范數(shù)作為正則化項(xiàng)，可以防止模型為了迎合訓(xùn)練集而過于復(fù)雜造成過擬合的情況，從而提高模型的泛化能力。

L1范數(shù)和L2范數(shù)的區(qū)別

引入PRML一個(gè)經(jīng)典的圖來說明下L1和L2范數(shù)的區(qū)別，如下圖所示：

如上圖所示，藍(lán)色的圓圈表示問題可能的解范圍，橘色的表示正則項(xiàng)可能的解范圍。而整個(gè)目標(biāo)函數(shù)（原問題+正則項(xiàng)）有解當(dāng)且僅當(dāng)兩個(gè)解范圍相切。從上圖可以很容易地看出，由于L2范數(shù)解范圍是圓，所以相切的點(diǎn)有很大可能不在坐標(biāo)軸上，而由于L1范數(shù)是菱形（頂點(diǎn)是凸出來的），其相切的點(diǎn)更可能在坐標(biāo)軸上，而坐標(biāo)軸上的點(diǎn)有一個(gè)特點(diǎn)，其只有一個(gè)坐標(biāo)分量不為零，其他坐標(biāo)分量為零，即是稀疏的。所以有如下結(jié)論，L1范數(shù)可以導(dǎo)致稀疏解，L2范數(shù)導(dǎo)致稠密解。

從貝葉斯先驗(yàn)的角度看，當(dāng)訓(xùn)練一個(gè)模型時(shí)，僅依靠當(dāng)前的訓(xùn)練數(shù)據(jù)集是不夠的，為了實(shí)現(xiàn)更好的泛化能力，往往需要加入先驗(yàn)項(xiàng)，而加入正則項(xiàng)相當(dāng)于加入了一種先驗(yàn)。

L1范數(shù)相當(dāng)于加入了一個(gè)Laplacean先驗(yàn)；

L2范數(shù)相當(dāng)于加入了一個(gè)Gaussian先驗(yàn)。

如下圖所示：

Dropout

Dropout是深度學(xué)習(xí)中經(jīng)常采用的一種正則化方法。它的做法可以簡(jiǎn)單的理解為在DNNs訓(xùn)練的過程中以概率pp丟棄部分神經(jīng)元，即使得被丟棄的神經(jīng)元輸出為0。Dropout可以實(shí)例化的表示為下圖：

我們可以從兩個(gè)方面去直觀地理解Dropout的正則化效果：

在Dropout每一輪訓(xùn)練過程中隨機(jī)丟失神經(jīng)元的操作相當(dāng)于多個(gè)DNNs進(jìn)行取平均，因此用于預(yù)測(cè)時(shí)具有vote的效果。

減少神經(jīng)元之間復(fù)雜的共適應(yīng)性。當(dāng)隱藏層神經(jīng)元被隨機(jī)刪除之后，使得全連接網(wǎng)絡(luò)具有了一定的稀疏化，從而有效地減輕了不同特征的協(xié)同效應(yīng)。也就是說，有些特征可能會(huì)依賴于固定關(guān)系的隱含節(jié)點(diǎn)的共同作用，而通過Dropout的話，就有效地組織了某些特征在其他特征存在下才有效果的情況，增加了神經(jīng)網(wǎng)絡(luò)的魯棒性。

Batch Normalization

批規(guī)范化（Batch Normalization）嚴(yán)格意義上講屬于歸一化手段，主要用于加速網(wǎng)絡(luò)的收斂，但也具有一定程度的正則化效果。

這里借鑒下魏秀參博士的知乎回答中對(duì)covariate shift的解釋（https://www.zhihu.com/question/38102762）。

注：以下內(nèi)容引自魏秀參博士的知乎回答

大家都知道在統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的一個(gè)經(jīng)典假設(shè)是“源空間（source domain）和目標(biāo)空間（target domain）的數(shù)據(jù)分布（distribution）是一致的”。如果不一致，那么就出現(xiàn)了新的機(jī)器學(xué)習(xí)問題，如transfer learning/domain adaptation等。而covariate shift就是分布不一致假設(shè)之下的一個(gè)分支問題，它是指源空間和目標(biāo)空間的條件概率是一致的，但是其邊緣概率不同。大家細(xì)想便會(huì)發(fā)現(xiàn)，的確，對(duì)于神經(jīng)網(wǎng)絡(luò)的各層輸出，由于它們經(jīng)過了層內(nèi)操作作用，其分布顯然與各層對(duì)應(yīng)的輸入信號(hào)分布不同，而且差異會(huì)隨著網(wǎng)絡(luò)深度增大而增大，可是它們所能“指示”的樣本標(biāo)記（label）仍然是不變的，這便符合了covariate shift的定義。

BN的基本思想其實(shí)相當(dāng)直觀，因?yàn)樯窠?jīng)網(wǎng)絡(luò)在做非線性變換前的激活輸入值（X=WU+BX=WU+B，UU是輸入）隨著網(wǎng)絡(luò)深度加深，其分布逐漸發(fā)生偏移或者變動(dòng)（即上述的covariate shift）。之所以訓(xùn)練收斂慢，一般是整體分布逐漸往非線性函數(shù)的取值區(qū)間的上下限兩端靠近（對(duì)于Sigmoid函數(shù)來說，意味著激活輸入值X=WU+BX=WU+B是大的負(fù)值或正值），所以這導(dǎo)致后向傳播時(shí)低層神經(jīng)網(wǎng)絡(luò)的梯度消失，這是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)收斂越來越慢的本質(zhì)原因。而BN就是通過一定的規(guī)范化手段，把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元這個(gè)輸入值的分布強(qiáng)行拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布，避免因?yàn)榧せ詈瘮?shù)導(dǎo)致的梯度彌散問題。所以與其說BN的作用是緩解covariate shift，倒不如說BN可緩解梯度彌散問題。

歸一化、標(biāo)準(zhǔn)化 & 正則化

正則化我們以及提到過了，這里簡(jiǎn)單提一下歸一化和標(biāo)準(zhǔn)化。

歸一化（Normalization）：歸一化的目標(biāo)是找到某種映射關(guān)系，將原數(shù)據(jù)映射到[a,b]區(qū)間上。一般a,b會(huì)取[?1,1],[0,1]這些組合。

一般有兩種應(yīng)用場(chǎng)景：

把數(shù)變?yōu)?0, 1)之間的小數(shù)

把有量綱的數(shù)轉(zhuǎn)化為無量綱的數(shù)

常用min-max normalization：

標(biāo)準(zhǔn)化（Standardization）：用大數(shù)定理將數(shù)據(jù)轉(zhuǎn)化為一個(gè)標(biāo)準(zhǔn)正態(tài)分布，標(biāo)準(zhǔn)化公式為：

歸一化和標(biāo)準(zhǔn)化的區(qū)別：

我們可以這樣簡(jiǎn)單地解釋：

歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間（僅由極值決定），而標(biāo)準(zhǔn)化的縮放是更加“彈性”和“動(dòng)態(tài)”的，和整體樣本的分布有很大的關(guān)系。

值得注意：

歸一化：縮放僅僅跟最大、最小值的差別有關(guān)。

標(biāo)準(zhǔn)化：縮放和每個(gè)點(diǎn)都有關(guān)系，通過方差（variance）體現(xiàn)出來。與歸一化對(duì)比，標(biāo)準(zhǔn)化中所有數(shù)據(jù)點(diǎn)都有貢獻(xiàn)（通過均值和標(biāo)準(zhǔn)差造成影響）。

為什么要標(biāo)準(zhǔn)化和歸一化？

提升模型精度：歸一化后，不同維度之間的特征在數(shù)值上有一定比較性，可以大大提高分類器的準(zhǔn)確性。

加速模型收斂：標(biāo)準(zhǔn)化后，最優(yōu)解的尋優(yōu)過程明顯會(huì)變得平緩，更容易正確的收斂到最優(yōu)解。如下圖所示：

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4345

瀏覽量
62874
神經(jīng)元

神經(jīng)元

+關(guān)注

關(guān)注
1

文章
363

瀏覽量
18492
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8438

瀏覽量
132928

原文標(biāo)題：一文讀懂機(jī)器學(xué)習(xí)中的正則化

文章出處：【微信號(hào)：cas-ciomp，微信公眾號(hào)：中科院長(zhǎng)春光機(jī)所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Aigtek功率放大器應(yīng)用：電感線圈的知識(shí)點(diǎn)分享

電磁驅(qū)動(dòng)是功率放大器的一大基礎(chǔ)應(yīng)用領(lǐng)域，其中我們最常見的就是用功放來驅(qū)動(dòng)電感線圈，那么關(guān)于電感線圈的這10大知識(shí)點(diǎn)你都知道嗎？今天Aigtek安泰電子來給大家介紹一下電感線圈的基礎(chǔ)知識(shí)。

發(fā)表于 01-07 15:43 ?139次閱讀

Aigtek功率放大器應(yīng)用：電感線圈的<b class='flag-5'>知識(shí)點(diǎn)</b>分享

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

在上一篇文章中，我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中，我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多

發(fā)表于 12-30 09:16 ?344次閱讀

傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

后悔沒有早點(diǎn)看到：天線設(shè)計(jì)中的知識(shí)點(diǎn)！

Cat.1 bis R13架構(gòu)，天線架構(gòu)精簡(jiǎn)為單天線架構(gòu)，去掉了分集接收天線，因此只需要一根天線。 ? 知識(shí)點(diǎn)： Cat.1 bis相對(duì)于Cat.1的區(qū)別是，后者為兩根天線(一根主天線，一根分集天線

發(fā)表于 12-24 17:11 ?467次閱讀

后悔沒有早點(diǎn)看到：天線設(shè)計(jì)<b class='flag-5'>中</b>的<b class='flag-5'>知識(shí)點(diǎn)</b>！

接口測(cè)試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展相關(guān)知識(shí)點(diǎn)

本文章使用王者榮耀游戲接口、企業(yè)微信接口的展示結(jié)合理論知識(shí)，講解什么是接口測(cè)試、接口測(cè)試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展相關(guān)知識(shí)點(diǎn)的知識(shí)學(xué)院，快來一起看看吧~

發(fā)表于 11-15 09:12 ?372次閱讀

接口測(cè)試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展<b class='flag-5'>相關(guān)</b><b class='flag-5'>知識(shí)點(diǎn)</b>

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

這本書以其系統(tǒng)性的框架和深入淺出的講解，為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí)，更巧妙地展示了機(jī)器

發(fā)表于 08-12 11:21

MySQL知識(shí)點(diǎn)匯總

大家好，這部分被稱為DQL部分，是每個(gè)學(xué)習(xí)MySQL必須要學(xué)會(huì)的部分，下面就讓我來介紹MySQL中的其他部分。

發(fā)表于 08-05 15:27 ?433次閱讀

MySQL<b class='flag-5'>知識(shí)點(diǎn)</b>匯總

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇，對(duì)于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀，但對(duì)于我還是有許多的知識(shí)點(diǎn)、專業(yè)術(shù)語比較陌生，需要網(wǎng)上搜索學(xué)習(xí)更多的資

發(fā)表于 07-25 14:33

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

在機(jī)器學(xué)習(xí)中，數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù)，它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器

發(fā)表于 07-10 16:10 ?2086次閱讀

如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集

理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集，是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)

發(fā)表于 07-10 15:45 ?4581次閱讀

機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

在機(jī)器學(xué)習(xí)的整個(gè)流程中，數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量，進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和特征工程的基本概念出發(fā)，詳細(xì)探討這

發(fā)表于 07-09 15:57 ?565次閱讀

深度學(xué)習(xí)模型中的過擬合與正則化

測(cè)試數(shù)據(jù)或新數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。為了解決這個(gè)問題，正則化（Regularization）技術(shù)應(yīng)運(yùn)而生，成為深度學(xué)習(xí)中不可或缺的一部分。本文將從過擬合的原因、表現(xiàn)、

發(fā)表于 07-09 15:56 ?1094次閱讀

模擬電子技術(shù)知識(shí)點(diǎn)問題總結(jié)概覽

給大家分享模擬電子技術(shù)知識(shí)點(diǎn)問題總結(jié)。

發(fā)表于 05-08 15:16 ?1218次閱讀

深入探討機(jī)器學(xué)習(xí)的可視化技術(shù)

機(jī)器學(xué)習(xí)可視化（簡(jiǎn)稱ML可視化）一般是指通過圖形或交互方式表示機(jī)器學(xué)習(xí)模型、數(shù)據(jù)及其關(guān)系的過程。

發(fā)表于 04-25 11:17 ?460次閱讀

一篇搞定DCS系統(tǒng)相關(guān)知識(shí)點(diǎn)

目標(biāo)。DCS系統(tǒng)廣泛應(yīng)用于各個(gè)行業(yè)，如化工、電力、制藥等。在這些行業(yè)中，DCS系統(tǒng)可以實(shí)現(xiàn)對(duì)生產(chǎn)過程的集中監(jiān)控和分散控制，提高生產(chǎn)效率和產(chǎn)品質(zhì)量，降低能耗和減少環(huán)境污染，從而保證產(chǎn)品質(zhì)量，并確保生產(chǎn)過程的安全可靠。二.DCS系統(tǒng)知識(shí)點(diǎn)

發(fā)表于 03-26 18:40 ?977次閱讀

【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】第二章關(guān)鍵知識(shí)點(diǎn)

本帖最后由 oxlm_1 于 2024-3-6 23:20 編輯之所以將第二章單獨(dú)拿出來，是因?yàn)樵陂喿x過程中，發(fā)現(xiàn)第二章知識(shí)點(diǎn)較多，理解起來比較耗時(shí)間。第二章的主要知識(shí)點(diǎn)：量子

發(fā)表于 03-06 23:17

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

機(jī)器學(xué)習(xí)中的正則化的相關(guān)知識(shí)點(diǎn)

評(píng)論

Aigtek功率放大器應(yīng)用：電感線圈的知識(shí)點(diǎn)分享

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

后悔沒有早點(diǎn)看到：天線設(shè)計(jì)中的知識(shí)點(diǎn)！

接口測(cè)試?yán)碚摗⒁蓡柺珍浥c擴(kuò)展相關(guān)知識(shí)點(diǎn)

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

MySQL知識(shí)點(diǎn)匯總

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集

機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

深度學(xué)習(xí)模型中的過擬合與正則化

模擬電子技術(shù)知識(shí)點(diǎn)問題總結(jié)概覽

深入探討機(jī)器學(xué)習(xí)的可視化技術(shù)

一篇搞定DCS系統(tǒng)相關(guān)知識(shí)點(diǎn)

【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】第二章關(guān)鍵知識(shí)點(diǎn)