主人给的100个调教任务,一个人看的www视频在线,婷婷色吧

本來想把題目取為“從煉丹到化學”，但是這樣的題目太言過其實，遠不是近期可以做到的，學術研究需要嚴謹。但是，尋找適當的數學工具去建模深度神經網絡表達能力和訓練能力，將基于經驗主義的調參式深度學習，逐漸過渡為基于一些評測指標定量指導的深度學習，是新一代人工智能需要面對的課題，也是在當前深度學習渾渾噩噩的大背景中的一些新的希望。

這篇短文旨在介紹團隊近期的ICML工作——”Towards a Deep and Unified Understanding of Deep Neural Models in NLP”（這篇先介紹NLP領域，以后有時間再介紹類似思想解釋CV網絡的論文）。這是我與微軟亞洲研究院合作的一篇論文。其中，微軟研究院的王希廷研究員在NLP方向有豐富經驗，王老師和關超宇同學在這個課題上做出了非常巨大的貢獻，這里再三感謝。

大家說神經網絡是“黑箱”，其含義至少有以下兩個方面：一、神經網絡特征或決策邏輯在語義層面難以理解；二、缺少數學工具去診斷與評測網絡的特征表達能力（比如，去解釋深度模型所建模的知識量、其泛化能力和收斂速度），進而解釋目前不同神經網絡模型的信息處理特點。

過去我的研究一直關注第一個方面，而這篇ICML論文同時關注以上兩個方面——針對不同自然語言應用的神經網絡，尋找恰當的數學工具去建模其中層特征所建模的信息量，并可視化其中層特征的信息分布，進而解釋不同模型的性能差異。

其實，我一直希望去建模神經網絡的特征表達能力，但是又一直遲遲不愿意下手去做。究其原因，無非是找不到一套優美的數學建模方法。深度學習研究及其應用很多已經被人詬病為“經驗主義”與“拍腦袋”，我不能讓其解釋性算法也淪為經驗主義式的拍腦袋——不然解釋性工作還有什么意義。

研究的難點在于對神經網絡表達能力的評測指標需要具備“普適性”和“一貫性”。首先，這里“普適性”是指解釋性指標需要定義在某種通用的數學概念之上，保證與既有數學體系有盡可能多的連接，而與此同時，解釋性指標需要建立在盡可能少的條件假設之上，指標的計算算法盡可能獨立于神經網絡結構和目標任務的選擇。

其次，這里的“一貫性”指評測指標需要客觀的反應特征表達能力，并實現廣泛的比較，比如

診斷與比較同一神經網絡中不同層之間語義信息的繼承與遺忘；

診斷與比較針對同一任務的不同神經網絡的任意層之間的語義信息分

比較針對不同任務的不同神經網絡的信息處理特點。

具體來說，在某個NLP應用中，當輸入某句話x=[x1,x2,…,xn]到目標神經網絡時，我們可以把神經網絡的信息處理過程，看成對輸入單詞信息的逐層遺忘的過程。即，網絡特征每經過一層傳遞，就會損失一些信息，而神經網絡的作用就是盡可能多的遺忘與目標任務無關的信息，而保留與目標任務相關的信息。于是，相對于目標任務的信噪比會逐層上升，保證了目標任務的分類性能。

其實，我們可以從兩個不同的角度，計算出兩組不同的熵H(X|F=f)。（1）如果我們只關注真實自然語言的低維流形，那么p(X=x|F=f)的計算比較容易，可以將p建模為一個decoder，即用中層特征f去重建輸入句子x。（2）在這篇文章中，我們其實選取了第二個角度：我們不關注真實語言的分布，而考慮整個特征空間的分布，即x可以取值為噪聲。在計算p(X=x,F=f) = p(X=x) p(F=f|X=x)時，我們需要考慮“哪些噪聲輸入也可以生成同樣的特征f”。舉個toy example，當輸入句子是"How are you?"時，明顯“are”是廢話，可以從“How XXX you?”中猜得。這時，如果僅從真實句子分布出發，考慮句子重建，那些話佐料（“are” “is” “an”）將被很好的重建。而真實研究選取了第二個角度，即我們關注的是哪些單詞被神經網絡遺忘了，發現原來“How XYZ you？”也可以生成與“How are you？”一樣的特征。

這時，H(X|F=f)所體現的是，在中層特征f的計算過程中，哪些單詞的信息在層間傳遞的過程中逐漸被神經網絡所忽略——將這些單詞的信息替換為噪聲，也不會影響其中層特征。這種情況下，信息量H(X|F=f)不是直接就可以求出來的，如何計算信息量也是這個課題的難點。具體求解的公式推導可以看論文，知乎上只放文字，不談公式。

首先，從“普適性”的角度來看，中層特征中輸入句子的信息量（輸入句子的信息的遺忘程度）是信息論中基本定義，它只關注中層特征背后的“知識量”，而不受網絡模型參數大小、中層特征值的大小、中層卷積核順序影響。其次，從“一貫性”的角度來看，“信息量”可以客觀反映層間信息快遞能力，實現穩定的跨層比較。如下圖所示，基于梯度的評測標準，無法為不同中間層給出一貫的穩定的評測。

下圖比較了不同可視化方法在分析“reverse sequence”神經網絡中層特征關注點的區別。我們基于輸入單詞信息量的方法，可以更加平滑自然的顯示神經網絡內部信息處理邏輯。

下圖分析比較了不同可視化方法在診斷“情感語義分類”應用的神經網絡中層特征關注點的區別。我們基于輸入單詞信息量的方法，可以更加平滑自然的顯示神經網絡內部信息處理邏輯。

基于神經網絡中層信息量指標，分析不同神經網絡模型的處理能力。我們分析比較了四種在NLP中常用的深度學習模型，即BERT, Transformer, LSTM, 和CNN。在各NLP任務中， BERT模型往往表現最好，Transformer模型次之。

如下圖所示，我們發現相比于LSTM和CNN，基于預訓練參數的BERT模型和Transformer模型往往可以更加精確地找到與任務相關的目標單詞，而CNN和LSTM往往使用大范圍的鄰接單詞去做預測。

進一步，如下圖所示，BERT模型在預測過程中往往使用具有實際意義的單詞作為分類依據，而其他模型把更多的注意力放在了and the is 等缺少實際意義的單詞上。

如下圖所示，BERT模型在L3-L4層就已經遺忘了EOS單詞，往往在第5到12層逐漸遺忘其他與情感語義分析無關的單詞。相比于其他模型，BERT模型在單詞選擇上更有針對性。

我們的方法可以進一步細粒度地分析，各個單詞的信息遺忘。BERT模型對各種細粒度信息保留的效果最好。

十多年前剛剛接觸AI時總感覺最難的是獨立找課題，后來發現追著熱點還是很容易拍腦袋想出一堆新題目，再后來發現真正想做的課題越來越少，雖然AI領域中學者們的投稿量一直指數增長。

回國以后，身份從博后變成了老師，帶的學生增加了不少，工作量也翻倍了，所以一直沒有時間寫文章與大家分享一些新的工作，如果有時間還會與大家分享更多的研究，包括這篇文章后續的眾多算法。信息量在CV方向應用的論文，以及基于這些技術衍生出的課題，我稍后有空再寫。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4789

瀏覽量
101827
AI

AI

+關注

關注
87

文章
32992

瀏覽量
272738

原文標題：上海交大張拳石：神經網絡的可解釋性，從經驗主義到數學建模

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉載請注明出處。

如何優化BP神經網絡的學習率

優化BP神經網絡的學習率是提高模型訓練效率和性能的關鍵步驟。以下是一些優化BP神經網絡學習率的方法：一、理解學習率的重要性 學習率決定了模型參數在每次迭代時更新的幅度。過大的學習率可能導致模型在

發表于 02-12 15:51 ?340次閱讀

小白學解釋性AI：從機器學習到大模型

科學AI需要可解釋性人工智能的崛起，尤其是深度學習的發展，在眾多領域帶來了令人矚目的進步。然而，伴隨這些進步而來的是一個關鍵問題——“黑箱”問題。許多人工智能模型，特別是復雜的模型，如神經網

發表于 02-10 12:12 ?348次閱讀

小白學<b class='flag-5'>解釋性</b>AI：從機器學習到大模型

數據智能系列講座第3期—交流式學習：神經網絡的精細與或邏輯與人類認知的對齊

類認知的對齊報告簡介雖然近年來神經網絡的可解釋性研究得到了廣泛的關注，但是神經網絡中精細決策邏輯尚未得到有效的解釋，學界對

發表于 09-25 08:06 ?325次閱讀

數據智能系列講座第3期—交流式學習：<b class='flag-5'>神經網絡</b>的精細與或邏輯與人類認知的對齊

基于FPGA的脈沖神經網絡模型應用探索

隨著人工智能技術的飛速發展，脈沖神經網絡（Spiking Neural Network, SNN）作為一種模擬生物神經系統處理信息的計算模型，因其獨特的生物可解釋性和低能耗特性而受到廣泛關注。然而

發表于 07-12 10:08 ?862次閱讀

全卷積神經網絡的工作原理和應用

全卷積神經網絡（FCN）是深度學習領域中的一種特殊類型的神經網絡結構，尤其在計算機視覺領域表現出色。它通過全局平均池化或轉置卷積處理任意尺寸的輸入，特別適用于像素級別的任務，如圖像分割。本文將詳細探討全卷積神經網絡的定義、原理、

發表于 07-11 11:50 ?1501次閱讀

BP神經網絡和卷積神經網絡的關系

廣泛應用的神經網絡模型。它們各自具有獨特的特點和優勢，并在不同的應用場景中發揮著重要作用。以下是對BP神經網絡和卷積神經網絡關系的詳細探討，內容將涵蓋兩者的定義、原理、區別、聯系以及應

發表于 07-10 15:24 ?1955次閱讀

BP神經網絡和人工神經網絡的區別

BP神經網絡和人工神經網絡（Artificial Neural Networks，簡稱ANNs）之間的關系與區別，是神經網絡領域中一個基礎且重要的話題。本文將從定義、結構、算法、應用及

發表于 07-10 15:20 ?1715次閱讀

rnn是遞歸神經網絡還是循環神經網絡

RNN（Recurrent Neural Network）是循環神經網絡，而非遞歸神經網絡。循環神經網絡是一種具有時間序列特性的神經網絡，能夠處理序列數據，具有記憶功能。以下是關于循環

發表于 07-05 09:52 ?798次閱讀

人工神經網絡的特點和優越性不包括什么

在許多領域都取得了顯著的成果，如圖像識別、語音識別、自然語言處理等。然而，人工神經網絡也存在一些局限性和不足之處，以下是對人工神經網絡特點和優越性的分析，以及其不包括的一些方面。人工神經網絡

發表于 07-05 09:26 ?1214次閱讀

循環神經網絡和卷積神經網絡的區別

循環神經網絡（Recurrent Neural Network，RNN）和卷積神經網絡（Convolutional Neural Network，CNN）是深度學習領域中兩種非常重要的神經網絡

發表于 07-04 14:24 ?1705次閱讀

反向傳播神經網絡和bp神經網絡的區別

神經網絡在許多領域都有廣泛的應用，如語音識別、圖像識別、自然語言處理等。然而，BP神經網絡也存在一些問題，如容易陷入局部最優解、訓練時間長、對初始權重敏感等。為了解決這些問題，研究者們提出了一些改進的BP

發表于 07-03 11:00 ?1010次閱讀

卷積神經網絡和bp神經網絡的區別

化能力。隨著深度學習技術的不斷發展，神經網絡已經成為人工智能領域的重要技術之一。卷積神經網絡和BP神經

發表于 07-02 14:24 ?5406次閱讀

神經網絡在圖像識別中的應用

隨著人工智能技術的飛速發展，神經網絡在圖像識別領域的應用日益廣泛。神經網絡以其強大的特征提取和分類能力，為圖像識別帶來了革命性的進步。本文將詳細介紹

發表于 07-01 14:19 ?949次閱讀

【大規模語言模型：從理論到實踐】- 閱讀體驗

注意力機制提高了模型在處理長序列數據時的性能，但在某些任務上，傳統的循環神經網絡（RNN）或卷積神經網絡（CNN）可能仍然具有優勢。此外，注意力機制本身也可能存在某些性能瓶頸，需要進一步的研究和優化

發表于 06-07 14:44

求助，ADC接地的重要性？

ADC接地的重要性

發表于 06-04 07:56

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

神經網絡可解釋性研究的重要性日益凸顯

評論

如何優化BP神經網絡的學習率

小白學解釋性AI：從機器學習到大模型

數據智能系列講座第3期—交流式學習：神經網絡的精細與或邏輯與人類認知的對齊

基于FPGA的脈沖神經網絡模型應用探索

全卷積神經網絡的工作原理和應用

BP神經網絡和卷積神經網絡的關系

BP神經網絡和人工神經網絡的區別

rnn是遞歸神經網絡還是循環神經網絡

人工神經網絡的特點和優越性不包括什么

循環神經網絡和卷積神經網絡的區別

反向傳播神經網絡和bp神經網絡的區別

卷積神經網絡和bp神經網絡的區別

神經網絡在圖像識別中的應用

【大規模語言模型：從理論到實踐】- 閱讀體驗

求助，ADC接地的重要性？

電子發燒友