本文總結(jié)了2018年以來最重要的10篇AI研究論文,讓你對今年機器學習的進展有一個大致的了解。當然,還有很多具有突破性的論文值得一讀,但本文作者認為這是一個很好的列表,你可以從它開始。
今天,Reddit上的一條帖子火了:
對于初學者來說,在機器學習和人工智能領域必須的論文有哪些?
想必這個問題引起了許多人的共鳴。
網(wǎng)友推薦的Statistical Modeling: The Two Cultures大受好評,強調(diào)經(jīng)典統(tǒng)計數(shù)據(jù)和ML預測/建模之間的重要區(qū)別。
https://projecteuclid.org/euclid.ss/1009213726
也有網(wǎng)友表示,對于初學者,最好還是可以從書籍入手,而不是文獻。并推薦了Norvig & Russell的Artificial Intelligence,以及Goodfellow的Deep Learning 。并強調(diào)若是沒有良好的基礎,直接讀單個的論文是十分困難的,因為論文通常在頁數(shù)上是有限的,所以在上下文理解上還是有一定局限性。
而近期,作者Mariya Yao在Topbots上發(fā)表一篇文章,對今年AI論文Top10做了大盤點。
考慮到AI領域的快速發(fā)展,試圖跟上AI的最新研究可能非常困難。如果你埋頭于那些你還沒來得及閱讀的論文,那么本文能助你一力。
為了幫助你趕上進度,我們總結(jié)了2018年以來最重要的10篇AI研究論文,讓你對今年機器學習的進展有一個大致的了解。當然,還有很多具有突破性的論文值得一讀,但我們認為這是一個很好的列表,你可以從它開始。
此外,我們計劃在未來幾周發(fā)布自然語言處理(NLP)和計算機視覺方面的重要論文,敬請期待。
以下是我們推薦的2018必讀Top 10論文:
Universal Language Model Fine-tuning for TextClassification
Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples
Deep Contextualized Word Representations
An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
Delayed Impact of Fair Machine Learning
World Models
Taskonomy: Disentangling Task Transfer Learning
Know What You Don’t Know: Unanswerable Questions for SQuAD
Large Scale GAN Training for High Fidelity Natural Image Synthesis
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
1、文本分類的通用語言模型微調(diào)
標題:Universal Language Model Fine-tuning for Text Classification
作者:Jeremy Howard & Sebastian Ruder (2018)
https://arxiv.org/abs/1801.06146
論文摘要
遷移學習已經(jīng)對計算機視覺領域產(chǎn)生了很大的影響,但NLP領域的現(xiàn)有方法仍然需要針對任務進行修改和從零開始進行訓練。本文提出一種有效的遷移學習方法——通用語言模型微調(diào)(Universal Language Model Fine-tuning, ULMFiT),該方法可應用于任何NLP任務,并介紹了對語言模型進行微調(diào)的關鍵技術。
我們的方法在六個文本分類任務上顯著優(yōu)于最先進的技術,在大多數(shù)數(shù)據(jù)集上將錯誤率降低了18-24%。此外,僅使用100個標記示例,它的性能不比在100倍以上的數(shù)據(jù)上從零開始訓練的模型的性能差。我們將開源預訓練模型和代碼。
概要總結(jié)
這篇論文建議使用預訓練的模型來解決廣泛的NLP問題。使用這種方法,你不需要從頭開始訓練模型,只需要對原始模型進行微調(diào)。他們的方法稱為通用語言模型微調(diào)(ULMFiT),其性能優(yōu)于最先進的結(jié)果,誤差降低了18-24%。更重要的是,只使用100個標記示例,ULMFiT的性能與在10K標記示例上從零開始訓練的模型的性能相當。
核心思想
為了解決標記數(shù)據(jù)的缺乏的困難,使NLP分類任務更容易、更省時,研究人員建議將遷移學習應用于NLP問題。因此,你不用從頭開始訓練模型,而是可以使用另一個經(jīng)過訓練的模型作為基礎,然后只對原始模型進行微調(diào)來解決特定問題。
但是,為了取得成功,微調(diào)應考慮幾個重要因素:
不同的層應該被微調(diào)到不同的程度,因為它們分別捕獲不同類型的信息。
當學習率先線性增加后線性衰減時,使模型參數(shù)適應特定任務的特征會更有效。
同時對所有層進行微調(diào)可能會導致災難性遺忘;因此,最好從最后一層開始逐層解凍模型。
最重要的成果
顯著優(yōu)于最先進的技術:誤差減少了18-24%。
需要的標記數(shù)據(jù)更少:只有100個標記示例和50K未標記示例,性能與從零開始學習100倍以上的數(shù)據(jù)的性能相當。
AI社區(qū)的評價
在計算機視覺領域,經(jīng)過預處理的ImageNet模型的可用性已經(jīng)改變了這一領域,ULMFiT對于NLP問題也同樣重要。
該方法適用于任何語言的任何NLP任務。來自世界各地的報告表明,該方法在德語、波蘭語、北印度語、印度尼西亞語、漢語和馬來語等多種語言方面,都取得了顯著進步。
未來研究方向
改進語言模型的預處理和微調(diào)。
將這種新方法應用于新的任務和模型(如序列標記、自然語言生成、蘊涵或問題回答)。
可能的應用
ULMFiT可以更好地解決廣泛的NLP問題,包括:
識別垃圾郵件、機器人、攻擊性評論;
按照特定的特征對文章進行分組;
對正面和負面評論進行分類;
尋找相關文件等。
這種方法還可能有助于序列標記和自然語言生成。
2、混淆梯度
標題:ObfuscatedGradientsGiveaFalse Sense of Security: Circumventing Defenses toAdversarial Examples
作者:Anish Athalye, Nicholas Carlini, David Wagner
https://arxiv.org/abs/1802.00420
論文摘要
我們發(fā)現(xiàn)“混淆梯度”(obfuscated gradients)作為一種梯度掩碼(gradient masking),會在防御對抗樣本中導致一種錯誤的安全感。雖然造成混淆梯度的防御似乎可以擊敗基于迭代優(yōu)化的攻擊,但我們發(fā)現(xiàn)依賴這種效果的防御可以被規(guī)避。我們描述了表現(xiàn)出這種效應的防御特征行為,對于我們發(fā)現(xiàn)的三種混淆梯度,我們都開發(fā)了攻擊技術來克服它。在一個案例中,我們檢查了發(fā)表在ICLR 2018的論文的未經(jīng)認證的白盒安全防御,發(fā)現(xiàn)混淆梯度是常見的情況,9個防御中有7個依賴于混淆梯度。在每篇論文所考慮的原始威脅模型中,我們的新攻擊成功地完全規(guī)避了6個,部分規(guī)避了1個。
概要總結(jié)
研究人員發(fā)現(xiàn),針對對抗性樣本的防御通常使用混淆梯度,這造成了一種虛假的安全感,實際上這種防御很容易被繞過。該研究描述了三種防御混淆梯度的方法,并展示了哪些技術可以繞過防御。這些發(fā)現(xiàn)可以幫助那些依賴混淆梯度來防御的組織強化他們當前的方法。
核心思想
防御混淆梯度有三種常見的方法:
破壞梯度是由防御方有意(通過不可微操作)或無意(通過數(shù)值失穩(wěn))造成的不存在或不正確的梯度;
隨機梯度是由隨機防御引起的;
消失/爆炸梯度是由極深的神經(jīng)網(wǎng)絡評估引起的。
有很多線索表明梯度有問題,包括:
一步攻擊比迭代攻擊更有效;
黑盒攻擊比白盒攻擊更有效;
無界攻擊沒有100%成功;
隨機抽樣發(fā)現(xiàn)對抗性樣本;
增加扭曲約束無法增加成功。
最重要的成果
說明目前使用的大部分防御技術容易受到攻擊,即:
ICLR 2018接受的論文中,9種防御技術中有7種造成了混淆梯度;
研究人員開發(fā)的新攻擊技術能夠成功地完全繞開6個防御,部分繞開1個防御。
AI社區(qū)的評價
這篇論文獲得了ICML 2018最佳論文獎,這是最重要的機器學習會議之一。
論文強調(diào)了當前技術的優(yōu)勢和劣勢。
未來研究方向
在仔細且全面的評估下構(gòu)建防御,這樣它們不僅可以防御現(xiàn)有的攻擊,而且還可以防御未來可能發(fā)生的攻擊。
可能的應用
通過使用研究論文中提供的指導,組織可以識別他們的防御是否依賴于混淆梯度,并在必要時改用更強大的方法。
3、ELMo:最好用的詞向量
標題:Deep contextualized word representations
作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
https://arxiv.org/abs/1802.05365
論文摘要
我們提出一種新的深層語境化的詞表示形式,它既模擬了詞使用的復雜特征(如語法和語義),也模擬了這些用法在不同語言語境中的變化(即,一詞多義)。我們的詞向量是一個深度雙向語言模型(biLM)內(nèi)部狀態(tài)的學習函數(shù),該模型是在一個大型文本語料庫上預訓練的。我們證明,這些表示可以很容易地添加到現(xiàn)有的模型中,并在六個具有挑戰(zhàn)性的NLP問題(包括問題回答、文字蘊涵和情感分析)中顯著地提升了技術的最先進水平。我們還提供了一項分析,表明暴露預訓練網(wǎng)絡的深層內(nèi)部結(jié)構(gòu)是至關重要的,它允許下游模型混合不同類型的半監(jiān)督信號。
概要總結(jié)
艾倫人工智能研究所的團隊提出一種新型的深層語境化單詞表示——語言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增強的模型中,每個單詞都是基于它所使用的整個上下文向量化的。在現(xiàn)有的NLP系統(tǒng)中加入ELMo可以減少6-20%的相對誤差,顯著減少訓練模型所需的時間,以及顯著減少達到基線性能所需的訓練數(shù)據(jù)量。
核心思想
以深度雙向語言模型(biLM)的內(nèi)部狀態(tài)加權和的形式生成詞嵌入,該模型在大型文本語料庫上預訓練。
要包含來自所有biLM層的表示,因為不同的層代表不同類型的信息。
將ELMo表示建立在字符的基礎上,以便網(wǎng)絡可以使用形態(tài)學線索“理解”訓練中未見的詞匯表外的token。
最重要的成果
將ELMo添加到模型中可以得到state-of-the-art的結(jié)果,在問題回答、文字蘊涵、語義角色標記、相關引用解析、命名實體提取和情緒分析等NLP任務中,相對誤差降低了6 - 20%。
使用ELMo增強模型可以顯著減少達到最先進性能所需的更新次數(shù)。因此,使用ELMo的語義角色標記(SRL)模型只需要10 epochs就可以超過486 epochs訓練后達到的基線最大值。
將ELMo引入模型還可以顯著減少實現(xiàn)相同性能水平所需的訓練數(shù)據(jù)量。例如,對于SRL任務,ELMo增強模型只需要訓練集的1%就可以實現(xiàn)與基線模型相同的性能,而基線模型需要10%的訓練數(shù)據(jù)。
AI社區(qū)的評價
這篇論文在全球最具影響力的NLP會議之一——NAACL上被評為Outstanding paper。
論文提出的ELMo方法被認為是2018年NLP領域最大的突破之一,也是NLP未來幾年的重要成果。
未來研究方向
通過將ELMos與上下文無關的詞嵌入連接起來,將這種方法合并到特定的任務中。
將ELMos與輸出連接。
可能的應用
ELMo顯著改善了現(xiàn)有NLP系統(tǒng)的性能,從而增強:
聊天機器人的性能,使其能夠更好地理解人類和回答問題;
對客戶的正面和負面評價進行分類;
查找相關信息和文件等。
4、序列建模:時間卷積網(wǎng)絡取代RNN
標題:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
作者:Shaojie Bai, J. Zico Kolter, Vladlen Koltun
https://arxiv.org/abs/1803.01271
論文摘要
對于大多數(shù)深度學習實踐者來說,序列建模與循環(huán)網(wǎng)絡是同義詞。然而,最近的研究結(jié)果表明,卷積架構(gòu)在語音合成和機器翻譯等任務上的表現(xiàn)優(yōu)于循環(huán)網(wǎng)絡。給定一個新的序列建模任務或數(shù)據(jù)集,應該使用哪種架構(gòu)?我們對序列建模的一般卷積和循環(huán)架構(gòu)進行了系統(tǒng)的評價。我們在廣泛的標準任務中評估這些模型。我們的結(jié)果表明,一個簡單的卷積架構(gòu)在不同的任務和數(shù)據(jù)集上的表現(xiàn)優(yōu)于LSTM等典型的循環(huán)網(wǎng)絡。我們的結(jié)論是,需要重新考慮序列建模和循環(huán)網(wǎng)絡之間的共同關聯(lián),卷積網(wǎng)絡應該被視為序列建模任務的一個自然起點。我們提供了相關代碼:http://github.com/locuslab/TCN
概要總結(jié)
本文的作者質(zhì)疑了一個常見假設,即循環(huán)架構(gòu)應該是序列建模任務的默認起點。他們的結(jié)果表明,時間卷積網(wǎng)絡(TCNs)在多個序列建模任務中明顯優(yōu)于長短期記憶網(wǎng)絡(LSTMs)和門控循環(huán)單元網(wǎng)絡(GRUs)等典型的循環(huán)架構(gòu)。
核心思想
時間卷積網(wǎng)絡(TCN)是基于最近提出的最佳實踐(如擴張卷積和殘差連接)設計的,它在一系列復雜的序列建模任務中表現(xiàn)得明顯優(yōu)于通用的循環(huán)架構(gòu)。
TCN表現(xiàn)出比循環(huán)架構(gòu)更長的記憶,因此更適合需要較長的歷史記錄的任務。
最重要的成果
在序列建模任務上提供了卷積架構(gòu)和循環(huán)架構(gòu)的廣泛、系統(tǒng)的比較。
設計了一個卷積架構(gòu),它可以作為序列建模任務的一個方便且強大的起點。
AI社區(qū)的評價
在使用RNN之前,一定要先嘗試CNN。你會驚訝于你能走多遠?!?a href="http://m.1cnz.cn/tags/特斯拉/" target="_blank">特斯拉人工智能主管Andrej Karpathy。
未來研究方向
為了提高TCN在不同序列建模任務中的性能,需要進一步精化架構(gòu)和算法。
可能的應用
TCN的提出可以提高依賴于循環(huán)架構(gòu)的AI系統(tǒng)的序列建模能力,包括:
機器翻譯;
語音識別;
音樂和語音產(chǎn)生。
5、探索機器學習的公平性
標題:Delayed Impact of Fair Machine Learning
By Lydia T. Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt (2018)
https://arxiv.org/abs/1803.04383
論文摘要
機器學習中的公平性主要是在靜態(tài)的分類設置進行研究,而不考慮決策如何隨時間改變基礎樣本總體。傳統(tǒng)觀點認為,公平性標準能夠促進它們所保護的群體的長期利益。
我們研究了靜態(tài)公平標準與幸福感的時間指標是如何相互作用的,如長期改善、停滯和利益變量下降。我們證明,即使在單步反饋模型中,一般的公平標準也不會隨著時間的推移而促進改善,并且不受約束的目標不僅不會促進改善,甚至可能造成損害。我們描述了三個標準的延遲影響,對比了這些標準表現(xiàn)出不同行為的機制。此外,我們還發(fā)現(xiàn)一種自然形式的測量誤差擴大了公平標準發(fā)揮有利作用的機制。
我們的結(jié)果突出了測量和時間建模在公平標準評估中的重要性,提出了一系列新的挑戰(zhàn)和權衡取舍。
概要總結(jié)
當使用基于分數(shù)的機器學習算法來決定誰可以獲得機會(例如貸款、獎學金、工作),誰得不到機會時,目標是確保不同人口群體被公平對待。伯克利人工智能研究實驗室的研究人員表明,由于某些延遲的結(jié)果,使用共同的公平標準實際上可能會損害代表性不足或處境不利的群體。因此,他們鼓勵在設計一個“公平”的機器學習系統(tǒng)時考慮長期結(jié)果。
核心思想
考慮實施公平標準的延遲結(jié)果顯示,這些標準可能對他們旨在保護的群體的長期利益有不利影響。由于公平標準可能會對弱勢群體造成主動的傷害,解決的辦法可以是使用結(jié)果最大化的決策規(guī)則,或者一個結(jié)果模型。
最重要的成果
表明了人口均等、機會均等等公平標準可以為弱勢群體帶來任何可能的結(jié)果,包括改善、停滯或惡化,而遵循最優(yōu)無約束選擇政策(如利潤最大化),則永遠不會給弱勢群體帶來惡化的結(jié)果(主動傷害)。
通過FICO信用評分數(shù)據(jù)的實驗支持了理論預測。
考慮了硬公平約束的替代方案。
AI社區(qū)的評價
這篇論文獲得了ICML 2018最佳論文獎,ICML是最重要的機器學習會議之一。
該研究表明,有時正面的歧視會適得其反。
未來研究方向
考慮超出群體平均變化影響的其他特征(如方差、個體水平結(jié)果)。
研究結(jié)果優(yōu)化對建模和測量誤差的魯棒性。
可能的應用
通過從公平性標準強加的約束轉(zhuǎn)向結(jié)果建模,企業(yè)可能會開發(fā)出更有利可圖、也“更公平”的ML系統(tǒng),用于放貸或招聘。
6、世界模型
標題:World Model
By David Ha,Jurgen Schmidhuber(2018)
https://worldmodels.github.io
論文摘要
我們探索并建立了流行的強化學習環(huán)境的生成神經(jīng)網(wǎng)絡模型。我們的world model可以以無監(jiān)督的方式快速訓練,用來學習環(huán)境的壓縮空間和時間表示。通過使用從world model中提取的特征作為agent的輸入,我們可以訓練一個非常緊湊和簡單的策略,可以解決所需的任務。我們甚至可以完全在智能體自身的world model所產(chǎn)生的“幻覺夢境(hallucinated dream)”中訓練智能體,并將該策略轉(zhuǎn)換回實際環(huán)境中。
概覽
Ha和Schmidhuber開發(fā)了一種world model,這種模型可以在無監(jiān)督的情況下快速訓練,以學習環(huán)境的時空表現(xiàn)形式。在賽車任務中,智能體成功的在賽道上行駛,避開了VizDom實驗中怪物射擊的火球。這些任務對以前的方法來說太具有挑戰(zhàn)性了。
核心思想
該解決方案由三個不同的部分組成:
變分自動編碼器(VAE),負責捕獲視覺信息。 它將RGB輸入圖像壓縮成遵循高斯分布的32維隱向量。 智能體可以使用更小的環(huán)境表示,因此可以更有效地學習。
遞歸神經(jīng)網(wǎng)絡(RNN),負責前瞻性思維。這是一個內(nèi)存組件,它試圖預測可視組件捕獲的下一張圖片在考慮前一張圖片和上一張圖片時可能會是什么樣子。
控制器,負責選擇操作。這是一個簡單的神經(jīng)網(wǎng)絡,連接VAE的輸出和RNN的隱藏狀態(tài),并選擇良好的行動。
最重要的成果
這是第一個已知的智能體解決流行的“賽車”強化學習環(huán)境。
該研究證明了完全在智能體模擬的潛在空間夢境世界中訓練它,并且執(zhí)行任務的可能性。
AI社區(qū)的評價
這篇論文在人工智能社區(qū)中得到了廣泛的討論,被認為是一篇利用神經(jīng)網(wǎng)絡在“幻覺”世界中強化學習和訓練智能體的杰出作品。
未來研究方向
通過將小型RNN替換為更高容量的模型或合并外部內(nèi)存模塊,使智能體能夠探索更復雜的世界。
使用更通用的方法進行試驗,這些方法允許分層規(guī)劃(hierarchical planning)。
可能的應用
在運行計算密集型游戲引擎時,現(xiàn)在可以在模擬環(huán)境中盡可能多地訓練智能體,而不是在實際環(huán)境中浪費大量的計算資源來進行訓練。
7、分解任務遷移學習
標題:Taskonomy: Disentangling Task Transfer Learning
ByAmir R. Zamir,Alexander Sax,William Shen,Leonidas J. Guibas,Jitendra Malik,Silvio Savarese(2018)
https://arxiv.org/abs/1804.08328
論文摘要
視覺任務之間有關聯(lián)嗎?例如,表面法線可以簡化對圖像深度的估計嗎?直覺回答了這些問題,暗示了視覺任務中存在結(jié)構(gòu)。了解這種結(jié)構(gòu)具有顯著的價值;它是遷移學習的基本概念,提供了一種原則性的方法來識別任務之間的冗余。
我們提出了一種完全計算的可視化任務空間結(jié)構(gòu)建模方法。這是通過在潛在空間中的二十六個2D,2.5D,3D和語義任務的字典中查找(一階和更高階)傳遞學習依賴性來完成的。該產(chǎn)品是用于任務遷移學習的計算分類映射。我們研究這種結(jié)構(gòu)的結(jié)果,例如出現(xiàn)的非平凡關系,并利用它們來減少對標記數(shù)據(jù)的需求。例如,我們展示了在保持性能幾乎相同的情況下,解決一組10個任務所需的標記數(shù)據(jù)點的總數(shù)可以減少大約2/3(與獨立訓練相比)。我們提供了一組用于計算和探測這種分類結(jié)構(gòu)的工具,包括一個解決程序,用戶可以使用它來為他們的用例設計有效的監(jiān)督策略。
概覽
自現(xiàn)代計算機科學的早期以來,許多研究人員就斷言視覺任務之間存在一個結(jié)構(gòu)。現(xiàn)在Amir Zamir和他的團隊試圖找到這個結(jié)構(gòu)。他們使用完全計算的方法建模,并發(fā)現(xiàn)不同可視化任務之間的許多有用關系,包括一些重要的任務。他們還表明,通過利用這些相互依賴性,可以實現(xiàn)相同的模型性能,標記數(shù)據(jù)要求大約減少2/3。
核心思想
了解不同可視化任務之間關系的模型需要更少的監(jiān)督、更少的計算和更可預測的行為。
一種完整的計算方法來發(fā)現(xiàn)視覺任務之間的關系是可取的,因為它避免了強加的、可能是不正確的假設:先驗來自于人類的直覺或分析知識,而神經(jīng)網(wǎng)絡可能在不同的原理上運作。
最重要的成果
識別26個常見視覺任務之間的關系,如目標識別、深度估計、邊緣檢測和姿態(tài)估計。
展示這個結(jié)構(gòu)如何幫助發(fā)現(xiàn)對每個視覺任務最有效的遷移學習類型。
AI社區(qū)的評價
該論文在計算機視覺與模式識別重要會議CVPR 2018上獲得了最佳論文獎。
結(jié)果非常重要,因為對于大多數(shù)實際任務,大規(guī)模標記數(shù)據(jù)集不可用。
未來研究方向
從一般的視覺任務完全由人類定義的模型,轉(zhuǎn)向?qū)⑷祟惗x的視覺任務視為由計算發(fā)現(xiàn)的潛在子任務組成的觀察樣本的方法。
探索將發(fā)現(xiàn)轉(zhuǎn)化為不完全是視覺任務的可能性。
可能的應用
在本文中發(fā)現(xiàn)的關系可以用來構(gòu)建更有效的視覺系統(tǒng),這個系統(tǒng)將需要更少的標記數(shù)據(jù)和更低的計算成本。
8、SQuAD無法解決的問題
標題:Know What You Don't Know: Unanswerable Questions For SQuAD
By Pranav Rajpurkar,Robin Jia,Percy Liang
https://arxiv.org/abs/1806.03822
論文摘要
摘要抽取式閱讀理解系統(tǒng)通??梢栽谏舷挛奈臋n中找到問題的正確答案,但對于沒有在上下文中陳述正確答案的問題,它們往往會做出不可靠的猜測?,F(xiàn)有的數(shù)據(jù)集要么只關注可回答的問題,要么使用自動生成的容易識別的不可回答的問題。為了解決這些缺點,我們提供了SQuAD 2.0,這是斯坦福問答數(shù)據(jù)集(SQuAD)的最新版本。SQuAD 2.0結(jié)合了現(xiàn)有的SQuAD數(shù)據(jù)和超過50000個由眾包工人以對抗性方式寫下的無法回答的問題,使其看起來與能夠回答的問題相似。為了在SQuAD 2.0上做得好,系統(tǒng)不僅必須盡可能回答問題,還要確定段落何時不支持答案并且不回答問題。 對于現(xiàn)有模型,SQuAD 2.0是一項具有挑戰(zhàn)性的自然語言理解任務:在SQUAD 1.1上獲得86%F1的強大神經(jīng)系統(tǒng)在SQuAD 2.0上僅獲得66%的F1。
概覽
斯坦福大學的一個研究小組擴展了著名的斯坦福問答數(shù)據(jù)集(SQUAD),提出了超過50,000個難以回答的問題。這些問題的答案不能在支持段落(supporting paragraph)中找到,但是這些問題看起來與可回答的問題非常相似。更重要的是,支持段落包含了對這些問題的合理(但不正確)的回答。這使得新的SQuAD 2.0對于現(xiàn)有的最先進的模型來說極具挑戰(zhàn)性。
核心思想
當前的自然語言理解(NLU)系統(tǒng)遠非真正的語言理解,其根本原因之一是現(xiàn)有的Q&A數(shù)據(jù)集關注的問題是保證在上下文文檔中存在正確答案的問題。
為了真正具有挑戰(zhàn)性,應該提出一些無法回答的問題,以便:它們與支持段落相關;這一段包含了一個貌似合理的答案,它包含了與問題所要求的信息相同的信息,但是是不正確的。
最重要的成果
通過53,777個新的無法回答的問題擴展SQuAD,從而構(gòu)建具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集,迫使NLU系統(tǒng)了解何時無法根據(jù)上下文回答問題。
這給NLU系統(tǒng)帶來了新的挑戰(zhàn),因為現(xiàn)有的模型(66%的準確率)較低于人類的準確率(89.5%)。
這表明貌似合理的答案確實對NLU系統(tǒng)起到了有效的干擾作用。
AI社區(qū)的評價
該論文被計算語言學協(xié)會(ACL)評為2018年度最佳短文。
新的數(shù)據(jù)集增加了NLU領域的復雜性,并且實際上可以在這一研究領域促進性能訓練。
未來研究的方向
開發(fā)“了解他們不知道的東西”的新模型,從而更好地理解自然語言。
可能的應用
在這個新的數(shù)據(jù)集上訓練閱讀理解模型,可以提高它們在現(xiàn)實場景中的性能,在這些場景中,答案通常不是直接可用的。
9、用于高保真自然圖像合成的大規(guī)模GAN訓練
標題:Large Scale GAN Training For High Fidelity Natural Image Synthesis
By Andrew Brock,Jeff Donahue,Karen Simonyan(2018)
https://arxiv.org/abs/1809.11096
論文摘要
盡管生成圖像建模最近取得了進展,但從ImageNet等復雜數(shù)據(jù)集成功生成高分辨率、多樣化的樣本仍然是一個難以實現(xiàn)的目標。為此,我們在最大的規(guī)模下進行了生成對抗網(wǎng)絡的訓練,并研究了這種規(guī)模下的不穩(wěn)定性。我們發(fā)現(xiàn),將正交正則化應用于發(fā)生器,使其服從于一個簡單的“截斷技巧”,可以允許通過截斷潛在空間來精細控制樣本保真度和多樣性之間的權衡。我們的修改使得模型在類條件圖像合成中達到了新的技術水平。 當我們在ImageNet上以128×128分辨率進行訓練時,我們的模型(BigGAN)的初始得分(IS)為166.3,F(xiàn)rechet初始距離(FID)為9.6。
概覽
DeepMind團隊發(fā)現(xiàn),當前的技術足以從現(xiàn)有數(shù)據(jù)集(如ImageNet和JFT-300M)合成高分辨率、多樣化的圖像。他們特別指出,生成對抗網(wǎng)絡(GANs)可以生成看起來非常逼真的圖像,如果它們在非常大的范圍內(nèi)進行訓練,即使用比以前實驗多2到4倍的參數(shù)和8倍的批處理大小。這些大規(guī)模的GAN,或BigGAN,是類條件圖像合成的最新技術。
核心思想
隨著批(batch)大小和參數(shù)數(shù)量的增加,GAN的性能更好。
將正交正則化應用到生成器中,使模型響應特定的技術(“截斷技巧”),該技術提供了對樣本保真度和多樣性之間的權衡的控制。
最重要的成果
證明GAN可以從scaling中獲益;
構(gòu)建允許顯式、細粒度地控制樣本多樣性和保真度之間權衡的模型;
發(fā)現(xiàn)大規(guī)模GAN的不穩(wěn)定性;
BigGAN在ImageNet上以128×128分辨率進行訓練:初始得分(IS)為166.3,之前的最佳IS為52.52;Frechet Inception Distance (FID)為9.6,之前最好的FID為18.65。
AI社區(qū)的評價
該論文正在為ICLR 2019做準備;
自從Big Hub上線BigGAN發(fā)生器之后,來自世界各地的AI研究人員正在玩BigGAN,來生成狗,手表,比基尼圖像,蒙娜麗莎,海濱以及更多主題。
未來研究方向
遷移到更大的數(shù)據(jù)集以減少GAN穩(wěn)定性問題;
探索減少GAN產(chǎn)生的奇怪樣本數(shù)量的可能性。
可能的應用
取代昂貴的手工媒體創(chuàng)作,用于廣告和電子商務的目的。
10、BERT:深度雙向變換器語言理解的預訓練
標題:BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding
By Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova(2018)
https://arxiv.org/abs/1810.04805
論文摘要
我們介紹了一種新的語言表示模型,稱為BERT,它代表轉(zhuǎn)換器的雙向編碼器表示。與最近的語言表示模型不同,BERT的設計是通過在所有層中對左右上下文進行聯(lián)合條件作用來預先訓練深層雙向表示。因此,只需要一個額外的輸出層,就可以對預訓練的BERT表示進行微調(diào),從而為廣泛的任務(如回答問題和語言推斷)創(chuàng)建最先進的模型,而無需對特定于任務的體系結(jié)構(gòu)進行大量修改。
BERT概念簡單且功能豐富。它在11項自然語言處理任務中獲得了最新的結(jié)果,包括將GLUE基準提高到80.4%,多項精度提高到86.7,以及將SQuAD v1.1答題測試F1提高到93.2,比人類表現(xiàn)高出2.0%。
概覽
谷歌AI團隊提出了一種新的最前沿的自然語言處理(NLP)模型——BERT,Bidirectional Encoder Representations from Transformers。它的設計允許模型從左右兩邊考慮每個單詞的上下文。在概念簡單的同時,BERT在11個NLP任務上獲得了最新的最先進的結(jié)果,這些任務包括回答問題、命名實體識別和其他與一般語言理解相關的任務。
核心思想
通過隨機屏蔽一定比例的輸入tokens來訓練一個深層雙向模型,從而避免單詞可以間接“看到自己”的循環(huán);
此外,通過構(gòu)建一個簡單的二元分類任務,預測句子B是否緊跟著句子A,對句子關系模型進行預處理,從而讓BERT更好地理解句子之間的關系。
訓練一個非常大的模型(24個Transformer塊,1024個hidden,340M參數(shù))和大量數(shù)據(jù)(33億字語料庫)。
最重要的成果
為11項NLP任務提供最先進的技術,包括:GLUE分數(shù)80.4%,比之前的最佳成績有7.6%的提升;在SQuAD 1.1上達到93.2%的準確率,超過人類水平2%。
建議一個預訓練的模型,它不需要任何實質(zhì)性的架構(gòu)修改就可以應用于特定的NLP任務。
AI社區(qū)的評價
BERT模型標志著NLP的新時代;
兩個無人監(jiān)督的任務在一起為許多NLP任務提供了很好的結(jié)果;
語言模型的預訓練成為一種新標準。
未來研究方向
在更廣泛的任務中測試該方法;
可能的應用
BERT可以幫助企業(yè)解決一系列的NLP問題,包括:為聊天機器人提供更好的客戶體驗;客戶評論分析;查閱相關資料等等。
-
人工智能
+關注
關注
1794文章
47622瀏覽量
239593 -
計算機視覺
+關注
關注
8文章
1700瀏覽量
46074 -
機器學習
+關注
關注
66文章
8438瀏覽量
132912
原文標題:年度必讀:2018最具突破性人工智能論文Top 10
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論