Abstract & Intro
盡管基于預(yù)訓(xùn)練的語言模型的摘要取得了成功,但一個(gè)尚未解決的問題是生成的摘要并不總是忠實(shí)于輸入文檔。造成不忠實(shí)問題的原因可能有兩個(gè): (1)摘要模型未能理解或捕獲輸入文本的要點(diǎn); (2)模型過度依賴語言模型,生成流暢但不充分的單詞。 在本文研究中,提出了一個(gè)忠實(shí)增強(qiáng)摘要模型(FES),旨在解決這兩個(gè)問題,提高抽象摘要的忠實(shí)度。對(duì)于第一個(gè)問題,本文使用問答(QA)來檢查編碼器是否完全掌握輸入文檔,并能夠回答關(guān)于輸入中的關(guān)鍵信息的問題。QA 對(duì)適當(dāng)輸入詞的注意也可以用來規(guī)定解碼器應(yīng)該如何處理輸入。 對(duì)于第二個(gè)問題,本文引入了一個(gè)定義在語言和總結(jié)模型之間的差異上的最大邊際損失,目的是防止語言模型的過度自信。在兩個(gè)基準(zhǔn)總結(jié)數(shù)據(jù)集(CNN/DM 和 XSum)上的大量實(shí)驗(yàn)表明,本文的模型明顯優(yōu)于強(qiáng)基準(zhǔn)。事實(shí)一致性的評(píng)估也表明,本文的模型生成的摘要比基線更可靠。
本文的主要貢獻(xiàn)如下: 1. 提出了一種信度增強(qiáng)摘要模型,從編碼器端和解碼器端都緩解了不信度問題。 2. 提出了一個(gè)多任務(wù)框架,通過自動(dòng) QA 任務(wù)來提高摘要性能。還提出了一個(gè)最大邊際損失來控制 LM 的過度自信問題。 3. 實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)數(shù)據(jù)集上的最新基線相比,本文提出的方法帶來了實(shí)質(zhì)性的改進(jìn),并可以提高生成摘要的忠實(shí)度。
Model Architecture
本文從三個(gè)方面實(shí)現(xiàn)了信度的提高: (1)多任務(wù)編碼器。它通過檢查輔助 QA 任務(wù)的編碼文檔表示的質(zhì)量,提高了對(duì)輸入文檔的語義理解。編碼的表示因此捕獲關(guān)鍵輸入,以便做出忠實(shí)的總結(jié)。 (2)QA 注意增強(qiáng)解碼器。來自多任務(wù)編碼器的注意使解碼器與編碼器對(duì)齊,以便解碼器能夠獲取更準(zhǔn)確的輸入信息以生成摘要。 (3)Max-margin 損失。這是一個(gè)與代損耗正交的損耗。它測(cè)量 LM 的準(zhǔn)確性,防止它在生成過程中過度自信。
? ?
2.1 Multi-task Encoder
多任務(wù)編碼器設(shè)計(jì)用于對(duì)輸入文檔進(jìn)行編碼,以便在集成訓(xùn)練過程中進(jìn)行摘要和問題回答,如圖 1(b)所示。這與之前的工作不同,之前的工作是在后期階段使用 QA 來評(píng)估生成摘要的忠實(shí)度,如圖 1(a)所示。本文讓 QA 更接近編碼器,而不是把它留給后生成的總結(jié),并讓編碼器接受訓(xùn)練,同時(shí)完成 QA 和總結(jié)任務(wù)。在多任務(wù)編碼器的綜合訓(xùn)練中,除了摘要生成質(zhì)量外,還將忠實(shí)度作為優(yōu)化目標(biāo),答案是來自文檔的關(guān)鍵實(shí)體,因此 QA 對(duì)關(guān)注輸入中的關(guān)鍵信息。
如圖 2 所示,我們首先應(yīng)用經(jīng)典的 Transformer 架構(gòu),獲得文檔和問題的 token 表示, 和 ,然后設(shè)計(jì)編碼器,從實(shí)體層和句子層理解問題和輸入文檔問題。
Encoding at Multi-level Granularity 本文通過在不同粒度級(jí)別組織表示學(xué)習(xí)來構(gòu)建編碼器。我們使用實(shí)體作為基本語義單位,因?yàn)樗鼈儼灤┤牡木o湊而突出的信息,而閱讀理解題的重點(diǎn)是實(shí)體。由于問題通常很短,本文為每個(gè)問題創(chuàng)建一個(gè)節(jié)點(diǎn)。本文將雙向邊從問題添加到句子節(jié)點(diǎn),從句子添加到實(shí)體節(jié)點(diǎn)。這些節(jié)點(diǎn)作為句與句之間的中介,豐富了句與句之間的關(guān)系。由于初始的有向邊不足以學(xué)習(xí)反向信息,本文在前面的工作的基礎(chǔ)上,在圖中添加了反向邊和自環(huán)邊。 在構(gòu)造了具有節(jié)點(diǎn)特征的圖之后,使用圖注意網(wǎng)絡(luò)來更新語義節(jié)點(diǎn)的表示,圖注意層(GAT)設(shè)計(jì)如下:
其中 是輸入節(jié)點(diǎn)的隱藏狀態(tài),其中 N 是節(jié)點(diǎn) i 的相鄰節(jié)點(diǎn)集, 是可訓(xùn)練權(quán)值, 是 和 之間的注意權(quán)值。輸出實(shí)體特征矩陣、句子特征矩陣和問題矩陣:。 Answer Selector for the QA task 在融合來自問題和文檔的信息之后,可以從文檔中選擇實(shí)體作為問題的答案。具體來說,本文在問題和圖中的實(shí)體之間應(yīng)用了多頭交叉注意以獲得識(shí)別問題的實(shí)體表示:=MHAtt(),i 是問題索引。本文采用前饋網(wǎng)絡(luò)(FFN)生成實(shí)體提取概率 ,QA 的目標(biāo)是最大限度地提高所有基本事實(shí)實(shí)體標(biāo)簽的可能性:
2.2 QA Attention-enhanced Decoder
一個(gè)忠實(shí)的解碼器需要注意并從編碼器中獲取重要的內(nèi)容,而不是混合輸入。QA 對(duì)關(guān)鍵實(shí)體的關(guān)注可以被視為重要信號(hào),表明哪些實(shí)體應(yīng)該包含在摘要中。因此,本文提出了一個(gè)由 QA 關(guān)注增強(qiáng)的摘要生成器。一般來說,以實(shí)體為中介的解碼器狀態(tài)關(guān)注編碼器狀態(tài),其中實(shí)體級(jí)別的注意由 QA 注意指導(dǎo)。
具體來說,對(duì)于每一層,在第 t 步解碼時(shí),我們對(duì) masked 摘要嵌入矩陣E進(jìn)行自注意,得到 。基于 ,我們計(jì)算實(shí)體的交叉注意分?jǐn)?shù) 。 ? 實(shí)際上,第一個(gè)注意層捕獲已解碼序列的上下文特征,而第二層則包含 中的實(shí)體信息.我們最小化在第 t 步的實(shí)體上的 QA 注意 Ai 和摘要注意 Et 之間的 KL 散度,以幫助總結(jié)模型了解哪些實(shí)體是重要的:
然后,通過在源詞序列 Hw 和 上應(yīng)用另一個(gè) MHAtt 層,我們使用實(shí)體級(jí)注意來指導(dǎo)與關(guān)鍵實(shí)體相關(guān)的源標(biāo)記的選擇:
該上下文向量 vt 被視為從各種來源總結(jié)的顯著內(nèi)容,被發(fā)送到前饋網(wǎng)絡(luò)以生成目標(biāo)詞匯表的分布,即 ? 通過優(yōu)化預(yù)測(cè)目標(biāo)詞的負(fù)對(duì)數(shù)似然目標(biāo)函數(shù),更新所有可學(xué)習(xí)參數(shù)
2.3 Max-margin Loss
信息不充分的解碼器會(huì)忽略一些源段,更像是一個(gè)開放的 LM,因此容易產(chǎn)生外部錯(cuò)誤。受信度增強(qiáng)機(jī)器翻譯工作的啟發(fā),本文在摘要任務(wù)中引入了一個(gè) max-margin loss,以使摘要模型的每個(gè) token 與 LM 的預(yù)測(cè)概率的差值最大化,如圖 3 所示,這抑制了摘要器產(chǎn)生常見但不忠實(shí)的單詞的趨勢(shì)。
▲ 當(dāng) LM 不夠準(zhǔn)確時(shí),本文的模型可以通過最大邊際損失防止 LM 的過度自信,預(yù)測(cè)出正確的目標(biāo)詞,而基線模型則不能。
具體來說,我們首先將摘要模型和 LM 之間的差值定義為預(yù)測(cè)概率的差值:
其中 X 為輸入文檔, 表示 LM 的第 t 個(gè)令牌的預(yù)測(cè)概率。如果 mt 很大,那么總結(jié)模型顯然比 LM 好。當(dāng) mt 很小的時(shí)候,有兩種可能。一是 LM 模型和總結(jié)模型都有很好的性能,因此預(yù)測(cè)的概率應(yīng)該是相似的。另一種可能是 LM 不夠好,但過于自信,這會(huì)導(dǎo)致總結(jié)器性能不佳。LM 夠好,但過于自信,這會(huì)導(dǎo)致總結(jié)器性能不佳。 本文給出了最大邊際損失 Lm,它在邊際上增加了一個(gè)系數(shù)
當(dāng) Pt 較大時(shí),摘要模型可以很好地學(xué)習(xí),不需要過多關(guān)注 mt。這體現(xiàn)在 mt 的小系數(shù)(1?Pt)上。另一方面,當(dāng) Pt 較小時(shí),意味著摘要器需要更好地優(yōu)化,大系數(shù)(1?Pt)使模型能夠從邊際信息中學(xué)習(xí)。
、、、 這四種損耗是正交的,可以組合使用來提高信度。
Experiment
3.1 Dataset
本文在兩個(gè)公共數(shù)據(jù)集(CNN/DM 和 XSum)上演示了方法的有效性,這兩個(gè)公共數(shù)據(jù)集在以前的摘要工作中被廣泛使用。這兩個(gè)數(shù)據(jù)集都基于新聞,由大量事件、實(shí)體和關(guān)系組成,可用于測(cè)試摘要模型的事實(shí)一致性。
本文的摘要模型伴隨著一個(gè) QA 任務(wù)。因此,使用由 QuestEval 工具為每個(gè)用例預(yù)先構(gòu)建 QA 對(duì)。
3.2 Result
Automatic Evaluation
▲ QE 加權(quán) F1 分?jǐn)?shù)
當(dāng)使用 oracle QA(黃金問答)對(duì)評(píng)估 QA 任務(wù)帶來的效益的上限時(shí),我們還展示了我們的模型在測(cè)試數(shù)據(jù)集上的性能。我們可以看到,oracle 顯著地提高了性能,性能最好的模型達(dá)到了50.50 的 ROUGE-1 評(píng)分。結(jié)果表明:1)如果有較好的 QA 對(duì),模型性能有進(jìn)一步提高的潛力;2)輔助 QA 任務(wù)確實(shí)對(duì)模型有幫助。
Human Evaluation
▲ 在 CNN/DM 數(shù)據(jù)集上,比 BART 差、持平或更好的摘要的百分比。XSum 數(shù)據(jù)集上比 PEGASUS 差、與 PEGASUS 持平或優(yōu)于 PEGASUS 的摘要的百分比
Ablation Study
1. 沒有多任務(wù)框架,各項(xiàng)指標(biāo)都有所下降,表明在使用 QA 多任務(wù)時(shí),編碼器確實(shí)增強(qiáng)了學(xué)習(xí)更全面表示的能力。
2. QA 注意指導(dǎo)被移除后,QE 分?jǐn)?shù)下降了 0.28。這表明,將 QA 注意與重要實(shí)體的摘要注意對(duì)齊,可以幫助模型從輸入中捕獲要點(diǎn)信息,而將這種損失限制在有限部分實(shí)體上,可以引導(dǎo)解碼器從輸入中獲取有意義的內(nèi)容。
3. 除去最大邊際損失后,F(xiàn)actCC 評(píng)分下降了 0.63。這表明,防止 LM 過度自信有助于提高信任度。
4. 最后,當(dāng)使用隨機(jī) QA 對(duì)作為引導(dǎo)時(shí),F(xiàn)ES 的性能有所下降,但大大優(yōu)于 BART。這表明,加強(qiáng)對(duì)文檔的理解是有幫助的,即使它并不總是與關(guān)鍵信息相關(guān)。但是,通過對(duì)關(guān)鍵實(shí)體提出問題,可以進(jìn)一步提高性能。
The Number of QA pairs
? 首先看到 ROUGE 分?jǐn)?shù)隨著 QA 對(duì)的數(shù)量而增加。達(dá)到 8 之后,這種改善開始消失。一個(gè)可能的原因是,答案不再關(guān)注文檔中的重要信息。注意,F(xiàn)ES 的性能在 8-15 個(gè) QA 對(duì)范圍內(nèi)保持在較高水平,證明了 FES 的有效性和魯棒性。最后,我們選擇在模型中默認(rèn)包含 8 個(gè) QA 對(duì)。
Margin between FES and the LM
▲ 負(fù) mt 為過度自信,mt 為 0 和 1 時(shí)模型準(zhǔn)確 首先,圖(b)中 BART 仍然有很多 mt 為負(fù)的 token,并且有大量 mt 在 0 附近,這說明 LM 對(duì)于很多令牌可能是過度自信的。與 BART 相比,F(xiàn)ES 降低了 2.33% 的負(fù) mt,提高了 0.11 點(diǎn)的平均 mt。這證明 LM 的過度自信問題在很大程度上得到了解決。此外,我們?cè)趫D(c)中繪制了 mt 在所有單詞和實(shí)體單詞上的比較。可以看出,實(shí)體詞在 0 左右的比例明顯降低,驗(yàn)證了我們的假設(shè),LM 對(duì)于很多虛詞是準(zhǔn)確的。
Conclucion
本文提出了具有最大邊際損失的多任務(wù)框架來生成可靠的摘要。輔助問答任務(wù)可以增強(qiáng)模型對(duì)源文檔的理解能力,最大邊際損失可以防止 LM 的過度自信。實(shí)驗(yàn)結(jié)果表明,該模型在不同的數(shù)據(jù)集上都是有效的。
-
編碼器
+關(guān)注
關(guān)注
45文章
3751瀏覽量
136543 -
語言模型
+關(guān)注
關(guān)注
0文章
557瀏覽量
10591 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1221瀏覽量
25193
原文標(biāo)題:NIPS'22 | 如何提高生成摘要的忠實(shí)度?
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)
基于統(tǒng)計(jì)和理解的自動(dòng)摘要方法

一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

基于圖集成模型的自動(dòng)摘要生產(chǎn)方法

基于多層CNN和注意力機(jī)制的文本摘要模型

融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型

基于語義感知的中文短文本摘要生成技術(shù)
基于LSTM的表示學(xué)習(xí)-文本分類模型
輸入捕獲-獲取一個(gè)高電平的持續(xù)時(shí)間

如何使用BERT模型進(jìn)行抽取式摘要

評(píng)論