分享嘉賓:美團 江會星博士
導讀:本文主要介紹在美團業務中智能問答技術的相關落地與實踐。通常問答系統需要提前構建好問答對知識庫,這種方式對高頻問題能處理的很好,但難以解決開放性問題。在日常生活服務中,如"去哪玩"、"住哪家酒店"等,在行前通常需要對景點、酒店等目的地做詳細咨詢再決策,智能問答是一種非常友好的方式來幫助用戶獲取信息。
但針對不同的景點、酒店等用戶問的問題通常不同,是開放性的,且信息往往是動態分布在商戶頁面詳情、政策、用戶評論、社區問答等各類數據中。這需要提供一套智能"問題解決"能力,實時從各類信息中找出準確的信息來回答用戶問題,輔助用戶決策。本文在簡單介紹完智能問答技術框架之后,著重介紹Document QA,Community QA, KBQA三類"問答解決"能力。
01
智能問答技術框架
智能問答通常會涉及三方面問題:
問題推薦:當用戶進入智能問答產品門戶時,問答系統通常會根據用戶信息推薦相關問題來幫助用戶明確他的意圖,以便很好的為他服務。這里通常涉及問題怎么來 ( 問題生成 ),推薦哪些問題 ( 問題排序 ) 和對話過程中還會問哪些問題,即多輪問題引導,問答系統通常會考慮問題之間的相關性,問題間的順承關系給出相應的問題引導;
問題理解:當用戶輸入時,判斷是不是問問題,是哪個領域/意圖,有什么實體槽位,是不是時效性問題等等。如果問題可能屬于多個領域,則需要領域路由澄清,如果意圖不明確,則需進一步澄清等,如果一個實體名關聯多個實體店,例如,七天酒店有很多門店,則需要澄清"你要問的是哪一個門店";
問題解決:給出最終問題的答案,本文將重點介紹,包括基于閱讀理解的問答 ( Document QA )、社區問答 ( Community QA ) 以及基于圖譜的問答 ( KBQA )。另外針對有第三方API的問題,我們也會以TaskBot方式調用API來解決,本次主要介紹"自供給"形式的問題解決方案,TaskBot暫不介紹。
智能問答技術框架如下圖所示:
02
Document QA
商戶簡介、攻略和UGC評論等非結構化文檔中包含大量優質信息,從非結構化文檔中提取答案,即文檔問答 ( Document QA )。近年來基于深度神經網絡的機器閱讀理解 ( Machine Reading Comprehension,MRC ) 技術得到了快速的發展,逐漸成為問答和對話系統中的關鍵技術。MRC模型以問題和文檔為輸入,通過閱讀文檔內容預測問題的答案。
根據需要預測的答案形式不同,閱讀理解任務可以分為填空式 ( Cloze-style )、多項選擇式 ( Multi-choice )、片段提取式 ( Span-extraction ) 和自由文本 ( Free-form )。在實際問答系統中最常使用的是片段提取式閱讀理解 ( MRC ),該任務需要從文檔中提取連續的一段文字作為答案。最具影響力的片段提取式MRC公開數據集有SQuAD和MSMARCO等,這些數據集的出現促進了MRC模型的發展。
在模型方面,深度神經網絡結構被較早的應用到了機器閱讀理解任務中,并采用基于邊界預測(boundary-based prediction)方式解決片段提取式閱讀理解任務。這些模型采用多層循環神經網絡+注意力機制的結構獲得問題和文檔中每個詞的上下文向量表示,在輸出層預測答案片段的起始位置和終止位置。
近年來預訓練語言模型如BERT,RoBERTa和XLNet等在眾多NLP任務上取得突破性進展,尤其是在閱讀理解任務上。這些工作在編碼階段采用Transformer結構獲得問題和文檔向量表示,在輸出層同樣采用邊界預測方式預測答案在文檔中的位置。目前在單文檔閱讀理解任務SQuAD上,深度神經網絡模型的預測EM/F1指標已經超越了人類標注者的水平,說明了模型在答案預測上的有效性。
Document QA借助機器閱讀理解 ( MRC ) 技術,從非結構化文檔中抽取片段回答用戶問題。在問答場景中,當用戶輸入問題后,問答系統首先采用信息檢索方式從商戶詳情或諸多UGC評論中查找到相關文檔,再利用MRC模型從文檔中摘取能夠確切回答問題的一段文本。
美團和大眾點評上商戶的簡介攻略、UGC評論均有專業內容運營團隊,可以產生內容優質、高可信度的答案,應用機器閱讀理解技術直接從文檔中提取答案,不需要人工維護意圖類目,可以在不同業務領域靈活遷移,人工維護成本小。
圖中左邊是頤和園的評論信息,右邊是全季酒店的詳細信息,這些信息構成了機器閱讀理解中的文檔要素。當詢問"頤和園里面有午飯嗎?"、"未成年人可以獨自入住嗎?"時,如果需要用戶直接從文檔中自我閱讀的話,耗時費力。最好的方式是直接給答案,而這些答案往往隱藏在大段的文本里面。比如"頤和園里面有午飯嗎?",在評論里面描述有"中午飯還是建議自帶,要是買的話有漢堡肉夾饃,還有牛肉面飯之類的";"未成年人可以獨自入住嗎?"政策里面描述有"不接受18歲以下客人,在無監督人陪同的情況下入住。"
1. 機器閱讀理解模型
深度神經網絡結構較早的應用到機器閱讀理解任務,代表性的包括Bi-DAF、R-NET、QANet、BERT等。這些模型均采用多層循環神經網絡或Transformer加注意力機制等方式來解決問題和文檔的上下文向量表示,最后通過邊界預測來獲取答案片段的起始和結束位置。我們選擇表現最好的BERT模型進行相應任務的建模,將問題和文檔作為輸入,預測在文檔中的起始位置和結束位置,將最大可能的起始位置和結束位置之間的片段抽取出來,作為答案。
文檔問答系統的答案預測流程包含三個步驟:
(1) 文檔檢索與選擇 ( Retriever ):根據Query關鍵字檢索景點等商戶下的相關詳情和UGC評論,根據相關性排序,篩選出相關的評論用于提取候選答案;
(2) 候選答案提取 ( Reader ):利用MRC模型在每個相關評論上提取一段文字作為候選答案,同時判斷當前評論是否有答案,預測有答案和無答案的概率;
(3) 答案排序 ( Ranker ):根據候選答案的預測得分排序。這樣能夠同時處理多篇相關評論,比較并選擇最優答案,同時根據無答案概率和閾值判斷是否拒絕回答,避免無答案時錯誤回答。
Document QA問答系統架構如下圖所示:
文檔檢索和排序:上圖①表示文檔檢索的過程,首先根據用戶詢問的商戶名定位到具體商戶,通過關鍵字或向量召回該商戶下與Query相關評論或詳情信息的TopN篇文檔。
答案片段預測:在答案提取任務中,將每條詳情或評論作為一個文檔 ( Document ),把用戶Query和文檔拼接起來,中間加入分割符號[SEP],并在Query前加入特殊分類符號[CLS];把拼接后的序列依次通過②中的模型,在每條評論上提取一段文字作為候選答案,并預測有答案概率 ( HA Score ) 和無答案概率 ( NA Score )。長度分別為N和M的Query和Document,每一個token經過BERT Encoder,分別得到隱層向量表示Ti(i=1,2,...,N)和Tj' (j=1,2,...,M)。將Document的向量表示經過全連接層和Softmax計算后得到每個Token作為答案起始和終止位置的概率Pistart和Pjend,然后找到Pistart*Pjend(i,j=1,2,...,M,i<j)最大的組合,將位置i和j之間文字作為候選答案,Pistart*Pjend作為有答案概率 ( HA Score )。
答案排序:答案重排序部分如③所示,根據前一步的候選答案得分 ( HA Score ) 排序,選擇最相關的一個或多個答案輸出。
無答案判斷:在實際使用中還會面臨召回文檔無答案問題,需要在答案提取的同時加入無答案判斷任務。我們的具體做法是聯合訓練,將BERT模型的[CLS]位置的向量表示C經過額外的全連接層和二分類Softmax,得到無答案概率 ( NA Score ),根據無答案概率 ( NA Score ) 和人為設定的閾值判斷是否需要拒絕回答。
Document QA在實際落地過程中也發現了一些問題。通常情況下,MRC模型抽取的答案偏短,回答信息不充分,如問“停車方便嗎”,答案為“停車方便‘,從MRC任務看,這樣的回答也很不錯,但該答案并沒有回答為什么方便,信息不充分,更期望的答案是”停車方便,有免費停車場“。
我們通過在構造模型訓練數據時選擇更完整的句子作為標準答案,在預測時盡量選擇完整的句子作為回答等方式來優化解決;另一個問題是時效性問題,比如”現在需要預約嗎?“明確地問當前的情況,如果用經典的閱讀理解獲取的答案可能是”可以預約“和”不可以預約“。通常情況下,這種信息在我們UGC是大量存在的,不過有一些信息,非常好的答案可能是一個時效性很差的問題,或是很久以前的評論,這種對用戶來說幫助不大。
所以我們對時效性進行了相應處理,根據時間的關鍵詞,包括現在、今天,也包括一些事件如櫻花、桃花等,它們都有一些特定時間點,這些都作為時間詞來處理。還有很多場景,比如景點、酒店等領域,通過梳理也能發現有一些意圖跟時效性相關,比如說門票、營業狀態等,我們對它們也做相應的時效性處理;再就是”是否類“問題缺少直接回答,MRC模型用于答案片段抽取,適合回答事實類的描述性問題。
但是真實存在大量的”是不是、是否、能否“等是否類問題,如”酒店提供飲食嗎?“,原來的回答是”早上10元一位管吃飽“,但是回答的不夠直接,我們希望同時也能更直接地先回答是否。故此我們采用多任務的學習方式,在MRC模型上加入了Yes/No的分類任務,來判斷答案的觀點是肯定還是否定。改進后的答案為”是的。早上10元一位管吃飽“。
最終,我們的MRC模型架構如下圖所示:
2. 多文檔機器閱讀理解
另外,針對當前應用從多個文檔中查找一個與問題最相關的答案,促使我們嘗試多文檔MRC模型,即直接對多文檔進行閱讀理解的建模,從而選擇最優的一個作為最終答案。在上圖左邊結構中,我們將多篇文檔作為輸入,每篇文檔都預測它的起始和結束位置,然后通過文檔排序任務將多文檔的相關性進行加權,對每個片段的得分進行排序。右邊表格是我們的模型在公開數據集DuReader上的驗證結果,通過比較單文檔模型、多文檔聯合訓練以及在多文檔聯合訓練基礎上增加排序任務加權,Rouge-L和Bleu-4值都有大幅提升,當前我們的模型在DuReader Leaderboard上排名第一。
03
Community QA
社區問答 ( Community Question Answering,CQA ) 和常見問題問答 ( Frequently Asked Questions,FAQ ) 是基于問答對的問答系統的兩種方式。FAQ通常由人工事先維護好問答知識庫,當用戶問問題時,根據相似度匹配到最相關的問題,并給出對應的答案。FAQ在限定領域內回答質量較好,但是問答知識庫整理成本高。隨著社交媒體的發展,CQA可以通過社交平臺獲得大量用戶衍生的問題答案對,為基于問答對的問答系統提供了穩定可靠的問答數據。
在美團和大眾點評APP中,商戶詳細頁中有一個"問大家"模塊,其問題和答案都是由用戶生成,含有關于當前商戶許多用戶關心的關鍵信息,比如景點相關的"是否允許攜帶寵物"等客觀問題,以及"停車是否方便"等主觀問題,很大程度上能回答用戶對于景點或其他商戶的開放域問題。
在問大家數據中,每個商戶下通常存在多個問題,且每個問題下有多個用戶回答的答案。如圖所示,對于八達嶺長城,有2000多個大家問的問題,"市里面去長城怎么去"問題下有10條不同用戶回答的答案。由于社區問答中知識分享并不存在義務性,有價值的問答中往往混雜有大量無意義的信息,甚至語義相左的答案。如關于新薈城"這個商場里有星巴克嗎?"答案中既有肯定的回答,也包含"好像沒有"等。用戶回答的質量參差不齊,如何挑選出好的答案,就非常重要。
CQA問答系統處理框架如上圖所示,我們將問題處理分為兩個階段,首先離線階段通過低質量過濾、答案質量排序等維護一個相對質量較好的問題-答案庫,在線階段,從知識庫中檢索得到答案并回答用戶。
1. 答案質量過濾
由于問大家數據中用戶回復答案質量的參差不齊,需要過濾掉與問題無關的低質量答案,保留相關性強的答案。我們采用了如下方法保證答案質量:
低質量答案過濾:問大家數據中存在一些無意義、廣告、不禮貌等低質量答案,嚴重影響答案質量和用戶體驗。我們通過對問答數據分析并總結出一些廣告、不禮貌的敏感詞和Pattern,通過Pattern匹配的方式過濾;總結一些表示無意義信息的關鍵詞,更新到停用詞表中,通過計算答案中停用詞占比方式對無意義答案進行過濾。
答案質量排序:除了對低質量問題過濾外,我們期望對有多個答案的情況進行相應的排序。將質量更好的答案排在前面。基于Pairwise方式的排序模型其訓練目標不僅要將候選答案分類到正確的類別,更關注于將Top K的結果排在前面,這與我們的業務目標一致,因此我們使用基于Pairwise方式的RoBERTa模型對答案質量進行排序。在訓練階段,給定一個問題Q和兩個候選答案A1和A2,組成三元組 (Q,A1,A2) 輸入到模型中,其中第一個候選答案A1比第二個候選答案A2質量要好。
在模型訓練時,這個三元組被拆分為兩個問答對 (Q,A1) 和 (Q,A2)。每個問答對 (Q,A) 通過[SEP]標識符分割,并在問題前加入[CLS],最終以[CLS] Q [SEP] A [SEP]的形式輸入到Bert模型中。然后得到[CLS]的輸出作為問答對的表示,經過一個全連接層和Softmax得到問答相似度值。我們將兩個候選答案的交叉熵損失和合頁損失作為最終的損失函數。在預測階段,將問答對輸入到模型中得到文本相似度值,根據這個值對同一問題下的不同答案排序,從而選出Top答案。
2. 在線問題匹配
在線階段解決的是將用戶的問題與知識庫知識進行匹配的問題。同時考慮文本相關性和語義相關性,將問題匹配分為召回和精排兩步:
第一步檢索召回候選問題并進行粗排;
第二步根據語義相似度對候選答案進行精排,返回Top-K問題和對應答案。
在我們的任務中涉及到景點、酒店、商場等多場景,多領域知識適配任務突出。模型框架首先建模成Multi-Task架構,所有領域數據訓練出一個共享參數,解決新領域與冷啟動的問題,同時不同的領域,也會得到各自領域的參數,提升各自領域效果。除此之外,也發現只計算用戶的Query和問答對里問題的相似度,是不太夠的。
答案往往也能幫助我們更好的去理解問題。上圖中"還營業嗎現在"的問題,語義上"正常營業嗎?"比"關門了嗎?"更相關,但從答案"肺炎期間閉園不營業"和"沒去過"中很容易辨識出第一條答案更相關。因此建模時我們將答案也考慮進去,采用Multi-Field框架。最終我們的模型為Multi-Field Multi-Task RoBERTa模型。
04
KBQA
在我們商戶頁面上還存在營業時間、地址、套餐價格等結構化信息,商場商戶下還存在各商鋪樓層分布、主營商品等信息,這類結構化信息源我們采用基于知識圖譜的問答方式來回答用戶問題。KBQA是一種基于知識圖譜的問答技術,其主要任務是將自然語言問題 ( NLQ ) 通過不同方法映射到結構化的查詢,并在知識圖譜中獲取答案。相比非結構化文本問答方法利用圖譜豐富的語義關聯信息,能夠深入理解用戶問題、解決更多復雜推理類問題。
主流的KBQA解決方案包括基于查詢圖方法 ( Semantic Parser )、基于搜索排序方法 ( Information Retrieval )。查詢圖方案核心思路就是將自然語言問題經過一些語義分析方式轉化成中間的語義表示 ( Logical Forms ),然后再將其轉化為可以在 KG 中執行的描述性語言 ( 如 SPARQL 語言 ) 在圖譜中查詢,這種方式優勢就是可解釋強,符合知識圖譜的顯示推理過程。
搜索排序方案首先會確定用戶Query中的實體提及詞 ( Entity Mention ),然后鏈接到 KG 中的主題實體 ( Topic Entity ),并將與Topic Entity相關的子圖 ( Subgraph ) 提取出來作為候選答案集合,通過對Query以及Subgraph進行向量表示并映射到同一向量空間,通過兩者相似度排序得到答案。這類方法更偏向于端到端的解決問題,但在擴展性和可解釋性上不如查詢圖方案。在美團場景里我們采用以Semantic Parser方法為主的解決方案。
知識圖譜問答核心技術共分為四層,數據層、知識挖掘和知識圖譜層為知識圖譜構建常見架構,知識圖譜問答的關注重點為上層查詢理解、圖查詢及圖排序部分。
在對話理解階段,我們已將用戶輸入的Query理解成領域、意圖和槽位的形式,比如"頤和園學生門票多少錢"理解為門票意圖,"頤和園"是travel_landmark,"學生門票"是ticket_type。在KBQA的查詢理解階段我們只需要解決好關系/屬性檢測和消歧、實體約束理解。
對于圖譜問答來說,如何檢測出圖中關系?一種是定義關系Pattern,建立Pattern和關系的映射關系;另一種是將關系檢測定義為分類任務,或者是匹配任務,每種關系提前維護好可能全的不同說法,通過計算用戶Query與關系說法的相似度匹配來確定關系。它的一個好處就是對冷啟動非常友好,而分類通常需要構建大量的訓練數據集,冷啟動不友好。關系檢測我們采用了Pattern和說法匹配相結合的方式。
約束理解我們建模為依存理解問題,相比通用的依存理解,依據我們的業務場景將關系數量縮減到只有六類,主實體、并列關系、謂詞信息、主實體約束、謂詞約束和無意義詞。模型選擇上采用比較經典的Deep Biaffine模型,在這里通過在輸入層加入NER的特征,如圖右上角所示,指標上有較大的提升。
圖查詢排序方面,首先引入標簽節點、CVT結構,將約束關聯到節點上。比如"故宮成人票多少錢",它的意圖是問故宮價格,如圖左下角所示,成人票是價格的一個約束,建模時把約束"成人"建在"價格"的節點上。在線查詢時,通過一跳就能查詢到價格節點,我們要做的事情就是約束匹配,找到一條最優的路徑;再就是引入排序模型,排序解決的就是選擇含約束條件的最優路徑。這樣常見的約束可以比較快的整理出來,不常見的約束也可以作為約束節點加進去,因排序模型解決了相似計算問題,對于未見過的約束類型也同樣生效。
05
多QA答案融合排序
上述問答模塊在回答范圍上各有側重,但對于同一個用戶問題,不同的問答模塊都有可能返回候選答案,如下表格中例子所示,有多個候選答案,如何做出選擇。
在答案選擇時主要考慮以下三個因素:
答案與問題的語義相關性:我們希望選擇與問題在語義上最相關的答案;
答案信息完整性:我們希望答案能夠完整地回答問題,而不僅僅回答問題的一個方面 ( 如問題"停車是否方便",回答"停車方便,有免費停車場"比僅回答"停車方便"更好 );
答案的真實性:多個答案在觀點上可能存在相互矛盾,我們需要選擇最接近實際情況的答案。
在初始階段我們采用基于規則的方式,主要考慮答案的相關性和真實性。在相關性方面考慮答案的類型 ( KBQA、CQA和DocQA ) 和置信度,根據答案置信度的類型排序。每種問答方案根據答案置信度將答案分為兩級,級別越高優先級越高,同一級別的優先級為KBQA > CQA > DocQA;在答案真實性方面主要考慮答案時間,時間越久的答案真實性越差,超過一定時間 ( 如2年 ) 的答案會被降低在排序中的級別;對于時效類問題,如“景區最近花開了嗎”,超過3個月的答案將不會被采用。這里的問題是不同類型的答案置信度分數往往是不能相互比較的,總會有一些Bad Case存在。
再就是基于排序模型的方式:
利用問題和答案的語義相似度匹配的方式,建模答案與問題語義相關性,為了提高排序模型效果,我們在排序時利用到了問題所對應的NLU意圖信息,將模型的輸入從"問題+答案"形式轉化為"問題+意圖+答案"形式,充分利用意圖信息,提高相關性計算準確率;
假設問題的正確答案往往會出現在多篇文章中,且有共同點,將基于問答相似度的答案排序模型與多答案交叉推理模型進行聯合訓練。具體地,我們將上述排序模型得到的[CLS]向量 ( 或其他層向量 ) 作為答案的語義表示,然后計算每個候選答案與剩余候選答案之間的Attention來整合他們之間的信息,通過門控機制將BERT模型輸出的相關性向量表示與交叉驗證得到的向量表示結合,對答案進行排序;
在答案完整性方面,考慮答案本身的一些統計特征:答案相對長度、信息熵,并將其融合到融合排序模型中。
06
落地應用示例
1. 問答助手
在問景點、問酒店、問商場等生活服務場景中,問答助手可以回答用戶如"去哪玩"、"住哪家酒店"等相關問題,輔助用戶行前決策。
2. 問答搜索
搜索仍然是當前主要獲取信息的手段,問答搜索解決搜索中用戶的問答訴求,提升搜索質量和用戶滿意度。
3. 景點門票購票智能客服
在景點門口為無人售票帶來溫度,在景點門口通過掃碼美團買票在線完成現場購票,智能客服完成用戶相關問題答疑,減少地推人員工作量。
4. 問大家
在問大家模塊中,通常用戶新問的問題很難有其他用戶能及時回答,智能問答可以有效整合商戶相關信息給出答案,及時解答用戶的疑問,提升用戶體驗。
關于我們:
美團是中國領先的生活服務電子商務平臺,公司擁有美團、大眾點評、美團外賣等消費者熟知的App,服務涵蓋餐飲、打車、共享單車、酒店旅游、電影、休閑娛樂等200多個品類。2018年6月開始組建美團對話平臺團隊,從自研美團客服機器人開始,一步步在業務中逐步沉淀對話核心技術,2019年6月開始以摩西對話平臺形式,進一步支持美團其他對話相關業務如員工服務、售前咨詢、商家服務等。隨著平臺建設的需要,2020年,我們開始構建各場景下的智能問答能力,本文介紹的主要是該部分能力建設的階段性成果。
最后,感謝團隊成員江南、思睿、冷佳等同學對本文內容的貢獻。今天的分享就到這里,謝謝大家。
責任編輯:xj
原文標題:美團智能問答技術探索與實踐
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
智能
+關注
關注
8文章
1712瀏覽量
117593 -
美團
+關注
關注
0文章
125瀏覽量
10377 -
自然語言
+關注
關注
1文章
288瀏覽量
13365
原文標題:美團智能問答技術探索與實踐
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論