知識圖譜自動化構建的探索與挑戰|論文分享
達觀數據
知識圖譜的自動化構建是知識圖譜中具有極強挑戰性且巨大應用價值的技術方向。就實體抽取技術,達觀數據副總裁、上海市人工智能技術標準委員會委員王文廣提到“狹義的實體抽取,即命名實體識別(NER)技術發展至今已較為成熟,能夠很好地抽取出人名、地名、機構名等少數類型的實體。但在知識圖譜實際應用中,則需要抽取出各式各樣各不相同的廣義實體,比如金融業中的產品名稱、品牌名、業務名、風險提示、觀點等,制造業中的失效模式、失效現象、工藝、設備、零部件、物料、方法、故障原因、改善措施等,商業中的產品、功能、特點、適合人群、搭配方法等等。抽取出這些廣義實體的挑戰巨大?!标P系抽取技術也同樣問題多挑戰大,已有關系抽取大多基于實體對之間共現,而現實復雜的場景中,實體對共現既可能不存在任何關系,可能存在萬千種的關系,這就造成了關系抽取的難題。此外,在知識圖譜構建中,還涉及實體消歧、實體融合等方面的技術要求。
除了技術發展本身并不成熟之外,在實際場景中還遇到樣本少的問題。在真實落地的項目或產品中, 往往存在標注樣本少的問題,其原因即可能是標注成本高導致樣本少,也可能是本身樣本就少,無法獲得大規模的標注樣本。這方面王文廣深有體會,他提到“在很多場景下,總的文檔數量有幾千或幾萬份,對于具體某些類型的實體或關系來說則文檔數量更少。在這種情況下要做好知識圖譜的構建,是極大的挑戰,也是在實際落地中必須綜合使用十八般武器,逢山開路遇水搭橋,使用最新的技術結合業務經驗、專家規則等來解決這些問題?!?/p>
為了促進知識圖譜自動化構建技術的進一步發展,達觀數據在CCKS2020(2020全國知識圖譜與語義計算大會)組織了金融研報知識圖譜的自動化構建的算法競賽。競賽選擇了樣本豐富但復雜度較高的金融研報文檔作為知識的來源,根據金融投研領域常見的需求,設計了簡化版的知識圖譜模式,并標注了大規模的金融研報知識圖譜數據集FR2KG。競賽任務從預定義的知識圖譜模式和少量的種子知識圖譜開始,從非結構化的金融研報文本中抽取出符合知識圖譜模式的實體、關系和屬性值, 并進行適當的實體消歧和實體融合,構建出知識圖譜,并使用FR2KG來評估競賽參賽隊伍所提交的結果。
金融研報是各類金融研究結構對宏觀經濟、金融、行業、產業鏈以及公司的研究報告,是金融行業中最為復雜、多樣的文檔。報告通常是專業人員撰寫,對宏觀、行業和公司的數據信息搜集全面、研究深入,質量高,內容可靠。報告內容往往包含產業、經濟、金融、政策、社會等多領域的數據與知識,是構建行業知識圖譜非常關鍵的數據來源。另一方面,由于研報本身所容納的數據與知識涉及面廣泛,專業知識眾多,不同的研究結構和專業認識對相同的內容的表達方式也會略有差異。這些特點導致了從研報自動化構建知識圖譜困難重重,解決這些問題則能夠極大促進自動化構建知識圖譜方面的技術進步。同時所構建的圖譜在大金融行業、監管部門、政府、行業研究機構和行業公司等應用非常廣泛,如風險監測、智能投研、智能監管、智能風控等,具有巨大的學術價值和產業價值。
數據集
達觀數據所構建的大規模金融研報知識圖譜數據集FR2KG是用于評測知識圖譜自動化構建技術的專業數據集,是當前最大規模的中文金融研報知識圖譜。下圖是數據集構建過程示意圖
FR2KG的知識圖譜模式包含10個實體類型,19個關系類型和6種屬性,如下圖所示。
構建好的金融研報知識圖譜數據集FR2KG包含17,799實體,26,798關系三元組,1,328屬性三元組,SeedKG和EvaluationKG的數據情況如下圖所示。
下圖是數據集的樣例,使用達觀數據淵海知識圖譜平臺可視化:
目前數據集已經發布在SCIDB和OpenKG上,歡迎大家前往下載。在使用數據集進行研究時請引用本論文。
文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph
作者:王文廣,徐永林、杜春輝、陳運文、王逸捷、文輝
引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108
競賽技術回顧
本次評測一共有740個隊伍報名,其中F1分數最高的18支隊伍中,有3支隊伍來自企業,10支隊伍來自高校,3支隊伍高校和企業的組合,另外2支隊伍未透露相關信息。本次評測的top5隊伍都梳理并提交了他們所使用的方法的簡要說明,下文對這些方法和說明進行分析總結。
所有隊伍都使用了規則或者labelling function來生產訓練樣本,只有一個隊伍在自動生成樣本之外,又額外人工標注了20份的研報來作為補充和驗證的訓練樣本。
所有隊伍在實體抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于規則的方法來對特定的實體類型進行補充。
在關系和屬性抽取方面,所有的隊伍都使用了基于共現的方法,共現是遠程監督的基本假設,也就是說,當兩個實體共同出現在一個較短的一段文本時,即可假設它們存在符合相應的關系。在基于共現的假設之上,三支隊伍使用了規則來判斷是否真正存在這種關系,另外兩只隊伍使用了基于BERT的模型來對關系進行分類。
其中一支隊伍使用了聚類的方法來將相似或相同主題的研報給聚在一起,對研報進行了預處理。
知識圖譜自動化構建的挑戰
從本次基于知識圖譜模式的自動化構建知識圖譜評測的結果來看,單純使用算法來構建完全自動化地構建知識圖譜,尚存在較多挑戰,這里總結了一些具有相當挑戰性的課題和研究方向:
在給定知識圖譜模式和種子知識圖譜來自動化的構建知識圖譜上,現有的方法效果都不太好,如何實現端到端或者多步的框架實現知識圖譜的完全自動化構建是值得繼續探索的。
通過知識圖譜及其對應的Schema如何實現自動化標注語料是一個值得研究的課題,能夠實現高精度的自動化標注語料可以帶來更好的抽取模型。此外,自動化標注語料方面的評測也是一件非常有意義的事情。
實體抽取方面,評測的優秀選手都使用了基于BERT的模型,再加上基于規則的方法來實現,在這種真實的場景且計算力資源受限的情況下,如何在少量語料的情況下實現高精度的抽取。
關系和屬性抽取與識別上,目前集中在采用短文本內共現并過濾的方法來實現,這極大的依賴于實體抽取的F1分數,高precision和高recall的實體抽取決定了關系和屬性抽取有好的效果。那么如何在噪聲較多,即不那么高的情況下來實現好的關系和屬性抽取?
本次評測沒有看到使用端到端的實現實體和關系聯合抽取的模型,可能的原因是實體和關系類型較多且沒有大量的語料,那么在這種情況下如何開發出端到端的模型也是非常具有挑戰性的課題。
當Schema的規模進一步擴大時,比如50種實體類型,數百種的實體屬性和實體間的關系,對這樣的知識圖譜研究其自動化構建是一個兼具挑戰性與現實意義的課題。
多語言的知識圖譜自動化構建技術的研究。本次評測集中在中文,以及中文中存在的少量英文的情況,特別的,沒有涉及到多語言之間實體融合的情況。但在真實場景下,多語言語料以及構建多語言圖譜是非常重要的。這涉及了多方面的內容,包括多語言的實體、關系和屬性的抽取,多語言之間實體的融合等等方面技術的研究。同時,組織多語言知識圖譜自動化構建方面的評測也是非常有意義的事情。
本次評測中隱含著少量實體的消歧與融合,這塊沒有顯性的進行評測,未來可以將這塊明確的表達出來,以促進相關領域的研究。
-
自動化
+關注
關注
29文章
5598瀏覽量
79430 -
數據集
+關注
關注
4文章
1208瀏覽量
24742 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7717
發布評論請先 登錄
相關推薦
評論