1.摘要
本數據集由哈爾濱工業大學社會計算與信息檢索研究中心(哈工大SCIR)秦兵教授和劉銘教授主持開發,是一個通用領域大規模條件性知識圖譜數據集。本數據集源自于AG News文本分類語料,包含四個類別,2440 條數據,每條數據都是人工標注的條件知識圖譜。該數據集的提出能夠為條件性知識圖譜的研究提供數據支持。
2.條件性知識圖譜
在大多數情況下,事實的成立都是有條件的。條件和事實起著同樣重要的作用,然而目前的知識圖譜只關注事實而忽略了條件的存在。與此同時,信息提取技術也只關注從給定文本中提取事實,而忽略了條件信息。
為了能夠讓知識圖譜建模條件信息更加充分,我們提出了一個三層的網絡結構條件性知識圖譜(Conditional-KG)。條件性知識圖譜和傳統知識圖譜都是由三元組組成,但是條件性知識圖譜同時包含事實元組和條件元組,以及元組之間的條件關系。
3.數據集
為了支持條件性知識圖譜的研究,我們手動標注了一個條件性知識圖譜數據集。我們選擇了AG News文本分類語料作為條件性知識圖譜的語料。AG News語料具有三大優勢:
AG News中的數據是新聞的標題和一部分正文,每條數據平均包含2.1個句子、6.4個元組和3.5個條件關系;
AG News中的數據具有完整的語法結構,長度較長,語言嚴謹,代詞、口語、習語等較少。
AG News的文本數量足夠大,多樣性豐富。它包含12萬條訓練數據和7600條測試數據,涉及World、Sports、Business、 和Sci/Tech四個類別。
我們標注的數據集追求信息的完整性和元組的原子性。完整性的意思是標注者應該嘗試從句子中提取所有斷言和條件,我們將原子性定義為每個元組必須是一個不可分割的單元。只要有可能,標注者必須從帶有連詞的句子中提取多個原子元組。
我們通過兩輪標注最終得到了人工標注的通用領域條件性知識圖譜數據集。本數據集源自于AG News文本分類語料,包含四個類別,2440 條數據,每條數據都是人工標注的條件知識圖譜。
4.結語
為了建模條件信息,我們提出了一個具有三層網絡結構的條件性知識圖譜,并且為社區貢獻了一個人工標注的通用領域大規模條件性知識圖譜。
編輯:jq
-
數據集
+關注
關注
4文章
1208瀏覽量
24742 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7717
原文標題:賽爾筆記 | 通用領域條件性知識圖譜數據集
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論