1.1 什么是知識圖譜
知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關聯關系的技術方法[1]。知識圖譜由節點和邊組成。節點可以是實體,如一個人、一本書等,或是抽象的概念,如人工智能、知識圖譜等。邊可以是實體的屬性,如姓名、書名,或是實體之間的關系,如朋友、配偶。知識圖譜的早期理念來自Semantic Web[2,3](語義網),其最初理想是把基于文本鏈接的萬維網轉化成基于實體鏈接的語義網。
1989年,Tim Berners-Lee 提出構建一個全球化的以“鏈接”為中心的信息系統(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認為,相比基于樹的層次化組織方式,以鏈接為中心和基于圖的組織方式更加適合互聯網這種開放的系統。這一思想逐步被人們實現,并演化發展成為今天的World Wide Web。
1994年,Tim Berners-Lee 又提出 Web 不應該僅僅只是網頁之間的互相鏈接。實際上,網頁中描述的都是現實世界中的實體和人腦中的概念。網頁之間的鏈接實際包含語義,即這些實體或概念之間的關系;然而,機器卻無法有效地從網頁中識別出其中蘊含的語義。他于1998年提出了Semantic Web的概念[4]。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節點代表的不只是網頁,而是客觀世界中的實體(如人、機構、地點等),而超鏈接也被增加了語義描述,具體標明實體之間的關系(如出生地是、創辦人是等)。相對于傳統的網頁互聯網,Semantic Web的本質是數據的互聯網(Web of Data)或事物的互聯網(Web of Things)。
在 Semantic Web 被提出之后,出現了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase[5],作為IBM Waston后端的DBpedia[6]和Yago[7],作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Wolfram Alpha,以及開放的Semantic Web Schema——Schema.ORG[8],目標成為世界最大開放知識庫的Wikidata[9]等。尤其值得一提的是,2010年谷歌收購了早期語義網公司 MetaWeb,并以其開發的 Freebase 作為數據基礎之一,于2012年正式推出了稱為知識圖譜的搜索引擎服務。隨后,知識圖譜逐步在語義搜索[10,11]、智能問答[12-14]、輔助語言理解[15,16]、輔助大數據分析[17-19]、增強機器學習的可解釋性[20]、結合圖卷積輔助圖像分類[21,22]等多個領域發揮出越來越重要的作用。
如圖1-1所示,知識圖譜旨在從數據中識別、發現和推斷事物與概念之間的復雜關系,是事物關系的可計算模型。知識圖譜的構建涉及知識建模、關系抽取、圖存儲、關系推理、實體融合等多方面的技術,而知識圖譜的應用則涉及語義搜索、智能問答、語言理解、決策分析等多個領域。構建并利用好知識圖譜需要系統性地利用包括知識表示(Knowledge Representation)、圖數據庫、自然語言處理、機器學習等多方面的技術。
圖1-1 知識圖譜:事物關系的可計算模型
1.2 知識圖譜的發展歷史
知識圖譜并非突然出現的新技術,而是歷史上很多相關技術相互影響和繼承發展的結果,包括語義網絡、知識表示、本體論、Semantic Web、自然語言處理等,有著來自Web、人工智能和自然語言處理等多方面的技術基因。從早期的人工智能發展歷史來看, Semantic Web是傳統人工智能與Web融合發展的結果,是知識表示與推理在Web中的應用;RDF(Resource Description Framework,資源描述框架)、OWL(Web Ontology Language,網絡本體語言)都是面向 Web 設計實現的標準化的知識表示語言;而知識圖譜則可以看作是Semantic Web的一種簡化后的商業實現,如圖1-2所示。
圖1-2 從語義網絡到知識圖譜
在人工智能的早期發展流派中,符號派(Symbolism)側重于模擬人的心智,研究怎樣用計算機符號表示人腦中的知識并模擬心智的推理過程;連接派(Connectionism)側重于模擬人腦的生理結構,即人工神經網絡。符號派一直以來都處于人工智能研究的核心位置。近年來,隨著數據的大量積累和計算能力的大幅提升,深度學習在視覺、聽覺等感知處理中取得突破性進展,進而又在圍棋等博弈類游戲、機器翻譯等領域獲得成功,使得人工神經網絡和機器學習獲得了人工智能研究的核心地位。深度學習在處理感知、識別和判斷等方面表現突出,能幫助構建聰明的人工智能,但在模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。
哲學家柏拉圖把知識(Knowledge)定義為“Justified True Belief”,即知識需要滿足三個核心要素:合理性(Justified)、真實性(True)和被相信(Believed)。簡而言之,知識是人類通過觀察、學習和思考有關客觀世界的各種現象而獲得并總結出的所有事實(Fact)、概念(Concept)、規則(Rule)或原則(Principle)的集合。人類發明了各種手段來描述、表示和傳承知識,如自然語言、繪畫、音樂、數學語言、物理模型、化學公式等。具有獲取、表示和處理知識的能力是人類心智區別于其他物種心智的重要特征。人工智能的核心也是研究怎樣用計算機易于處理的方式表示、學習和處理各種各樣的知識。知識表示是現實世界的可計算模型(Computable Model of Reality)。從廣義上講,神經網絡也是一種知識表示形式,如圖1-3所示。
圖1-3 知識圖譜幫助構建有學識的人工智能
符號派關注的核心正是知識的表示和推理(KRR,Knowledge Representation and Reasoning)。早在1960年,認知科學家 Allan M.Collins 提出用語義網絡(Semantic Network)研究人腦的語義記憶。例如,WordNet[23]是典型的語義網絡,它定義了名詞、動詞、形容詞和副詞之間的語義關系。WordNet被廣泛應用于語義消歧等自然語言處理領域。
1970年,隨著專家系統的提出和商業化發展,知識庫(Knowledge Base)構建和知識表示更加得到重視。專家系統的基本想法是:專家是基于大腦中的知識來進行決策的,因此人工智能的核心應該是用計算機符號表示這些知識,并通過推理機模仿人腦對知識進行處理。依據專家系統的觀點,計算機系統應該由知識庫和推理機兩部分組成,而不是由函數等過程性代碼組成。早期的專家系統最常用的知識表示方法包括基于框架的語言(Frame-based Languages)和產生式規則(Production Rules)等。框架語言主要用于描述客觀世界的類別、個體、屬性及關系等,較多地被應用于輔助自然語言理解。產生式規則主要用于描述類似于IF-THEN的邏輯結構,適合于刻畫過程性知識。
知識圖譜與傳統專家系統時代的知識工程有著顯著的不同。與傳統專家系統時代主要依靠專家手工獲取知識不同,現代知識圖譜的顯著特點是規模巨大,無法單一依靠人工和專家構建。如圖1-4所示,傳統的知識庫,如Douglas Lenat從1984年開始創建的常識知識庫 Cyc,僅包含700萬條[1]的事實描述(Assertion)。Wordnet 主要依靠語言學專家定義名詞、動詞、形容詞和副詞之間的語義關系,目前包含大約20萬條的語義關系。由著名人工智能專家 Marvin Minsky于1999年起開始構建的 ConceptNet[24]常識知識庫依靠了互聯網眾包、專家創建和游戲三種方法,但早期的 ConceptNet 規模在百萬級別,最新的ConceptNet 5.0也僅包含2800萬個RDF三元組關系描述。谷歌和百度等現代知識圖譜都已經包含超過千億級別的三元組,阿里巴巴于2017年8月發布的僅包含核心商品數據的知識圖譜也已經達到百億級別。DBpedia已經包含約30億個RDF三元組,多語種的大百科語義網絡BabelNet包含19億個RDF三元組[25],Yago3.0包含1.3億個元組,Wikidata已經包含4265萬條數據條目,元組數目也已經達到數十億級別。截至目前,開放鏈接數據項目Linked Open Data[2]統計了其中有效的2973個數據集,總計包含大約1494億個三元組。
現代知識圖譜對知識規模的要求源于“知識完備性”難題。馮·諾依曼曾估計單個個體大腦的全量知識需要2.4×1020個bits存儲[26]。客觀世界擁有不計其數的實體,人的主觀世界還包含無法統計的概念,這些實體和概念之間又具有更多數量的復雜關系,導致大多數知識圖譜都面臨知識不完全的困境。在實際的領域應用場景中,知識不完全也是困擾大多數語義搜索、智能問答、知識輔助的決策分析系統的首要難題。
圖1-4 現代知識圖譜的規模化發展
-
人工智能
+關注
關注
1792文章
47442瀏覽量
239016 -
深度學習
+關注
關注
73文章
5507瀏覽量
121299 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7717
發布評論請先 登錄
相關推薦
評論