知識(shí)圖譜(Knowledge Graph)是人工智能的重要分支技術(shù),它在2012年由谷歌提出,成為建立大規(guī)模知識(shí)的殺手锏應(yīng)用,在搜索、自然語言處理、智能助手、電子商務(wù)等領(lǐng)域發(fā)揮著重要作用。知識(shí)圖譜與大數(shù)據(jù)、深度學(xué)習(xí),這三大“秘密武器”已經(jīng)成為推動(dòng)互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動(dòng)力之一。
知識(shí)圖譜的概念與分類
知識(shí)圖譜(Knowledge Graph)于2012年由谷歌提出并成功應(yīng)用于搜索引擎當(dāng)中。它以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其之間的關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。 知識(shí)圖譜的分類方式很多,例如可以通過知識(shí)種類、構(gòu)建方法等劃分。從領(lǐng)域上來說,知識(shí)圖譜通常分為兩種:通用知識(shí)圖譜、特定領(lǐng)域知識(shí)圖譜。
常見的知識(shí)圖譜示意圖主要包含有三種節(jié)點(diǎn):實(shí)體、概念、屬性。 實(shí)體指的是具有可區(qū)別性且獨(dú)立存在的某種事物。如某一個(gè)人、某一座城市、某一種植物、某一件商品等等。世界萬物由具體事物組成,此指實(shí)體。實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。 概念指的是具有同種特性的實(shí)體構(gòu)成的集合,如國家、民族、書籍、電腦等。 屬性則用于區(qū)分概念的特征,不同概念具有不同的屬性。不同的屬性值類型對(duì)應(yīng)于不同類型屬性的邊。如果屬性值對(duì)應(yīng)的是概念或?qū)嶓w,則屬性描述兩個(gè)實(shí)體之間的關(guān)系,稱為對(duì)象屬性;如果屬性值是具體的數(shù)值,則稱為數(shù)據(jù)屬性。
知識(shí)圖譜的三大典型應(yīng)用
現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識(shí)圖譜,并對(duì)搜索引擎形態(tài)日益產(chǎn)生重要的影響。如何根據(jù)業(yè)務(wù)需求設(shè)計(jì)實(shí)現(xiàn)知識(shí)圖譜應(yīng)用,并基于數(shù)據(jù)特點(diǎn)進(jìn)行優(yōu)化調(diào)整,是知識(shí)圖譜應(yīng)用的關(guān)鍵研究?jī)?nèi)容。 知識(shí)圖譜的典型應(yīng)用包括語義搜索、智能問答以及可視化決策支持三種。
1、語義搜索
當(dāng)前基于關(guān)鍵詞的搜索技術(shù)在知識(shí)圖譜的知識(shí)支持下可以上升到基于實(shí)體和關(guān)系的檢索,稱之為語義搜索。 語義搜索可以利用知識(shí)圖譜可以準(zhǔn)確地捕捉用戶搜索意圖,進(jìn)而基于知識(shí)圖譜中的知識(shí)解決傳統(tǒng)搜索中遇到的關(guān)鍵字語義多樣性及語義消歧的難題,通過實(shí)體鏈接實(shí)現(xiàn)知識(shí)與文檔的混合檢索。 語義檢索需要考慮如何解決自然語言輸入帶來的表達(dá)多樣性問題,同時(shí)需要解決語言中實(shí)體的歧義性問題。同時(shí)借助于知識(shí)圖譜,語義檢索需要直接給出滿足用戶搜索意圖的答案,而不是包含關(guān)鍵詞的相關(guān)網(wǎng)頁的鏈接。
2、智能問答
問答系統(tǒng)(Question Answering,QA)是信息服務(wù)的一種高級(jí)形式,能夠讓計(jì)算機(jī)自動(dòng)回答用戶所提出的問題。不同于現(xiàn)有的搜索引擎,問答系統(tǒng)返回用戶的不再是基于關(guān)鍵詞匹配的相關(guān)文檔排序,而是精準(zhǔn)的自然語言形式的答案。
智能問答系統(tǒng)被看作是未來信息服務(wù)的顛覆性技術(shù)之一,亦被認(rèn)為是機(jī)器具備語言理解能力的主要驗(yàn)證手段之一。
智能問答需要針對(duì)用戶輸入的自然語言進(jìn)行理解,從知識(shí)圖譜中或目標(biāo)數(shù)據(jù)中給出用戶問題的答案,其關(guān)鍵技術(shù)及難點(diǎn)包括準(zhǔn)確的語義解析、正確理解用戶的真實(shí)意圖、以及對(duì)返回答案的評(píng)分評(píng)定以確定優(yōu)先級(jí)順序。
3、可視化決策支持
可視化決策支持是指通過提供統(tǒng)一的圖形接口,結(jié)合可視化、推理、檢索等,為用戶提供信息獲取的入口。例如,決策支持可以通過圖譜可視化技術(shù)對(duì)創(chuàng)投圖譜中的初創(chuàng)公司發(fā)展情況、投資機(jī)構(gòu)投資偏好等信息進(jìn)行解讀,通過節(jié)點(diǎn)探索、路徑發(fā)現(xiàn)、關(guān)聯(lián)探尋等可視化分析技術(shù)展示公司的全方位信息。
可視化決策支持需要考慮的關(guān)鍵問題包括通過可視化方式輔助用戶快速發(fā)現(xiàn)業(yè)務(wù)模式、提升可視化組件的交互友好程度、以及大規(guī)模圖環(huán)境下底層算法的效率等。
知識(shí)工程的五個(gè)發(fā)展階段
知識(shí)圖譜技術(shù)屬于知識(shí)工程的一部分。1994年,圖靈獎(jiǎng)獲得者、知識(shí)工程的建立者費(fèi)根鮑姆給出了知識(shí)工程定義——將知識(shí)集成到計(jì)算機(jī)系統(tǒng),從而完成只有特定領(lǐng)域?qū)<也拍芡瓿傻膹?fù)雜任務(wù)。 回顧知識(shí)工程這四十多年來的發(fā)展歷程,我們可以將知識(shí)工程分成五個(gè)標(biāo)志性的階段:前知識(shí)工程時(shí)期、專家系統(tǒng)時(shí)期、萬維網(wǎng)1.0時(shí)期、群體智能時(shí)期、以及知識(shí)圖譜時(shí)期,如下圖所示。
1)1950-1970時(shí)期:圖靈測(cè)試—知識(shí)工程誕生前期 這一階段主要有兩個(gè)方法:符號(hào)主義和連結(jié)主義。符號(hào)主義認(rèn)為物理符號(hào)系統(tǒng)是智能行為的充要條件,連結(jié)主義則認(rèn)為大腦(神經(jīng)元及其連接機(jī)制)是一切智能活動(dòng)的基礎(chǔ)。 這一時(shí)期的知識(shí)表示方法主要有邏輯知識(shí)表示、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)等。 2)1970-1990時(shí)期:專家系統(tǒng)—知識(shí)工程蓬勃發(fā)展期 由于通用問題求解強(qiáng)調(diào)利用人的求解問題的能力建立智能系統(tǒng),但是忽略了知識(shí)對(duì)智能的支持,使人工智能難以在實(shí)際應(yīng)用中發(fā)揮作用。從70年開始,人工智能開始轉(zhuǎn)向建立基于知識(shí)的系統(tǒng),通過“知識(shí)庫+推理機(jī)”實(shí)現(xiàn)機(jī)器智能。 這一時(shí)期知識(shí)表示方法有新的演進(jìn),包括框架和腳本等80年代后期出現(xiàn)了很多專家系統(tǒng)的開發(fā)平臺(tái),可以幫助將專家的領(lǐng)域知識(shí)轉(zhuǎn)變成計(jì)算機(jī)可以處理的知識(shí)。
3)1990-2000時(shí)期:萬維網(wǎng)1.0 在1990年到2000年期間,出現(xiàn)了很多人工構(gòu)建大規(guī)模知識(shí)庫,包括廣泛應(yīng)用的英文WordNet,采用一階謂詞邏輯知識(shí)表示的Cyc常識(shí)知識(shí)庫,以及中文的HowNet。 Web 1.0萬維網(wǎng)的產(chǎn)生為人們提供了一個(gè)開放平臺(tái),使用HTML定義文本的內(nèi)容,通過超鏈接把文本連接起來,使得大眾可以共享信息。W3C提出的可擴(kuò)展標(biāo)記語言XML,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)文檔內(nèi)容的結(jié)構(gòu)通過定義標(biāo)簽進(jìn)行標(biāo)記,為互聯(lián)網(wǎng)環(huán)境下大規(guī)模知識(shí)表示和共享奠定了基礎(chǔ)。 4)2000-2006時(shí)期:群體智能 萬維網(wǎng)的出現(xiàn)使得知識(shí)從封閉知識(shí)走向開放知識(shí),從集中構(gòu)建知識(shí)成為分布群體智能知識(shí)。原來專家系統(tǒng)是系統(tǒng)內(nèi)部定義的知識(shí),現(xiàn)在可以實(shí)現(xiàn)知識(shí)源之間相互鏈接,可以通過關(guān)聯(lián)來產(chǎn)生更多的知識(shí)而非完全由固定人生產(chǎn)。 這個(gè)過程中出現(xiàn)了群體智能,最典型的代表就是維基百科,實(shí)際上是用戶去建立知識(shí),體現(xiàn)了互聯(lián)網(wǎng)大眾用戶對(duì)知識(shí)的貢獻(xiàn),成為今天大規(guī)模結(jié)構(gòu)化知識(shí)圖譜的重要基礎(chǔ)。
5)2006年至今:知識(shí)圖譜—知識(shí)工程新發(fā)展時(shí)期 “知識(shí)就是力量”,將萬維網(wǎng)內(nèi)容轉(zhuǎn)化為能夠?yàn)橹悄軕?yīng)用提供動(dòng)力的機(jī)器可理解和計(jì)算的知識(shí)是這一時(shí)期的目標(biāo)。從2006年開始,大規(guī)模維基百科類富結(jié)構(gòu)知識(shí)資源的出現(xiàn)和網(wǎng)絡(luò)規(guī)模信息提取方法的進(jìn)步,使得大規(guī)模知識(shí)獲取方法取得了巨大進(jìn)展。 當(dāng)前自動(dòng)構(gòu)建的知識(shí)庫已成為語義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成的強(qiáng)大資產(chǎn),在大型行業(yè)和領(lǐng)域中正在得到廣泛使用。典型的例子是谷歌收購Freebase后在2012年推出的知識(shí)圖譜(Knowledge Graph),F(xiàn)acebook的圖譜搜索,Microsoft Satori以及商業(yè)、金融、生命科學(xué)等領(lǐng)域特定的知識(shí)庫。
原文標(biāo)題:從概念到實(shí)踐 | 全面了解知識(shí)圖譜
文章出處:【微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
人工智能
+關(guān)注
關(guān)注
1795文章
47642瀏覽量
239703 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7725
原文標(biāo)題:從概念到實(shí)踐 | 全面了解知識(shí)圖譜
文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論