“知識將比數據更重要,得知識者得天下”,去年十月,在 CSDN 對肖仰華教授的一篇約稿里,他指出數據的真正價值蘊含于其深加工的知識中。
從 Google 于 2012 年提出知識圖譜概念后,知識圖譜技術與大數據和機器學習等技術相結合得到迅速。肖仰華教授認為,在更多實際場合下,知識圖譜作為一種技術體系,指代大數據時代知識工程的一系列代表性技術進展的總和。
人工智能時代的到來,知識圖譜也成為了實現機器認知智能的基礎,將知識庫中的知識與問題或者數據加以關聯后的知識圖譜,可以讓機器像人腦那樣進行理解與解釋。
基于知識圖譜技術的潛在能力,業界也加快了知識圖譜的應用落地。從應用的角度來看,知識圖譜的應用趨勢越來越從通用領域走向行業領域。肖仰華教授認為,現在的局面是通用與行業應用百花齊放,各行各業都在討論適合自己的知識圖譜。
知識圖譜如何落地業界都在不斷進行摸索,在肖仰華教授看來,知識圖譜的落地除實現之外,論證與設計、運營與反饋也是不可忽視的。知識圖譜落地是個系統工程,不是單一模型能夠解決的,系統架構、流程、策略都十分重要。
當然,知識圖譜落地還需要探討更為具體的問題。比如領域知識圖譜構建時如何界定領域知識邊界?一個合格的領域知識圖譜有什么評價標準?從目前業界賣數據階段到提取出出知識之間的鴻溝有多大?知識圖譜產業有哪些已然明確的發展方向?知識圖譜近年來從理論上是不是沒有多大進步?
作為 5 月 25 日-5 月 27 日即將在杭州舉辦的 CTA 大會(官網:https://dwz.cn/iSZ7BQUR)知識圖譜論壇的演講嘉賓,AI科技大本營對肖仰華教授進行了采訪,對上述重要的指向性問題,他一一進行了詳細解答。
(肖仰華,復旦大學計算機科學與技術學院教授,博士生導師,知識工場實驗室負責人。)
以下為采訪內容實錄:
AI科技大本營:現在所稱的知識圖譜實際上是一種大規模語義網絡,這里強調的“大規模”怎么定義?是否有量化標準?
肖仰華:這里講的“大規模”并不是從數量上來衡量的,不是說數據量大一點的就叫做知識圖譜,數據量小一點的就叫做語義網絡。
我們強調知識圖譜是一種大規模語義網絡,是為了讓大家轉變思維,意識到規模上的量變會帶來了效用上的質變。同樣是構建語義網絡,知識圖譜從知識獲取到知識應用均與傳統語義網絡存在顯著區別。這種區別體現在:(1)高質量模式缺失或被有意舍棄;(2)封閉世界假設不再成立;(3)大規模自動化知識獲取成為前提。
AI科技大本營:關于知識圖譜生命周期,您特意提到如何融合知識圖譜與傳統知識表示來更充分滿足實際應用需求是值得研究的問題之一。反過來看,是否意味著目前還不存在新的比較靠譜的知識表示方法?
肖仰華:準確來說,目前并不存在大一統的一種知識表示方法,可以用來表示所有知識。所以我在之前提到的一個觀點叫做“NoKG”,也就是 Not only KG。這里是借鑒“NoSQL”的說法。
知識圖譜只是知識表示的一種,單單知識圖譜不足以表達現實世界的豐富語義,不足以解決所有問題。比如很多領域有著豐富的 if-then 規則(比如故障維修、計算機系統配置),這些規則利用知識圖譜表達就很牽強,特別是對于 if A and B then C 這樣的規則。因此,鼓勵知識表示方法“百家齊放”,什么場景下適合什么知識表示就用什么知識表示方法。
AI科技大本營:為了規避業界“為圖譜而圖譜”的現象,您認為知識圖譜應用實踐最重要的是明確要利用領域知識解決怎樣的應用問題,然后根據應用反推知識表示。但知識是網狀的,領域知識之間也存在勾連,那在做某一領域知識圖譜時如何界定知識邊界的范圍?
肖仰華:界定實際應用的知識邊界是非常困難的,這是一種定性判斷,而非定量判斷。我們可以從可行性的角度來進行界定,一般而言一個應用涉及的知識越簡單、應用越簡單就越可能實現。為了確定自己的應用是否符合知識簡單、應用簡單,可以通過以下三類問題來進行判斷:
(1)應用復雜性
Q1:是否用到常識?Q2:是否用到元知識?Q3:是否單一問題模型即可建模(比如分類或者回歸)?Q4:是否涉及長程推理?Q5:用到的知識類型是否多樣?Q6:領域專家的學習周期是否很長?Q7:是否簡單的崗位培訓就能勝任應用需求?Q8:應用是否封閉?
(2)知識復雜度
Q1:知識是否容易發生變化?Q2:是否涉及復雜過程的描述?Q3:是否涉及分支繁復的推理決策?
(3)知識資源積累
Q1:是否存在領域本體?Q2:是否存在敘詞表?Q3:是否存在領域詞典?
AI科技大本營:領域知識圖譜作為語義網絡,目前還難以表達復雜因果關聯與復雜決策過程,既然如此,業界現在做領域知識圖譜的壁壘究竟有多高?體現在哪些方面?
肖仰華:壁壘可能包括數據和場景。領域數據是一個企業的護城河,沒有大數據的企業根本玩不轉;領域場景也不像通用場景那么簡單,需要長期深耕用戶,準確理解用戶的痛點,才能更好的設計出適用于知識圖譜的場景。同時,領域應用的樣本稀疏、場景多樣、知識表示復雜等對于業界的知識圖譜技術均提出了巨大挑戰。
AI科技大本營:一個合格的領域知識圖譜有什么評價標準?
肖仰華:領域圖譜的評價標準總體而言有三個方面的指標。
(1)規模。這只是個相對的概念,一個知識庫到底需要多大的規模才能支撐實際應用,是沒有絕對答案的。需要看實際應用的反饋,也就是知識圖譜上線后的用戶滿意率。比如在利用知識圖譜支撐語義搜索方面,多少查詢能被準確理解,這個比率是個重要的指標。
(2)質量。包括以下幾個維度。一是、準確率。比如是否存在錯誤事實,錯誤事實所占比例都是質量的直接反映。二是、知識的深度。比如很多知識庫只涵蓋人物這樣的大類,無法細化到作家、音樂家、運動員這些細分類目(fine-grained concepts)。三是、知識的粒度。粒度越細應用越靈活,應用時精讀越高。細化知識表示的粒度是領域知識圖譜的構建過程中的重要任務之一。
(3)實時。絕對實時是不現實的,因而實時大都從知識的延時(latency)角度進行刻畫。短延時顯然是我們所期望的。
AI科技大本營:目前來看,知識圖譜在業界的應用似乎更偏向于領域知識圖譜( DKG),通用知識圖譜(GKG)的發展處于何種階段?業界公司做 GKG 是否必要?會不會做成像語音助手 Siri 那樣的雞肋應用?
肖仰華:目前通用知識圖譜的發展已經趨近于成熟,主要以百科類網站作為數據源進行知識抽取構建而得,技術和應用都基本固定,想有所創新比較難。業界應該把更多的精力放在構建領域知識圖譜上,領域應用的場景多樣、知識的深度更深、粒度更細,更有可能做出不是雞肋的應用。
AI科技大本營:您說“得知識者得天下”,但目前業界還處在賣數據盈利的階段,從賣數據到提取出“精純”的知識之間的鴻溝有多大?通往知識的“路徑”中,哪些屬于已經是非常明確的基礎性方向,哪些還在探索當中?
肖仰華:知識圖譜的產業形態分為三類典型形態:數據與服務、產品與系統、咨詢與解決方案。
(1) 數據與服務。各行業均對知識圖譜有著迫切需求,想建設通用或者領域知識圖譜,并將知識圖譜中的數據對外提供服務。直接的圖譜數據服務能力有限,在一些深度服務需求比較多的場景,在知識圖譜數據基礎上進一步提供認知服務。
目前大平臺類似 IBM Watson、微軟認知服務、百度大腦平臺都在嘗試知識圖譜數據與認知服務。除了通用知識圖譜之外,特定領域或者行業的知識圖譜也對數據與服務有著強烈需求。在圖書情報、出版傳媒、招聘就業、知識產權等相關領域,由于缺乏頭部企業,這為第三方平臺的存在提供了較大的發展空間,并且這些領域數據相對公開容易獲取,使得構建獨立的第三方服務平臺成為可能。
(2) 產品與系統。知識圖譜的大規模應用與產業化是需要個類成熟的產品與軟件系統支撐的,比如很多行業圖譜的建設均需要互聯網數據源的補充,這就需要大規模的分布式爬蟲系統。建好的大規模知識圖譜通常需要圖系統的管理,這就是圖數據庫系統,大量的企業或者團隊在從事相關系統的研發。
目前涉及知識獲取的產品與系統仍然有很大的發展空間。知識獲取總體上仍處在發展中階段,技術尚未定型,為其固化相應的產品形態具有一定的風險,需要予以充分考慮。
(3)咨詢與解決方案。知識圖譜知識工程是個典型的系統工程,很多時候與建筑工程十分相似,都需要論證、設計、實施、監理、驗收等各個環節。
知識圖譜落地過程中最為重要的環節不僅是實現,更需要論證與設計。因此也就給專注于知識圖譜咨詢和解決方案設計與實施的企業提供了豐富的機會。
AI科技大本營:Google 從 2012 年提出知識圖譜后,有人認為其在理論上其實沒有特別大的進步,更多是從實踐中去發現吸納了新的技術方法,您同意這種說法嗎?
肖仰華:大數據時代的到來,催生了以知識圖譜為代表的大規模知識表示,同時也為其發展奠定了必要的基礎。今天這個時代談知識工程跟 20 世紀談專家系統有什么不同?最大的不同點是我們有前所未有的大數據、前所未有的機器學習能力以及前所未有的計算能力。這三個技術的合力作用使我們可以擺脫對專家的依賴,使實現大規模自動化知識獲取成為可能,這也是大數據知識工程的根本。這一種知識獲取,本質上可以稱為自下而上的獲取。
顯然,這種數據驅動的知識獲取方式與人工構建的知識獲取方式完全不同。前者可以實現大規模自動化知識獲取,無須高昂的人力成本。相對于人工構建的知識獲取方式,數據驅動的知識獲取方式是一種典型的自下而上的做法,是相對務實、實用的做法。大數據時代所發展出來的眾包技術使得知識的規模化驗證成為可能。知識獲取的眾多環節均可以受益于眾包技術。比如,訓練知識抽取模型時可以通過眾包獲取標注樣本,從而構建有效的有監督抽取模型。
在知識圖譜技術的引領下,各種各樣的知識表示將在不損失質量的前提下逐步提升規模,從小規模的知識表示變成大規模的知識表示,最終應對大規模開放性給知識工程帶來的巨大挑戰。
AI科技大本營:談談您對知識圖譜和圖結構、深度學習結合的看法。
肖仰華:知識圖譜本質上是一種語義網絡,表達了各類實體、概念及其之間的語義關系。也就是說,它本身就具有圖結構的性質。目前主要利用其圖結構化的性質,用在知識圖譜查詢、存儲等方面。
現階段將深度學習技術應用于知識圖譜的方法較為直接,大量的深度學習模型可以有效完成端到端的實體識別、關系抽取和關系補全等任務,進而可以用來構建或豐富知識圖譜。
知識圖譜在深度學習模型中的應用主要有兩種方式。一是將知識圖譜中的語義信息輸入到深度學習模型中,將離散化知識圖譜表達為連續化的向量,從而使得知識圖譜的先驗知識能夠成為深度學習的輸入;二是利用知識作為優化目標的約束,指導深度學習模型的學習;通常是將知識圖譜中知識表達為優化目標的后驗正則項。前者的研究工作已有不少文獻,并成為當前研究熱點,知識圖譜向量表示作為重要的特征在問答以及推薦等實際任務中得到有效應用。后者的研究才剛剛起步。
但總體而言,當前的深度學習模型使用先驗知識的手段仍然十分有限,學術界在這一方向的探索上仍然面臨巨大的挑戰。這些挑戰主要體現在兩個方面:(1)如何獲取各類知識的高質量連續化表示;(2)如何在深度學習模型中融合常識知識。
-
互聯網
+關注
關注
54文章
11166瀏覽量
103460 -
機器學習
+關注
關注
66文章
8424瀏覽量
132765 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7715
原文標題:肖仰華:知識圖譜落地,不止于“實現”
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論