此文內容取自肖仰華教授在華為、CCF等場合所做報告,完整內容見書籍《知識圖譜:概念與技術》的第15章《知識圖譜實踐》。
摘要:經歷了大數據時代的洗禮,各行業積累了前所未有的海量數據。但是各行業的大數據猶如鎖在籠中的雄獅,威力難以釋放。知識圖譜為各領域提供了一種便捷的知識表達、積累與沉淀方式,為行業大數據的理解與洞察提供了豐富的背景知識。大數據驅動的行業智能化對知識圖譜這類背景知識提出了廣泛訴求。行業智能化勢必走上數據驅動與知識引領相融合的新型路徑。知識圖譜如何助力各行業智能化過程涌現出來大量的工程問題?
這些問題需要得到有效解決,需要得到深入理解。過去5-6年的落地實踐也為總結知識圖譜的最佳實踐奠定了基礎。知識圖譜落地過程中的基本原則與最佳實踐的總結已經成為了各行業圖譜落地的迫在眉睫的任務。大量的知識圖譜落地項目走在錯誤的或者曲折的道路上。本報告將結合復旦大學知識工場實驗室十多個典型知識圖譜落地項目,系統論述面向行業智能化的知識圖譜落地過程中的基本原則與最佳實踐。
1. 概述
知識圖譜技術最終需要在應用與實踐中證明其價值。與知識圖譜實踐相關的問題包括知識圖譜系統、知識圖譜工程以及知識圖譜應用與產業。知識圖譜系統是一類以知識圖譜建設與應用為核心內容的人機協作系統。知識圖譜系統的建設是知識圖譜應用的主要抓手。知識圖譜工程是以知識圖譜系統的建設與應用為基本內容的工程學科,是眾多工程學科的重要分支之一。
隨著知識圖譜技術的應用深入,越來越多的行業和企業正在積極推進知識圖譜系統的建設。為了有效支撐知識圖譜的工程實踐,一些企業推出各類知識圖譜相關的咨詢服務、解決方案、服務平臺、系統軟件、數據服務等形態各異的產品與服務。供應方與需求方,學術界與產業界共同構成了知識圖譜的產業生態。
1.1 知識圖譜應用的推動力
當前,知識圖譜的應用與實踐有著鮮明的中國特色。首先,隨著我國人口紅利消失與人力成本增長,我國的實體企業有著迫切的智能化升級與轉型需求,對知識圖譜技術的應用提出了強烈需求。傳統實體企業需要進一步解放勞動力,進一步降低人力成本。將知識賦予機器,實現簡單知識工作(只需簡單知識即可完成的工作)自動化無疑是解決方案之一。
其次,我國有著豐富的應用場景和數據基礎,使得知識圖譜在各行業的大規模應用成為可能。我國的互聯網、電信、電商、社交、出行等各行業都積累了豐富的大數據,各種面向消費者、企業、政府的應用模式齊全多樣,這些都為知識圖譜技術的規模化應用提供了富含養分的土壤。最后,中國一批頭部企業先行先試為知識圖譜在更大范圍的普及與應用起到了積極示范。我國的很多互聯網平臺以及IT企業已經建成了數個世界級平臺,這些平臺積累豐富的知識圖譜應用經驗,為知識圖譜在其他行業的普及與應用起到了良好的示范與帶動作用。
知識圖譜技術在當下中國的實踐呈現以下幾個典型特點。這些特點體現了當前的宏觀發展環境以及技術生態對于知識圖譜技術需求的迫切性。
(1)與行業智能化升級緊密結合。很多行業經過數十年的信息化建設,基本上完成數據的采集與管理的使命,為各行業智能化升級與轉型奠定了良好的基礎。對于企業而言,增加收入、降低成本、提質提效、安全保障都是其業務核心訴求。知識圖譜技術的應用是進一步滿足這些核心訴求的手段之一。
在行業智能化的實現過程中,迫切需要將行業知識賦予機器并且讓機器具備一定程度的行業認知能力,從而讓機器代替行業從業人員從事簡單知識工作。一方面,知識積累與沉淀一直是行業追求的目標。另一方面,提質提效的壓力迫使企業積極探索認知智能在企業各工種中的應用。利用知識圖譜技術,沉淀行業知識、實現簡單知識工作自動化,是當下以及未來一段時間內行業智能化的核心內容。
與行業智能化的深度融合要求知識圖譜研究與落地從通用知識圖譜轉向了領域、行業知識圖譜,轉向企業知識圖譜。領域應用的樣本稀疏、場景多樣、知識表示復雜等問題對于知識圖譜技術均提出了巨大挑戰。
(2)與機器智腦的建設深度融合。隨著我國人工智能戰略的持續推進,作為人工智能的重要分支的機器人產業迎來了發展的黃金期。其中,各種服務機器人,包括客服機器人、陪伴機器人、問診機器人、導購機器人、理財機器人等已經日益融入到人們的日常生活中。與工業機器人相比,服務機器人對機器的認知水平要求更高,而對動作能力要求相對較低。
因此,決定服務機器人服務效果的是大腦而非四肢。建設具有一定認知能力的機器智腦是服務機器人產業發展的至關重要環節,而機器智腦的重要組成部分是知識庫。機器是否具有知識并且能夠利用知識形成認知能力進而解決問題,是服務機器人更好地造福人類社會的關鍵。以知識圖譜為代表的大數據知識工程為煉就機器智腦帶來了全新機遇。未來機器智腦的演進過程也將是知識圖譜等知識庫技術不斷賦能機器人以及各類硬件終端的過程。
與機器智腦建設的深度融合要求針對智能終端與智能機器開展相應的知識工程研究,要求從多模態(語音、圖像、視頻、傳感器等)、類人化(情感、美感、倫理、道德、價值觀等)等角度進一步拓展知識圖譜的表示,深化知識圖譜的應用。
(3)與數據治理以及大數據價值變現緊密結合。很多行業和企業都有大數據,但是這些大數據非但沒有創造價值,反而成為了很多行業的負擔。阻礙大數據價值變現的根本原因在于缺少智能化的手段,具體而言是缺少一個能像人一樣能夠理解行業數據的知識引擎。行業從業人員具有相應的行業知識,才能理解行業數據進而開展行業工作。
類似地,把同樣的行業知識賦予機器,構建一個行業知識引擎,機器才可能提煉、萃取、關聯、整合數據(對應于傳統的數據治理),才可能代替人去理解、挖掘、分析、使用數據(對應于大數據的價值變現),可以代替行業從業人員挖掘數據中的價值,從而有力支撐大數據的價值變現。知識圖譜已經成為知識引擎的核心,成為大數據價值釋放的關鍵技術之一。
與數據治理以及大數據價值變現的深度融合要求進一步發展從大數據的統計關聯篩選語義關聯的有效手段,需要進一步深化元知識的表示與應用技術(以有效指導數據融合與關聯)。
1.2 知識圖譜應用與產業現狀
當前,知識圖譜應用仍然是以典型項目、典型場景的試點為主,由點及面的普及正蓄勢待發。當前知識圖譜的產業已經初具形態。知識圖譜的產業形態分為三類典型形態:數據與服務、產品與系統、咨詢與解決方案。
(1)數據與服務。知識圖譜應用的直接方式建設通用或領域知識圖譜并將知識圖譜中的數據對外提供服務。單純的圖譜數據服務能力較為有限,往往需要針對應用場景提供深度服務,特別是基于知識圖譜的認知服務。一些通用平臺包括IBM Watson、微軟認知服務、百度大腦等都在嘗試提供基于知識圖譜數據與認知服務。
除了通用知識圖譜之外,特定領域或者行業知識圖譜也對數據與認知服務有著強烈需求。在圖書情報、出版傳媒、招聘就業、知識產權等相關領域,缺乏頭部企業,第三方平臺發展空間較大。并且這些領域數據相對公開、容易獲取,使得構建獨立的第三方服務平臺成為可能。
(2)產品與系統。知識圖譜的大規模應用與產業化是需要各類成熟的產品與軟件系統支撐的。比如很多行業圖譜的建設需要互聯網數據源的補充,這就需要大規模的分布式爬蟲系統。建好的大規模知識圖譜通常需要借助圖數據管理系統的管理。大量的企業或者團隊在從事相關系統的研發。目前涉及知識獲取的產品與系統仍然有很大的發展空間。知識獲取技術總體上仍在持續發展,技術尚未定型,為其固化相應的產品形態具有一定的難度。
(3)咨詢與解決方案。知識圖譜建設是個典型的系統工程,與建筑工程十分相似,都需要論證、設計、實施、監理、驗收等各個環節。知識圖譜落地過程中最為重要的環節不是實現,而是論證與設計,這就給專注于知識圖譜咨詢和解決方案設計與實施的企業提供了豐富的機會。
這一現狀的原因有以下幾點:第一、對于很多行業的頭部企業而言,企業知識資源建設是自身升級與轉型的命脈。命脈是不可能假手于他人,企業會牢牢掌握系統建設的主動權與控制權。而咨詢恰是一種企業具有完全控制的權利又能引入外部智力資源增強建設能力的方式。第二、知識圖譜技術發展到成熟階段尚需時日,因此,標品化的服務與產品仍然稀缺,在這樣的階段,咨詢與定制化的解決化方案自然更容易落地,更容易滿足用戶需求。
知識圖譜產業的三種形態已經出現并迅速發展。知識圖譜技術在2018年8月首次進入了國際知名咨詢公司Gartner的技術成熟度曲線。如圖1所示,知識圖譜技術正處在技術成熟度曲線的上升階段。Gartner預期知識圖譜將成在未來5-10年內逐步成熟。這種關注很大程度上是由知識圖譜的應用與產業的發展而推動的。伴隨著行業智能化轉型、簡單知識工作自動化、機器智腦的發展、感知智能產業的升級等一系列進程的推進,知識圖譜技術的應用與產業化將迎來一波熱潮。
圖1 知識圖譜技術成熟曲線
1.3 知識圖譜實踐的系統工程觀念
知識圖譜實踐是一種典型的大規模知識工程,是典型的系統工程,在實踐過程中應該堅持系統觀與工程觀。
(1)工程觀。所謂知識圖譜的工程觀,是指利用數學和科學原理提出解決實際問題的有效方案的觀念。基礎的自然學科的認識世界為基本使命,而工程學科旨在改造世界。然而工程師們改造世界的過程本身就是通過實踐來認識世界的過程。因而工程與科學又是密切相關的。
特別是隨著人工智能的發展,我們有機會通過構建具有人類水平的智能機器這樣一種具體實踐去回答“我們從哪里來,又將去往何方”等一系列終極問題。具體到知識圖譜,作為一類大規模知識工程,其當下的重要使命在于解決各行業智能化升級轉型過程中涌現的一系列實際問題。能否解決這些問題,如何解決這些問題,是擺在知識工程研究者和實踐者面前迫切需要回答的問題。
工程觀勢必要求實踐者具備優化問題的求解思路。工程中的大部分問題是受資源約束的最優化問題。任何知識圖譜實踐所能投入的資源(人力、資金、數據)總是有限的,然而實際問題的解決卻又是迫切的。因而,工程實踐往往需要利用這些有限資源提出最優方案。明確優化問題中的約束、建立合理的優化目標、提出廉價的方案是解決優化問題的關鍵。
例如在知識圖譜建設中,目標圖譜的規模、粒度、精度都是優化目標需要考慮的因素,有多少人力(特別是專家)、有多少數據往往都是約束。過于宏大、不切實際的目標容易造成巨大困難。有文獻[1]指出,手動構建知識圖譜,每個三元組的成本大約在 2 到 6 美元左右,自動構建成本降低 15 到 250 倍,即便如此每個三元組仍需消耗 1 美分到 15 美分的成本。因此,在知識圖譜相關的工程實踐中需要注重優化問題,注意實際約束。
知識圖譜的工程觀要強調實踐的重要性。知識工程提出之初就注重從實踐中總結知識工程的關鍵問題,并發展必要的理論以進一步指導工程實踐。工程實踐與理論研究是相輔相成的,不是對立的。質能轉換、航空動力學等等從理論到成熟的實踐經歷了數十年的時間。
在人工智能的理論研究與工程實踐中,實踐絕不是從屬地位。“知行合一”是中國人追求的理想境界,“知”往往走在“行”之前。但是人工智能的研究與實踐不同,“行”更多地走在“知”之前。當下技術的進步有加速發展的趨勢,但理論研究的速度仍然保持原有速度,已經難以跟上技術發展的需求。技術的快速發展反過來要求,理論總結必須提速以適應技術發展的快速需要。
(2)系統觀。系統觀認為現實世界的大部分復雜系統都是由相互作用、相互依賴的若干組成部分結合而成的具有特定功能的有機整體。知識圖譜系統組件眾多、涉及要素多樣、人機協作復雜,是一類典型的復雜系統。明確知識圖譜系統的組成及其之間的相互關系是十分重要的。
相比較而言,知識圖譜的部分組件的實現,比如實體識別或者關系抽取,其效果取決于一兩個關鍵模型。但是,知識圖譜作為系統的整體不是若干組件的簡單組合,而是復雜策略指引下的有機組合。比如,在當前NLP仍然不能有效完成抽取任務時,能否充分利用各類資源、能否有效利用已經積累的業務知識、能否有效利用人力因素進行驗證或者標注,均對這一問題有著顯著影響。
作為一個復雜系統,知識圖譜系統具有涌現性、交互性以及演化性等鮮明特征。系統的涌現性是指系統在整體上體現出其各組成簡單組合所不具備的特性,也就是1+1>2的特性。這一點對于如何在當前NLP技術不成熟的前提下實現知識工程成功落地具有積極意義。很多知識工程在某些場景下要求極高,比如智能醫療系統,有著近乎100%準確率的要求。
雖然每個獨立的NLP模型都難以達到完美的要求,但是各種模型經由各種策略組合在一起(比如人機協同策略)則有可能達到這一苛刻要求。知識圖譜系統與外部數據與應用之間存在著復雜的交互,是個動態開放的系統。隨著環境的變化,應用需求與數據都會發生變化,從而要求知識圖譜系統作出相應調整。知識圖譜系統的動態與演化仍然是個開放問題。
知識圖譜作為大規模知識工程,與傳統知識工程也存在著本質差別。當下的大數據知識工程是以知識的規模化表示與應用為其核心標志的。這決定了大數據知識工程是以大規模自動化知識獲取為其根本立足點的。自動化知識獲取勢必要求降低對于專家的依賴。受限于當前人工智能總體發展水平,高度自動化、少量人干預勢必要以降低知識的描述精度為代價的。而知識描述能力的降低,又進一步削弱了相應的推理能力。大規模的互聯網應用催生了知識圖譜這樣的知識表示。
知識圖譜通過二元語義關聯作為其知識表示的核心,具有簡單普適以及適合從數據中高度自動化獲取等優點,但也有表達能力較弱的缺點。目前,得以成功應用的知識圖譜推理往往都是基于上下位關系的簡單推理。但是對于傳統知識工程,推理引擎、解釋構件等等都是專家系統的重要組成部分[2]。如何兼具規模與效用(知識表示與知識推理的能力)仍然是知識圖譜有待進一步深入的研究問題。
1.4 知識圖譜助力行業智能化的演進路徑
如前文所述,知識圖譜日益承擔起助力行業智能化的使命。探索基于知識圖譜的行業智能化演進路徑因而十分關鍵。經過多年實踐,這一路徑日漸清晰,呈現出知識資源建設與知識應用迭代式發展模式,如圖2所示。
在每一輪迭代周期,優先選擇預期效果較好的應用場景,建設以知識圖譜為核心的知識資源,并開展相應的知識應用。再根據來自內外部用戶的反饋,完善相應的應用與知識資源建設。當特定應用初現成效之后,再從有限的應用逐步拓展到更多的應用場景,建設更多的知識資源。整個過程持續迭代下去,直至完成行業或者企業全面的智能化。
采取由點及面的迭代式螺旋發展模式的根本原因有幾點。首先、完整的知識資源建設是一個十分艱巨的任務。知識資源建設任重道遠,很難一蹴而就。任何一個普通人所掌握的知識都可以說是無邊無界的。當前所構建的知識庫離機器達到普通人認知世界所需要的知識水平還十分遙遠。
知識資源建設必定是一個持續完善的過程,很難畢其功于一役。所以,應當謹慎選擇應用痛點,構建滿足應用場景需要的相應知識資源。知識資源建設的基本原則是適度。“適”是指對于特定應用場景的適配,“度”是指合理把控知識的邊界與體量。其次,行業與企業的發展環境變化迅速,一成不變的知識庫是難以適應快速變化的外部環境的。
圖2知識圖譜助力行業智能化的演進路徑
2.知識圖譜系統
知識圖譜技術的落地與實踐以知識圖譜系統的建設、實施與運營為主要內容。知識圖譜系統是一類以知識圖譜建設與應用為核心內容的人機協作系統。本節對知識圖譜系統的外部環境、系統要素以及基本架構展開介紹。
2.1 知識圖譜系統的外部環境
作為一類大規模復雜系統,知識圖譜系統是作為企業更為龐大的信息系統或智能系統的一部分。與傳統的信息系統相比較,知識圖譜構建與應用是知識圖譜系統的基本標志。在當前企業信息化與智能化建設過程中,知識圖譜系統對于其他信息系統,起到了助推與賦能的作用,而不是代替。各類管理信息系統(比如企業的財務、人事管理信息系統)以及智能信息系統(比如智能門禁系統、商務智能系統)有其自身存在的不可代替的價值。
沒有這些系統積累的數據與業務知識,知識圖譜系統是建設難以成功。知識圖譜系統給其他信息系統帶來認知能力,這種能力體現為一系列具體的認知服務。知識圖譜系統賦能其他信息系統這種關系決定了知識圖譜建設不是“大破大立”式的另起爐灶與重新建設,而是“和風細雨”式的柔性改造與能力升級。知識圖譜與企業其他信息系統之間的關系如圖3所示。
圖3知識圖譜系統與其他業務系統之間的關系
隨著知識圖譜在領域與企業應用的普及,知識圖譜日益占據向上支撐應用、向下統攝數據的核心地位。如圖4所示,在一個典型的企業知識圖譜系統中,知識圖譜與數據之間的關系是雙向的。一方面各業務系統的數據是知識圖譜構建的知識來源。另一方面,知識圖譜中的關聯關系也為各業務數據的關聯與融合提供了支撐,使得自主普適的數據關聯成為可能,例如ID與身份證之間的同義關系可以指導相應字段的映射。
知識圖譜系統與應用之間的關系也是雙向的。一方面知識圖譜系統的各類認知服務支撐企業的各種典型應用的智能化升級。另一方面,各類應用為知識圖譜系統提供反饋。這里的反饋包含兩個主要內容,一是對認知服務能力的效果的反饋,二是對于知識圖譜中的知識質量的反饋。在很多大型企業中,由于業務多元、服務多樣,對于技術與服務的平臺化提出了訴求。越來越多的技術中臺與業務中臺的建設被提上了議事日程。隨著智能化技術的推進,中臺的智能化已經成為鮮明趨勢。知識圖譜向上支撐應用、向下統攝數據的這一核心地位,決定了知識圖譜系統將成為未來智能化中臺的核心引擎。
圖4 知識圖譜系統向上支撐應用、向下統攝數據的核心地位
2.2 知識圖譜系統關鍵要素
知識圖譜系統的核心要素包括人、算法與數據。三者相互影響、密不可分,共同構成了知識圖譜系統的堅實基礎。算法需要人定義特征、選擇模型;算法需要標注數據;數據來自人的活動,來自人的標注;算法的結果支撐人的行為與決策。
圖5 知識圖譜系統的三個要素
這里的人是指知識圖譜系統的各類人類角色。人是知識圖譜系統的發起者、設計者、實施者與評價者,是知識圖譜系統的核心。知識圖譜中的人員涉及眾多角色,按照知識圖譜系統生命周期的三個主要階段可以分為幾類角色。
(1)在分析與論證階段,需要領域專家與知識圖譜系統工程師共同開展需求分析,論述知識圖譜系統建設的必要性與可行性。必要性從應用需求的迫切性與業務價值等角度進行評判。可行性從數據資源稟賦、應用要求以及知識表示的復雜程度等角度來評估,并進一步合理規劃知識圖譜系統建設所需要的數據資源、人員投入以及成本投入等等。(2)在設計與實施階段,需要各類工程師完成數據治理、知識加工、算法設計以及樣本標注等各環節的任務。(3)在運營與評價階段,需要運維工程師對于知識圖譜系統進行長期運維,需要用戶對系統實施效果加以評價。
圖6 知識圖譜系統的人員角色
這里的數據是特指作為知識圖譜知識來源的數據。數據是符號化的記錄,數據經過知識加工而成為知識,知識是數據的結晶。知識圖譜作為的大數據知識工程代表,能否實現自動化知識獲取是關鍵。而自動化知識獲取的前提是數據。
知識圖譜系統所使用的數據類型眾多,可以是事實數據、也可以是元數據(關于數據的數據);可以按照模態分為關系數據、文本數據、多媒體數據;也按照業務類型數據分為人事、財務、物料等各類數據;還可以按照來源分為內部數據與外部數據。外部數據可以分為百科數據、Web數據、社交媒體、新聞媒體數據、企業內部業務數據等等;從業務知識的來源角度可以分為領域本體、敘詞表、領域百科、企業社區等數據。
大數據的一個基本特點在于其多樣性(Variety)。知識圖譜的來源同樣是多樣的,這對大規模知識加工提出可巨大挑戰。大規模知識工程需要應對來源不同、模式異構的數據自動加工整理成為知識的巨大復雜性。面向不同類型、不同來源的數據,知識獲取、知識驗證等算法都需要定制。因此,大規模自動化知識獲取在數據處理層面就面臨著的巨大挑戰。
這里的算法是對于知識圖譜系統整個生命周期中涉及的自動化計算過程、模型、策略的總稱。知識圖譜構建、管理與應用等各個環節均涉及大量算法。知識構建環節包括知識的獲取模型、知識的融合策略、知識的驗證機制以及知識的評估方法。知識管理環節,涉及知識圖譜的存儲模型、組織方法、索引方式、查詢模型、檢索方法等等。知識應用環節,涉及基于知識圖譜的語言理解模型、語義搜索模型、智能推薦模型、自然語言問答模型、面向知識圖譜的推理機制與解釋方法等等。
2.3 知識圖譜系統的典型架構
知識圖譜系統接受外部數據作為輸入,歷經數據處理、知識加工、知識管理和認知服務,最終為各種場景下的應用提供認知服務能力。其基本過程如圖7所示。數據處理層接受原始數據作為輸入,經過數據處理形成高質量的數據。高質量的數據進入知識加工層,經過各種知識加工工序生成高質量的知識圖譜。大規模高質量的知識圖譜是知識管理層的主要管理對象。知識管理層提供知識圖譜的存儲、索引與檢索能力。這些基本的知識訪問能力進一步支撐基于知識圖譜的認知服務實現。
圖7 知識圖譜系統的主要流程
(1)數據處理層
如圖8所示,數據處理層主要包括數據甄別、數據清洗、數據轉換和數據融合等步驟。數據甄別旨在明確建立領域知識圖譜的數據來源。可能來自互聯網上的領域百科爬取,可能來自通用百科圖譜的導出,可能來自內部業務數據的轉換,也可能來自外部業務系統的導入。應該盡量選擇結構化程度相對較高、質量較好的數據源,以盡可能降低知識獲取代價。
不同來源有著不同的質量,需要不同的數據加工方式。數據清洗、數據轉換與數據融合等步驟與傳統構建數據倉庫所需要的數據處理相類似。數據清洗是對數據中的噪音,特別是來自互聯網的錯誤、虛假等信息進行清洗,對表示不規范的數據進行統一與規范化。數據轉換將不同形式、不同格式的數據轉換成統一的表達形式。數據融合是針對不同來源的數據在數據層面進行融合。這里的數據融合與后續的知識融合有相似之處,也有不同之處。后續的知識融合是在識別了實體、屬性等知識要素之后完成的。而此處的數據融合是字段、元組等層次的融合,數據或信息還未匯聚到實體上。
圖8 數據處理層的主要流程
(2)知識加工層
知識加工層是整個知識圖譜系統的核心。它接受數據處理層形成的高質量數據作為輸入,輸出高質量的知識圖譜。如圖9所示,知識加工的核心有三步:知識表示+知識獲取+知識驗證。知識表示旨在明確應用所需的知識表示形式。知識獲取在相應的知識表示框架下獲取相應的知識實例。知識驗證對獲取的知識質量展開驗證。當存在多個數據來源時,往往還需要知識融合針對不同來源的數據所獲取的知識進行融合。質量提升可以作為單獨的環節,也可以融于知識獲取的具體實現中。因此,知識融合與質量提升都是可選的模塊。
圖9給出了知識加工在領域與企業應用中的具體步驟。在領域知識圖譜應用中,知識表示體現為模式設計,知識獲取通常包含詞匯挖掘、實體發現、關系發現等三個主要內容。整個流程中的關鍵模塊分別介紹如下:
1、模式設計。這一步與傳統的本體設計極為相似。基本目標是把認知領域的基本框架賦予機器。內容包括指定領域的基本概念,以及概念之間subclassof關系(比如足球領域需要建立“足球運動員”是“運動員”的子類);明確領域的基本屬性;明確屬性的適用概念;明確屬性值的類別或者范圍。比如“效力球隊”這個屬性一般是定義在足球運動員這個概念上,其合理取值是一個球隊。
此外,領域還需定義約束或規則,比如部分屬性具有單值約束(比如每個實體“出生日期”的取值單一),還有些屬性對是互逆的(比如球隊的“隸屬球員”屬性與球員的“效力球隊”互逆)。這些元數據對于消除知識庫不一致、提升知識庫質量具有重要意義。
2、詞匯挖掘。人們從事某個行業的知識的學習,都是從該行業的基本詞匯開始的。在傳統圖書情報學領域,領域知識的積累往往是從敘詞表的構建開始的。敘詞表里涵蓋的大都是領域的主題詞,及這些詞匯之間的基本語義關聯。這一步需要識別領域的高質量詞匯、同義詞、縮寫詞,以及領域的常見情感詞。比如在政治領域,需要知道特朗普又被稱為“川普”,其英文簡稱為Trump。
3、實體發現。需要指出的是領域詞匯只是識別出領域中的重要短語和詞匯,但是這些短語未必是一個領域實體。從領域文本識別某個領域常見實體是理解領域文本和數據的關鍵一步。在實體識別后,還需對實體進行歸類。能否把實體歸到相應的類別(或者說將某個實體與領域類別或概念進行關聯),是實體歸類的基本目標,是理解實體的關鍵步驟。比如將特朗普歸類到政治人物、美國總統等類別,對于理解特朗普的含義具有重要意義。
4、關系發現。關系發現或者知識庫中的關系實例填充,是整個領域知識圖譜構建的重要步驟。關系發現根據不同的問題模型又可以分為關系分類、關系抽取和開放關系抽取等不同變種。關系分類旨在將給定的實體對分類到某個已知關系;關系抽取旨在從文本中抽取某個實體對的具體關系;開放關系抽取(OpenIE)從文本中抽取出實體對之間的關系描述。也可以綜合使用這幾種模型與方法,比如根據開放關系抽取得到的關系描述將實體對分類到知識庫中的已知關系。
5、知識融合。因為知識抽取來源多樣,不同的來源得到的知識不盡相同,這就對知識融合提出了需求。知識融合需要完成實體對齊、屬性融合、值規范化等步驟。實體對齊是識別不同來源的同一實體。屬性融合是識別同一屬性的不同描述。不同來源的數據值通常有不同的格式、不同的單位或者不同的描述形式。比如日期有數十種表達方式,這些需要規范化到統一格式。
6、質量提升。知識圖譜的質量是構建的核心問題。作為大規模知識表示,數據驅動的構建方式是當前知識圖譜的基本特點。語料的偏置(bias)以及自動化方法的錯誤勢必導致知識圖譜的質量問題:缺漏、錯誤、陳舊。因此需要對知識圖譜進行補全、糾錯和更新。質量提升對于大規模知識圖譜的建設是不可或缺的。
7、知識驗證。知識驗證是對知識圖譜的質量最后把關。仍然需要由人來完成最終的驗證。對于數以億計的大規模圖譜,全量驗證代價極大,通常通過抽樣完成驗證。也可以通過眾包方式將驗證任務分發給眾包工人由眾包工人完成驗證。在人工驗證環節,待驗證知識的組織(比如分組、排序等方式)對驗證效率有著極大的影響,往往需要予以充分考慮。總體而言,知識驗證還有待從心理學、人機交互等多學科角度深入研究這一問題。
經歷了上述步驟之后得到一個初步的領域知識圖譜。在實際應用中會得到不少反饋,這些反饋作為輸入進一步指導上述流程的完善,從而形成閉環。此外,除了上述自動化構建的閉環流程,還應充分考慮人工的干預。人工補充很多時候是行之有效的方法。比如一旦發現部分知識缺漏或陳舊,可以通過特定的知識編輯工具實現知識的添加、刪除和修改。也可以利用眾包手段將很多知識獲取任務分發下去。
圖9 知識加工層的的主要流程與關鍵模塊
(3)認知服務層
認知服務層是基于知識圖譜提供認知能力,包括語言理解和認知服務兩類基本能力以及推理引擎這一核心模塊,其典型架構如圖15.10所示。在語言理解層次,提供從自然語言到知識圖譜中的知識要素的映射,包括實體理解(實體鏈接)、概念理解(概念識別)、屬性理解、主題理解(主題識別)等。在有些應用中需要將自然語言映射到事件描述框架,因此還需要開展框架映射。
基于語言理解的基本能力,形成認知服務,包括語義搜索、智能推薦、問答交互以及解釋生成。這些認知服務都是基于知識圖譜所形成的。比如知識圖譜中的實體與概念可以幫助識別搜索中的實體或概念,從而有助于搜索的意圖識別。
在概念圖譜支撐下,可以實現基于上下位關系的推薦,比如搜索iPhone X,通過其上位詞高端手機推薦華為P20等。問答交互主要實現基于知識圖譜的問答。其中,問題理解、屬性匹配、會話引導與答案生成都可以利用知識圖譜的知識。隨著可解釋需求日益增多,為機器決策生成解釋日益重要。比如從知識圖譜中找到關聯路徑解釋實體對之間的關系(對應路徑發現);為一個待解釋問題匹配相應的知識圖譜子圖等等(對應解釋匹配)。
圖10 認知服務層的主要架構
此外,在整個認知服務的實現過程中,推理引擎的實現也是十分重要的,推理某種意義上是符號知識存在的最為獨特的價值。知識圖譜上推理引擎的實現可以彌補知識的缺失,提升系統的智能程度。
知識圖譜上的推理有幾種主要的實現方式。第一、另行定義規則,以知識圖譜作為基本事實,開展推理。比如通過定義“父親的父親是爺爺”這樣的規則,就可以從“A的父親是B,B的父親是C”,推理出“C是A的爺爺”。第二、基于知識圖譜的分布式推理。隨著深度學習的流行,基于知識圖譜的向量表示成為知識圖譜中實體與關系重要表示方式。給定實體h與t的向量表示(比如h,t),如果向量h,t的距離足夠相近,則推斷h與t語義相近。第三、基于知識圖譜上的顯式推理。這種推理方式將知識圖譜建模為異構信息網絡,當兩個實體h與t在知識圖譜之間存在多條可達路徑,且路徑上的語義關聯強度足夠大,則推斷h與t語義相近。
顯然基于圖模型的顯式推理可解釋。事實上不難利用顯式推理所找到的路徑作為特征,訓練學習知識圖譜的向量表示。在實際的應用中,往往是多種推理機制并存,最后通過特定協同機制完成最終推理。比如往往先用分布式推理進行粗篩選,再利用顯式推理和基于規則的推理生成可解釋結果,并將最終推理結果呈現給終端用戶。
(4)知識管理層
知識管理層旨在實現知識圖譜數據的有效管理和高效訪問,其主要模塊如圖11所示。知識圖譜的管理涉及知識圖譜的建模、存儲、索引和查詢。在建模部分明確知識圖譜的數據結構。存儲部分完成知識圖譜在磁盤或者分布式環境下的存儲與組織方式。為了加速大規模知識圖譜上的查詢通常需要建立相應的索引結構,包括基于子結構的索引和關鍵字索引。最終基于這些索引方式實現各類查詢,包括特定子圖結構的查詢(比如路徑、社區、一般子圖等等)和關鍵字查詢。
圖11 知識管理層的主流模塊
3.知識圖譜工程
知識圖譜系統的建設是個系統工程,需要謹慎論證、詳盡規劃、有序推進、持續運營以及全面保障,這些都必須付諸工程實踐才能實現。知識圖譜工程是以知識圖譜系統的建設為核心內容的一類工程實踐。本章首先介紹知識圖譜工程開展的基本原則,再介紹知識圖譜工程的過程模型、可行性分析以及實踐建議。
3.1 基本原則
知識圖譜工程實踐過程中呈現出一些普適的基本原則。堅持這些基本原則是保障知識圖譜工程順利實施的前提。
(1)合理定位。為知識圖譜項目設定合理的定位目標十分重要。期望過高,或者期望明顯高于當前技術水平會帶來不良后果。我們首先必須心懷敬畏。人類的智能是通過數百萬年進化而成的。即便當前技術進步日新月異,要在有限的數十年內讓機器完全達到人類的認知水平仍然是個足夠偉大的目標。任何一個普通人在知識方面所具有的智能,都是當前機器所無法企及的。
以當前的技術水平,代替專家助理的工作是個合適的目標,代替領域專家的工作仍然十分困難。專家的很多知識是隱性的,難以言明的,難以外化的。專家之所以為專家,是需要經年累月的學習與訓練。專家所積累的不單單是簡單的關聯事實,更涉及思維方式、場景適配、異常處理等知識。
這里涉及大量的元知識(meta-knowledge,也就是有關知識的知識)、涉及大量難以有效表示的知識。這些都是當前機器難以代替的。而專家助理的工作則相對簡單,是規則性的簡單知識工作,比如查找文件、整理文檔、收發郵件等等,普通人只需要具備簡單的詞匯知識與基本事實即可勝任,是有可能率先在實際應用場景取得成效的。
(2)應用牽引。應用牽引的發展思路是與平臺支撐的思路相對而言的。前者從應用出發,明確技術需求。后者從技術能力與平臺出發去適配應用。在互聯網飛速發展的時代,平臺化思維成就了一批優秀的企業。平臺型模式一般較為簡單,因而可以規模化。
以淘寶這類B2C平臺為例,店家與消費以及平臺之間的關系明確,業務模式簡單且具有同質化,這就為技術與業務的平臺化提供了可能。但是當前人工智能的發展多以場景化應用為主。基于知識圖譜的認知智能還沒發展到普適、通用智能的階段。不同應用,不同場景所需要的知識表示不同、知識獲取手段不同、數據資源稟賦不同,這都決定了知識圖譜技術平臺化發展的異常艱難。
(3)循序漸進。一顆蘋果樹上的蘋果不可能同時成熟。此時,最簡單的策略就是先摘成熟的果子,坐等其他蘋果自然成熟再行采摘。同樣,知識圖譜技術體系復雜多樣,包括知識表示、知識抽取、知識融合、知識推理、知識存儲和知識檢索等。每類關鍵技術的成熟度不同,有的已進入實用化階段,有的仍處于學術研究階段。
一個產業的發展歷程通常呈現出是部分技術先成熟再逐步帶動相關技術發展的特點。整個產業技術的成熟是需要經過漫長的發展周期的。企圖速戰速決、畢其功于一役是不現實的。知識圖譜各項技術成熟程度不均衡是當前知識圖譜產業實踐的基本情形。大部分技術仍然停留在只能在特定測試集上取得一定效果,還難以在廣泛而多樣數據上取得穩定效果。具有較高產業成熟度的技術還不多。
(4)先簡后難。在知識圖譜的整個技術棧中,仍然存在一些瓶頸性難題,比如從文本中的知識獲取仍然面臨不少困難,落地困難重重。即便是一個簡單的中文分詞任務仍然需要大量的研究工作,比如對短語“南京市長江大橋”進行分詞,可以是“南京市+長江大橋”,也可以是“南京市長+江大橋”,準確的分詞有賴上下文語義的準確理解。
因此,實際落地過程應遵循先簡后難的原則:先從結構化程度高的數據中抽取出易于獲得的語言知識(如敘詞表、上下位概念),再從半結構化數據中抽取出世界知識(如<劉德華,職業,演員>),進而總結出業務知識(比如,體溫達到39度可能感冒了),最后再處理決策知識.
(5)由粗到細。知識表示是有粒度粗細之分的。比如在司法知識表示方面,某個法律條款(比如“機動車變道,應打開相應的變道指示燈”)可作為合適的知識表示粒度,也可以進一步細化為條件(機動車變道)與結果(打開相應的變道指示燈)。條件部分的知識表示還可以進一步細分為實體(機動車)與動作(變道),顯然粒度越細表達越精準。
但是知識獲取的難度也越大,知識的不確定性也越強。比如在概念圖譜中,實例的概念歸屬往往隨著概念粒度的變細而變得越加不確定。例如,堡是個食物幾乎沒有人會有異議,但若說漢堡是個健康食物,則可能會有人反對。因此,知識資源的建設應該遵循由粗到精,逐步求精的基本原則。
(6)求同存異。知識是人們認知世界的結果。不同的認知主體對于同一個世界的認識是有差異的,知識因而具有主觀性。在當前階段去深究知識的主觀性問題可能十分困難。知識的主觀性差異往往是細微的。不同人對于“高個子”到底多高會有量上的細微差別,但是沒有人會認為2.2米還不是高個子。
因此,比較務實的作法是求同存異,擱置爭議。隨著系統的上線,用戶反饋數據日益增多,有爭議的事實,可以使用數據驅動的方法來加以界定。比如對于搜索“矮個子NBA球星”,如果大部分用戶在這一搜索關鍵詞下,點擊的球星都在1.8米以下,那么1.8米以下對于NBA球星而言或許就是矮個子。知識圖譜落地中,應該暫且擱置爭議,先解決容易解決的問題,剩下的問題在時機成熟時或許就自然能夠解決。
(7)人機協同。當前知識圖譜的落地,需要機器和人,二者缺一不可。傳統知識工程對于人有著較強的依賴,限制了知識庫的規模與效用;大數據知識工程強調數據驅動的知識獲取,依賴機器實現自動化知識獲取。但是當前的知識獲取自動化仍然需要人的干預,人在環中仍是常態。
當前的人工智能總體上是人類指導下的智能(Human supervised AI),機器智能在以下幾點需要人類的指導。機器需要人類特別是領域專家賦予機器以認知世界、認知特定領域的基本概念框架,比如領域本體或者領域模式的定義。其次,機器需要人類標注樣本、反饋結果。一個詞匯是否是合適的領域詞匯。一幅病理圖片是否指征相應的病變,這些都需要有著深刻的業務知識才能完成。因此,人機協同時知識圖譜工程推進的基本原則之一。
圖12 人在環中的人工智能發展模式
(8) 快速啟動。很多行業或者企業在開展知識圖譜項目時,或多或少已經存在很多相關知識資源,比如領域本體、敘詞表等等。互聯網上的公開來源也存在不少相關的百科資源,通用百科圖譜已經涵蓋了某個領域大量的實體。這些知識資源往往消耗了巨大人工成本經過多年持續積累而得,是相關知識圖譜構建的寶貴財富。充分利用這些資源,提高領域知識圖譜構建的起點,是知識圖譜項目成功落地的關鍵思路之一。
知識資源建設有個很有意思的現象,那就是從無到有的構建代價要顯著高于在不完善的知識庫上的完善代價。此外,跨領域遷移也是降低構建成本的重要思路,因為相近領域的知識是可以復用的,比如在給中國移動建設知識圖譜時可以借鑒中國電信的知識圖譜。這個原則也意味著知識圖譜落地過程中,將來會涌現出一大批面向特定行業提供知識圖譜解決方案的企業。因此,復用是知識資源建設的重要策略之一。
3.2 過程模型
知識圖譜工程的生命周期包含三個主要階段:分析與論證、設計與實施以及運營與評價。每個階段作為后續階段的輸入。三個階段相繼完成后,整個工程過程進入下一輪,如此循環往復、迭代進行,直至實現智能化。
(1)分析與論證。這一階段的基本目標是明確知識圖譜的應用目標,分析知識圖譜的業務價值,論證知識圖譜項目上線的必要性;對所設定目標所涉及的數據資源、人員投入、資金投入等角度作出可行性評估,以及投資收益分析;對于整個知識圖譜工程項目的進行規劃。
(2)設計與實施。對知識圖譜系統相關的數據庫、數據流程、系統架構、關鍵算法、系統選型等等進行設計,制定詳細的設計方案;進行代碼開發,實現相關算法;集成相關系統,完成系統上線。
(3)運營與評價。知識圖譜工程是一種典型的智能化工程。智能化相關的系統在建設完成后,仍然要經歷多輪運營與優化。在每一輪迭代,獲取用戶的使用日志、評估反饋是十分關鍵的。這些反饋與日志是是下一輪建設或優化的輸入,知識圖譜工程持續演進的重要依據。
圖13 知識圖譜工程過程演進模型
知識圖譜系統的設計與實施環節從知識的加工流程角度來看包含四個重要環節:知識表示、知識獲取、知識管理與知識應用。這四個環節循環迭代。
知識應用環節明確應用場景,明確知識的應用方式。知識表示定義了領域的基本認知框架,明確領域有哪些基本的概念,概念之間有哪些基本的語義關聯。比如企業家與企業之間的關系可以是創始人關系,這是認知企業領域的基本知識。知識表示只提供機器認知的基本骨架,還要通過知識獲取環節來充實大量知識實例。比如喬布斯是個企業家,蘋果公司是家企業,喬布斯與蘋果公司就是“企業家-創始人-企業”這個關系的一個具體實例。
知識實例獲取完成之后,就是知識管理。這個環節將知識加以存儲與索引,并為上層應用提供高效的檢索與查詢方式,實現高效的知識訪問。四個環節環環相扣,彼此構成相鄰環節的輸入與輸出。在知識的具體應用過程中,會不斷得到用戶的反饋,這些反饋會對知識表示、獲取與管理提出新的要求,因此整個生命周期會不斷迭代持續演進下去。
3.3 可行性分析
知識圖譜技術仍然是發展中的技術,很多技術還不成熟,因此做好可行性分析十分重要。知識圖譜落地的可行性與以下幾個因素關系密切。
(1)是否是封閉應用。封閉的對立面就是開放。所謂開放性是指無法預期可能發生的事態,從而無法有效預設先驗規則。換言之,在開放環境中,機器很容易碰到無法合理處理的情形,因為這些情形沒有被定義過、沒有被描述過,使得機器無所適從。開放性問題是知識工程乃至整個人工智能的根本難題。它與一系列我們經常提及的人工智能難題諸如常識理解、小樣本學習、元學習都有著密切關系。開放性難題是帶來一次次人工智能寒冬的“罪魁禍首”。
開放性難題對于知識工程的挑戰體現在知識的需求難以閉合。也就是說,實際應用所需要的知識中往往會超出領域所預先設定的知識邊界。比如在金融知識圖譜落地過程中,單單涵蓋公司、法人、機構、產品這些核心往往不足以支撐智能應用。基于金融知識圖譜的關聯分析往往會牽扯出幾乎萬事萬物。比如,諸如龍卷風等氣候災害,會使得農作物產量下降,農業機械的出貨量因而就會下降,農機的發動機產量也就相應要下降,從事農機發動機關鍵部件生產的公司業績就會下降,相關公司的股票可能就會下跌。
事實上,一切實體都身處在一個復雜的因果網絡中,世界是普遍關聯的。這就導致沿著任何一個實體開展關聯分析都極為容易超出預先設定的知識邊界。因此,行業應用中的知識需求難以封閉于領域知識的邊界范圍內。而傳統知識工程成功應用的場景,比如計算機系統配置、數學定理證明,都是相對封閉的應用。在幾何定理的證明中不會用到推理規則之外的任何知識。
(2)是否涉及常識。越少涉及常識,越容易成功。常識是我們每個人都知道無需言明即可理解的知識。常識獲取與理解是通用人工智能實現的關鍵基礎問題。常識難以建模、難以獲取、機制不明等問題對大規模常識獲取與理解提出了嚴峻挑戰。首先、常識難以建模。我們都知道太陽從東邊升起,人是兩條腿走路的,魚是在水里游的,這些都是常識,但是如何嚴格界定則十分困難。至今我們還給不出關于常識的嚴格定義。不同人所言及的“常識”在內涵與外延上是存在一定差異的。
本段之初所闡述的“我們每個人都知道無需言明即可理解的知識”,這里的“我們”、“知識”、“言明”、“理解”都是很難再進一步嚴格定義的。比如“我們”是指全體人類么?是否應該包含史前人類?如果界定在當下的人類,那么精神病人呢?兒童呢?幾乎所有的常識定義都會遇到這樣那樣的挑戰。其次,常識難以獲取。我們每個人都理解常識,因而不用掛在嘴邊說明,就能彼此理解。因此,文本或者語料中對于常識鮮有提及,常識因而也就無從抽取。常識缺失也就成了知識庫的常態。
最后,機制不明。人類究竟是如何形成常識理解的?這是個非常值得深入思考的問題。我們人類的常識理解大都是以直接的近乎直覺的方式完成的。水灑了,正常人都會及時躲避。因為我們知道水會沾濕衣物。但是,我們沒有任何人是先思及“水會沾濕衣物”,再行躲避的。那么機器是否也有著與人類類似的常識理解機制?機器的常識理解之路與人類是否一致?這些問題均需要進一步深入研究。
(3)是否涉及元知識(Meta-knowledge)。所謂元知識是指有關知識的知識,包括屬性的領域(Domain)與范圍(Range)。比如“父親”作為屬性發生在人物這個類別的實體上(這是在指定Domain),取值也只能是個人物。包括領域內的約束,比如父親都必須比子女年齡大。也可以是如何使用知識的知識,比如吃了不潔凈的物品嘔吐了,我們立即就會判斷有可能是不潔飲食導致的食物中毒。看似簡單的判斷建立在我們能夠調用醫學知識形成結論而不是數學知識的前提之下。為特定場景或應用適配相關知識,越來越多實際應用場景對這種元知識提出了訴求。
總體而言,元知識需求越大,應用越加困難。其根本原因在機器歸納能力有限。任何歸納都是按照既定的認知框架進行的。比如從樣本學習一個分類器,本質上也是在歸納。但是分類器的模型不管是支持向量機還是深度模型都需要預先指定,模型本身就是一類元知識。總體而言,當前的機器智能還不足以自我發展出認知世界的框架。
需要說明的是,上述判斷條件都不是絕對的,都是相對的。因此是一種定性判斷,而非定量判斷。滿足上述條件,且程度越深,實現越困難,但并非絕無實現之可能。比如大部分互聯網應用屬于開放應用,但是知識圖譜率先發軔于互聯網搜索,實則是因為應用相對簡單。因此,可行性還可以從復雜性的對立視角加以研判。
(1)簡單知識。知識是否有復雜簡單之分?如果承認這點,知識的復雜性又應該如何度量?這些問題總體上還是開放問題。但是,直覺上我們會覺得某些知識比其他知識簡單。人類學習的先后順序一定程度上就是顧及了知識的簡單與復雜之分。沒有人會否認疾病診斷、司法抗辯用到的知識會比疊個紙飛機用到的知識復雜。
雖然知識的復雜性內在機理和評測機制仍不清楚,但是從操作層面來看,可以從特定人群學習某類知識所需要時間來評估。比如考慮完成了基礎教育(比如中國的九年制基礎教育)的人群,對于不同知識,這一人群學習周期不同。顯然對于某個企業的客服知識,幾乎一周簡單培訓就可以上崗。但是對于治病的知識,即便一個醫學院學生可能也要學習十多年才能掌握。
在自然語言相關的知識中,詞匯知識的掌握難度小于語法與語義知識。在知識圖譜落地過程中,語言知識相對于業務知識而言簡單;靜態關聯知識比動態過程知識簡單。這些直接決定了在知識圖譜落地過程中,語言知識以及靜態關聯知識往往能優先于其知識形態形成應用效果。
(2)簡單應用。知識的應用也有復雜簡單之分。比如同樣是在醫療領域,醫院的導診顯然要比醫生的看病要簡單很多。導診只需要根據癥狀進行簡單的分類,即便不夠精準,在具體科室醫生治療時還有進一步糾正的機會。然而,醫生看病本身則要復雜很多,一個醫生要近十年的學習才有可能勝任疾病診治的任務。但是,應用本身的復雜性顯然也是很難量化的,在算法復雜性領域可以根據問題與輸入規模之間的關系量化問題以及相應方案的復雜性。但是知識應用的復雜性機制還不明確。直覺上需要用到的知識越多、需要掌握的異常越多、所應用的規則分支繁復,則相應的應用越復雜。
此外在領域或者企業知識圖譜落地過程中,數據資源稟賦與知識資源積累也是可行性判斷的兩個重要的維度。數據資源稟賦包括構建知識圖譜所依賴的數據是否完整、數據質量是否足夠精良、數據是否可用?巧婦難為無米之炊。沒有好的數據是提煉不出好的知識圖譜的。很多企業數據完整性存在缺陷,存在數據缺失,會對知識圖譜構建造成巨大的障礙。有些數據雖然完整,但是來源分散、形態各異、質量低劣,這些都會對數據治理本身提出巨大挑戰。
在另外一些情況下,數據可用性較低,比如存在行業壁壘,數據無法分享;存在國家安全與個人隱私的顧慮,數據無法公開或者使用。這些障礙都是數據層面對于知識圖譜系統提出的挑戰。領域或者行業知識資源的積累情況也是判斷知識圖譜工程可行性的重要因素。在很多領域,已經積累了多年的相關知識資源。比如醫療領域領域專家耗費了大量資源構建了很多本體、術語庫。不同領域的知識資源積累情況不同。知識資源越豐富,越有利于知識圖譜工程的建設。
表1對于上述提及的可行性判斷要素進行了分類匯總,并給出了相應的問題檢查列表,以方便知識圖譜工程實踐的開展。
表1 知識圖譜工程可行性論證檢查列表
3.4 知識圖譜工程實踐建議
知識圖譜工程屬于工程性學科,不斷總結其最佳實踐是非常有必要的。本小節根據當前已經落地的知識圖譜工程總結一些有代表性的經驗。值得注意的是,這些“經驗”隨著時間的推移、環境的變化,也需要不斷作出調整。
(1)合理控制知識表示的范圍與粒度。很多場景下知識表示的粒度是個需要仔細斟酌的問題。一般而言,粒度越細表達能力越強,但是其表達與獲取代價也越大。細粒度知識表示一般是領域應用的強需求之一。比如在知識管理領域,粒度粗放已經成為阻礙企業知識管理發展的根本問題。傳統知識搜索只能搜索到文檔級別,如果不幸這個文檔含有1000頁內容,則會給用戶帶來巨大麻煩。但是,凡事過猶不及,太細粒度的知識表示也往往會給知識獲取帶來巨大的復雜性。
合理控制知識表示的粒度,不盲目求精求細,是知識庫技術落地成功的關鍵思路之一。很多落地實踐中過早地陷入細粒度知識獲取的泥潭當中,消耗巨大但收效甚微。但事實上細粒度的知識表示在很多場景下也是不必要的。因此,在實踐中建議緊扣應用需求,從應用出發反推需要怎樣粒度的知識表示。
(2)合理控制不同視角下的不同圖譜。知識圖譜是認知世界的結果。管理者視角與用戶視角是不同的,不同用戶的視角往往也是不同的。比如龍,在東方人的視角下往往是吉祥的,而在西方人的視角往往是兇惡的、有貶義的;“物美價廉的水果”這個品類對于不同人理解完全不同。因此不同的視角下應該有著不同的圖譜。
一般而言,要針對不同的角色,定制相應的圖譜。因而需要從一份通用圖譜中演化出其不同視角下的不同視圖,如圖14所示。考慮到圖模型的普適性,可以定制不同的權重(比如不同文化的視野下對于“龍”的喜好程度),以體現不同角色對于知識的不同認知。
圖14 知識圖譜的不同視圖
(3)區別對待冷啟動與熱運營兩個階段。知識圖譜的建設與運營是兩個不同的階段。要區別對待這兩個階段,兩個不同的階段采用不同的策略,不能一概而論。冷啟動階段的特點是缺乏用戶行為數據,各類基于用戶反饋的機器學習模型很少能在這一階段發揮效果,更多地需要借助專家經驗與知識,以人工方式設定很多參數與規則。在系統運營一段時間后,用戶反饋數據日益增多,使得基于反饋日志的學習模型成為可能,比如搜索排序模型、推薦模型等等。表3總結了冷啟動與熱運營的不同思路與策略。
表3 冷啟動與熱運營的不同策略
(4)建設與運營并重。建設與運營是知識圖譜工程兩個重要的階段。受傳統信息化建設思路的影響,很多智能系統陷入了重建設輕運營的誤區。事實上,任何一個智能系統均需要經歷多輪迭代方能成熟,只有持續運營才能保持系統處于最佳狀態。
智能系統的運營是數據驅動的。數據驅動需要不斷收集用戶數據。用戶數據體現的是用戶興趣與行為。而用戶的興趣與行為是會隨著環境的變化而變化的。一個有效的智能系統必須隨著用戶的演進而演進,否則容易失效。從長遠看,運營甚至重于建設。建設是一次性的,而運營是持續的、長期的、周期性的、重復開展的。
(5)合理處理知識的扁平化與縱深化矛盾。在實際知識圖譜工程中,知識的廣度(對應扁平化)與深度(對應縱深化)往往是一對不可調和的矛盾。為了廣度,往往要犧牲深度;為了深度往往要犧牲廣度。前者以通用知識圖譜為例,通用知識圖譜較為寬廣,但缺乏深度,體現在平均關系數小于相應的領域知識圖譜。深度知識在風險管控、安全防范等領域十分重要。惡意意圖的行為往往具有隱蔽性等特點,難以通過簡單語義關聯發現。因而相關圖譜的建設要往縱深方向發展。如圖15所示,實際的知識圖譜往往需要在知識的深度與廣度之間進行平衡。
圖15 知識圖譜中知識的廣度與深度的平衡
(6)堅持迭代式演進路徑。螺旋迭代式發展是知識圖譜工程實踐有序推進的基本模式。在整個知識圖譜工程中,有著大量迭代模型。比如,知識資源建設與知識應用的迭代式演進(見圖2)、知識圖譜工程的三個關鍵步驟的迭代(見圖13)。此外還包括知識庫積累與知識抽取模型的迭代發展:一方面積累知識庫,另一方面利用積累的知識指導知識抽取,進而利用更先進的抽取模型抽取更多更好的知識。
還包括知識圖譜系統建設與知識圖譜系統運營的迭代:建設完成之后,通過運營得到的用戶反饋數據進一步指導知識圖譜系統建設與優化。迭代模式之所以重要,其根本原因在于知識圖譜技術的任何單項技術還難以支撐實際應用。實際問題的解決尚需多個單點技術的協同。迭代式發展意味知識圖譜的長期發展過程是迂回曲折的,是漸進式發展的道路。
(7)區別對待靜態知識與動態知識。人類對世界的認識是在不斷變化的。因此,體現在知識庫中的知識也不應該是一成不變的。知識的動態變化是絕對的,靜止不變是相對的。但是絕大部分知識在有限時間內變化的可能性是極低的,比如地球是圓的,在很長一段時間人們對于這個事實的信念是不會發生改變的。
對于知識圖譜中的數據處理,與之類似,要區別對待靜態知識和動態知識。一般而言事實是相對易變的,而模式是相對不變的。比如機構的領導人過一段時間就會發生變化,但是人與機構之間的這種任職關系發生改變的可能性要低很多,屬于相對不變的知識。易變事實的更新十分重要,常常需要依賴數據驅動方法。而模式的改變由于更新頻次相對較低,手工維護更為明智。
小結
本章針對知識圖譜技術實踐中的幾個關鍵問題,包括知識圖譜系統、知識圖譜工程以及知識圖譜應用與產業,做了初步探討。隨著知識圖譜技術應用的深化,知識圖譜產業日益成熟,將會對知識圖譜的工程實踐方面提出更多的需求。
這里對于知識圖譜與系統科學(特別是系統工程和管理信息系統)之間的關系做一初步討論。首先,知識圖譜工程非常迫切地需要來自系統科學的理論指引與方法論指導。系統科學作為一般系統的基本原理的科學對于知識圖譜也是具有指導意義的。但是另一方面,傳統的系統科學對于當前大數據人工智能系統的實踐缺乏有力的支撐。
應該說,當前的人工智能系統本質上是數據驅動的智能系統。這類智能系統在數據驅動與人機協作等方面與傳統信息系統有著根本不同。比如在數據驅動方面,智能系統的數據大都作為模型訓練之用,傳統信息系統的數據大都只作為用戶查詢或者簡單統計分析的來源而已;在人機協作方面,智能系統的人的作用在于讓機器具備認知框架、給予機器模型學習以適當的反饋與引導,而傳統信息系統的人的作用更多地體現為系統語義、規則的制定,以及系統的使用與反饋。
因此,傳統的系統科學以及信息系統理論仍需進一步發展以滿足以知識圖譜為代表的智能系統的建設與實施的需要。從系統科學角度從新思考智能系統(特別是大數據人工智能系統)的一般性原則與方法是個極為迫切的研究問題。
肖仰華教授主編的知識圖譜教材《知識圖譜:概念與技術》即將出版,全面解析知識圖譜的概念與技術。敬請關注。
-
智能化
+關注
關注
15文章
4940瀏覽量
55635 -
大數據
+關注
關注
64文章
8908瀏覽量
137656 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7725
原文標題:肖仰華:知識圖譜如何解決行業智能化的工程問題?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論