我們知道強大的深度模型需要很多計算力,那你知道創(chuàng)建一個知識圖譜的成本到底是多少嗎?德國 Mannheim 大學(xué)的研究者最近仔細估算了各種知識圖譜每創(chuàng)建一條記錄所需要的成本,他們表示對于大型知識圖譜,手動創(chuàng)建一個三元組(即一條記錄)的成本在 2 到 6 美元之間,總成本在數(shù)百萬到數(shù)十億美元之間。
知識圖譜廣泛用于各種領(lǐng)域,它的統(tǒng)計信息也常被分析。但有一個問題一直缺乏研究:產(chǎn)出價格是多少?在此論文中,研究者提出了一種方法預(yù)估知識圖譜的成本。他們表示手動創(chuàng)建一個三元組(triple)的成本大約在 2 到 6 美元左右,而自動創(chuàng)建知識圖譜的成本要降低 15 到 250 倍(即一個三元組 1 美分到 15 美分)。
注意其中 15 美分每條的「自動化」知識圖譜還是需要大量人力進行數(shù)據(jù)的驗證。此外,作者表示成本也應(yīng)該作為知識圖譜的評價標準,例如可以使用每個三元組的成本或其他更優(yōu)的度量方法。
論文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation
論文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf
估計知識圖譜的成本
隨著知識圖譜的廣泛應(yīng)用,我們越來越關(guān)注大型知識圖譜,例如 DBpedia、YAGO 等。我們已經(jīng)有很多方法從各種角度檢查這些大型知識圖譜,例如大小、覆蓋度和質(zhì)量等。然而這些分析不足的地方在于成本,即創(chuàng)建知識圖譜的價格。
人工創(chuàng)建:Cyc 和 Freebase
對于人工創(chuàng)建的知識圖譜,我們必須評估提供這些陳述語句(statement)的工作量,從而估計平均成本。
Cyc 是最早的通用知識圖譜之一,同時它的開發(fā)成本也能公開獲得。在 2017 年的一項會議中,Cyc 的創(chuàng)建者 Douglas Lenat 表示:構(gòu)建 Cyc 的成本為 1.2 億美元。在同一個 PPT 中,Lenat 表示 Cyc 一共有 21M 斷言(assertion),因此每條陳述語句或斷言需要 5.71 美元。若 1000 人有一年的時間完成,則每人每 9.5 分鐘需要完成一條斷言。
Freebase 是由志愿者共同完成的,因此其工作量更難判斷。截止至 2011 年 4 月份,創(chuàng)建英文維基百科的估計時長為 41M 工時。同時維基百科包含 3.6M 的頁面,平均每一個頁面 36.4 個句子,因此換算下來每一條語句需要 18.7 分鐘。由于大多數(shù)維基百科條目都是由美國構(gòu)建的,我們可以使用每小時 7.25 美元的美國聯(lián)邦最低工資作為人工成本估算,因此每一句的成本可以換算為 2.25 美元。借鑒這個成本,我們可以假設(shè) Freebase 每一條陳述語句的成本也是 2.25 美元。
這比 Cyc 的平均成本低了一半,這種低成本也是合理的,因為 Cyc 是由人類專家構(gòu)建的,而 Freebase 由非專業(yè)人員創(chuàng)建。總的而言,對于包含 30 億事實(fact)的最新版 Freebase,它的總成本約為 67.5 億美元($6.75B)。
自動創(chuàng)建: DBpedia、YAGO 和 NELL
評估自動創(chuàng)建知識圖譜所花費成本不同于人工創(chuàng)建知識圖譜。我們參考了用于創(chuàng)建知識圖譜的軟件,基于代碼行數(shù)(LOC)來估計開發(fā)知識圖譜的成本。我們遵循 [2] 中的分析,即一個軟件生成項目平均每小時生產(chǎn) 37 行代碼(LOC)。
DBpedia 主要是基于 DBpedia 提取框架從維基百科 Dump 得到的,它通過映射中心實體而創(chuàng)建知識圖譜。DBpedia 兩部分需要 4.9M 和 2.2M LOC,它需要的總開發(fā)成本為 510 萬美元。鑒于英語 DBpedia[11] 共有 400M 陳述語句,每一條成本約為 1.85 美分。相比于人工搭建的知識圖譜(每一條 2.25 美元),自動搭建的要節(jié)省百倍的成本。
YAGO 也是一種知識圖譜,它將維基百科提取的知識與 WordNet[7] 相結(jié)合。為了公平比較,它的成本應(yīng)該包含 WordNet 的搭建費用。YAGO 代碼庫有 1.6M LOC(包括將信息框映射到本體的規(guī)則),因此它的總體成本為 160 萬美元。此外,WordNet 本身還包含了 117k 個同義詞集,每一個包含一條注釋。我們估計定義一個同義詞集的成本與構(gòu)建一個維基百科頁面的成本相近,即最高 1000 萬美元。若 YAGO 有 14 億條陳述語句 [11],那么每一條的成本為 0.83 美分。相比人工搭建,它的成本要節(jié)省 250 倍。
NELL 是一個學(xué)習(xí)關(guān)系抽取 [8] 模式的系統(tǒng),其核心技術(shù)包含 103k 的 LOC,預(yù)估開發(fā)成本為 10.9 萬美元。此外,該數(shù)據(jù)集每月還需要人工校驗 1467 條陳述語句。假設(shè)人工校驗一條陳述語句的成本和創(chuàng)建成本一樣,那么總的校驗成本為 37.6 萬美元,即通成本為 48.5 美元。因此換算下來,NELL 每條陳述語句的成本為 14.25 美分,即比手動搭建便宜 16 倍。
新的評估標準
把成本作為創(chuàng)建知識圖譜的一種測量方法也能為其他評估方法鋪平道路。例如,可以通過成本查驗為知識圖譜補充缺失信息提供新方法 [9]:一個人一年半開發(fā)知識圖譜應(yīng)該可以添加 2800 條陳述語句,這應(yīng)該是人力手動產(chǎn)出的三元組數(shù)量。
另一個有趣的思路是開發(fā)成本與數(shù)據(jù)質(zhì)量之間的關(guān)系。在圖 1 中,我們圖像描述了該論文討論的知識圖譜中每個三元組成本與錯誤率之間的關(guān)系。我們可以看到,高成本創(chuàng)建的三元組準確率也會更高,NELL 是個例外,準確率與成本之間關(guān)系極差。
每個三元組成本與錯誤率之間的關(guān)系展示圖。
總結(jié)
在這篇論文中,我們大體估計了創(chuàng)建一個流行的知識圖譜所花費的成本,這也是當前研究忽視的一個方面。我們量化了自動創(chuàng)建知識圖譜相比于手動方法的收益,并提出使用成本定義新型的評價標準,例如權(quán)衡成本與準確率。
有研究者反饋,我們也意識到有很多假設(shè)或估計在計算中都存在著問題(例如,我們沒有考慮第三方庫或基礎(chǔ)設(shè)施的成本)。其次,知識圖譜的來源或數(shù)據(jù)成本當前也沒有考慮在內(nèi)。然而,我們相信:知識圖譜自身帶來的價值將遠超過各種構(gòu)建成本的總和。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7229瀏覽量
90430 -
自動化
+關(guān)注
關(guān)注
29文章
5698瀏覽量
80573 -
知識圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7826
原文標題:67 億美金搞個圖,創(chuàng)建知識圖譜的成本有多高你知道嗎?
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
一條光纖怎么分兩條
微軟發(fā)布《GraphRAG實踐應(yīng)用白皮書》助力開發(fā)者
傳音旗下人工智能項目榮獲2024年“上海產(chǎn)學(xué)研合作優(yōu)秀項目獎”一等獎

FPGA基礎(chǔ)知識及設(shè)計和執(zhí)行FPGA應(yīng)用所需的工具

三星自主研發(fā)知識圖譜技術(shù),強化Galaxy AI用戶體驗與數(shù)據(jù)安全
行家放話!驍龍8至尊版是一條大冰龍:徹底穩(wěn)了

革新未來智能版圖,神州數(shù)碼榮登IDC生成式AI圖譜

評論