人工智能開啟甲骨文整理
研究新范式
在甲骨學研究中,甲骨“校重”整理是一項費事費力但又極其重要的基礎性研究工作。微軟亞洲研究院與首都師范大學甲骨文研究中心莫伯峰教授團隊合作開發的甲骨文校重助手 Diviner,第一次將自監督 AI 模型引入到甲骨文“校重”工作中,并取得數百項新成果,為甲骨文整理領域開創了人工智能與人類專家協作(AI+HI)的全新研究范式。
入選《世界記憶名錄》的甲骨文,是迄今為止中國發現的年代最早的成熟文字系統,對中國歷史乃至世界文化的發展研究具有非凡意義。有人曾說“東周之前無信史”,因為《春秋》一書記錄了2000多年前的東周歷史,而之前的商文明曾被認為是傳說,直至甲骨文被發現,才有力地證明了殷商王朝的存在,把中國信史向上推進了約1000年。
從甲骨文首次被發現至今,出土的甲骨實物約有十五萬片。因為收藏、流轉的緣故,大部分的甲骨都留下了多張拓本圖像,被稱為“重片”。甲骨重片數量繁多,效果互有參差,對其整理成為了一項重要的基礎性研究工作,稱作“校重”。然而,人工校重只能一一對照,費時費力,是甲骨文研究的一大痛點。正如《甲骨文合集補編》“前言”中所述:“這種對重、選片的工作,其煩瑣、費工是局外人難以想象的。”
近期,微軟亞洲研究院主管研究員武智融與首都師范大學甲骨文研究中心莫伯峰教授團隊合作,提出了基于自監督學習的甲骨文校重助手 Diviner,大幅提升了甲骨文校重工作的效率。系統窮盡比對了18萬幅拓本,輔助甲骨學家在上百個甲骨文數據庫中發現了大量甲骨重片,不僅復現了專家過去所發現的數萬組重片,而且經過初步整理,已發現了三百多組未被前人發現的校重新成果。這項研究為甲骨文整理領域開創了人工智能與人類專家協作(AI+HI)的全新研究范式。本項目全面成果的甲骨學解讀稍后將發布于中國社科院先秦史研究室網站 www.xianqin.org。
AI在甲骨文“校重”中
令人驚喜的新發現
“校重”是甲骨學領域的一個老題目,此前已經有很多甲骨學家為這項工作傾注了大量心血。比如甲骨文領域最重要的兩部著錄書《合集》《合補》,在編著過程中花費大量功夫做的工作就是校重。理論上來說,完成一張甲骨拓本的校重工作,應該將它與其余的所有甲骨拓本逐一比照,才能確保沒有遺漏。盡管可以利用文字信息和分類方法縮小對比范圍,但對于甲骨學家而言,這仍然是一項十分艱巨的工作,且難以保證全面性和準確性。
對比和處理海量數據,并從中挖掘有用信息正是 AI 的專長。大規模的校重,窮盡性的比對,都難不倒校重助手 Diviner。接下來就讓我們一起看看 Diviner 的效果。你也可以測試一下自己能否發現其中的異同?
這些校重結果對
甲骨文研究有什么作用?
作為三千年前古人留下的一份禮物,每一片甲骨都彌足珍貴。但目前甲骨的研究主要依靠拓本圖像,而非甲骨實物,所以拓本就是甲骨研究的根本出發點。很多時候一個字形、一條卜辭的清楚認知,就來自更全、更清的拓本材料。所以甲骨學家從不放過哪怕只有一個字的拓本。
本次校重助手 Diviner 就提供了一批更全、更清晰的甲骨圖像,更有不少堪稱驚喜的新發現:
“重而不同”的新圖像。左側是時間較早,沒有拓全的甲骨拓本。右側是時間較晚的拓本,甲骨殘破只余下一部分,盡管拓全了但很不完整。通過將兩個拓本重疊,獲得了一張最完整的甲骨圖像,特別是右上部分的一段甲骨文字的完整展現,為甲骨文研究直接提供了一條新材料。
“有里有面”的新圖像。有些甲骨正反兩面皆有文字,但有時只有一面留下了拓本。比如馬保春先生曾發現這兩版反面拓本可以綴合在一起。但其中一片的正面圖像一直沒有找到。Diviner 校重發現了下面一片甲骨的正反完整拓本,正面綴合復原的圖像也終于得以呈現。
從“重片”到“綴合”。左側圖像是過去由張宇衛先生綴合在一起的兩片甲骨。通過 Diviner 的校重發現,下部拓本原來還有一片更完整的重片。如此,兩片甲骨的綴合就擴展成了三片甲骨的綴合。
從模糊到清晰。由于有些甲骨拓本質量不高,上面文字難以辨認,給甲骨學家帶來很多困擾。比如這幾組重片,模糊拓本上的文字讓人難以辨認,直到這次發現了清晰的重片,才把過去的很多疑惑解決了。
Diviner 在甲骨校重工作中的出色表現和展現出的巨大潛力得到了很多甲骨學家的認可。復旦大學出土文獻與古文字研究中心研究員蔣玉斌認為:“甲骨校重與指出互見,是甲骨學重要的基礎性工作。同一甲骨片,可能經過多次著錄,各版本有早有晚,清晰度、完整度存在差別,需要加以關聯、比對、研判。過去,這種工作完全靠學者憑經驗、記憶零星舉列,雖頗有得,但總體上耗時費力,也仍有大量未能指出的重出、互見現象。莫伯峰教授團隊與微軟亞洲研究院合作開發的人工智能甲骨文校重助手 Diviner,實現了大范圍的校重,效率高,成果多,令人振奮。我堅信,在甲骨校重與指出互見方面,校重助手 Diviner 已經遠勝人力,今后此項工作的大規模開展,或將完全由校重助手 Diviner 這樣的工具取代。近年,有多支學術團隊致力于甲骨文等古文字研究與人工智能的融合創新,先進的技術手段將為古老文字的研究插上騰飛的翅膀。但人工智能助力古文字研究的著力點在哪里,是首先要解決的問題。校重助手 Diviner 很好地契合了甲骨文研究的需要與人工智能的專長,功效顯著,成果突出,我認為是人工智能輔助甲骨文研究的成功典范。”
自監督學習首次在甲骨文中應用
AI模型泛化性顯著
校重助手 Diviner 能有如此出眾的效果,技術上是如何實現的?有哪些創新之處?
近兩年,不依賴人工標注數據的自監督學習是 AI 研究的熱門方向,但很多前沿技術仍停留在研究階段。Diviner 不僅第一次將自監督 AI 模型引入到甲骨文“校重”工作,也是自監督 AI 模型在真實場景中的一次成功應用。
“盡管自監督研究熱度很高,但是很多問題最終還是要通過人工數據標注來解決。我們一直希望使用完全無標注的數據進行自監督學習,甚至是人工根本上無法標注的數據。”微軟亞洲研究院主管研究員武智融說,“甲骨校重需要兩兩比對十八萬張數據庫中的所有拓片,這為基于完全無標注數據的自監督學習模型應用提供了一個絕佳的落地場景。”
計算兩張拓片的視覺相似度,通常的方法會從全局特征出發。然而,在甲骨文的研究中,即使是重片,外觀上也可能有很大差異,這是由于拓印范圍、拓印方式、磨損等多方面原因造成的。考慮到一塊完整的甲骨可能會碎裂成多片,校重時經常需要從大骨片中找出小骨片。因此,基于全局外觀表示的傳統方法并不能很好地發揮作用。面對這一挑戰,研究員想到了甲骨拓片的特性,因其是從同一塊甲骨而來,重片之間存在著精確的點與點的對應關系。基于這一特性,校重助手 Diviner 從局部尋找匹配關系,再拓展到全局。
局部匹配。Diviner 使用的局部描述符(local descriptor)是經過自監督訓練的深度神經網絡。模型應用了對比學習的自監督技術,使用圖像增強,讓特征在訓練時不受甲骨拓片上清晰度、對比度、噪音、旋轉等因素的影響。在甲骨圖像上訓練的局部描述符能夠檢測和匹配局部塊之間的關鍵點,并進行點對點匹配。
全局優化。基于密集的點與點的匹配結果,通過使用魯棒的優化算法 RANSAC 估計全局的幾何仿射變換。仿射變換允許模型在內容重復的情況下拼合或拼接已有圖像。這種局部到全局的方法對檢測大量的甲骨碎片至關重要。
Diviner 模型一個特點是具有強大的泛化能力,這歸功于其自監督學習的匹配算法。模型通過圖像增強技術模擬同一塊甲骨在不同時期制作成拓片或者因年深日久造成的圖像變化,例如磨損、模糊等。在大規模無標注數據上獲取的密集的自我監督,遠遠比稀疏的基于整體的人工監督更有效。
Diviner 模型另一個特點在于能夠精確的預測出重片之間點對點的對應關系,并將重片拼合或拼接在一起。這種可以被專家快速解讀的結果大大方便了人類與人工智能的協同合作。對于甲骨文這樣的冷門絕學,人機合作尤為重要。在校重結果中,專家可以看到局部匹配細節和重疊圖,極大地幫助并加速了他們驗證的過程。
“過去的甲骨校重工作中,對拓面差異較大的不同拓本之間的認同存在現實困難。甲骨文校重助手 Diviner,既不受文字信息的限制,也不受圖像數量的限制,直接運用圖像比對就可以完成精準的圖像校重,并取得了顯著的成果。可以預期,隨著 Diviner 模型功能的不斷完善,甲骨學界一定會取得更大、更多的科研成果。”清華大學出土文獻研究與保護中心教授王子楊如此評價校重助手 Diviner。
“AI+HI”為古文化研究
打開新大門
“甲骨學是一個系統性的科學,一方面它是一種語言文字研究資料,另一方面它是一種歷史研究資料,其研究涉及方方面面,研究者需要了解文字在古代的形、音、義等等,因此我們解決一個問題也要從不同維度探討。此次與微軟亞洲研究院的合作只是甲骨文和人工智能交叉研究的一個小序幕,推開了甲骨學研究的一扇新大門,為后續的研究起到了示范作用。未來,人工智能與古文字研究的結合將具有更廣闊的前景。”莫伯峰教授表示。
微軟亞洲研究院主管研究員武智融(左)與首都師范大學甲骨文研究中心莫伯峰教授(右)
"我們很高興看到人工智能模型 Diviner 能夠為甲骨學專家節省用于甲骨文數據整理的時間,讓他們更專注于其他方面的研究。甲骨文是兼具象形圖像屬性和文字屬性的神秘語言,多模態的人工智能在甲骨文研究上有著廣闊天地。未來,我們希望能夠與甲骨文專家一起探索更多有趣的課題。”武智融表示。
計算機圖形圖像領域知名學者、微軟亞洲研究院常務副院長郭百寧表示,“甲骨文作為世界文化的瑰寶,其研究已經發展成為國際性的學術課題。多年來,微軟亞洲研究院一直致力于將最前沿的計算機技術應用于文化遺產保護與傳承等具有社會意義的研究中,并取得了諸多成果。我們希望可以與更多研究機構、研究學者共同合作,為推進世界文化、歷史的保護和傳承貢獻一份力量。”
你知道本文每個小標題的圖標分別是哪種動物的甲骨文么?歡迎在評論區留言你的答案!
*文章中用到的拓本來自四本甲骨著錄書:①《甲骨文合集》②《甲骨文合集補編》③《上海博物館所藏甲骨文字》④《殷虛書契續編》
? ?
?
原文標題:當人工智能?研究?上了甲骨文
文章出處:【微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。
-
微軟
+關注
關注
4文章
6627瀏覽量
104333
原文標題:當人工智能?研究?上了甲骨文
文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論