圖神經網絡將深度學習的預測能力應用于豐富的數據結構中,這些數據結構將物體及其對應關系描述為圖中用線連成的點。
當兩種技術相融合,就可以創造出一些新的和奇妙的事物,比如手機和瀏覽器融合成了智能手機。
當今,開發者正在將 AI 發現規律的能力應用于大型圖數據庫,這些數據庫存儲著包含各數據點之間關系的信息。兩者組合成被稱為圖神經網絡(GNN)的強大新工具。
什么是圖神經網絡
圖神經網絡將深度學習的預測能力應用于豐富的數據結構中,這些數據結構將物體及其對應關系描述為圖中用線連成的點。
在圖神經網絡中,被稱為“節點”的數據點通過被稱為“邊”的線連接,各種元素均以數學形式表達,這使機器學習算法可以在節點、邊或整個圖的層面做出有用的預測。
圖神經網絡能做什么
越來越多的公司正在使用 GNN 改進藥物研發、欺詐檢測和推薦系統。這些以及更多其他應用都依賴于尋找數據點之間的關系規律。
研究人員正在探索 GNN 在計算機圖形學、網絡安全、基因組學和材料科學中的用例。近期的一篇論文描述了 GNN 如何利用圖形式的交通地圖改進對到達時間的預測。
許多科學和工業領域已在圖數據庫中儲存了有價值的數據。通過深度學習,他們可以訓練預測模型,從圖中挖掘出新穎的洞察。
許多科學和工業領域的知識都可以用圖來表達
亞馬遜云科技(AWS)高級首席科學家 George Karypis 在今年早些時候的講座中表示:“GNN 是深度學習研究中最熱門的領域。越來越多的應用正在使用 GNN 來提高其性能。”
很多人都深表贊同。斯坦福大學副教授 Jure Leskovec 表示:“GNN 正在引得越來越多的關注,它們可以靈活地建立復雜關系的模型,而這是傳統神經網絡所做不到的。”他在演講中展示了下面的這張 AI 論文圖表,里面提到了 GNN。
誰在使用圖神經網絡?
亞馬遜在 2017 年表示正在使用 GNN 來檢測欺詐。2020 年,亞馬遜推出了供外部用戶用于欺詐檢測、推薦系統等應用的公共 GNN 服務。
為了維持客戶的高度信任,亞馬遜搜索引擎采用 GNN 來檢測惡意賣家、買家和產品。借助 NVIDIA GPU,該搜索引擎能夠探索具有數千萬個節點和數億條邊的圖,并同時將訓練時間從 24 小時縮短到 5 小時。
葛蘭素史克 AI 全球負責人 Kim Branson 在 GNN 研討會的某場小組討論會上表示,生物制藥公司葛蘭素史克維護著擁有近 5000 億個節點的知識圖譜,該圖譜被用于該公司的許多機器語言模型中。
LinkedIn 高級軟件工程師 Jaewon Yang 在該研討會的另一場座談會上表示,LinkedIn 使用 GNN 提供社交推薦,并了解人的技能與其工作職位之間的關系
NVIDIA 杰出工程師 Joe Eaton 表示:“GNN 是通用工具,我們每年都會開發一些新的 GNN 應用。”目前 Joe Eaton ?正在領導將加速計算應用于 GNN 的團隊。他表示“我們甚至都還沒有觸及到 GNN 的表層功能。”
另一個跡象也表明了人們對 GNN 的興趣——Leskovec 在斯坦福大學教授 GNN 的課程視頻已突破 70 萬次瀏覽量。
GNN 如何工作?
到目前為止,深度學習主要集中在圖像和文本上。這兩種結構化數據可以被描述為單詞序列或像素網格。相比之下,圖是非結構化的,因此可以是任何形狀或尺寸,并包含圖像、文本等任何類型的數據。
GNN 使用被稱為信息傳遞的流程將圖組織起來,以便機器學習算法的使用。
信息傳遞將關于鄰近節點的信息嵌入到每個節點中。AI 模型利用嵌入的信息來尋找規律并進行預測。
三類 GNN 中的數據流示例
例如,推薦系統使用將節點嵌入 GNN 的方式來匹配客戶和產品;欺詐檢測系統使用邊緣嵌入來發現可疑交易;藥物發現模型通過比較整個分子圖來找出它們之間的反應。
GNN 還有兩個獨特之處:它們使用稀疏數學,而且模型通常只有兩到三層。其他 AI 模型通常使用密集數學并且有數百個神經網絡層。
GNN 流程在輸入圖后輸出預測
GNN 的發展史
意大利研究人員在 2009 年發表的論文中首次將這種神經網絡命名為“圖神經網絡”。但直到八年之后,阿姆斯特丹的兩位研究人員才使用被稱為“圖卷積網絡”(GCN)的圖神經網絡變體展示了這種神經網絡的力量。GCN 也是當今最流行的 GNN 之一。
GCN 啟發了 Leskovec 和他的兩個斯坦福大學研究生創造出 GraphSage——一個展示信息傳遞功能新工作方式的 GNN。2017 年夏天,擔任 Pinterest 首席科學家的 Leskovec 對此 GNN 進行了測試。
GraphSage 開創了在 GNN 中傳遞信息的強大聚合技術
他們所創建的 PinSage 是包含 30 億節點和 180 億邊的推薦系統,這超過了當時的其他 AI 模型。
如今,Pinterest 將 PinSage 應用于整個公司的 100 多個用例。該公司高級機器學習工程師 Andrew Zhai 于在線座談會上表示:“沒有 GNN,Pinterest 就不會有今天的吸引力。”
與此同時,其他變體和混合體也紛紛出現,包括圖循環網絡、圖注意力網絡等。GAT 借用 Transformer 模型中定義的注意力機制,幫助 GNN 專注于數據集中最相關的部分。
GNN 變體家族樹概覽圖
擴展圖神經網絡
展望未來,GNN 需要進行全方位的擴展。
還未維護圖數據庫的企業機構需要使用工具來減輕創建這些復雜數據結構的工作負擔。
使用圖數據庫的人都知道在某些情況下這些數據庫會不斷擴大,單個節點或邊緣會被嵌入成千上萬個特征。這為通過網絡將存儲于子系統中的海量數據集高效加載到處理器中帶來了挑戰。
Eaton 表示:“我們正在提供各種產品來最大程度地提高加速系統的內存、計算帶寬與吞吐量,以便解決此類數據加載和擴展問題。”
作為這項工作的內容之一,NVIDIA 在 GTC 上宣布,除了深度圖庫(DGL)之外,公司現在還支持 PyTorch Geometric(PyG)。這是當下最流行的兩個 GNN 軟件框架。
NVIDIA 提供多種工具加快 GNN 的構建
經過 NVIDIA 優化的 DGL 和 PyG 容器針對 NVIDIA GPU 進行了性能調整和測試。它們為開始使用 GNN 開發應用的人提供了方便的平臺。
編輯:黃飛
評論
查看更多