色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入了解圖神經(jīng)網(wǎng)絡(luò)背后的原理和其強大的表征能力

DPVg_AI_era ? 來源:lp ? 2019-03-01 09:09 ? 次閱讀

深度學(xué)習(xí)在圖像分類,機器翻譯等領(lǐng)域都展示了其強大的能力,但是在因果推理方面,深度學(xué)習(xí)依然是短板。圖神經(jīng)網(wǎng)絡(luò)在因果推理方面有巨大的潛力,有望成為 AI 的下一個拐點。本文將深入了解圖神經(jīng)網(wǎng)絡(luò)背后的原理和其強大的表征能力。

圖神經(jīng)網(wǎng)絡(luò)(GNNs)廣泛應(yīng)用于圖的表征學(xué)習(xí),其遵循鄰域聚合框架,通過遞歸聚合和轉(zhuǎn)換相鄰節(jié)點的特征向量來計算節(jié)點的表征向量。已經(jīng)提出了許多 GNN 的變體,并在節(jié)點和圖形分類任務(wù)上取得比較好的結(jié)果。然而,盡管 GNN 使圖形表征學(xué)習(xí)發(fā)生了革命性的變化,但是,對其表示屬性和局限性的理解還很有限。

本文譯介自MIT、斯坦福大學(xué)的ICLR-19論文:HOW POWERFUL ARE GRAPH NEURAL NETWORKS。

論文地址:https://arxiv.org/pdf/1810.00826.pdf

論文提出了一個在分析 GNN 捕獲不同圖結(jié)構(gòu)表現(xiàn)力的理論框架。本論文描述了各種流行的 GNN 變體的判別能力,如 Graph Convolutional Networks (圖卷積神經(jīng)網(wǎng)絡(luò)) 和 GraphSAGE,并表明他們無法學(xué)會區(qū)分某些簡單的圖結(jié)構(gòu)。然后,本論文開發(fā)了一個簡單的體系結(jié)構(gòu),可以證明其在 GNNs 類中是最具表現(xiàn)力的,并且它和 Weisfeiler-Lehman (圖同構(gòu)測試) 方法一樣強大。在許多圖分類基準測試上,通過經(jīng)驗驗證了該理論發(fā)現(xiàn),并證明本論文的模型達到了最佳的性能。

介紹

學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù),例如:分子、社會、生物和金融網(wǎng)絡(luò)等,需要有效的表征圖的結(jié)構(gòu)。最近,研究者們對使用Graph Neural Network (GNN)方法來對圖進行表征學(xué)習(xí)產(chǎn)生了極大的興趣。GNN 大部分都遵循循環(huán)遞歸鄰域聚合(或者消息傳遞)的模式,其中每個節(jié)點聚合其相鄰節(jié)點的特征向量以計算其新的特征向量。在 k 輪聚合迭代后,通過其轉(zhuǎn)換的特征向量來表示該節(jié)點,該向量捕獲節(jié)點的 k-hop 網(wǎng)絡(luò)鄰節(jié)點的結(jié)構(gòu)信息。然后,可以通過 pooling 來獲得整個圖結(jié)構(gòu)的表征,例如對圖中所有節(jié)點的表征向量求和。許多基于不同 neighborhod aggregation 的 GNN 變體和 graph-level 的 pooling scheme 已經(jīng)被許多學(xué)者提出。

根據(jù)經(jīng)驗,這些 GNNs 已經(jīng)在許多任務(wù)中達到最佳的性能,如節(jié)點分類,鏈接預(yù)測和圖分類。然而,新 GNN 的設(shè)計主要是基于經(jīng)驗直覺,啟發(fā)式和實驗試錯。對于 GNN 的性質(zhì)和局限性,目前理論層面的解釋還比較少。GNN 的表征能力的正式分析還是有限的。

本論文提出了一個分析 GNN 表征能力的理論框架。從形式上描述了不同 GNN 變體在學(xué)習(xí)表征和區(qū)分各種圖結(jié)構(gòu)方面的表現(xiàn)力。該框架是受 GNNs 和 WL 測試(Weisfeiler-Lehman 圖同構(gòu)測試)緊密聯(lián)系的啟發(fā),WL 測試是以其強大的區(qū)分各種圖結(jié)構(gòu)能力而聞名。與 GNNs 相似,WL 測試通過聚合給定節(jié)點的鄰近節(jié)點的特征向量迭代更新其特征向量。WL 測試的強大之處是其注入聚合(injective aggregation)更新,它映射不同節(jié)點的鄰近節(jié)點到不同的特征向量。主要觀點是,如果 GNN 的聚合模式具有高度的表現(xiàn)力和能夠為注入函數(shù)建模的話,它就同 WL 測試一樣具有強大的區(qū)分能力。

為了數(shù)學(xué)形式化上述觀點,首先抽象出一個節(jié)點的鄰近節(jié)點的特征向量作為多重集,該集合中可能有重復(fù)元素。然后,在 GNNS 中的領(lǐng)域聚合(neighbor aggregation)可以抽象為多集上的函數(shù)。我們嚴格學(xué)習(xí)不同多集函數(shù)的變體,并從理論上描述其識別能力,即不同的聚合函數(shù)可以區(qū)分不同的多重集。越具有區(qū)分力的多重集函數(shù),GNN 的潛在表征能力就越強。

本論文的主要結(jié)果總結(jié)如下:

1)我們發(fā)現(xiàn)在區(qū)分圖結(jié)構(gòu)方面,GNN 跟 WL 測試能力一樣強大。

2)我們發(fā)現(xiàn)在建立領(lǐng)域聚合(neighbor aggregation)和圖池函數(shù)(graph pooling)的情況下,得到的 GNN 和 WL 測試一樣強大。

3)我們識別無法通過流行的 GNN 變體區(qū)分的圖結(jié)構(gòu),例如 GCN(Kipf&Welling,2017)和 GraphSAGE(Hamilton 等,2017a),并且我們對基于 GNN 模型可以捕獲的各種圖結(jié)構(gòu)進行了精確的描述。

4)我們開發(fā)了一個簡單的神經(jīng)網(wǎng)絡(luò)架構(gòu),圖同構(gòu)網(wǎng)絡(luò)(Graph Isomorphism Network)GIN,并證明其判別 / 表征能力等同于 WL 測試。

在圖分類數(shù)據(jù)集上,通過實驗驗證我們的理論,其中 GNN 的表達能力對于捕獲圖結(jié)構(gòu)至關(guān)重要。特別是,我們對基于各種聚合函數(shù)的 GNN 性能進行了對比。我們的結(jié)果證實了最強大的 GNN(我們的圖同構(gòu)網(wǎng)絡(luò) GIN)具有很強的表征能力,可以近乎完美的擬合訓(xùn)練數(shù)據(jù),然而較弱的 GNN 變體有嚴重的欠擬合問題。此外,在許多圖分類的基準測試集上,它的表征能力和性能優(yōu)于其他的 GNNs。

預(yù)備知識

首先,我們總結(jié)一些常見的 GNN 模型,順便介紹一下相關(guān)數(shù)學(xué)符號的含義。假設(shè) G = (V, E) 表示一個圖,圖的節(jié)點向量用 X (v) 表示,其中,v ∈ V 。有兩個比較感興趣的任務(wù):(1)節(jié)點分類,其中每個節(jié)點 v ∈ V 都有一個相關(guān)的標簽 y (v),目標是學(xué)習(xí)節(jié)點 v 的表征向量 h (v),節(jié)點 v 的標簽可以被函數(shù) y (v)=f (h (v)) 所預(yù)測。(2)圖分類,其中給定一組圖 {G1, ..., GN }? G 及其標簽 {y1, ..., yN } ? Y,我們的目標是學(xué)習(xí)一個表征向量 h (G),它有助于預(yù)測整個圖的標簽 y (G) = g (h (G))。

圖神經(jīng)網(wǎng)絡(luò)

GNNs 利用圖結(jié)構(gòu)和節(jié)點特征 X (v) 來學(xué)習(xí)一個節(jié)點的表征向量 h (v),或者整個圖的表征向量 h (G)。

新式的 GNNs 都遵循領(lǐng)域聚合(neighborhood aggregation)策略,其中我們通過聚合它的鄰近節(jié)點的表征向量來迭代更新節(jié)點的表征向量。在 k 次迭代后,節(jié)點的表征可以在它的 k-hop 網(wǎng)絡(luò)鄰居中捕獲結(jié)構(gòu)信息。形式上,GNN 的第 k 層是:

其中,h {k}(v) 是節(jié)點 v 在第 k 的迭代 / 層的特征向量。我們初始化 h {0}(v)=X (v),N (v) 是與 v 節(jié)點鄰近的一組節(jié)點。在 GNNs 中選擇函數(shù) AGGREGATE {k}(?) 和 COMBINE {k}(?) 非常關(guān)鍵。已經(jīng)提出了許多用于聚合的體系結(jié)構(gòu)。在 GraphSAGE 的 pooling 變體(Hamilton et al., 2017a),AGGREGATE 函數(shù)形式如下:

其中,W 是可以學(xué)習(xí)的矩陣,MAX 表示一個 element-wise 的 max-pooling。在 GraphSAGE 的 COMBINE 步是一個線性映射的連接 W?[h {k-1}(v)|a {k}(v)]。在圖卷積網(wǎng)絡(luò)中(GCN)(Kipf & Welling, 2017),element-wise 的 mean pooling 被替代,AGGREGATE 和 COMBINE 步集成在一體如下:

許多其他的 GNNs 可以類似的表示為 Eq. 2.1 (Xu et al., 2018; Gilmer et al., 2017)。

對于節(jié)點分類問題,最后一次迭代的節(jié)點表征向量 h {K}(v) 用來做預(yù)測。對于圖分類問題,READOUT 函數(shù)從最后一次迭代中聚合節(jié)點特征來獲取整個圖的表征向量 h (G):

READOUT 函數(shù)可以是一個簡單的置換不變函數(shù),例如求和或者 graph-level 級別的 pooling 函數(shù) (Ying et al., 2018; Zhang et al., 2018)。

Weisfeiler-Lehman 測試

圖同構(gòu)問題指的是驗證兩個圖在拓撲結(jié)構(gòu)上是否相同。這是一個具有挑戰(zhàn)性的問題:因為現(xiàn)在很難知道計算的時間復(fù)雜度。WL(Weisfeiler-Lehman)測試是一種非常有效的一測試圖同構(gòu)的方法,它可以區(qū)分各種圖。

在 1 維的情況下,它類似于在 GNN 中的領(lǐng)域聚合。假設(shè)每個節(jié)點都有一個分類標簽,WL 測試(1)迭代聚合節(jié)點標簽和他們的鄰近節(jié)點,(2)將聚合的標簽 hash 成唯一的新標簽。如果在某些迭代中兩個圖的節(jié)點標簽不同,則該算法判定它們是不同的。

基于 WL 試驗,Shervashidze 等人(2011)提出了 WL 子樹內(nèi)核來測量圖之間的相似性。內(nèi)核使用在 WL 測試不同迭代中的節(jié)點標簽計數(shù)作為圖的特征向量。直觀的來看,在 WL 測試的第 k 次迭代中,一個節(jié)點的標簽表征該根節(jié)點的高度為 k 的子樹結(jié)構(gòu)(Figure 1)。因此,WL 子樹所考慮的圖的特征本質(zhì)上是圖中不同根子樹的計數(shù)。

理論框架:概述

我們首先概述了分析 GNNs 表達能力的框架。GNN 遞歸地更新每個節(jié)點的特征向量,以捕獲其周圍其他節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)和特征,即其根子樹結(jié)構(gòu)(圖 1)。在本文中,我們假設(shè)節(jié)點輸入特征是一個宇宙內(nèi)可數(shù)的數(shù)。對于有限圖,我們可以遞歸地證明在任何固定模型的深層節(jié)點特征向量也是一個宇宙內(nèi)可數(shù)的數(shù)。為了簡化符號,我們可以為每個特征向量分配一個唯一的標簽∈{a,b,c……}。 然后,一組相鄰節(jié)點的特征向量形成多重集:同一元素可以出現(xiàn)多次,因為不同的節(jié)點可以具有相同的特征向量。

多重集定義:多重集是集合的一個廣義概念,它允許其元素有多個實例。更正式地講,多重集是一個二元組 X =(S,m),其中 S 是由其不同元素組成的 X 的基礎(chǔ)集合,而 m:S→N (≥1) 給出了元素的多樣性。

為了分析 GNN 的表達能力,我們分析了 GNN 何時將兩個節(jié)點映射到嵌入空間中的相同位置。直觀地說,最強大的 GNN 僅當兩個節(jié)點具有相同的子樹結(jié)構(gòu),并且在對應(yīng)的節(jié)點上具有相同的特征時,才會將它們映射到相同的位置。由于子樹結(jié)構(gòu)是通過節(jié)點鄰域遞歸定義的(圖 1),因此當 GNN 將兩個鄰域映射到相同的嵌入時,我們可以遞歸地減少我們的分析。最強大的 GNN 永遠不會將兩個不同的鄰域(即,特征向量的多重集)映射到相同的位置。這意味著它的聚合方案是單射的。 因此,我們將 GNN 的聚合方案抽象為其神經(jīng)網(wǎng)絡(luò)可以表示的多重集合上的一類函數(shù),并分析它們是否能夠表示單射的多重集函數(shù)。

接下來,我們使用這種推理開發(fā)一個最強大的 GNN。 在第 5 節(jié)中,我們研究了流行的 GNN 變體,并發(fā)現(xiàn)它們的聚合方案本質(zhì)上不是單射的,因此功能較弱,但它們可以捕獲圖形的其他有趣屬性。

構(gòu)建強大的圖神經(jīng)網(wǎng)絡(luò)

理想情況下,GNN 能夠(1)通過將它們映射到嵌入空間中的不同位置來區(qū)分不同的圖結(jié)構(gòu),以及(2)在嵌入空間中捕獲它們的結(jié)構(gòu)相似性。在本文中,我們主要關(guān)注第一部分,我們將簡要討論第二部分。然而,將不同的圖映射到不同的嵌入空間的能力意味著可以解決圖同構(gòu)問題。

在我們的分析中,通過一個稍微弱一點的標準來描述 GNN 的表達能力:魏斯費勒 - 雷曼(WL)圖同構(gòu)測試,除少數(shù)特例外,該測試通常工作得很好,特別是規(guī)則圖(Cai 等人,1992;Douglas,2011;Evdokimov&Ponomarenko,1999)。

引理 2. 設(shè) G1 和 G2 為任何非同構(gòu)圖。如果一個圖神經(jīng)網(wǎng)絡(luò) A: G → R (d) 遵循領(lǐng)域聚合方案,將 G1 和 G2 映射到不同的嵌入,Weisfeiler-Lehman 圖同構(gòu)檢驗也判定 G1 和 G2 不是同構(gòu)的。

因此,在區(qū)分不同圖方面任何基于聚合的 GNN 都至多與 WL 測試一樣強大。一個自然的問題是,在原則上是否存與 WL 測試一樣強大的 GNN? 我們在定理 3 中得到的答案是肯定的:如果鄰居聚合和圖池化函數(shù)是單射的,那么得到的 GNN 就像 WL 測試一樣強大。

定理 3.設(shè) A:G→R (d) 是一個遵循鄰域聚合方案的 GNN。 通過足夠的迭代,如果滿足以下條件,則 A 可以將通過 Weisfeiler-Lehman 測試的圖 G1 和 G2 為非同構(gòu)圖映射到不同的嵌入:

a) A 每次迭代聚合更新節(jié)點特征向量

b)A 的圖級別的 readout 函數(shù),運行在節(jié)點特征的多重集上{h (k)(v)},是一個單射函數(shù)。

在可數(shù)集上,單射性很好地描述了一個函數(shù)是否保留了輸入的區(qū)別性。在不可數(shù)集上,節(jié)點特征是連續(xù)的,內(nèi)射性和判別性的概念被 “削弱”。在本文中,我們假設(shè)輸入節(jié)點特征來自可數(shù)集。鑒于輸入節(jié)點特征的可計數(shù)性假設(shè),人們可能會問,GNN 更深層的節(jié)點特征的可數(shù)性是否仍然適用? 引理 4 表示是,即可數(shù)性可以跨層傳播。

引理 4. 假設(shè)輸入特征空間 X 是可數(shù)的,g (k) 是由 GNN 的第 k 層參數(shù)化的函數(shù),k=1,..,L。其中,g (1) 被定義在有限多重集 X ? X 上,g (k) 的范圍,節(jié)點的隱含特征 h {k}(v) 空間,在 k=1,...,L 都是可數(shù)的。

在這里,除了區(qū)分不同的圖之外,還值得討論 GNN 的一個重要好處,也就是說,捕捉圖結(jié)構(gòu)的相似性。注意,WL 測試中的節(jié)點特征向量本質(zhì)上是一種獨熱編碼(one-hot 編碼),因此不能捕獲子樹之間的相似性。相反,滿足定理 3 標準的 GNN,通過學(xué)習(xí)將子樹嵌入低維空間來推廣 WL 測試。這使得 GNN 不僅可以區(qū)分不同的結(jié)構(gòu),而且可以學(xué)習(xí)將相似的圖結(jié)構(gòu)映射到相似的嵌入,并捕獲圖結(jié)構(gòu)之間的依賴關(guān)系。捕捉節(jié)點標簽的結(jié)構(gòu)相似性對泛化有幫助,特別是在不同的圖中當子樹的共現(xiàn)稀疏或存在噪聲邊和節(jié)點特征時(Yanardag 和 Vishwanathan,2015)。

圖異構(gòu)網(wǎng)絡(luò)(GIN)

接下來,我們開發(fā)了一個可證明滿足定理 3 中條件的模型,從而推廣了 WL 測試。 我們將結(jié)果體系結(jié)構(gòu)命名為 Graph Isomorphism Network(GIN)。為了模擬領(lǐng)域聚合的單射多重集函數(shù),我們發(fā)展了一個 “深多重集” 的理論,即用神經(jīng)網(wǎng)絡(luò)參數(shù)化通用多重集函數(shù)。我們的下一個引理表明,求和聚合器可以代表多重集合的單射,事實上,是多重集上的通用函數(shù)。

引理 5. 定義如下:

該引理擴展了設(shè)置 (Zaheer et al., 2017) 從集合到多重集。深多重集和集合之間的一個重要區(qū)別是某些單射集合函數(shù),例如均值聚合器,不是多重集函數(shù)。利用引理 5 中通用多重集函數(shù)的建模機制作為構(gòu)建塊,現(xiàn)在我們提出一種聚合方案,可以表示節(jié)點對和其鄰居的多重集合上的通用函數(shù),從而滿足定理 3a 中的單射性條件。 我們的下一個推論在許多這樣的聚合方案中提供了簡單而具體的公式。

推論 6. 定義如下:

由于通用逼近定理(Hornik 等,1989; Hornik,1991),我們可以使用多層感知器(MLP)來推導(dǎo)和學(xué)習(xí)推論 6 中的 f 和 φ,在實際應(yīng)用中,我們用一個 MLP 對 f (k+1) ? φ (k) 進行建模,因為 MLP 可以表示函數(shù)的組成。在第一個迭代中,如果輸入特征是一個熱編碼,那么在求和之前不需要 MLP,因為它們的求和是單射的。我們可以制作一個可學(xué)習(xí)的參數(shù)或固定的標量。然后,GIN 更新節(jié)點表征如下:

通常,可能存在許多其他強大的 GNNs。 雖然 GIN 很簡單,但是它是最強大的 GNN 中的一個。

讀取不同部分的子樹結(jié)構(gòu)

圖級讀出(readout)的一個重要方面是,隨著迭代次數(shù)的增加,對應(yīng)于子樹結(jié)構(gòu)的節(jié)點表征變得更加精細和全局。足夠數(shù)量的迭代是實現(xiàn)良好區(qū)分力的關(guān)鍵。 然而,特征的早期迭代有時可能更好地泛化。為了考慮所有的結(jié)構(gòu)信息,GIN 從模型的所有深度 / 迭代使用信息。 我們通過類似于跳躍知識網(wǎng)絡(luò)(JK-Nets)(Xu 等人,2018)的架構(gòu)來實現(xiàn)這一點,其中在所有的迭代中我們使用連接后的圖的表征向量替換了 Eq.2.4:

根據(jù)定理 3 和推論 6,如果 GIN 使用對來自相同迭代的所有節(jié)點特征求和來取代 Eq.4.2 中的 READOUT(在求和之前我們不需要額外的 MLP,原因與方程 4.1 相同),它可以推廣 WL 測試和 WL 子樹核。

能力不強但仍然有趣的其他 GNNs

接下來我們研究不滿足定理 3 中條件的 GNN,包括GCN(Kipf&Welling,2017)和GraphSAGE(Hamilton 等,2017a)。

我們對 Eq. 4.1 中聚合器的兩個方面進行消融研究:(1)使用 1 層的感知器代替 MLP;(2)利用平均或最大池而不是求和。

令人驚訝的是我們觀察到這些 GNN 變體被簡單的圖所迷惑,并且沒有 WL 測試強大。 盡管如此,使用平均聚合器的模型像 GCN 在節(jié)點分類任務(wù)中還是表現(xiàn)良好。 為了更好地理解這一點,我們精確地描述了不同 GNN 變體能夠和不能夠捕獲圖的哪些內(nèi)容,并討論學(xué)習(xí)圖的含義。

1- 層的感知機并不充分

引理 5 中的函數(shù) f 有助于將不同的多重集合映射到唯一的嵌入。它可以通過 MLP 通過通用逼近定理參數(shù)化(Hornik,1991)。盡管如此,許多現(xiàn)有的 GNN 使用 1- 層感知器 σ°W 代替(Duvenaud 等人,2015; Kipf&Welling,2017; Zhang 等人,2018),線性映射后跟非線性激活函數(shù),如 ReLU。 這種 1- 層映射是廣義線性模型的例子(Nelder&Wedderburn,1972)。因此,我們對了解 1- 層感知器是否足以進行圖學(xué)習(xí)非常感興趣。引理 7 表明確實存在網(wǎng)絡(luò)鄰域(多重集合),具有 1- 層感知器的模型永遠無法區(qū)分。

引理 7. 定義如下:

引理 7 證明的主要思想是 1 層感知器的行為很像線性映射,因此 GNN 層退化為簡單地對鄰域特征求和。我們的證據(jù)建立在線性映射中缺少偏差項的事實上。利用偏差項和足夠大的輸出維數(shù),1- 層感知器可能能夠區(qū)分不同的多重集。 盡管如此,與使用 MLP 的模型不同,1- 層感知器(即使具有偏置項)也不是多重集函數(shù)的通用逼近器。

因此,即使具有 1- 層感知器的 GNN 在某種程度上可以將不同的圖嵌入到不同的位置,這種嵌入也可能不能充分地捕獲結(jié)構(gòu)相似性,并且對于簡單的分類器(例如,線性分類器)來說可能難以擬合。 在第 7 節(jié)中,我們將憑經(jīng)驗看到具有 1- 層感知器的 GNN,當應(yīng)用于圖分類時,有時會嚴重欠擬合,并且在測試精度方面通常表現(xiàn)不及 MLP 的 GNN。

混淆平均值和最大池的結(jié)構(gòu)

如果我們將 h (X)=sum (f (x)) ,其中 x∈X,中的求和替換為 GCN 和 GraphSAGE 中的均值或最大池,會發(fā)生什么?平均和最大池聚合器仍然是定義良好的多重集函數(shù),因為它們是置換不變的。但是,它們不是單射的。

圖 2 根據(jù)三個聚合器的表示能力對其進行排序,圖 3 說明了平均池和最大池聚合器對結(jié)構(gòu)對無法區(qū)分。在這里,節(jié)點顏色表示不同的節(jié)點特征,我們假設(shè) GNN 在將它們與中心節(jié)點組合之前先聚合鄰居。

在圖 3a 中,每個節(jié)點具有相同的特征 a,并且 f (a) 在所有節(jié)點上是相同的(對于任何函數(shù) f)。當執(zhí)行鄰域聚合時,f (a) 上的均值或最大值仍為 f (a),并且通過歸納,我們總是在任何地方獲得相同的節(jié)點表示。因此,均值和最大池聚合器無法捕獲任何結(jié)構(gòu)信息。相反,求和聚合器可以區(qū)分結(jié)構(gòu),因為 2?f (a) 和 3?f (a) 給出了不同的值。相同的參數(shù)可以應(yīng)用于任何未標記的圖。如果節(jié)點度不是常量值,則可以用作節(jié)點輸入特征,原則上,均值可以覆蓋求,但最大池不能。

圖 3a 表明均值和最大值難以區(qū)分具有重復(fù)特征的節(jié)點的圖。假設(shè) h (color)(r 代表紅色,g 代表綠色)表示由 f 轉(zhuǎn)換后的節(jié)點特征。圖 3b 顯示藍色節(jié)點附近的最大值產(chǎn)生 max (h (g),h (r)) 和 max (h (g),h (r),h (r)),這兩個值折疊成相同的表示。因此,最大池?zé)o法區(qū)分它們。相比之下,求和聚合器仍然有效,因為 1/2*(h (g)+h (r)) 和 1/3*(h (g)+h (r)+h (r)) 通常是不等同的。同樣地,在圖 3c 中,平均值和最大值均為失敗 1/2*(h (g)+h (r)) 和 1/4*(h (g)+h (g)+h (r)+h (r))。

平均學(xué)習(xí)分布

為了描述平均聚合器可以區(qū)分多重集的類,考慮示例 X1 = (S, m) and X2 = (S, k?m),其中 X1 和 X2 具有相同的一組不同元素的集合,但 X2 包含 X1 的每個元素的 k 個副本。任何平均聚合器都將 X1 和 X2 映射到相同的嵌入,因為它只需要對單個元素的特征取平均值。因此,平均值可以捕獲多重集中元素的分布(或者比例),而不是精確的多重集。

推論 8.定義如下:

對于任務(wù)而言,如果圖中的統(tǒng)計和分布信息比精確的結(jié)構(gòu)更為重要,則平均聚合器可能表現(xiàn)良好。此外,當節(jié)點特征多樣且很少重復(fù)時,平均聚合器與求和聚合器一樣強大。這就可以解釋為什么,盡管存在第 5.2 節(jié)中提到的一些限制,但帶有平均聚合器的 GNN 對于節(jié)點分類任務(wù)還是有效,例如對文章主題進行分類和社區(qū)檢測,其中節(jié)點特征豐富,并且鄰域特征的分布為任務(wù)提供了一個強有力的信號

具有不同元素的最大池學(xué)習(xí)集

圖 3 中的示例說明最大池認為具有相同的特征的多個節(jié)點僅為一個節(jié)點(即,將多重集合視為一個集合)。 最大池不捕獲確切的結(jié)構(gòu)和分布。 但是,它可能適用于某些識別任務(wù),這些任務(wù)中識別元素或 “骨架” 更重要,而不是區(qū)分確切的結(jié)構(gòu)或分布。( 齊等人.2017)憑經(jīng)驗表明,最大池聚合器學(xué)習(xí)識別 3D 點云的骨架,并且它對噪聲和異常值具有魯棒性。 為了完整起見,下一個推論顯示最大池聚合器捕獲多重集的基礎(chǔ)集。

推論 9. 定義如下

實驗設(shè)置

我們評估和比較 GIN 和不太強大的 GNN 變體的訓(xùn)練和測試性能。

數(shù)據(jù)集

我們使用 9 個圖分類基準:4 個生物信息學(xué)數(shù)據(jù)集(MUTAG,PTC,NCI1,PROTEINS)和 5 個社交網(wǎng)絡(luò)數(shù)據(jù)集(COLLAB,IMDB-BINARY,IMDB-MULTI,REDDIT-BINARY 和 REDDIT-MULTI5K)(Yanardag&Vishwanathan,2015)。

在生物信息圖中,節(jié)點具有分類輸入特征;在社交網(wǎng)絡(luò)中,它們沒有任何特征。 對于 REDDIT 數(shù)據(jù)集,我們將所有節(jié)點特征向量設(shè)置為相同(因此,這里的特征是無信息的); 對于其他社交圖,我們使用節(jié)點度的獨熱編碼。

模型和配置

我們評估 GIN(方程 4.1 和 4.2)和不太強大的 GNN 變體。在 GIN 框架下,我們考慮兩種變體:1)通過梯度下降,學(xué)習(xí)方程式 4.1 中的 ε 的 GIN,我們稱之為 GIN-ε;(2)更簡單(稍微不那么強大)的 GIN,其中 ε 在方程式中 4.1 固定為 0,我們稱之為 GIN-0。

正如我們將要看到的,GIN-0 顯示出強大的經(jīng)驗性能:GIN-0 不僅與 GIN-ε 一樣擬合的訓(xùn)練數(shù)據(jù)好,它還表現(xiàn)出良好的泛化性,在測試精度方面略微但始終優(yōu)于 GIN-ε。對于能力較弱的 GNN 變體,我們考慮使用 mean 或 max-pooling 替換 GIN-0 聚合中的求和的架構(gòu),或者用 1- 層感知器替換 MLP,即線性映射后面接 ReLU。在圖 4 和表 1 中,模型由它使用的聚合器 / 感知器命名。我們對 GIN 和所有 GNN 變體應(yīng)用相同的圖級 readout(公式 4.2 中的 READOUT),特別是生物信息學(xué)數(shù)據(jù)集的求和 readout 以及由于更好的測試性能而在社交數(shù)據(jù)集上的平均 readout。

以下(Yanardag&Vishwanathan,2015; Niepert 等,2016),我們使用 LIB-SVM 進行 10 倍交叉驗證(Chang&Lin,2011)。我們公布了通過 cv 進行的 10- 交叉驗證 validate 集的準確度的平均值和標準差。對于所有的配置,應(yīng)用 5 個 GNN 層(包括輸入層),并且所有 MLP 具有 2 個層。BN 標準化(Ioffe&Szegedy,2015)應(yīng)用于每個隱藏層。我們使用 Adam 優(yōu)化器(Kingma&Ba,2015),初始學(xué)習(xí)率為 0.01,并且每 50 個 epochs 將學(xué)習(xí)率衰減 0.5。我們針對每個數(shù)據(jù)集調(diào)優(yōu)的超參數(shù)是:(1)生物信息圖的 hidden units 的大小∈{16,32} 和社交圖的大小為 64; (2)批量大小(batch size)∈{32,128}; (3)在 dense 層后,dropout 率∈{0,0.5}(Srivastava 等,2014); (4)epochs 的數(shù)量。

基準線

我們將上面的 GNN 與一些性能最佳的圖分類基線進行了比較:

(1)WL 子樹內(nèi)核(Shervashidze 等,2011),其中使用了 C-SVM(Chang&Lin,2011) 作為分類器。 我們調(diào)優(yōu)的超參數(shù)是 SVM 中的 C 和 WL 迭代的數(shù)量∈{1,2,...,6};

(2)性能最佳的深度學(xué)習(xí)架構(gòu)擴散 - 卷積神經(jīng)網(wǎng)絡(luò)(DCNN)(Atwood&Towsley,2016)、PATCHY-SAN(Niepert 等,2016)和 Deep Graph CNN(DGCNN)(Zhang et al.,2018);

(3)Anonymous Walk Embeddings(AWL)(Ivanov&Burnaev,2018)。

對于深度學(xué)習(xí)方法和 AWL,我們報告了原始論文中報告的準確性。

實驗結(jié)果

訓(xùn)練集性能

通過比較它們的訓(xùn)練精度,我們驗證了 GNNs 的強大表征能力的理論分析。圖 4 顯示了具有相同超參數(shù)設(shè)置的 GIN 和不太強大的 GNN 變種的訓(xùn)練曲線。

首先,理論上最強大的 GNN,即 GIN-ε (Sum–MLP),和 GIN-0 能夠完美擬合所有的訓(xùn)練數(shù)據(jù)。在我們的實驗中,與在 GIN-0 中把 ε 固定為 0 相比,在擬合訓(xùn)練數(shù)據(jù)時,用 GIN-ε 顯式學(xué)習(xí) ε 沒有任何收益。相比之下,在許多數(shù)據(jù)集中,使用平均 / 最大池或 1- 層感知機的 GNN 變體嚴重欠擬合。特別是,訓(xùn)練精度模式與我們通過模型的表征能力進行的排名一致:具有 MLP 的 GNN 變體比具有 1- 層感知器的 GNN 變體具有更高的訓(xùn)練精度,具有求和聚合器的 GNN 比具有平均和最大池聚合器的 GNN 更好的擬合訓(xùn)練集。

然而,在我們的數(shù)據(jù)集上,GNN 的訓(xùn)練精度從未超過 WL 子樹內(nèi)核的精度,后者具有與 WL 測試相同的區(qū)分能力。例如,在 IMDBBINARY 上,沒有一個模型能夠完全擬合訓(xùn)練集,而且 GNN 最多能達到與 wl 內(nèi)核相同的訓(xùn)練精度。此模式與我們的結(jié)果一致,即 WL 測試為基于聚合的 GNN 的表示能力提供了一個上限。我們的理論結(jié)果集中在表征能力上,還沒有考慮到優(yōu)化(例如局部極小)。盡管如此,實驗結(jié)果與我們的理論非常吻合。

測試集性能

接下來,我們比較測試集精度。雖然我們的理論結(jié)果并不能直接說明 GNN 的泛化能力,但有理由期待具有較強表達力的 GNN 能夠準確地捕獲感興趣的圖結(jié)構(gòu),因此泛化能力非常好。表 1 比較了 GINs (SUM-MLP)、其他 GNN 變種以及最佳基準線的測試精度。

結(jié)論

在本文中,我們建立了 GNN 表達能力推理的理論基礎(chǔ),并對流行的 GNN 變體的表達能力進行了嚴格的論證。在此過程中,我們還在鄰域聚合框架下設(shè)計了一個可以證明是最強大的 GNN。未來工作的一個有趣方向是超越鄰域聚合(或消息傳遞)框架,以追求更強大的圖學(xué)習(xí)架構(gòu)。理解和改進 GNN 的泛化性質(zhì)也是很有意思的。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4774

    瀏覽量

    100903
  • 機器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14915
  • GNN
    GNN
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    6357

原文標題:圖神經(jīng)網(wǎng)絡(luò)將成AI下一拐點!MIT斯坦福一文綜述GNN到底有多強

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    labview BP神經(jīng)網(wǎng)絡(luò)的實現(xiàn)

    是classes(層級嗎?),希望有前輩能夠詳細的幫我講解下這個范例!!!謝謝!!!!(本人已對BP神經(jīng)網(wǎng)絡(luò)的理論知識有了了解
    發(fā)表于 02-22 16:08

    【PYNQ-Z2試用體驗】基于PYNQ的神經(jīng)網(wǎng)絡(luò)自動駕駛小車 - 項目規(guī)劃

    神經(jīng)網(wǎng)絡(luò)技術(shù)的第三次發(fā)展浪潮仍在繼續(xù),在其背后,高性能CPU、GPU和FPGA、ASIC以強大的算力為技術(shù)的應(yīng)用落地提供了有力的支持。然而目前基于FPGA平臺搭建神經(jīng)網(wǎng)絡(luò)作為控制器,
    發(fā)表于 03-02 23:10

    【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

    今天學(xué)習(xí)了兩個神經(jīng)網(wǎng)絡(luò),分別是自適應(yīng)諧振(ART)神經(jīng)網(wǎng)絡(luò)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)。整體感覺不是很難,只不過一些最基礎(chǔ)的概念容易理解不清。首先ART神經(jīng)網(wǎng)絡(luò)是競爭學(xué)習(xí)的一個代表,
    發(fā)表于 07-21 04:30

    人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)方法有哪些?

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu),它的提出是為了解決一些非線性,非平穩(wěn),復(fù)雜的實際問題。那有哪些辦法能實現(xiàn)人工神經(jīng)
    發(fā)表于 08-01 08:06

    如何設(shè)計BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法?

    ,并能在腦海中重現(xiàn)這些圖像信息,這不僅與人腦的海量信息存儲能力有關(guān),還與人腦的信息處理能力,包括數(shù)據(jù)壓縮能力有關(guān)。在各種神經(jīng)網(wǎng)絡(luò)中,多層前饋神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 08-08 06:11

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)化輸入變量權(quán)重的層,以提高模型的預(yù)測
    發(fā)表于 07-12 08:02

    基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

    最近在學(xué)習(xí)電機的智能控制,上周學(xué)習(xí)了基于單神經(jīng)元的PID控制,這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達能力,可以通過對系統(tǒng)性能的學(xué)習(xí)來實現(xiàn)具有最佳組合的PID控
    發(fā)表于 09-07 07:43

    神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

    問題,一個是神經(jīng)網(wǎng)絡(luò)的移植,另一個是STM32的計算速度。神經(jīng)網(wǎng)絡(luò)的移植網(wǎng)絡(luò)采用的是最簡單的BP神經(jīng)網(wǎng)絡(luò),基本原理可以自己去了解一下,大概就
    發(fā)表于 01-11 06:20

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    模型(generative adversarial network,GAN),具有完全相同的兩路網(wǎng)絡(luò) 結(jié)構(gòu)以及權(quán)值的孿生神經(jīng)網(wǎng)絡(luò)模型 SiameseNet,以 及通過線性運算生成其他冗余特征
    發(fā)表于 08-02 10:39

    神經(jīng)網(wǎng)絡(luò)背后的原理和強大表征能力

    此外,在 ICLR 受邀演講上,Jure Leskovec 教授還就深度生成模型做了演講。在這次演講中,Jure 闡述了生成模型的方法和應(yīng)用,并詳細介紹了他的最新成果,GraphRNN 和 Graph Convolutional Policy Network。
    的頭像 發(fā)表于 06-02 09:22 ?1.2w次閱讀

    淺談神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用簡述

    近幾年,神經(jīng)網(wǎng)絡(luò)因其強大表征能力逐漸取代傳統(tǒng)的機器學(xué)習(xí)成為自然語言處理任務(wù)的基本模型。然而經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型只能處理歐氏空間中的數(shù)據(jù),自然
    的頭像 發(fā)表于 04-26 14:57 ?3333次閱讀
    淺談<b class='flag-5'>圖</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>在自然語言處理中的應(yīng)用簡述

    深入了解神經(jīng)網(wǎng)絡(luò)

    本章將介紹用于解決實際問題的深度學(xué)習(xí)架構(gòu)的不同模塊。前一章使用PyTorch的低級操作構(gòu)建了如網(wǎng)絡(luò)架構(gòu)、損失函數(shù)和優(yōu)化器這些模塊。本章將介紹用于解決真實問題的神經(jīng)網(wǎng)絡(luò)的一些重要組件,以及
    的頭像 發(fā)表于 07-08 10:22 ?724次閱讀
    <b class='flag-5'>深入了解</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    什么是神經(jīng)網(wǎng)絡(luò)?什么是卷積神經(jīng)網(wǎng)絡(luò)

    在介紹卷積神經(jīng)網(wǎng)絡(luò)之前,我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識。就目前而言,神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心,我們所熟知的很多深度學(xué)習(xí)算法的背后其實都是神經(jīng)網(wǎng)
    的頭像 發(fā)表于 02-23 09:14 ?3596次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    不同的神經(jīng)網(wǎng)絡(luò)模型,它們在結(jié)構(gòu)、原理、應(yīng)用等方面都存在一定的差異。本文將從多個方面對這兩種神經(jīng)網(wǎng)絡(luò)進行詳細的比較和分析。 引言 神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元連接和信息傳遞的計算模型,它
    的頭像 發(fā)表于 07-02 14:24 ?4392次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時,我們需要從多個維度進行
    的頭像 發(fā)表于 07-04 13:20 ?978次閱讀
    主站蜘蛛池模板: 樱桃BT在线观看| 亚洲精品久久久午夜福利电影网 | 10分钟免费观看视频| 亚洲人女同志video| 午夜理伦片免费| 偷上邻居熟睡少妇| 污污内射久久一区二区欧美日韩| 日本人奶水中文影片| 日本熟妇乱妇熟色A片蜜桃亚洲 | 影视先锋男人无码在线| 一二三四在线视频社区| 亚洲综合日韩中文字幕v在线| 亚洲免费三区| 亚洲日本欧美天堂在线| 亚洲在线国产日韩欧美| 一个人免费视频在线观看高清频道 | 麻豆AV福利AV久久AV| 麻豆人妻换人妻X99| 男同志vdieos免费| 欧美丰满少妇久久无码精品| 欧美亚洲日韩一道免费观看| 青柠视频在线观看高清HD| 人妻仑乱少妇88MAV| 色呦呦人人视频| 午夜色网站| 亚洲影院在线播放| 51久久夜色精品国产| a视频免费在线观看| 成片在线看一区二区草莓| 国产高清免费视频免费观看| 国产亚洲精品在浅麻豆| 久久99r66热这里有精品| 另类欧美尿交| 秋霞电影午夜伦午夜| 我和妽妽在厨房里的激情区二区 | 97色伦图片7778久久| 被cao的奶水直喷高H| 国产黄片毛片| 久久国产香蕉| 欧美最猛黑人AAAAA片| 忘忧草秋观看未满十八|