色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺談圖嵌入算法如何高效解決輸入機器學習算法的問題

jf_uPRfTJDa ? 來源:中國移動智慧家庭運營中 ? 2023-01-31 10:14 ? 次閱讀

Labs 導讀

圖作為一種重要的數據表示形式,普遍存在于多樣化的實際場景中,如社交網絡中的社交圖、電子商務網站中的用戶興趣圖、科研領域中的論文引文圖等。有效的圖分析能夠幫助人們深入了解數據背后的內容,從而解決節點分類、節點聚類、鏈路預測等問題。然而圖上的數學和統計操作是有限的,將機器學習方法直接應用到圖上是很有挑戰性的。在這種情況下,圖嵌入似乎是一個合理的解決方案。

作者:何穎

單位:中國移動智慧家庭運營中心安全產品

什么是圖嵌入

圖嵌入是將圖結構數據映射為低維稠密向量的過程,同時使得原圖中拓撲結構相似或屬性接近的節點在向量空間上的位置也接近,能夠很好地解決圖結構數據難以高效輸入機器學習算法的問題。

對于圖的表示和存儲,最容易想到的是使用鄰接矩陣的方式。對圖中的每個節點進行編號,構造出一個1ab0bf9e-a10a-11ed-bfe3-dac502259ad0.png的矩陣,其中1ac863d8-a10a-11ed-bfe3-dac502259ad0.png表示圖中節點的數量。圖中任意兩個節點是否有邊相連決定了鄰接矩陣中對應位置的值,這種表示方法非常容易理解且直觀,但是非常低效。因為現實場景中的圖可能會包含成千上萬甚至更多的節點,而大多數節點之間是沒有邊連接的,這會導致得到的鄰接矩陣十分稀疏。使用鄰接矩陣表示和存儲圖需要較高的計算成本和空間成本,而圖嵌入算法能夠高效解決圖分析問題。

Part 02基本概念概念1 圖: 圖表示為1ae26788-a10a-11ed-bfe3-dac502259ad0.png,其中1af15e46-a10a-11ed-bfe3-dac502259ad0.png表示節點,1b097148-a10a-11ed-bfe3-dac502259ad0.png表示邊。1b16e4f4-a10a-11ed-bfe3-dac502259ad0.png與節點類型映射函數1b2595d0-a10a-11ed-bfe3-dac502259ad0.png和邊類型映射函數1b318890-a10a-11ed-bfe3-dac502259ad0.png相關聯。1b40f4f6-a10a-11ed-bfe3-dac502259ad0.png表示節點類型的集合,1b5024c6-a10a-11ed-bfe3-dac502259ad0.png表示邊類型的集合。 ? 概念2 同構圖:1ae26788-a10a-11ed-bfe3-dac502259ad0.png,其中1b66f26e-a10a-11ed-bfe3-dac502259ad0.png。也就是說,所有節點都屬于一種類型,所有邊都屬于一種類型,比如社交網絡中的用戶關注關系圖,只有用戶這一種節點類型和關注關系這一種邊類型。 ? 概念3 異構圖:1ae26788-a10a-11ed-bfe3-dac502259ad0.png,其中1b807cd4-a10a-11ed-bfe3-dac502259ad0.png1b90d03e-a10a-11ed-bfe3-dac502259ad0.png。也就是說,節點類型或邊類型多于一種,比如學術網絡中的圖結構,存在論文、作者、會議等多種節點類型,邊的關系包括作者與論文之間的創作關系、論文與會議之間的發表關系、論文與論文之間的引用關系等。 ? 概念4 一階相似度: 如果連接兩個節點的邊的權重較大,則它們之間的一階相似度越大。節點1ba015ee-a10a-11ed-bfe3-dac502259ad0.png和節點1bb6d766-a10a-11ed-bfe3-dac502259ad0.png之間的一階相似度表示為1bc54b48-a10a-11ed-bfe3-dac502259ad0.png,有1bd30f8a-a10a-11ed-bfe3-dac502259ad0.png,其中1be94b1a-a10a-11ed-bfe3-dac502259ad0.png是節點1ba015ee-a10a-11ed-bfe3-dac502259ad0.png和節點1bb6d766-a10a-11ed-bfe3-dac502259ad0.png之間連邊1c2b89c6-a10a-11ed-bfe3-dac502259ad0.png的權重。 ? 概念5 二階相似度: 如果兩個節點鄰近的網絡結構越相似,則它們之間的二階相似度越大。節點1ba015ee-a10a-11ed-bfe3-dac502259ad0.png和節點1bb6d766-a10a-11ed-bfe3-dac502259ad0.png之間的二階相似度1c5653fe-a10a-11ed-bfe3-dac502259ad0.png1ba015ee-a10a-11ed-bfe3-dac502259ad0.png的鄰域1c75a7b8-a10a-11ed-bfe3-dac502259ad0.png1bb6d766-a10a-11ed-bfe3-dac502259ad0.png的鄰域1c99f280-a10a-11ed-bfe3-dac502259ad0.png之間的相似性。如圖1所示,因為有邊連接節點f和節點g,所以節點f和節點g一階相似。雖然沒有邊連接節點e和節點g,但是它們相同的鄰居節點有四個,所以節點e和節點g二階相似。 ? ?

1ca9428a-a10a-11ed-bfe3-dac502259ad0.png

圖1 二階相似度示意圖 概念6 圖嵌入: 給定輸入圖1ae26788-a10a-11ed-bfe3-dac502259ad0.png,以及預定義的嵌入維數1ce04afa-a10a-11ed-bfe3-dac502259ad0.png,圖嵌入是要在盡可能保留圖屬性的前提下,將圖1b16e4f4-a10a-11ed-bfe3-dac502259ad0.png轉換到1d044eb4-a10a-11ed-bfe3-dac502259ad0.png維空間。依賴一階相似度或高階相似度量化圖屬性的保留程度,使用一個1d044eb4-a10a-11ed-bfe3-dac502259ad0.png維向量或一組1d044eb4-a10a-11ed-bfe3-dac502259ad0.png維向量來表示一個圖,每個向量表示圖的一部分的嵌入,例如節點或邊。

圖嵌入算法分類

在過去幾十年,研究人員們提出了許多優秀的算法,在社交網絡、通信網絡等場景中被證明具有顯著的效果。業界通常根據輸出粒度的差異將這些圖嵌入算法分為以下三類:

(1)節點嵌入

節點嵌入是最常見的類型,在低維空間中用向量對圖中的每一個節點進行表示,“相似”節點的嵌入向量表示也是相似的。當需要對圖中的節點進行分析,進而執行節點分類或節點聚類等任務時,通常會選擇節點嵌入。

(2)邊嵌入

在低維空間中用向量對圖中的每一條邊進行表示。邊由一對節點組成,通常表示節點對關系。當需要對圖中的邊進行分析,執行知識圖譜關系預測或鏈路預測等任務時,適合選擇邊嵌入。

(3)圖嵌入

在低維空間中用向量對整個圖進行表示,通常是分子或蛋白質這樣的小圖。將圖表示為一個向量便于計算不同圖之間的相似性,從而解決圖分類問題。

不同的任務需求決定了選用的圖嵌入算法,由于篇幅原因,這里節選出節點嵌入中的DeepWalk算法和Node2Vec算法來進行相對詳細的學習。

經典圖嵌入算法

1.DeepWalk算法 受自然語言處理領域中word2vec思想的啟發,Perozzi等為了建立學習圖中節點表示向量的模型,將節點與節點的共現關系類比于語料庫中詞與詞的共現關系,提出了DeepWalk算法。通過隨機游走的方式采集圖中節點的鄰居節點序列,相當于節點上下文的語料庫,進而可以解決圖中節點之間共現關系的提取問題。預先設置好節點序列的長度和起點,隨機游走策略將會指導如何在鄰居節點中確定下一個游走節點,重復執行該步驟,即可獲得滿足條件的序列,隨機游走示意圖如圖2所示。

1d2dc028-a10a-11ed-bfe3-dac502259ad0.png

圖2 隨機游走示意圖 將word2vec算法中的單詞對應成圖中的節點1ba015ee-a10a-11ed-bfe3-dac502259ad0.png,單詞序列對應成隨機游走得到的節點序列,那么對于一個隨機游走1d51c9be-a10a-11ed-bfe3-dac502259ad0.png,定義其優化目標函數如公式所示。 ? 1d66b568-a10a-11ed-bfe3-dac502259ad0.png ? 為了更進一步學習節點的潛在特征表示,DeepWalk算法引入了映射函數1d7cdc3a-a10a-11ed-bfe3-dac502259ad0.png,實現圖中節點到1d044eb4-a10a-11ed-bfe3-dac502259ad0.png維向量的映射,那么問題就轉換成要估算下列公式的可能性。 ? 1d9d0df2-a10a-11ed-bfe3-dac502259ad0.png ? 概率的計算同樣需要參考word2vec算法中的skip-gram模型。 ? 如圖3所示,skip-gram模型包含兩個關鍵的矩陣,一個是中心詞向量矩陣1db9a976-a10a-11ed-bfe3-dac502259ad0.png,另一個是背景詞向量矩陣1dcd4bfc-a10a-11ed-bfe3-dac502259ad0.png,這兩個權重矩陣分別代表著作為不同角色時單詞所關聯的詞向量。skip-gram是一個預測詞上下文的模型,先從語料庫中學習了詞與詞之間的關系,再用這些關系來表達一個特定詞的上下文,即詞的向量表示。也就是說,在同一個序列中,兩個單詞同時出現的頻率越高,兩個單詞的向量表示越相似。將這個思想應用到圖中,定義其優化目標函數如公式所示。 ? 1ddfc0de-a10a-11ed-bfe3-dac502259ad0.png ? 在隨機游走過程中,不考慮采樣序列中節點與節點的順序關系,這能夠更好地反映節點的鄰近關系,同時減少了計算成本。 ?

1def0d64-a10a-11ed-bfe3-dac502259ad0.png

圖3skip-gram模型示意圖 2.Node2Vec算法 在DeepWalk算法的基礎上,研究者Grover A和Leskovec J提出了Node2Vec算法。Node2Vec算法對DeepWalk算法中通過隨機游走生成節點序列的過程進行優化,定義參數1e045f66-a10a-11ed-bfe3-dac502259ad0.png和參數1e1462e4-a10a-11ed-bfe3-dac502259ad0.png對每次隨機游走是傾向于廣度優先采樣還是深度優先采樣進行引導,因此適應性很高。假定當前訪問節點1e242b34-a10a-11ed-bfe3-dac502259ad0.png,則下一個訪問節點1e37130c-a10a-11ed-bfe3-dac502259ad0.png的概率如公式所示。 ? 1e4e2f1a-a10a-11ed-bfe3-dac502259ad0.png ? 式中1e6a0992-a10a-11ed-bfe3-dac502259ad0.png表示從節點1e242b34-a10a-11ed-bfe3-dac502259ad0.png到節點1e37130c-a10a-11ed-bfe3-dac502259ad0.png的轉移概率,1e9bfa10-a10a-11ed-bfe3-dac502259ad0.png表示歸一化常數。 ? ?

1eab0d20-a10a-11ed-bfe3-dac502259ad0.png

圖4 Node2Vec隨機游走策略示意圖 Node2Vec的隨機游走策略是根據兩個參數進行控制的,如圖4所示。假設經過邊1ec65d50-a10a-11ed-bfe3-dac502259ad0.png到達節點v,下一步準備訪問節點x,設1f2ccbb2-a10a-11ed-bfe3-dac502259ad0.png1f422674-a10a-11ed-bfe3-dac502259ad0.png是節點1e242b34-a10a-11ed-bfe3-dac502259ad0.png1e37130c-a10a-11ed-bfe3-dac502259ad0.png之間的邊權。也就是說,當圖是無權圖時,1f6accbe-a10a-11ed-bfe3-dac502259ad0.png直接決定了節點的轉移概率。當圖是有權圖時,1f6accbe-a10a-11ed-bfe3-dac502259ad0.png與邊權重的乘積1f2ccbb2-a10a-11ed-bfe3-dac502259ad0.png決定了節點最終的轉移概率。1f6accbe-a10a-11ed-bfe3-dac502259ad0.png可以根據以下公式來計算,式中1faed8e6-a10a-11ed-bfe3-dac502259ad0.png是節點1fc63c84-a10a-11ed-bfe3-dac502259ad0.png和節點1e37130c-a10a-11ed-bfe3-dac502259ad0.png之間的最短路徑距離。 ?

200d838c-a10a-11ed-bfe3-dac502259ad0.png

當游走采樣從節點1fc63c84-a10a-11ed-bfe3-dac502259ad0.png走到節點1e242b34-a10a-11ed-bfe3-dac502259ad0.png并需要選擇下一跳節點時,會有以下三種情況。 ? (1) 當203f0ace-a10a-11ed-bfe3-dac502259ad0.png時,返回節點1fc63c84-a10a-11ed-bfe3-dac502259ad0.png。 ? (2) 當2063646e-a10a-11ed-bfe3-dac502259ad0.png時,選擇節點1fc63c84-a10a-11ed-bfe3-dac502259ad0.png和節點1e242b34-a10a-11ed-bfe3-dac502259ad0.png的共同鄰接節點,例如節點209466e0-a10a-11ed-bfe3-dac502259ad0.png。 ? (3) 當20aa9a14-a10a-11ed-bfe3-dac502259ad0.png時,選擇與節點1fc63c84-a10a-11ed-bfe3-dac502259ad0.png無關的節點1e242b34-a10a-11ed-bfe3-dac502259ad0.png的鄰接節點,例如節點20d51c44-a10a-11ed-bfe3-dac502259ad0.png20ea1450-a10a-11ed-bfe3-dac502259ad0.png。 ? 也就是說,參數1e045f66-a10a-11ed-bfe3-dac502259ad0.png控制著返回上一跳節點的概率,參數1e1462e4-a10a-11ed-bfe3-dac502259ad0.png更多地控制的是探索網絡的局部結構信息還是全局結構信息,DeepWalk模型其實是1e045f66-a10a-11ed-bfe3-dac502259ad0.png1e1462e4-a10a-11ed-bfe3-dac502259ad0.png的值設置為1時的Node2Vec模型。

總結

隨著信息技術的快速發展,網絡環境變得日益復雜,網絡攻擊頻發,其中APT攻擊呈高發態勢,是企業需要關注的安全問題。事實上,APT攻擊發生的基本環境——網絡,本身就是一個由計算機等元素構成的網絡結構,這也不難聯想到使用圖數據結構來表達這些元素間的關系,再將攻擊檢測問題轉化為圖中的節點、邊或子圖分類任務。圖嵌入是一個豐富且極具研究空間的問題,如何提高模型訓練效率、創新模型構造方法、將圖嵌入的思想應用于更多的生產實踐,企業需要通過更進一步的研究,才能找到更好的答案。

參考文獻

[1]Xu M. Understanding graph embedding methods and their applications[J]. SIAM Review, 2021, 63(4): 825-853.

[2]Cai H, Zheng VW, Chang K C C. A comprehensive survey of graph embedding: Problems, techniques, and applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(9): 1616-1637.

[3]Goyal P, Ferrara E. Graph embedding techniques, applications, and performance: A survey[J]. Knowledge-Based Systems, 2018, 151: 78-94.

編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8425

    瀏覽量

    132771

原文標題:淺談圖嵌入算法

文章出處:【微信號:5G通信,微信公眾號:5G通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    機器學習算法應用

    關于機器學習的相關算法。正版資源,免費看的。
    發表于 08-24 22:14

    經典算法大全(51個C語言算法+單片機常用算法+機器學十大算法

    試題學SPFA算法整體來說,機器學習算法可以分為 3 大類:0.1 監督學習 工作原理:該算法
    發表于 10-23 14:31

    機器學習——期望最大算法

    機器學習 - 期望最大(EM)算法
    發表于 05-21 14:31

    機器學習算法分享

    機器學習算法(1)——Logistic Regression
    發表于 06-09 13:30

    什么是機器學習? 機器學習基礎入門

    是將提供的兩個數字相乘。2。有了機器學習,我們就有了數據(輸入)和答案(輸出) ,并且需要計算機通過確定輸入和輸出如何以對整個數據集為真的
    發表于 06-21 11:06

    Spark機器學習庫的各種機器學習算法

    本文將簡要介紹Spark機器學習庫(Spark MLlibs APIs)的各種機器學習算法,主要包括:統計
    發表于 09-28 16:44 ?1次下載

    機器學習算法分類

    機器學習起源于人工智能,可以賦予計算機以傳統編程所無法實現的能力,比如飛行器的自動駕駛、人臉識別、計算機視覺和數據挖掘等。機器學習算法很多
    發表于 01-05 17:36 ?3321次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>算法</b>分類

    最實用的的五種機器學習算法

    最實用的機器學習算法Top5 demi 在 周一, 04/01/2019 - 10:35 提交 本文將推薦五種機器學習
    的頭像 發表于 03-24 16:14 ?6569次閱讀

    17個機器學習的常用算法

    根據數據類型的不同,對一個問題的建模有不同的方式。在機器學習或者人工智能領域,人們首先會考慮算法學習方式。在機器
    的頭像 發表于 08-11 11:20 ?1827次閱讀

    機器學習算法的基礎介紹

    現在,機器學習有很多算法。如此多的算法,可能對于初學者來說,是相當不堪重負的。今天,我們將簡要介紹 10 種最流行的機器
    的頭像 發表于 10-24 10:08 ?1966次閱讀

    機器學習算法的5種基本算子

    自主決策的方法和插件,其中包含了一系列常用的基本算子。在本文中,我們將會介紹機器學習算法的五種基本算子。 一、 求值算子 求值算子是常用的機器學習
    的頭像 發表于 08-17 16:11 ?1817次閱讀

    機器學習算法匯總 機器學習算法分類 機器學習算法模型

    機器學習算法匯總 機器學習算法分類 機器
    的頭像 發表于 08-17 16:11 ?1128次閱讀

    機器學習算法總結 機器學習算法是什么 機器學習算法優缺點

    機器學習算法總結 機器學習算法是什么?機器
    的頭像 發表于 08-17 16:11 ?1953次閱讀

    機器學習算法入門 機器學習算法介紹 機器學習算法對比

    機器學習算法入門 機器學習算法介紹 機器
    的頭像 發表于 08-17 16:27 ?971次閱讀

    機器學習有哪些算法機器學習分類算法有哪些?機器學習預判有哪些算法

    機器學習有哪些算法機器學習分類算法有哪些?機器
    的頭像 發表于 08-17 16:30 ?2014次閱讀
    主站蜘蛛池模板: 狠狠色狠狠色狠狠五月ady | 在线亚洲97se| 久久久久久九九| 99精品国产免费观看视频| 欧美阿v天堂视频在99线| 公交车轮C关老师| 亚洲中文字幕欧美自拍一区 | 国产传媒18精品免费1区| 亚洲AV无码一区二区三区牛牛| 国产在线精品亚洲二品区| 中文字幕人成乱码中国| 色吧电影院| 久久黄色网址| 成人影片迅雷下载| 亚洲欧美偷拍视频一区| 欧美日韩视频一区二区三区| 国产人妻麻豆蜜桃色69| 99精品国产免费久久久久久下载| 网址在线观看你懂我意思吧免费的| 久久精品国产亚洲AV忘忧草蜜臀 | 国产亚洲精品久久久久苍井松| 5G在线观看免费年龄确认18| 乌克兰内射私拍| 免费观看久久| 国产午夜视频| WWW国产精品人妻一二三区| 亚洲欧美人成视频在线| 且试天下芒果免费观看| 久99re视频9在线观看| 俄罗斯1819y0u| 18岁末年禁止观看免费1000个| 桃色园社区| 蜜桃成人在线| 国精产品一区二区三区四区糖心| MD传媒MD0021在线观看| 一边亲着一面膜下奶韩剧免费| 日本美女搞基视频| 理论片午午伦夜理片久久| 国产精品自产拍在线观看网站| 99在线观看免费视频| 樱桃视频高清免费观看在线播放|