色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于馬爾科夫邊界發(fā)現(xiàn)的因果特征選擇算法綜述

人工智能君 ? 來源:人工智能君 ? 作者:人工智能君 ? 2022-07-29 10:01 ? 次閱讀

摘要

因果特征選擇算法(也稱為馬爾科夫邊界發(fā)現(xiàn))學習目標變量的馬爾科夫邊界,選擇與目標存在因果關系的特征,具有比傳統(tǒng)方法更好的可解釋性和魯棒性.文中對現(xiàn)有因果特征選擇算法進行全面綜述,分為單重馬爾科夫邊界發(fā)現(xiàn)算法和多重馬爾科夫邊界發(fā)現(xiàn)算法.基于每類算法的發(fā)展歷程,詳細介紹每類的經典算法和研究進展,對比它們在準確性、效率、數(shù)據(jù)依賴性等方面的優(yōu)劣.此外,進一步總結因果特征選擇在特殊數(shù)據(jù)(半監(jiān)督數(shù)據(jù)、多標簽數(shù)據(jù)、多源數(shù)據(jù)、流數(shù)據(jù)等)中的改進和應用.最后,分析該領域的當前研究熱點和未來發(fā)展趨勢,并建立因果特征選擇資料庫,匯總該領域常用的算法包和數(shù)據(jù)集.

高維數(shù)據(jù)為真實世界的機器學習任務帶來諸多挑戰(zhàn), 如計算資源和存儲資源的消耗、數(shù)據(jù)的過擬合, 學習算法的性能退化[1], 而最具判別性的信息僅被一部分相關特征攜帶[2].為了降低數(shù)據(jù)維度, 避免維度災難, 特征選擇研究受到廣泛關注.大量的實證研究[3, 4, 5]表明, 對于多數(shù)涉及數(shù)據(jù)擬合或統(tǒng)計分類的機器學習算法, 在去除不相關特征和冗余特征的特征子集上, 通常能獲得比在原始特征集合上更好的擬合度或分類精度.此外, 選擇更小的特征子集有助于更好地理解底層的數(shù)據(jù)生成流程[6].

傳統(tǒng)的特征選擇算法主要分為封裝法、過濾法和嵌入法三類[7].封裝法[8]為不同的特征子集訓練一個學習器, 評估其在該特征子集上的表現(xiàn), 決定所選特征子集.過濾法[9]使用一個評估函數(shù), 為特征評分并選擇分數(shù)較高的特征, 因此不依賴額外的分類器, 更高效.嵌入法[10]將特征選擇過程嵌入學習過程中, 同時搜索特征選擇空間和學習器參數(shù)空間, 獲得特征子集.

傳統(tǒng)的特征選擇算法根據(jù)特征和目標變量之間的相關性尋找相關特征子集[11].然而, 相關關系只能反映目標變量和特征之間的共存關系, 而無法解釋決定目標變量取值的潛在機制[12, 13].一些研究表明[12, 13], 因果關系具有更好的可解釋性和魯棒性.例如, 將吸煙與肺癌患者數(shù)據(jù)集上“ 肺癌” (例子中變量取值均為“ 是” 、“ 否” )作為目標變量, “ 黃手指” 和“ 吸煙” 作為特征變量.由于“ 吸煙” 可用來解釋“ 肺癌” , 而長期吸煙手指會受到焦油的污染, 因此“ 黃手指” 和“ 吸煙” 與“ 肺癌” 之間存在相關關系, 而只有“ 吸煙” 與“ 肺癌” 之間存在因果關系.當一些吸煙者為了隱藏吸煙習慣而去除手指上的黃漬時, 基于“ 黃手指” 的預測模型將失效, 而基于“ 吸煙” 的預測模型更魯棒.

為了尋找更魯棒的因果特征, 近年來, 因果特征選擇算法被廣泛研究.該類算法通過學習目標變量的馬爾科夫邊界(Markov Boundary, MB)[14]以尋找關鍵特征, 因此又被稱為MB發(fā)現(xiàn)算法.具體地, MB的概念來源于因果貝葉斯網絡, 在滿足忠實性假設的貝葉斯網絡中, 一個變量的MB集合是唯一的, 包含該目標變量的父節(jié)點、子節(jié)點及配偶節(jié)點(子節(jié)點的其它父節(jié)點)[14].因此, MB反映目標變量周圍的局部因果關系, 給定目標變量的MB作為條件集合, 其它特征條件獨立于目標變量[14].基于此屬性:Tsamardinos等[15]證明在分類問題中, 類別變量的MB是具有最大預測性的最小特征子集; Pellet等[16]證明類別變量的MB集合是特征選擇的最優(yōu)解.因此, 因果特征選擇算法通常具有可靠的理論保證.

作為一種算法思路, 基于因果關系的特征選擇算法促進特征選擇的可解釋性和魯棒性.近年來, 因果特征選擇算法不斷發(fā)展, 不僅提升單/多重馬爾科夫邊界發(fā)現(xiàn)算法的搜索精度和計算效率, 在半監(jiān)督數(shù)據(jù)、流數(shù)據(jù)、多源數(shù)據(jù)、多標簽數(shù)據(jù)等特殊場景下也不斷發(fā)展.這些算法無需學習包含所有特征的完整貝葉斯網絡結構, 即可挖掘目標變量周圍的因果特征.本文對現(xiàn)有因果特征選擇方法進行較全面的研究和綜述.

基于原理與現(xiàn)有方法分類

1.問題定義與基礎理論

本節(jié)介紹MB相關的基本定義和基礎理論.本文使用U表示特征集合, T表示目標變量(標簽).MB的概念來源于人工智能基礎模型之一的貝葉斯網絡.

定義 1 貝葉斯網絡[14] 對于三元組< U, G, P> , U表示變量集合, G表示U上的有向無環(huán)圖(Directed Acyclic Graph, DAG), P表示U上的概率分布.對于? X∈ U, 將X在G中的父變量作為條件集合, 如果任意X的非后代變量在P中都條件獨立于X, 那么< U, G, P> 為貝葉斯網絡.

貝葉斯網絡表征一個變量集合中的因果關系.在有向無環(huán)圖中, 對于一對直接相連的父子變量, 父變量是子變量的直接原因, 子變量是父變量的直接結果[14].忠實性是貝葉斯網絡的基礎假設之一, 定義如下.

定義 2 忠實性[14] 給定貝葉斯網絡< U, G, P> , G忠實于P當且僅當P中的每個條件獨立性關系都是由G和馬爾科夫條件決定的.P忠實于G當且僅當存在一個G的子圖忠實于P.

MB的概念是基于忠實的貝葉斯網絡而提出的, 定義如下.

定義 3 馬爾科夫邊界[14] 在滿足忠實性的貝葉斯網絡中, 一個節(jié)點的馬爾科夫邊界包含該節(jié)點的父節(jié)點、子節(jié)點和配偶節(jié)點(子節(jié)點的其它父節(jié)點)[14].

根據(jù)定義3, 一個節(jié)點的MB可直接從忠實的貝葉斯網絡中“ 讀” 出來.如圖1所示, 節(jié)點T的MB為{A, B, G, H, F}, 包含父節(jié)點A、B, 子節(jié)點G、H, 配偶節(jié)點F.從因果圖的角度分析, MB提供變量周圍的局部因果結構, 父節(jié)點、子節(jié)點、配偶節(jié)點分別對應目標變量的直接原因、直接結果、直接結果的其它原因.MB發(fā)現(xiàn)算法通過挖掘變量的局部因果結構, 無需學習完整的貝葉斯網絡即可找到變量的MB.而變量的MB集合有一個特殊的統(tǒng)計特性, 見定理1.

poYBAGLjPvKAJ36rAAA9kK04PB8333.png

圖1 馬爾科夫邊界的例子

Fig.1 An example of Markov boundary

定理 1 對于變量X∈ U, X的馬爾科夫邊界MB?U, 滿足:? Y∈ U-MB-{X}, X⊥Y| MB, 且MB為滿足該統(tǒng)計特性的最小變量集.

定理1 中闡述MB的最小性, MB的超集通常稱為馬爾科夫毯(Markov Blanket).根據(jù)定理1, 以MB集合為條件, 目標變量會條件獨立于其它特征.因此, MB中的特征攜帶所有關于目標變量的預測信息, 并且其“ 最小性” 保證MB可作為特征選擇問題的最優(yōu)解, 見定理2.

定理 2 在滿足忠實性假設的數(shù)據(jù)中, 目標變量的MB是唯一的, 并且為特征選擇的最優(yōu)解[15, 16].

定理2 為MB發(fā)現(xiàn)算法解決特征選擇問題提供理論保證, 由于MB發(fā)現(xiàn)算法根據(jù)數(shù)據(jù)中的因果關系選擇特征, 并且特征包含目標變量的因果信息, 因此使用MB發(fā)現(xiàn)算法選擇特征的過程稱為因果特征選擇.

2.現(xiàn)有馬爾科夫邊界學習方法分類及其基本原理

圖2給出本文對現(xiàn)有MB發(fā)現(xiàn)算法的分類.常規(guī)數(shù)據(jù)中的MB發(fā)現(xiàn)算法主要分為單重MB發(fā)現(xiàn)算法和多重MB發(fā)現(xiàn)算法, 這兩類算法的應用場景取決于訓練數(shù)據(jù)是否滿足忠實性假設.根據(jù)定理2, 在滿足忠實性的條件下, 目標變量的MB是唯一的, 當真實數(shù)據(jù)并不完全滿足忠實性條件時, 目標變量可能存在多個等價的MB.因此, 一部分現(xiàn)有算法假設數(shù)據(jù)滿足忠實性, 并且試圖尋找目標變量的唯一MB, 該類算法稱為單重MB發(fā)現(xiàn)算法.另一部分算法考慮忠實性假設被違反的情況, 這些算法可挖掘目標變量的多個等價MB, 該類算法稱為多重MB發(fā)現(xiàn)算法.特殊數(shù)據(jù)中的MB發(fā)現(xiàn)算法作為一類單獨介紹, 其中包括半監(jiān)督數(shù)據(jù)MB發(fā)現(xiàn)算法、流數(shù)據(jù)MB發(fā)現(xiàn)算法、多源數(shù)據(jù)MB發(fā)現(xiàn)算法、多標簽數(shù)據(jù)MB發(fā)現(xiàn)算法.本文按照上述分類介紹現(xiàn)有算法的特點.

poYBAGLjPwqAP5L-AAM33rGejYQ446.png

圖2 現(xiàn)有MB發(fā)現(xiàn)算法的分類

Fig.2 Categories of existing MB discovery algorithms

單重MB發(fā)現(xiàn)算法假設目標變量有唯一的MB, 輸出的MB集合可直接作為特征選擇的結果.該類算法主要分為兩類:直接的MB發(fā)現(xiàn)算法(直接法)和分治的MB發(fā)現(xiàn)算法(分治法).主要區(qū)別是:直接法根據(jù)MB的性質(定理1)直接學習MB變量, 而分治法分別學習父子變量和配偶變量.主要理論依據(jù)為定理3和定理4.

定理 3 在U上的貝葉斯網絡中, 如果節(jié)點X和Y滿足:任意變量子集Z?U-{X, Y}, X⊥Y|Z不成立, 那么X和Y是一對父子變量[17].

定理 4 在U上的貝葉斯網絡中, 如果不相連的節(jié)點X和Y均與T相連, 如果存在變量子集Z?U-{X, Y, T}, 使得X⊥Y|Z成立但X⊥Y|Z∪ {T}不成立, 那么X和Y是一對配偶變量[17].

定理3和定理4分別給出父子變量和配偶變量的判別條件, 基于上述定理, 分治的MB發(fā)現(xiàn)算法可通過條件獨立性測試分別搜索父子和配偶變量.

如圖3所示, 單重MB發(fā)現(xiàn)算法通常使用增長階段和收縮階段搜索MB變量或父子變量.增長階段用于識別并添加可能的真變量, 而收縮階段檢測并刪除增長步驟中找到的假變量.基于這一框架, 分治法需要進一步搜索配偶變量.直接法通常在時間效率上更優(yōu).但由于分治法在條件獨立性測試中使用規(guī)模更小的條件集合, 因此通常分治法可達到比直接法更高的準確性.

poYBAGLjPyqALu6ZAAA8ajrp7m4379.png

圖3 直接法和分治法的區(qū)別

Fig.3 Difference between direct methods and divide-and-conquer methods

可用于MB發(fā)現(xiàn)算法的通用條件獨立性測試方法有5種:1)λ 2測試、G2測試、互信息計算, 可用于離散數(shù)據(jù)[18]; 2)菲爾遜Z檢驗[19], 可用于帶有高斯誤差的線性關系的連續(xù)數(shù)據(jù); 3)基于核的條件獨立性測試方法[20], 可用于非線性、非高斯噪聲的連續(xù)數(shù)據(jù).

多重MB發(fā)現(xiàn)算法研究忠實性假設被違反的情況下一個變量的多個等價MB.理論上來說, 目標變量的多重MB攜帶等價的信息且具有相似的預測能力[21], 該類算法存在的意義是:1)由于實際應用中多個等價的MB適應的特定學習模型是不同的, 多重MB可用于解釋學習模型的多樣性現(xiàn)象; 2)實際應用中可能存在多個等價的MB, 但并非所有MB都適合作為特征子集建立學習模型.例如, 當不同變量的獲取成本可能不同時, 多重MB算法可用于探索較低獲取成本但具有相似預測性的替代解決方案(特征子集).

根據(jù)Statnikov等[21]的研究, 多重MB的本質原因是等價信息現(xiàn)象, 定義4和定理5如下.

定義 4 等價信息[21] 對變量集合X?U, Y?U及目標變量T∈ U, X和Y包含T的等價信息當且僅當X和Y與T相關且滿足X⊥T|Y, Y⊥T|X.

定理 5 當且僅當沒有發(fā)生信息等價時, 目標變量有一個唯一的MB集合[21].

根據(jù)定理5, 多重MB與等價信息現(xiàn)象是共存的, 因此尋找多個MB的過程也就是識別等價信息的過程[21].現(xiàn)有的多重MB發(fā)現(xiàn)算法通常遵循如下步驟:1)使用單重MB發(fā)現(xiàn)算法找到一個初始的MB; 2)在當前MB中選擇特征子集, 將其從源數(shù)據(jù)分布中移除, 再在新的數(shù)據(jù)分布中找到新的MB; 3)測試新MB是否正確.

特殊數(shù)據(jù)的MB發(fā)現(xiàn)算法主要是面向近年來逐漸流行的一些特殊學習場景, 根據(jù)本文的調研, 目前主要包括但不限于:半監(jiān)督數(shù)據(jù)MB發(fā)現(xiàn)算法、多標簽數(shù)據(jù)MB發(fā)現(xiàn)算法、多源數(shù)據(jù)MB發(fā)現(xiàn)算法和流數(shù)據(jù)MB發(fā)現(xiàn)算法.這些算法大多對應某個單重MB發(fā)現(xiàn)算法, 考慮對應場景的特點, 將單重MB算法擴展應用到特殊數(shù)據(jù)中.

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4629

    瀏覽量

    93197
收藏 人收藏

    評論

    相關推薦

    基于隱馬爾模型的音頻自動分類

    信號的時間統(tǒng)計特性,因此,提出一種基于隱馬爾模型的音頻分類算法,用于語音、音樂以及它們的混合聲音的分類.實驗結果表明,隱馬爾模型的音
    發(fā)表于 03-06 23:50

    馬爾科

    `此內容為書中節(jié)選內容,摘自機械工業(yè)出版社的《網絡性能分析原理與應用》,希望對大家有用。這書主要就是介紹馬爾科理論及其應用。我把封面也發(fā)給大家,方便大家以后查閱。`
    發(fā)表于 07-01 14:11

    實現(xiàn)貝葉斯統(tǒng)計模型和馬爾科鏈蒙塔卡洛采樣工具擬合算法的Python庫PyMC

    PyMC:馬爾科鏈蒙特卡洛采樣工具
    發(fā)表于 05-09 08:48

    基于特征模式的馬爾鏈異常檢測模型

    為提高檢測精度,同時保持算法復雜度在可接受范圍內,提出基于特征模式的馬爾鏈異常檢測模型。提取所有支持度大于閾值的系統(tǒng)調用短序列為特征模式
    發(fā)表于 04-07 09:02 ?13次下載

    基于馬爾科鏈的網絡控制系統(tǒng)調度

    網絡控制系統(tǒng)數(shù)據(jù)包的丟失將導致控制系統(tǒng)性能下降與網絡資源利用率降低。以馬爾科鏈對網絡控制系統(tǒng)的數(shù)據(jù)包丟失時延進行動態(tài)預測,并將它作為網絡利用率的一個重要參數(shù)
    發(fā)表于 04-16 08:54 ?14次下載

    基于核密度估計和馬爾科隨機場的運動目標檢測

    針對目標和背景具有空間連續(xù)性的特點,提出一種基于核密度估計和馬爾科隨機場的運動目標檢測方法。首先利用核密度估計計算像素點屬于背景的概率密度,在特征向量中加入顏色
    發(fā)表于 03-22 12:12 ?44次下載
    基于核密度估計和<b class='flag-5'>馬爾科</b><b class='flag-5'>夫</b>隨機場的運動目標檢測

    網絡系統(tǒng)的馬爾科時滯預測控制_黃玲

    網絡系統(tǒng)的馬爾科時滯預測控制_黃玲
    發(fā)表于 01-08 11:51 ?18次下載

    關于馬爾科隨機場的文獻

    關于馬爾科隨機場的文獻,英文文獻,網上可以找到免費對應程序
    發(fā)表于 07-29 09:12 ?0次下載

    關于時間連續(xù)的馬爾過程的詳細解說

    隨機過程,馬爾科鏈的介紹及算法
    發(fā)表于 04-20 09:44 ?0次下載
    關于時間連續(xù)的<b class='flag-5'>馬爾</b>可<b class='flag-5'>夫</b>過程的詳細解說

    基于隱馬爾科模型和卷積神經網絡的圖像標注方法

    開發(fā)大規(guī)模圖像庫的搜索和瀏覽算法,使得圖像自動標注的重要性日益增強。基于隱馬爾科模型(HMM)與卷積神經網絡(CNN),我們提出了一種新的圖像標注方法HMM + CNN。首先,訓練一個多標簽學習
    發(fā)表于 11-16 17:17 ?4次下載
    基于隱<b class='flag-5'>馬爾科</b><b class='flag-5'>夫</b>模型和卷積神經網絡的圖像標注方法

    一種融合馬爾科決策過程與信息熵的對話算法

    性能,提岀一種融合馬爾科決策過程與信息熵的對話算法。利用馬爾科決策過程快速獲得下一步最優(yōu)對話狀態(tài),并結合知識庫通過引人屬性信息熵方法排除
    發(fā)表于 03-21 09:51 ?6次下載
    一種融合<b class='flag-5'>馬爾科</b><b class='flag-5'>夫</b>決策過程與信息熵的對話<b class='flag-5'>算法</b>

    基于馬爾科鏈的隨機測量矩陣研究分析

    測量矩陣是壓縮感知理論中的重要組成部分,其將直接影響原始信號的重構精度。針對常用測量矩陣重構精度較低的問題,構造一種基于馬爾科鏈的隨機測量矩陣。利用馬爾科鏈的隨機性生成M個隨機數(shù),
    發(fā)表于 05-24 16:05 ?7次下載

    基于隱馬爾科模型的惡意域名檢測方法

    提出一種基于隱馬爾模型(HMM)的惡意域名檢測方法。分析善惡域名在DNS通信中的各類特征,利用 Spark大數(shù)據(jù)處理平臺的高效計算能力對屬性特征進行統(tǒng)計,在此基礎上,通過HMM中
    發(fā)表于 06-08 14:42 ?6次下載

    融合灰色模型和馬爾科模型的農產品產量預測

    融合灰色模型和馬爾科模型的農產品產量預測
    發(fā)表于 06-17 16:31 ?7次下載

    基于隱馬爾科模型的公交乘客出行鏈識別

    基于隱馬爾科模型的公交乘客出行鏈識別
    發(fā)表于 07-02 15:18 ?4次下載
    主站蜘蛛池模板: 日本精品无码久久久久APP | 国产一区二区三区国产精品 | 精品无码一区二区三区不卡 | 被窝国产理论一二三影院 | 精品无码久久久久久国产百度 | 男gv纯肉免费视频 | 香蕉久久一区二区三区啪啪 | 亚洲欧美日韩一级特黄在线 | 女攻男受高h全文肉肉 | 校园男男高h小黄文 | 久久99精品国产自在自线 | 美女漏bb| 色拍拍噜噜噜啦啦新网站 | 99热这里只有精品88 | 忘忧草在线影院www日本 | 亚洲精品偷拍影视在线观看 | 暗卫受被肉到失禁各种PLAY | 成人免费视频在线看 | 孕交videosgratis乌克兰 | 中文国产乱码在线人妻一区二区 | 在线播放毛片 | 好湿好紧水多AAAAA片秀人网 | 黄色a三级三级三级免费看 黄色a三级免费看 | 国产亚洲精品久久精品6 | 国产成人片视频一区二区青青 | 学生小泬无遮挡女HD | 久久精品国产亚洲AV热无遮挡 | 亲胸揉胸膜下刺激视频网站APP | 国色天香视频在线社区 | 久久re这里视频精品15 | 国产精品无码久久av | 欧美四虎精品二区免费 | 久久9精品区-无套内射无码 | 在野外被男人躁了一夜动图 | 强奷乱码中文字幕熟女免费 | 日本高清片免费观看 | 中文在线免费看视频 | 综合色一色综合久久网vr | 91精品免费久久久久久久久 | 暖暖在线观看播放视频 | 港台三级大全 |