一个人视频在线观看中文,亚洲国产欧美另类va在线观看,亚洲国产美女精品久久久久

1 月 11 日，在機器之心 AI 科技年會上，講席教授、美國國家工程院院士、東方理工高等研究院常務副院長張東曉教授發表主題演講《科學機器學習中的知識嵌入與知識發現》，在演講中，他簡要介紹了數據驅動模型的前沿技術，之后重點介紹了理論指導的數據驅動模型 —— 知識嵌入，以及數據驅動的模型挖掘 —— 知識發現。張院士指出，機器學習算法可以有效解決具有復雜非線性映射關系的問題；通過引入行業知識，可以有效提升機器學習模型的效果。將知識的嵌入和知識的發現結合起來，形成一個閉環，可以大大提高人工智能解決實際問題的能力。

以下為張東曉在機器之心 AI 科技年會上的演講內容，機器之心進行了不改變原意的編輯、整理：

非常高興有機會參加機器之心線上 AI 科技年會，并和大家分享我們最近的一些思考。今天我分享的內容包括三部分，第一部分是數據驅動模型；第二部分是理論指導的數據驅動模型，即知識嵌入；第三部分是數據驅動的模型挖掘，即知識發現。

一、數據驅動模型

首先，大家非常清楚模型驅動的方法，經過一個模型得到一個輸出。我們學編程的時候，無論是復雜的算法還是簡單的算法，都是在構建一個模型，這樣有一個輸入就會有一個輸出。當然，這個算法可以是確定的，也可以是隨機的。

另一方面是數據驅動的模式。這種模式我們還不清楚其輸入和輸出之間的映射關系，但是我們有數據。如果我們利用數據，經過學習，可以建立輸入和輸出之間的映射關系。當然了，這映射關系可能是個黑箱子，它不一定是一個顯示的表達式。但是如果有了映射關系，我們就會有一個新的輸入，從而得到一個新的輸出。這就是現在這一代機器學習的核心數據驅動方法。

我們要解決問題到底是數據驅動還是模型驅動？這是一個值得思考的問題。

首先來看一下數據驅動的一些例子，比如大家熟悉的大數據分析，數據科學機器學習等等。在數據和模型的天平中，這里是側重于數據的，通過數據來尋找映射關系。

下面舉幾個例子，比如可再生能源的發電量的預測問題。如果我們有輻照量、溫度、濕度、風速、晝夜的情況，以及歷史的光伏發電量數據，就可以根據這些數據建立一種映射關系。基于此映射關系和天氣預報數據，我們就能預測第二天光伏的發電量。風電也是一樣。

映射關系可以通過各種方法來建立，比如支持向量機、卷積神經網絡或者循環神經網絡等等。它的核心就是尋找多元輸入變量和目標變量之間的復雜映射關系，從而構建它預測的模型。

這是一個集中式光伏電站的發電量預測案例，擁有剛才提到的那些信息。我們可以經過處理以后，建立映射關系并對未來做預測。最終隔天預報的準確率可以達到 97% 。

當然了，風電也是一樣。因為風力發電的歷史發電量和歷史的風速數據之間也有很好的相關性。所以，如果能夠建立它們之間的映射關系，就可以對發電量做預測。

數據驅動模型在許多問題中得到了很好的效果，但是對很多應用來講，數據是不容易獲得的。比如對于地下資源勘探與開發重要的側井曲線，打一口井進行測量可能要好幾千萬人民幣；再比如，做一組吸附解析的實驗要花很長的時間。很難獲得足夠的數據基于數據驅動方法對此類問題建模。

大家都知道，大模型需要大數據、大算力，比較有名的 GPT-3，有 96 層，有 1 萬多個隱層維度，有接近 1750 億個參數。要訓練這樣一個模型，需要的費用是非常高的，需要的數據量也非常大。

另外數據驅動的模型的指標往往有局限性，比如常使用的 MSE（均方誤差），它是對誤差的一個平均度量。它對誤差的物理過程是沒有區分的，比如一個系統無論是熵增還是熵減，對于 MSE 來講都是一樣的，雖然熵增與熵減對于一個物理系統來講非常不一樣。基于數據平均意義上的指標往往會忽略物理過程，比如我們一只腳踏在冰上，一只腳踏在火上，平均溫度可能很舒服，但是實際情況并非如此。而 MSE 則只會關注這種數據上的平均結果。因此，在實際使用中，MSE 等數據驅動指標往往是有局限性的。

另外一方面，因為我們建立的很多模型是缺乏常識的，它沒有人類世界的各種知識，這樣很容易被攻擊。比如在對抗樣本的問題中，圖片本來是一個熊貓，加上一點輕微的噪音以后，可能機器會認為它是一個長臂猿。再比如這種阿拉伯數字，對人類來講，稍微加點噪音進去，我們仍然會認為是 8 或者 9；但機器可能不認為，因為很多時候它沒有常識。

既然數據驅動存在問題，那么可否像早期的人工智能一樣基于知識建模呢？然而對很多復雜的問題，很難完全基于知識來構建模型。這也是現在基于數據驅動的人工智能模型被廣泛推廣的一個原因。

對很多行業來講，比如能源，對于模型的魯棒性和可解釋性要求很高，同時數據的采集費時且成本高，而且這個系統極其復雜，存在大量高維非線性的映射關系。這些特點導致純粹的數據驅動或者知識驅動模型無法達到令人滿意的效果。針對此問題，我們希望通過靈活利用能源行業多年積累的知識，構建知識與數據雙驅動模型，提升模型精度和魯棒性，降低數據需求。

這里我們提出一個智慧能源概念，它是基于領域的知識，利用觀測的數據，使用人工智能的方法，所構建的一個技術體系。

領域知識和數據驅動的融合包含兩個方面，一個是知識的嵌入，也就是如何構建具有物理常識的 AI 模型。通過在 AI 模型中嵌入領域知識，可以一方面借助機器學習的強擬合能力來描述變量之間高維復雜的映射關系，提高模型的準確率。同時，利用行業的先驗知識保證預測結果符合物理機理，不違反常識。這就是知識嵌入在機器學習中的作用。

另外一方面是利用科學機器學習發現知識，也就是知識發現。知識發現是利用深度學習來探索物理原理，從觀測數據或實驗數據中直接挖掘控制方程，推進人類認知的前沿。知識嵌入和知識發現可以形成一個閉環，實現知識和數據的融合。

后面第二部分我會重點來講知識嵌入，也就是如何構建具有物理常識的 AI 模型。第三部分來講知識發現，如何利用人工智能來發現新的知識，比如物理原理、控制方程，第一性原理等等。有了這樣的一個閉環以后，很多問題比如仿真模擬，反問題，可解釋性等等，都能夠有很好的解決。

二、理論指導的數據驅動模型（知識嵌入）

我們看看第二部分的知識嵌入。在這個過程中，既有數據，也有模型，它是兩個方法之間的一個平衡。我們要兼顧二者，實現在數據驅動建模的全流程中嵌入知識。

知識嵌入的目的是通過在數據驅動模型中引入物理知識，構建物理上合理，數學上準確，計算上穩定高效的機器學習模型。所以，我們要考慮的核心問題主要有，復雜形式控制方程的嵌入，控制方程以外通用知識的嵌入，不規則物理場的知識嵌入，以及損失函數中正則項權重的自動調整策略等等。

在建模過程的多個環節都可以進行知識嵌入，比如在數據預處理環節，可以嵌入物理約束和人類的領域知識和先驗經驗。這與特征工程和數據歸一化往往相關。還有在模型結構設計環節，也可以基于領域知識調整模型的網絡結構或者拓撲結構。再有也可以在模型的優化調整環節嵌入領域知識，比如在學習過程中通過懲罰和激勵來嵌入知識，其中最簡單的方法是構建特殊設計的損失函數。我們舉幾個例子。

第一個例子是電力系統中電力負荷的預測。這項工作中的知識嵌入主要體現在數據的預處理方面和模型的反饋更新方面，其中數據預處理方面我們引入了一種電力負荷比值分解的方法來嵌入知識，在反饋更新環節利用一種自研的 EnLSTM 模型來優化，這種模型采用領域算法改進了優化過程。

在數據預處理方面，我們把電力負荷數據分解成一個大的趨勢和局部擾動，大的趨勢反映了預測區域的內在模式，比如能源結構和人口結構等，是根據歷史數據和專家經驗來確定的。局部擾動則是系統受到天氣等外驅力影響下所產生的變化，通過數據驅動模型來預測。最終，將大的趨勢和小的擾動結合起來。此外，我們還采用了一種負荷比值轉化的方式，以實現數據的平穩化。比值的周期是根據物理過程確定的。這個方法我就不具體展開了，大家如果感興趣可以看我們 2021 年發表的論文 TgDLF。

這個方法在北京的 12 個區進行了試驗驗證，基于 3 年多的真實小時級別數據，利用部分區的數據訓練模型，對另外的區進行預測。比如右側是對豐臺區的電力負荷的預測結果。圖中一共有 1362 天的預測結果，其中五個局部被放大展示，黑色線是真實測量值，紅色線是預測值，灰色的是可信區間。大家看這個效果還是非常好的，準確率可以穩定達到 90% 以上。需要說明的是，我們在模型的訓練中并沒有利用豐臺的數據，而僅僅使用了周邊的區進行訓練。

另外在模型的效果評估階段也可以嵌入知識。比如在風力發電問題中，我們將概率分布所蘊含的信息作為約束，嵌入到數據驅動模型中，從而借助先驗的概率密度函數拓展優化損失函數。

大家知道在風力發電中，風機的發電功率和風速有很大關系。由于實際工況復雜，所以該曲線并非一個一對一的映射，而是需要用描述風速和發電功率之間關系的概率分布函數來表征。如果我們有歷史的數據，就可以從歷史數據中得到先驗的風功率曲線，然后通過改造損失函數，將其嵌入到模型的訓練過程中。通過這種方法建立的人工智能模型不僅具有數據驅動的優勢，還能保證輸出結果符合先驗的概率分布。

這是預測的結果，實際的結果還是非常好的。

在有噪音的情況下，嵌入了先驗的概率密度分布函數的模型的效果比純數據驅動模型的效果要好很多。這說明通過嵌入領域知識，可以有效提升模型的抗噪能力和魯棒性。

然后我們介紹一下在模型效果評估方面嵌入領域知識的方法，這方面的例子比較充分，主要是基于改進損失函數的方法將控制方程作為約束嵌入到人工智能的模型中。

在模型的訓練過程中，一方面可以利用數據驅動模型基于大量的數據進行學習，另外一方面我們還有控制方程、物理規律、工程理論，專家經驗等先驗信息。如果我們能夠將這些先驗信息嵌入數據驅動模型中，我們就不僅可以擬合數據，同時也保證模型輸出結果遵循物理的準則和工程的理論，這樣的模型就有更好的泛化能力。

我們舉個例子，比如我們有觀測數據、控制方程、邊界條件、初始條件，也有工程控制的準則，還有專家經驗。這些因素都可以轉化為損失函數中的不同正則項，進而約束模型的輸出結果。通過這種方式構造的損失函數具有多個正則項，每項之前都有個系數。為什么要需要系數？因為實際上各個項對應的物理意義是不一樣的，量綱也往往不一樣。這種情況下是不能簡單粗暴地把它們加在一起的。所以這些權重非常重要，這也是為什么有的人用這樣的框架解決了很多問題，發現很好用，但有的人解決其它問題的時候，發現無效。那是因為這個過程不是一個簡單直接的累加，權重的設計和調整非常重要。如果做得好，這種嵌入知識的方法是可以模提高模型的預測能力的，也有很強的泛化能力。

這個系數在學習過程中可能是變化的。比如在數據充足時，在內插問題中可能數據對應的正則項的權重就很大。如果數據量不足，或者數據不準確，或者在外推的情況下，控制方程的作用就非常重要了。但是，方程的作用也不是孤立的。如果給了個方程，實際上如同給了一個軌跡，一個很復雜的軌跡，而且是滿天飄的不確定的。我們還必須有邊界條件或者初始條件，才能把方程限定在一個正確的軌道上面。如果沒有這些邊界條件，初始條件，那么這個軌跡便是飄飄忽不定的。

我們舉個例子說明知識的重要性。如果我們有個模型要預測深圳這兩天的溫度，你說今天大概會有多少度？如果你說零下 10℃，在全國來講，大家可能不會覺得什么樣，但這在深圳是從來不會出現的溫度。專家告訴你說，深圳的歷史氣溫最低的是零點幾度，都甚至沒有到零下的溫度。這種情況下，如果給模型增加專家經驗，就會非常有幫助。

下面我們通過一系列的例子說明這個問題。比如地下水流動的問題，假設我們有最開始一段時間的數據，但是在后面改變了邊界條件，即情景發生了很大變化，且沒有后面一段時間的觀測數據，那么常規的數據驅動模型是無法解決的。但是如果知道邊界條件和控制方程，結合最開始時間的數據，就可以進行預測，且實際效果很好，如圖中的對比結果。由于流場的條件已經改變了，所以開始一段時間的觀測數據的數據分布已經與后一段時間不一致了，但是兩段時間的數據都是受到同樣的控制方程約束的，因此，如果直接用數據驅動模型預測，就會有較大誤差。但是如果加入領域知識，比如控制方程和邊界條件，就會有效提升模型的精度。在這個問題中，控制方程和邊界條件起了很大的作用。

有這樣的一個框架以后能做什么？可以構建替代模型或數字孿生，并利用神經網絡推斷過程耗時少的優勢。因為只要模型訓練好了，如果有新的情景出現，或者有新的模型參數進來，就可以直接用這個模型來做預測，不需要重新進行耗時的數值模擬。這對需要大量反復求解的問題來講，是非常有幫助的。比如不確定性量化，反問題的求解，優化設計等等，都會有很大的幫助。

比如有個新的場景進來，這個方法很快可以做預測，并且具有不錯的精度。

這個方法在不確定性量化問題中具有優勢。常規的方法，比如蒙特卡羅方法，處理不確定性量化時需要生成多個實現，所以需要很長的時間解不同實現中的方程。但是如果用這種替代模型，因為神經網絡的預測速度很快，基本上每個情景直接可以條件反射一般地生成結果，就可以非常高效地實現不確定性量化。

剛才的例子是點對點的求解問題，實際結合卷積神經網絡來做圖像問題。通過引入控制方程，也可以達到很好的效果。因為時間關系，我就不詳細說了。

此外，也可以擴展到油水油氣的問題。因為這是個兩相流問題，所以約束的條件就會比較復雜。這種情況下，實際上它也是可以起到很好的效果的。

剛才介紹的是軟約束，實際上我們也可以用硬約束來嵌入領域知識。

硬約束的劣勢是數學上比較復雜，優勢是可以保證模型在局部嚴格滿足物理機理。剛才的軟約束是保證預測結果在統計意義下滿足控制方程或者其他物理機理，硬約束則是保證模型在局部嚴格滿足物理機理，這樣實際上它效果是可以更好的。如果大家感興趣，可以參考我們發表的 Hard constraint projection (HCP) 模型。但是時間關系我就不細說了。

此外，在實際嵌入知識的過程中，是存在大量的難點的。尤其是當嵌入一些復雜方程的時候，比如具有分式結構或者復合函數的方程，難以直接利用神經網絡的自動微分機制求梯度，因此也難以直接嵌入到人工智能模型中。此外，如前面介紹的，損失函數中各項之間的權重的確定也不是簡單的問題。這方面我們最近開發了一個自動化的知識嵌入框架和工具包，叫做 AutoKE。如果大家感興趣可以看一下我們在 IEEE Transactions on Artificial Intelligence 上發表的文章。

小結一下，知識嵌入可以讓模型的準確性得以提高，有更好的可解釋性，更強的魯棒性。

三、數據驅動的模型挖掘（知識發現）

第三部分是知識驅動的模型挖掘，即知識發現。比如我們如何利用機器學習的方法從數據中直接挖掘模型，即從數據到模型。

我們原來的控制方程都是怎么來的？比如萬有引力定律是怎么來的？第谷花了近 40 年的時間來觀察火星的軌跡，得到了大量的數據。開普勒又花了十幾年的時間，運用這些數據來研究行星運動的軌跡規律，最后得到行星運行的三大定律。實際上他分析的過程中，受到像橢圓形啤酒桶的這種形狀的啟發，最后發現行星應該是符合一個橢圓的運動規律。在這個基礎上，實際上又過了幾十年以后，牛頓才進行了理論的延伸和公式的推導，得到萬有引力定律。

那么，我們可不可以用人工智能和深度學習的方法，大大的加快這一過程呢？也就是剛才提到在數據中直接挖掘新的知識。

比如我們有這樣一些離散的局部數據，利用這些局部數據，可不可以把它的內在規律、控制方程找出來？大家說這大概不可能，但實際上簡單的定律，比如歐姆定律，都是從實驗數據中得到的。當然這些關系可能比較簡單，在實際問題中，潛在的關系可能存在于高維空間里面，會比較復雜一些。

但是深度學習正好有強映射關系的能力。如果能做這件事情，那么機器學習就不再是一個黑箱了。它具有可解釋性，特別是找到的控制方程，那是最簡潔的知識，是知識最顯性的一個表達。

這種情況下怎么做？實際上是比如我們有數據，就可以得到它的梯度和各階導數。理論上系統中可能存在許多項，但是實際的方程是稀疏的，它只有其中的幾項，其他的項的系數都是 0，所以那些項是不存在的。

這樣問題就轉化成，像這樣一個系統中，如何找到稀疏的向量，而且它的系數也能同時找出來。實際上就解決這個問題。說起來很簡單，但是利用稀疏回歸做這個事情，做起來可能不是那么簡單。

我們可以看一下早期的做法。比如，我有個口袋，可以在里面掏各種東西，把掏出來的項做組合。當然了，真正需要的項，這肯定在口袋中。這就是封閉候選集的一種做法。

后來我們做的時候發現，實際上我們不一定知道哪項是真正有用的。這種情況下，我們給一些基本的項，其他的項，我們通過遺傳算法的交叉和變異得到新的項，這叫做半開放候選集。雖然我們沒有一個完備的候選集，但是我們也能解決這個問題。當然，現在更好的辦法是，如果只給我一個自變量，給我一個因變量，我們再定義一些運算符、運算法則。這種情況下，如果我們能夠定義像導數，加減，乘除等等這些運算符，那么方程的每一項都是一個樹的結構，這樣你通過一次次變異去改變樹的結構，就可以把方程找出來。即使是比較復雜的方程也能找出來，而且只需要自變量和因變量。

我們舉個例子，KdV 方程，一個很復雜的方程。對于封閉候選集，需要先猜測這里面大概會包含哪些項？在這里，我們假設這里面有 17 項，而且方程真正需要的項確實也在這里面，這種情況下是能把問題解出來的。如果像剛才講的半開放候選集，雖然只給了四個項，真正的項以及其他很多項不在這個候選集里面，這種情況下怎么辦？可以通過交叉和變異的算法，產生新的項，這樣也能把這個問題解決。

另外一個就是用符號數學的辦法，每一項都可以變成一個樹的結構。這個樹是由節點構成的，父節點是運算符，子節點是系數、變量或者函數。對于樹的結構，它的深度和廣度，都可以調整，因為它表明樹或者說方程的項到底有多復雜。這樣，每一個方程實際上都是一片森林，你能夠自由地去調整它的稀疏性。即使是很復雜的方程，在沒有任何先驗信息的情況下，也有可能找到。這種情況下，我們做了很多嘗試，發現這個方法連很復雜的嵌套式方程和分數式方程都能找到。一般情況下，可能很難想象 1/x 是你方程的項和系數，實際上這里面還是很有意思的。那么它是怎么找到的呢？

比如剛才講的例子中，初始有一個自變量、因變量，它第一代迭代后可能找出了這些簡單的項，當然這些項是不正確的。然后再交叉、變異、進化，再去評估它合不合理等等，最后找出來的項是很好的。比如系數本來是 0. 25，它找出的系數是 0.2498，系數只是差一點點。另一個系數本來應該是 1 的，它算出來是 0. 9979，這基本上就把這個方程準確無誤地找出來了。當然了，這里面還有很多例子，我就不詳細展開了。

知識發現也可以用來解決實際的問題。比如這種粘性重力流問題，它的短期行為是沒有控制方程的。這種情況下，我們通過精細的微觀數字模擬能得到它的一些數據。是不是可以利用這些數據，來學習得到它的宏觀控制方程？實際上這是可行的。

當然，我們做的過程中，會考慮一些準則。一方面我們需要已知的那部分數據，數據擬合的精度越高越好。另一方面，我們希望模型越簡單越好。同時，擬合數據的吻合程度也要越高越好。

比如在這個情況下，短期的行為控制方程是從未被發現過的，文獻里沒有報道過，也沒有人推導出來過。我們用知識發現的方法得到可能的兩個方程，我們發現形式較為復雜的方程（方程②）和數據的誤差比稍微要小一點，但是它比上面這個方程（方程①）更復雜，上面這個方程（方程①）更簡潔。所以我們剛把剛才的兩個因素考慮進去，通過比較物理信息準則值的大小，我們就采用這樣一個形式（方程①），發現這個形式它實際上是一個非常好一個折中，它既有很好的精度，又有很好的簡潔性，簡單美。

小結一下，利用稀疏回歸、遺傳算法、符號數學，可以從時空的數據中直接挖掘控制方程。深度學習提供了一種計算導數的可行方式，對噪聲、稀疏數據具有很好的魯棒性。對于一個挖掘出的偏微分方程模型，它應該在簡約性和精確性之間取得平衡，從而獲得較高的可解釋性，這樣的方程它實際上就找到以后就很好用，也可以給我們獲得更好的可解釋性。挖掘控制方程的本質就是知識發現。

結語

總結一下，剛才講知識的嵌入和知識的發現是要形成一個閉環的，是知識科學機器學習的一個核心。

最后，機器學習算法可以有效地解決具有復雜、非線性映射關系的問題。當然了，數據是關鍵，比如信息化、物聯網等等，這非常重要。但是光有數據，只是 “數據大”，并不是 “大數據”。如何做到 “大數據”？剛才講要建立這種模型，利用行業的知識，利用這種 cutting edge 的算法來好好地利用這些數據，從 “數據大” 到 “大數據”。

另外一方面，要引入行業的知識，這樣可以有效地提升機器學習模型的效果。當然在各個環節都可以引入行業的知識，我就不重復了。

另外，大家可能聽得比較多，是 AI 加 x， x 就是行業，還是行業加 AI，就是 x 加 AI。在我的心目中，我覺得解決各個行業的問題應該是行業 x 加 AI。因為 AI 是一種是算法，是通用的模型。像我們計算編程的語言，實際上光有這些編程的語言，是不能解決行業問題的，還應該是行業加 AI，這應該是數據驅動和模型驅動的一個有機的結合。

在這里面我再重復一遍，就是知識的嵌入和知識的發現，要形成一個閉環，從而大大提高我們人工智能解決實際問題的能力。

好，謝謝大家。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴