當今物理和天文實驗所產生的海量信息,沒有任何一個人或者團隊可以完整的處理。
有些實驗數據每天以千兆字節的規模在增加——而且這個趨勢只會越來越明顯。
想象一下,一臺以平方公里為單位陣列的射電望遠鏡,預計將于2020年中開始進行科學觀測,每年將產生的信息數量可與整個互聯網相匹敵。
面對如此信息洪流,許多科學家不得不求助于人工智能。
這是一個研究者眼中神奇的工具。
只需少許人工輸入,包括人工神經網絡(計算機模擬人腦神經網絡)在內的人工智能系統就可以輕松處理成千上百萬條信息,并發現其中的異常和人類絕難識別的模式。
利用計算機協助科學研究的歷史可以被追溯到75年前。
早在幾千年前,人類就已經開始從數據中尋找有效信息。科學家認為機器學習和人工智能所運用的前沿技術,是一種研究科學的全新方法。
這種方法,即生成模型(generative modeling),僅基于數據就可以找到與觀測數據相關的諸多解釋中最為合理的理論。更重要的是,這一過程無需預先編程,對于系統可能產生作用。生成模型的支持者覺得它的創新程度可以被認為是了解宇宙的潛在的“第三種方法”。
通常,我們通過觀察來知曉萬物。約翰尼斯·開普勒就是通過研究第谷·布拉赫的星象圖來試圖找到天體運動的規律(所有行星都是橢圓軌道上運行的),建模同時也推動著科學進步。天文學家模擬銀河與其鄰近星系仙女座的移動軌跡后,預測兩星系將于幾百萬年之后相撞。觀察和建模都能幫助科學家建立假設,而用進一步的觀察來檢驗假設。相較之下,生成模型區別于以上兩種方法。
“這是第三種方法,介乎于觀察和建模之間。”天文學家Kevin Schawinski介紹說。他此前一直就職于蘇黎世聯邦工業大學(ETH Zurich),同時也是當今生成模型最狂熱的支持者之一。“它提供了一種解決問題的新方法。”
有些科學家將生成模型和其他新技術簡單地歸類為研究傳統科學的工具。但絕大部分人的共識則是人工智能能夠帶來巨大的影響,而且在科學研究領域的作用也將越發顯著。費米實驗室的天體物理學家Brian Nord以用人工神經網絡研究宇宙而聞名。
他擔心人類科學家所做的一切都可以被自動化,而持有這種觀點不在少數。Nord說,“這種想法讓我感到恐慌”。
神奇的GAN,基于生成的探索
還在讀書的時候,Schawinski已經在數據驅動科學領域已經小有名氣。博士學位期間,他的課題是基于表象對數千個星系進行分類。由于當時還沒有可以用來解決問題的軟件,Schawinski就想到了采用群眾外包的方式——因此大眾科學星系園項目也就應運而生。
自2007年起,天文學家開始用電腦錄入關于星系分類的最佳猜測,在多數決定原則下通常被證明為是正確的分類。之后這一項目取得了成功,但Schawinski卻意識到人工智能已經可以取而代之。“在今天,一個有天賦、有機器學習背景且懂得云計算的科學家能夠在一個下午完成所有的工作。”
Schawinski在2016年開始使用生成模型這種新工具。本質上,生成模型在確定條件X的前提下有多少概率能夠得到結果Y。這個方法已被證明極為有效且運用廣泛。例如,你用生成模型處理一組人臉照片,每張照片都標記了主人公的年紀。電腦程序在梳理這些“訓練數據”時,會有意識地將較老的面容和逐漸增加的皺紋數量關聯在一起。
最終,它就有能力“識別”人臉所對應的年紀——原理是它能夠預測任何年齡段人臉所可能產生的變化。
以上的人臉都是生成的。上圖第一行(A)和左邊第一列(B)是由生成對抗網絡(GAN)借助真人人臉構建模塊構成的。GAN隨后將A中人臉的基本特(如年齡和臉型)與B中細致特征(如發色和眼球顏色)相結合,生成了上圖中其他的人臉。
生成模型系統中最有名的就是生成對抗網絡(GAN)。在充分接觸訓練數據后,一個生成對抗網絡能夠修復像素損壞或確實的圖像,或是銳化那些模糊的照片。生成對抗網絡通過對比的方法(即對應著術語“博弈”)來推斷出缺失信息:該網絡的組成部分之一生成器負責生成假數據,而另外的組成部分鑒別器則負責在數據中區分出這些假數據。隨著程序的運行,兩個組成部分的表現也得到了顯著提升。尤其是在由生成對抗網絡最新提供的超現實人臉中,如同上圖標題中所示,有一些讓你感覺“不存在于我們的世界卻又真實地嚇人”。
更寬泛的說法,生成模型吸收數據(通常為圖像,但也不完全是)并拆分成一組基本但抽象的構建模塊——科學家將其成為數據的“隱空間”。該算法操控隱空間的元素來探究其如何影響源數據,而這也能幫助發現系統中正在運行的物理變化。
隱空間的概念很抽象且難以用視覺表現,但假設用一個粗略的比方,想一想當你在判斷人臉對應的性別時你的大腦究竟在如何運轉。你可能會關注到發型、鼻子形狀等,以及難以用言語表達的其他特征。電腦程序也在相似地尋找數據中地顯著特征:雖然它不會知道什么是胡子或性別,但如果學習的訓練數據中有標記著“男性”、“女性”或“長著胡子”的照片時,電腦程序將會很快地推斷出兩者之間的相關性。
12月發表在《Astronomy & Astrophysics》期刊的一篇論文中,Schawinski和他在蘇黎世聯邦工業大學的同事Dennis Turp和Ce Zhang使用生成模型來研究星系演化過程中的物理變化。(他們所用的軟件與生成對抗網絡相似,但其在對隱空間處理的技術與生成對抗網絡有所差異,所以從技術角度來說并不屬于生成對抗網絡)他們的模型創建了人工數據集,用于測試物理變化的假設。比如說,他們想知道恒星形成的“淬火”——形成速率中的快速減弱——與星系環境密度的關聯性。
對Schawinski而言,關鍵問題是僅憑數據本身能夠挖掘多少和恒星與星系演變相關的信息。“讓我們忘記所有關于天體物理學的知識。”他說,“僅僅使用數據本身,我們又能在多大程度上重新認識這些知識?”
首先,星系的圖片被壓縮到它們的隱空間。Schawinski隨即微調空間中的某一個元素,使其能對應上該星系的特定環境變化——比如,周邊物質的密度。接著,他就可以重新生成一個星系來觀察不同之處。“所以現在我就擁有了一臺假設生成設備。用它可以使我手上所有原本都是處于低密度環境的星系看上去都像是在高密度環境中一樣。”
Schawinski他們發現當星系改變所處環境從低密度變成高密度時,星系的顏色變得更紅,星系中的恒星也變得更加向中部集中。Schawinski指出這些觀察結果與現存的星系觀測相吻合,但問題是為什么會這樣。
Schawinski說后續分析步驟還沒有實現自動化,“我必須以人類的身份參與其中,那么試想‘究竟是怎么樣的物理原理可以來解釋這種效應?’”對這個問題有兩種解釋:星系在高密度環境中變得更紅可能是因為高密度環境中充斥著很多塵埃,亦或是因為恒星的形成變少了。(換句話說,星系中的恒星變得更老了)現在,有了生成模型就可以檢驗這兩種思路。改變隱空間中與塵埃和恒星形成速率相關的元素來探究它們如何影響星系的顏色。“答案是顯然的。”Schawinski說,“星系變紅是恒星形成變慢,而并不是受塵埃的影響。因此,我們應該采納這種解釋。”
利用生成概率模型,天體物理學家可以研究宇宙星系從低密度區到高密度區過程的變化,以及導致這些變化的物理過程,這是一種與傳統模擬方法相依相異的方法。Schawinski教授指出,假設驅動是模擬的本質,研究中涉及的基本物理定律決定了系統所顯示得結果。在所有物理假設成立的基礎上,我們將一個行星結構和一個暗物質行為導入系統,模擬其過程并運行,結果在一定程度上與現實相反,但事實上,我們并不知道真實情況及需要的假設條件,我們寄希望于數據本身所產生的結果。
模擬的成功并不能取代天文學家和研究學者的地位,但這意味著在天體物理學域,對象和過程的學習程度的發生轉變:我們通過生成概率模型,從龐大的數據庫獲取信息變得唾手可得。Schawinski教授指出,雖然這不是完全自動化的科學,但表明我們有能力在一定程度上構建自動化科學過程的工具。
生成概率模型顯然是強大的,但它是否真正代表了一種新的科學方法呢?
供職于紐約大學及Flatiron研究所(與Quanta一樣都由Simons基金會資助)的宇宙學家David Hogg教授指出,這項技術雖然令人叫絕,但歸根結底來說,只是一種從數據中提取規律的復雜方法。幾個世紀以來,天文學家一直在使用這種先進的方法進行數據觀察和分析。
Hogg教授和Schawinski教授的工作都對AI十分依賴,Hogg教授使用神經網絡方法,根據光譜對恒星進行分類,并使用數據驅動模型推斷恒星的其他物理屬性。他認為他和Schawinski教授的工作都是經過實踐檢驗的科學,并且不認為這是第三種科學方式。他們致力于打造一個成熟運用數據的團體,尤其是在數據比較方面,即使現在Hogg教授的工作仍有待觀察。
任勞任怨的AI助理
無論在概念上是否具有新穎性,很明顯AI和神經網絡已經在當代天文學和物理學研究中扮演了重要角色。
在海德堡理論研究所,物理學家Kai Polsterer教授的天文信息學小組,致力于研發以數據為中心的天體物理學研究方法。最近,他們一直在使用機器學習算法從星系數據集中提取紅移信息,這在以前是一項艱巨的任務。
Polsterer教授將這種基于AI的系統稱作“任勞任怨的助理”,該系統可以連續梳理數據數小時,不厭倦不抱怨,完成所有繁瑣乏味的工作,這讓研究人員有時間和精力做一些他們擅長的有趣的科學研究。
Polsterer教授指出系統并不是完美無缺,算法只能執行訓練過的事項,對于未知輸入無法響應。例如,如果輸入一個已知星系,系統可以估計它的紅移信息和年齡,但如果輸入一張自拍照或腐爛的魚的圖片,系統也會輸出一個極端錯誤的估計年齡。在此案例中人類科學家扮演者重要角色,由此他認為此項技術最終需要研究人員負責監控及解釋。
供職于費米實驗室Nord教授指出重要的一點:神經網絡方法不僅要提供計算結果,而且要提供誤差區間——這是每個大學生統計課上都學過的。在科學領域,如果只計算而不提供相關誤差估計,那么結果并不值得信任。
和其他AI研究員一樣,Nord教授也擔心神經網絡系統結果的“不易解釋”這一缺陷,通常系統提供的僅是結果,而不顯示具體這些結果是如何得到的。
然而并不是所有人都認為這是一個問題。法國CEA Saclay理論物理研究所的研究員Lenka Zdeborová指出,人類的直覺也是如此“不易解釋”。比如你看一張照片后立即認出是一只貓,但事實上你不知道這是怎么回事,從某種意義上說,大腦就是一個黑盒子。
不僅是天體物理學家和宇宙學家向AI推動的數據驅動、數據推動科學遷移,量子物理學家也使用神經網絡來解決一些十分棘手且重要的問題。
供職于周界理論物理研究所和安大略省滑鐵盧大學的Roger Melkoof教授,使用神經網絡技術解決了描述多粒子系統的數學波函數問題。Melkoof教授將必不可少的AI技術稱為“維數的指數詛咒”,波函數形式的可能隨粒子數量呈指數增長。這一模擬過程的難點類似嘗試在象棋或圍棋游戲中找出最佳走法,即你在試圖走下一步前,會想象你的對手會如何應對,在這些走法中選擇最佳的一個,但每走一步,可能性就會呈指數激增。
當然,AI系統已經掌握了國際象棋和圍棋游戲的玩法,從十年前征服國際象棋,到2016年AlphaGo擊敗了人類頂級圍棋棋手。Melkoof教授由此認為,人工智能在量子物理學中同樣具有適用性。
科學研究的“第三種方法”
無論Schawinski教授認為AI是科學研究的“第三種方法”是否正確,或者如Hogg教授認為,這種方法只是傳統觀察和數據分析的“外掛”,但毫無疑問的是AI正在改變科學發現方法,并起到明顯的促進作用,那么AI革命將在科學研究上走多遠?
有人對“機器人科學家”的成就夸夸其談。十年前,一位名叫亞當的AI機器人化學家研究了面包酵母的基因組,并找出了制造特定氨基酸的基因。亞當通過觀察某些基因缺失的酵母株,將結果與具有這些基因菌株的行為進行比較。
最近,格拉斯哥大學的化學家Lee Cronin教授一直在使用機器人隨機混合化學物,看看會形成什么樣的新化合物。該系統通過質譜儀、核磁共振儀和紅外光譜儀實時監測反應并最終預測哪種組合反應最為強烈。Cronin教授指出,即使這個機器人系統不能帶來進一步的發現,它也能使化學家們的研究速度提高約90%。
蘇黎世聯邦理工學院的另一組科學家去年利用神經網絡,從一組數據中推導出了相關物理定律。他們的系統類似于機器人開普勒(kepler),通過記錄從地球上看到太陽和火星在天空中的位置,重新發現了太陽系的日心模型,并通過觀察碰撞的球體,得出了動量守恒定律。由于物理定律通常不止一種表達式,研究人員想知道這個系統是否會提供新的方法表達已知物理定律。
以上都是AI啟動科學發現過程的案例,盡管在每種情況下,我們都可以討論這種新方法的革命性。但最有爭議且緊急的問題是,在這個數據堆積如山的時代,我們能從中收集多少信息。
在《The Book of Why》(2018)一書中,計算機科學家Judea Pearl和科學作家Dana Mackenzie指出,數據其實并不是十分智能,數據無法解釋因果關系,使用各個模型分析數據的論文或研究都只給出結果或變換數據,不能做出解釋。Schawinski教授同意Pearl教授的觀點,但是指出這種觀念偷換了概念,他從未聲稱要以這種方式推斷因果關系,而只是使用這種方法可以比常規方法做的更多。
科學需要創造力,但到目前為止,沒有恰當的方法將創造力引入機器編程。Polsterer教授說“提出一個有邏輯的新理論需要創造力。而每當你需要創造力的時候,你就需要人類。”創造力從何而來?Polsterer教授覺得創造力和“無聊”有關,機器是無法感受到無聊的。“想變得有創造性,你必須討厭無聊。我不認為機器會覺得無聊。”但另一方面,我們卻用著“創意”和“靈感”等詞匯來描述深藍(Deep Blue)和AlphaGo等程序。描述機器“思想”內部發生了什么的困難反映了我們探索自己的思維過程是多么的困難。
Schawinski教授最近離開學術界進入了私企,運營一家名為Modulos的初創公司,Modulos雇傭了許多ETH的科學家,公司在官網口號是,“在AI和機器學習的發展風暴中心工作”。無論當前的AI技術和成熟技術間存在何種障礙,他和其他專家都認為,機器人已經準備好做越來越多的人類科學家的工作,即使機器在這方面存在一定限制性。
在可預見的未來,我們能否制造出一臺使用生物硬件的機器,能夠解決那些連世界上最聰明的人類也無法獨立完成的物理或數學問題。科學的未來最終是否有可能歸宿于機器驅動,令人期待。
-
GaN
+關注
關注
19文章
1964瀏覽量
73989 -
機器學習
+關注
關注
66文章
8438瀏覽量
132954
原文標題:了解宇宙萬物的“第三種方法”?,人工智能正在改變科學
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論