第三部分編譯后的內(nèi)容:
4.如何解決科學(xué)問(wèn)題?
在掌握了上述的工具和視角后,我們將提出一些建議,幫助您在化學(xué)領(lǐng)域選擇具有影響力的研究課題,并介紹機(jī)器學(xué)習(xí)問(wèn)題的高層次結(jié)構(gòu)。最后,我們將概述機(jī)器學(xué)習(xí)在化學(xué)研究中發(fā)展的三個(gè)主要方向:廣度、深度和規(guī)模。
4.1 Aspuru-Guzik/Whitesides 規(guī)則:選擇重要問(wèn)題的原則
當(dāng)我們的一位成員(阿斯普魯-古茲克)在哈佛大學(xué)創(chuàng)辦物質(zhì)實(shí)驗(yàn)室(2006–2018),并于2018年轉(zhuǎn)至多倫多大學(xué)時(shí),一套選擇重要問(wèn)題的規(guī)則開(kāi)始逐漸形成。在與喬治·懷特賽德的走廊對(duì)話中,懷特賽德告訴阿斯普魯-古茲克他也有類似的指導(dǎo)方針,因此在開(kāi)始任何研究之前需要明確的提出三個(gè)問(wèn)題。我們?cè)谖镔|(zhì)實(shí)驗(yàn)室每天都應(yīng)用這些問(wèn)題來(lái)選擇研究課題。在這里,盡管我們專注于化學(xué)中的機(jī)器學(xué)習(xí),但這些原則依然具有廣泛的適用性。這三個(gè)問(wèn)題依次強(qiáng)調(diào)了新穎性、重要性和可行性。
4.1.1 問(wèn)題 1:這個(gè)問(wèn)題以前解決過(guò)嗎?
在開(kāi)始一項(xiàng)科學(xué)事業(yè)之前,先問(wèn)自己這個(gè)問(wèn)題。如果這個(gè)問(wèn)題以前沒(méi)有被解決過(guò),你的解決方案將會(huì)更具影響力和持久性嗎。這是因?yàn)槲覀兊哪繕?biāo)是追求創(chuàng)新,而不是單純爭(zhēng)取排名。
在機(jī)器學(xué)習(xí)的背景下,盡管提升基準(zhǔn)成績(jī)能夠提供有價(jià)值的進(jìn)展信號(hào),但這并不是研究的最終目標(biāo)。尤其是在學(xué)術(shù)工作中,因?yàn)檠芯颗c利潤(rùn)并沒(méi)有直接關(guān)聯(lián),所以應(yīng)該盡可能的去追求新穎性。隨之而來(lái)的是,一旦確立了新的問(wèn)題,整個(gè)領(lǐng)域就會(huì)變得開(kāi)發(fā),從而就會(huì)有機(jī)會(huì)在此基礎(chǔ)上進(jìn)一步提升結(jié)果。
這項(xiàng)工作會(huì)在兩個(gè)領(lǐng)域之間建立新的聯(lián)系嗎?當(dāng)一篇論文提出的問(wèn)題多于答案時(shí),該研究領(lǐng)域就會(huì)得到發(fā)展。僅僅將機(jī)器學(xué)習(xí)方法應(yīng)用于一個(gè)新的領(lǐng)域也可以被視為一種新穎的嘗試。然而,如果所提議的方法能夠提供一個(gè)新的視角,比如將搜索問(wèn)題重新定義為生成模型的問(wèn)題,那么這種新穎性將會(huì)達(dá)到最大化。
例如,我們將3D生成模型引入到旋轉(zhuǎn)光譜學(xué)領(lǐng)域,這為僅依靠旋轉(zhuǎn)光譜學(xué)進(jìn)行3D結(jié)構(gòu)解析的問(wèn)題提供了新的思路。一個(gè)明顯的例子是,在這一領(lǐng)域,我們首次研究的成果是優(yōu)于其他任何研究的。但是,由于我們?cè)谠擃I(lǐng)域提出了首個(gè)方法,因此并沒(méi)有可供比較或基準(zhǔn)測(cè)試的機(jī)器學(xué)習(xí)基準(zhǔn)。
4.1.2 問(wèn)題 2:你要解決的問(wèn)題是否與社會(huì)相關(guān)?
在開(kāi)始一項(xiàng)科學(xué)探索之前,請(qǐng)考慮一下它是否能夠廣泛幫助他人。畢竟,我們所從事的科學(xué)直接影響著人類生活。人類與整個(gè)生物群落每天都在與人造化學(xué)物質(zhì)進(jìn)行互動(dòng)。請(qǐng)思考那些對(duì)地球重要的問(wèn)題。因?yàn)樵诔錆M環(huán)境危機(jī)和政治危機(jī)的二十一世紀(jì),這樣的考慮顯得尤為重要。
哪個(gè)受眾會(huì)對(duì)此感興趣呢?如果這個(gè)任務(wù)能夠以顯著更高的精度或速度解決,將會(huì)有哪些新的任務(wù)變得觸手可及?例如,神經(jīng)網(wǎng)絡(luò)勢(shì)之所以重要,是因?yàn)榱?chǎng)已經(jīng)被廣泛應(yīng)用于了各種計(jì)算化學(xué)方法中了,而這些方法又用于預(yù)測(cè)物質(zhì)的性質(zhì)和光譜。因此,解決這個(gè)問(wèn)題將吸引到科學(xué)界和工業(yè)界等廣泛的受眾。
可以對(duì)所提出的方法進(jìn)行實(shí)驗(yàn)測(cè)試,以驗(yàn)證它是否能夠解決計(jì)算問(wèn)題嗎?那些能夠經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的方法通常具有更高的影響力。另一方面,如果所提出的方案“無(wú)效”,最糟糕的情況會(huì)是什么?如果新穎性選擇得當(dāng),這種風(fēng)險(xiǎn)就會(huì)降低,因?yàn)槟軌蚪鉀Q未基準(zhǔn)測(cè)試的問(wèn)題的方法已經(jīng)達(dá)到了最先進(jìn)的水平。
4.1.3 問(wèn)題 3:解決這個(gè)問(wèn)題是否有可能?
處理一個(gè)既重要又在你資源范圍內(nèi)的問(wèn)題是成功的關(guān)鍵。顯然,最有效且具有廣泛影響力的出版物將會(huì)產(chǎn)生更大的影響。因此,如果你希望你的工作被人銘記,就應(yīng)該追求那些難度較大的工作,而不是簡(jiǎn)單易得的任務(wù)。
在機(jī)器學(xué)習(xí)的領(lǐng)域,考慮以下問(wèn)題是非常有用的:可用的資源有哪些?是否有足夠的數(shù)據(jù)以達(dá)到所需的泛化性能?是否有公開(kāi)可用的代碼實(shí)現(xiàn)?是否有類似的問(wèn)題已經(jīng)通過(guò)相同的方法得到了有效解決?例如,三維生成模型在構(gòu)象搜索和對(duì)接等任務(wù)中的結(jié)構(gòu)預(yù)測(cè)成功表明,它們?cè)诰w結(jié)構(gòu)預(yù)測(cè)方面也可能取得成功。
可行性的重要組成部分是控制范圍。那么,能夠解決這個(gè)問(wèn)題的算法的最小實(shí)現(xiàn)是什么,同時(shí)又能產(chǎn)生廣泛影響?在這個(gè)問(wèn)題的范圍內(nèi),如何評(píng)估成功?
4.2 數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)問(wèn)題的結(jié)構(gòu)
機(jī)器學(xué)習(xí)和許多數(shù)據(jù)科學(xué)問(wèn)題具有一種普遍存在的結(jié)構(gòu),這在許多論文中得到了體現(xiàn)。當(dāng)你開(kāi)始研究一個(gè)選定的問(wèn)題時(shí),接下來(lái)需要考慮的內(nèi)容遵循以下層次結(jié)構(gòu):(1)數(shù)據(jù),(2)問(wèn)題框架,(3)方法,以及(4)評(píng)估。在我們的研究小組中,總是按照這個(gè)順序和層次來(lái)考慮問(wèn)題。例如,如果沒(méi)有數(shù)據(jù),科學(xué)家將無(wú)法取得進(jìn)展。提出新方法但使用舊數(shù)據(jù)的論文發(fā)表,其影響力通常不及最初提供數(shù)據(jù)(及其機(jī)器學(xué)習(xí)應(yīng)用)的論文發(fā)表。
4.2.1 可用的數(shù)據(jù)有哪些?
在機(jī)器學(xué)習(xí)中,所有事情都源于可用的數(shù)據(jù)。沒(méi)有數(shù)據(jù),任何方法都無(wú)法應(yīng)用。那么,可用數(shù)據(jù)的規(guī)模有多大?模擬新數(shù)據(jù)的難易程度如何?有哪些真實(shí)值數(shù)據(jù)可供使用,以及有哪些方法可以驗(yàn)證模型的預(yù)測(cè)?根據(jù)經(jīng)驗(yàn),當(dāng)數(shù)據(jù)集超過(guò)大約10,000個(gè)樣本時(shí),生成模型更有可能有效地進(jìn)行泛化。社區(qū)中反復(fù)解決的問(wèn)題應(yīng)當(dāng)被考慮。是否可以定期記錄這些數(shù)據(jù)?例如,在量子化學(xué)領(lǐng)域,計(jì)算力和構(gòu)象搜索等任務(wù)是標(biāo)準(zhǔn)流程,這些數(shù)據(jù)的可用性為神經(jīng)力場(chǎng)和3D結(jié)構(gòu)預(yù)測(cè)的成功做出了貢獻(xiàn)。此外,數(shù)據(jù)不僅僅是一個(gè)靜態(tài)的數(shù)據(jù)集,還可能包括實(shí)時(shí)的數(shù)據(jù)采集,例如智能體的環(huán)境或用于黑箱優(yōu)化的oracle函數(shù)。正因?yàn)閿?shù)據(jù)是至關(guān)重要的資源,所以我們小組才開(kāi)始了一個(gè)為期多年的目標(biāo),即開(kāi)發(fā)和使用自動(dòng)化實(shí)驗(yàn)室。因此我們就能夠在數(shù)據(jù)上保證自給自足了。
4.2.2 如何有效地界定問(wèn)題?
接下來(lái)的關(guān)鍵任務(wù)是有效地構(gòu)建問(wèn)題框架。構(gòu)建框架不僅重要于確保選擇表1中的合適工具,還為基準(zhǔn)測(cè)試和理論分析提供了基礎(chǔ)。問(wèn)題框架應(yīng)基于領(lǐng)域知識(shí):需要解決哪些具體挑戰(zhàn)以支持下游任務(wù),例如實(shí)驗(yàn)驗(yàn)證?例如,通過(guò)生成晶體結(jié)構(gòu)作為3D單元格進(jìn)行材料設(shè)計(jì),可能難以轉(zhuǎn)化為實(shí)際材料,因?yàn)閷?shí)驗(yàn)人員無(wú)法對(duì)結(jié)構(gòu)進(jìn)行原子級(jí)的控制。問(wèn)題框架本身往往能夠決定所提議研究的新穎性和重要性:在化學(xué)問(wèn)題與機(jī)器學(xué)習(xí)問(wèn)題之間建立新的聯(lián)系會(huì)產(chǎn)生新穎性,而性能的顯著提升則能增強(qiáng)其重要性。
另一種處理問(wèn)題框架的方法是詢問(wèn)數(shù)據(jù)如何表示。選擇一種緊湊、信息豐富且計(jì)算效率高的表示方式,是融入歸納偏差并加速學(xué)習(xí)的有效途徑。然而,正如“痛苦的教訓(xùn)”這部分所示,我們不必在設(shè)計(jì)“完美”表示上花費(fèi)過(guò)多時(shí)間。如果輸入表示包含了所有必要信息,并且數(shù)量足夠大,深度學(xué)習(xí)能夠自動(dòng)找到理想的表示形式。
4.2.3 哪種模型可以解決這個(gè)問(wèn)題?
當(dāng)問(wèn)題明確后,模型的選擇通常變得清晰且合理。哪些機(jī)器學(xué)習(xí)方法適合這個(gè)任務(wù)?簡(jiǎn)單的方法能否解決這個(gè)問(wèn)題?已建立的方法,如Morgan指紋和XGBoost,仍然是屬性預(yù)測(cè)的強(qiáng)基準(zhǔn),而遺傳算法則是分子生成的強(qiáng)基準(zhǔn)。如果簡(jiǎn)單的方法無(wú)法奏效,那么是否有新的算法適合這個(gè)問(wèn)題?是否有現(xiàn)成的代碼可以在線獲取?在嘗試?yán)斫獯a之前,先運(yùn)行代碼可能會(huì)更簡(jiǎn)單。如何盡量少地修改用于解決其他問(wèn)題的代碼實(shí)現(xiàn),以便解決當(dāng)前的問(wèn)題?選擇與數(shù)據(jù)規(guī)模和可用性相匹配的算法。而對(duì)于小型數(shù)據(jù)集來(lái)說(shuō),經(jīng)典機(jī)器學(xué)習(xí)仍然是表現(xiàn)最佳的。
這可能是本論文中最重要的段落:給研究生和博士后的黃金建議,切勿迷戀新方法論的誘惑。如果舊的方法論已經(jīng)被證明有效,那就直接使用它!要專注于你工作的科學(xué)貢獻(xiàn)。當(dāng)其他方法確實(shí)存在局限性時(shí),才應(yīng)該開(kāi)發(fā)新方法。換句話說(shuō),你的新型自編碼器在長(zhǎng)期內(nèi)的影響力,遠(yuǎn)不如你解決一個(gè)重要的化學(xué)或材料科學(xué)問(wèn)題所帶來(lái)的深遠(yuǎn)影響,因?yàn)檫@樣的答案能夠持久存在。
4.2.4 如何評(píng)估提議的方法?
最后,必須根據(jù)領(lǐng)域知識(shí)提供的合理指標(biāo)來(lái)評(píng)估該方法。這些指標(biāo)是否反映了提議的方法在實(shí)際應(yīng)用中的真實(shí)情況?例如,如果您正在生成并提議新的分子,那么化學(xué)家是否能夠合成這些分子并測(cè)試其性質(zhì)?確定適當(dāng)?shù)闹笜?biāo)是至關(guān)重要的,因?yàn)槲磥?lái)的工作很可能會(huì)采用相同的評(píng)估標(biāo)準(zhǔn)。
4.3 新問(wèn)題:機(jī)器學(xué)習(xí)對(duì)化學(xué)的影響需求
將機(jī)器學(xué)習(xí)應(yīng)用于化學(xué)領(lǐng)域可以在應(yīng)用廣度、考慮深度和執(zhí)行規(guī)模方面產(chǎn)生更大的影響。在應(yīng)用廣度上,許多化學(xué)問(wèn)題可以被重新定義為機(jī)器學(xué)習(xí)問(wèn)題,并引入到機(jī)器學(xué)習(xí)社區(qū)中。在考慮深度上,所提出的方法能夠在機(jī)器學(xué)習(xí)與計(jì)算化學(xué)之間建立更強(qiáng)的理論聯(lián)系,從而推動(dòng)兩個(gè)領(lǐng)域的進(jìn)一步方法開(kāi)發(fā)。最后,在執(zhí)行規(guī)模上,針對(duì)更重要的問(wèn)題,化學(xué)領(lǐng)域的機(jī)器學(xué)習(xí)可以利用更多的數(shù)據(jù)。隨著人們對(duì)語(yǔ)言和視覺(jué)領(lǐng)域網(wǎng)絡(luò)規(guī)模數(shù)據(jù)達(dá)到極限的擔(dān)憂加劇,而化學(xué)領(lǐng)域卻因其可以通過(guò)計(jì)算模擬或高通量實(shí)驗(yàn)“獲取”更多的數(shù)據(jù)而脫穎而出。
4.3.1 解決問(wèn)題的廣度
在第2節(jié)中,我們觀察到機(jī)器學(xué)習(xí)在化學(xué)問(wèn)題上的多樣性應(yīng)用,但許多化學(xué)領(lǐng)域仍然未被充分探索。以下是一些機(jī)器學(xué)習(xí)仍在不斷發(fā)展的化學(xué)領(lǐng)域,順序不分先后:光化學(xué)、化學(xué)教育、核化學(xué)、農(nóng)化學(xué)、分析化學(xué)、電化學(xué)、天體化學(xué)、非晶材料、軟材料、開(kāi)放量子系統(tǒng)、環(huán)境化學(xué)和大氣化學(xué),僅舉幾例。在每個(gè)領(lǐng)域中,都存在一些可以根據(jù)可用數(shù)據(jù)構(gòu)建為機(jī)器學(xué)習(xí)問(wèn)題的任務(wù)。這些任務(wù)不僅限于對(duì)純小有機(jī)分子的理想狀態(tài)進(jìn)行研究。此外,異質(zhì)材料、量子材料和復(fù)雜混合物等都帶來(lái)了新的挑戰(zhàn),而這些挑戰(zhàn)恰恰可以從機(jī)器學(xué)習(xí)的創(chuàng)新中受益。正如第2.5節(jié)所提到的,現(xiàn)實(shí)世界中的大多數(shù)物質(zhì)都是復(fù)雜的混合物。
關(guān)鍵在于不要“強(qiáng)迫”機(jī)器學(xué)習(xí)進(jìn)入這些領(lǐng)域,而是要考慮現(xiàn)有的或新穎的任務(wù)是否可以被視為機(jī)器學(xué)習(xí)問(wèn)題(見(jiàn)表1)。這樣做將有助于實(shí)現(xiàn)迭代改進(jìn),并可能催生新的算法。在某些情況下,可能沒(méi)有足夠的數(shù)據(jù)來(lái)應(yīng)用機(jī)器學(xué)習(xí),但確保新穎性的一種簡(jiǎn)單方法是關(guān)注一個(gè)尚未充分被探索的領(lǐng)域。
回到我們之前的例子,我們很高興運(yùn)用機(jī)器學(xué)習(xí)解決旋轉(zhuǎn)光譜學(xué)中的一個(gè)重要結(jié)構(gòu)確定問(wèn)題:首次應(yīng)用生成模型來(lái)預(yù)測(cè)給定替代坐標(biāo)的分子的三維結(jié)構(gòu)。這是一個(gè)典型的廣度方法示例,旨在尋求多學(xué)科的方法,并讓我們走出自己的舒適區(qū)。
4.3.2 解決問(wèn)題的深度
正如我們?cè)诘?.2.2節(jié)討論應(yīng)用驅(qū)動(dòng)的創(chuàng)新在機(jī)器學(xué)習(xí)(ML)中的作用時(shí)所看到的,化學(xué)問(wèn)題激發(fā)了新算法的產(chǎn)生以及高級(jí)機(jī)器學(xué)習(xí)理論的發(fā)展。而深入?yún)⑴c機(jī)器學(xué)習(xí)理論或理論化學(xué)的研究能夠帶來(lái)新穎性和重要性,并且通常能夠帶來(lái)更加穩(wěn)健的實(shí)證結(jié)果。
許多機(jī)器學(xué)習(xí)方法,例如圖神經(jīng)網(wǎng)絡(luò)和等變架構(gòu),就是受到理論化學(xué)所啟發(fā)的,并開(kāi)始對(duì)這一領(lǐng)域產(chǎn)生影響。再者,擴(kuò)散模型于2015年提出,靈感來(lái)源于統(tǒng)計(jì)力學(xué)中的方法,自那時(shí)起,它們已成為最先進(jìn)的生成模型,使得高分辨率的文本到圖像生成成為可能。近十年后,新研究將擴(kuò)散模型與計(jì)算化學(xué)中的傳統(tǒng)工具聯(lián)系了起來(lái)。使得擴(kuò)散模型能夠同時(shí)學(xué)習(xí)粗粒度力場(chǎng)和生成模型,并且還可以作為采樣和計(jì)算自由能的一種手段。這些研究的開(kāi)展離不開(kāi)對(duì)擴(kuò)散模型與自由能之間關(guān)系的深入探討,以及對(duì)擴(kuò)散分布與理想氣體之間聯(lián)系的理解。
此外,從擴(kuò)散模型衍生的流匹配方法放寬了將數(shù)據(jù)分布噪聲化為純高斯分布的限制,從而能夠連接兩種不同的數(shù)據(jù)分布。這使得軌跡學(xué)習(xí)成為可能,并且這一技術(shù)已經(jīng)開(kāi)始應(yīng)用于反應(yīng)的過(guò)渡路徑采樣。這些研究建立了理論上的聯(lián)系,可能促使更多技術(shù)在計(jì)算化學(xué)與機(jī)器學(xué)習(xí)之間進(jìn)行轉(zhuǎn)移。
此外,神經(jīng)網(wǎng)絡(luò)勢(shì)能將能量計(jì)算視為一個(gè)需要記憶的黑箱函數(shù),而哈密頓預(yù)測(cè)則揭示了哈特里–福克理論(Hartree–Fock theory)的內(nèi)部機(jī)制,使我們能夠獲取波函數(shù),并在準(zhǔn)確性與速度之間實(shí)現(xiàn)新的平衡。自洽訓(xùn)練則通過(guò)不再需要提供哈密頓矩陣作為標(biāo)簽來(lái)與這一理論相結(jié)合,從而整體上提高了密度泛函理論(DFT)的計(jì)算速度。
與實(shí)驗(yàn)人員合作,針對(duì)具體的設(shè)計(jì)目標(biāo)進(jìn)行研究,為我們提供了必要的深度。在真實(shí)世界的問(wèn)題通常需要將機(jī)器學(xué)習(xí)與實(shí)驗(yàn)數(shù)據(jù)相結(jié)合,而這樣的合作能夠帶來(lái)在單獨(dú)研究狀態(tài)下無(wú)法實(shí)現(xiàn)的突破。如量子化學(xué)、機(jī)器學(xué)習(xí)和有機(jī)材料化學(xué)領(lǐng)域的專家之間的大規(guī)模合作促成了新型有機(jī)發(fā)光二極管(OLEDs)的發(fā)現(xiàn)。在這項(xiàng)工作中,我們是首批證明基于指紋的機(jī)器學(xué)習(xí)方法、智能篩選方法和實(shí)驗(yàn)驗(yàn)證能夠在在閉環(huán)理念下推動(dòng)新材料開(kāi)發(fā)的團(tuán)隊(duì)之一。
我們的團(tuán)隊(duì)最近參與了一項(xiàng)為期五年的國(guó)際合作,涉及六個(gè)研究小組。這項(xiàng)合作的成果是一個(gè)去局部化、非同步的閉環(huán)設(shè)計(jì),從而產(chǎn)生了迄今為止最好的有機(jī)激光材料(據(jù)我們所知)。同時(shí),另一項(xiàng)關(guān)于閉環(huán)設(shè)計(jì)的多學(xué)科合作也證明,機(jī)器學(xué)習(xí)能夠通過(guò)深入的材料科學(xué)探索,為我們揭示新的化學(xué)原理。
4.3.3 解決問(wèn)題的規(guī)模
如第3.2.3節(jié)所示,規(guī)模的非凡有效性為解決更復(fù)雜的問(wèn)題帶來(lái)了樂(lè)觀的前景。如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等著名問(wèn)題最終通過(guò)利用蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank)的規(guī)模得以攻克的。而快速且能達(dá)到量子力學(xué)上精度的原子動(dòng)力學(xué)正在由基礎(chǔ)力場(chǎng)實(shí)現(xiàn)。
對(duì)于那些已經(jīng)在機(jī)器學(xué)習(xí)(ML)中形式化的化學(xué)問(wèn)題,僅僅通過(guò)擴(kuò)大數(shù)據(jù)和計(jì)算的規(guī)模,就能加速進(jìn)展。像開(kāi)放催化劑項(xiàng)目(Open Catalyst Project)這樣的項(xiàng)目展示了機(jī)器學(xué)習(xí)在推動(dòng)化學(xué)領(lǐng)域?qū)崿F(xiàn)大規(guī)模進(jìn)展方面的潛力。通過(guò)計(jì)算和模擬獲取新數(shù)據(jù),并設(shè)計(jì)更好的采樣算法,我們可以提高數(shù)據(jù)生成的速度,從而朝著規(guī)模化目標(biāo)努力。例如,大型語(yǔ)言模型智能體(LLM agents)可以執(zhí)行計(jì)算模擬,以生成新的訓(xùn)練數(shù)據(jù),從而進(jìn)一步加快研究的進(jìn)展。
雖然訓(xùn)練基礎(chǔ)模型常被視為導(dǎo)致大量排放的原因,但我們也應(yīng)關(guān)注計(jì)算能力在減少排放方面的潛力。更好的模型可能會(huì)減少所需的濕實(shí)驗(yàn)數(shù)量,或有助于設(shè)計(jì)更環(huán)保的替代方案來(lái)應(yīng)對(duì)當(dāng)前和未來(lái)的化學(xué)過(guò)程。值得一提的是,化學(xué)工業(yè)在全球排放中占據(jù)了相當(dāng)大的比例。
化學(xué)空間的規(guī)模可能相對(duì)較小。常被引用的化學(xué)空間估計(jì)大小為10^60^,這讓人感到著迷。然而,從機(jī)器學(xué)習(xí)的角度來(lái)看,這個(gè)空間可以被認(rèn)為是小的。如果我們僅考慮黑白28 × 28的圖像,也就是標(biāo)準(zhǔn)手寫數(shù)字?jǐn)?shù)據(jù)庫(kù)MNIST的數(shù)據(jù),這個(gè)空間的大小已經(jīng)是2^(28×28)^ ≈ 10^236^。當(dāng)然,圖像的空間要稀疏得多,因?yàn)楝F(xiàn)存的彩色圖像數(shù)量約為14.3萬(wàn)億(≈ 10^13^張)。這正是深度學(xué)習(xí)令人印象深刻之處——它能夠僅通過(guò)展示一堆示例,就能在極高維的空間中找到結(jié)構(gòu)。在語(yǔ)言的背景下,10^60^僅僅是限制在60個(gè)詞匯內(nèi)的10個(gè)單詞句子的數(shù)量,或者是限制在60個(gè)可能句子的10個(gè)句子段落的數(shù)量。顯然,自然語(yǔ)言的規(guī)模要大得多。
這些強(qiáng)大的能力能否將理論思考變?yōu)楝F(xiàn)實(shí)?想象一下,能夠在宏觀時(shí)間尺度上對(duì)一個(gè)細(xì)胞進(jìn)行原子級(jí)模擬,或者準(zhǔn)確地模擬柔性有機(jī)電子設(shè)備在長(zhǎng)年使用過(guò)程中的有效性和穩(wěn)定性,抑或是從頭開(kāi)始發(fā)現(xiàn)新的反應(yīng)。這些挑戰(zhàn)直到最近似乎都遙不可及。而令我們感到驚訝的是,利用神經(jīng)力場(chǎng)進(jìn)行全原子HIV蛋殼的納秒模擬在DFT精度下卻是可行的。如果現(xiàn)代圖像生成模型能夠生成1024 × 1024分辨率及更高質(zhì)量的圖像,那么究竟是什么阻礙了在生物時(shí)間尺度上模擬整個(gè)細(xì)胞的進(jìn)程?如果障礙是數(shù)據(jù),我們很幸運(yùn)能夠獲得越來(lái)越多復(fù)雜的模擬以及能夠獨(dú)立生成高質(zhì)量數(shù)據(jù)的自動(dòng)化實(shí)驗(yàn)室。如果障礙是計(jì)算能力,我們也有幸借助主流人工智能帶來(lái)的計(jì)算能力大幅提升。如果問(wèn)題出在方法或?qū)嶒?yàn)上,那么作為21世紀(jì)的跨學(xué)科理論化學(xué)家,我們需要共同行動(dòng):讓我們一起推動(dòng)學(xué)科的變革吧。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7081瀏覽量
89201 -
人工智能
+關(guān)注
關(guān)注
1792文章
47437瀏覽量
238982 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8425瀏覽量
132772
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論