任何人工智能的成功實施都依賴于以正確的方式提出正確的問題。這就是英國人工智能公司DeepMind(Alphabet的子公司)在利用其神經(jīng)網(wǎng)絡(luò)解決生物學(xué)的重大挑戰(zhàn)之一蛋白質(zhì)折疊(protein-folding)問題時所取得的成就。它的神經(jīng)網(wǎng)絡(luò)被稱為AlphaFold,能夠根據(jù)蛋白質(zhì)的氨基酸序列以前所未有的準(zhǔn)確度預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。
AlphaFold在蛋白質(zhì)結(jié)構(gòu)預(yù)測的第14個臨界評估(14th Critical Assessment of protein Structure Prediction,CASP14)中的預(yù)測對于大多數(shù)蛋白質(zhì)來說都精確到一個原子的寬度之內(nèi)。競爭包括盲目地預(yù)測蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)是最近才被實驗確定的,還有一些尚待確定。
蛋白質(zhì)被稱為生命的組成部分,由20種不同的氨基酸以不同的組合和序列組成。蛋白質(zhì)的生物學(xué)功能與其三維結(jié)構(gòu)密切相關(guān)。因此,對最終折疊形狀的了解對于理解特定蛋白質(zhì)是如何工作的至關(guān)重要,例如它們?nèi)绾闻c其他生物分子相互作用,如何控制或調(diào)整,等等。歐洲生物信息學(xué)研究所(European Bioinformatics Institute)榮譽主任Janet M. Thornton說:“能夠根據(jù)序列預(yù)測結(jié)構(gòu)是蛋白質(zhì)設(shè)計真正邁出的第一步。”它在了解致病病原體方面也有巨大的益處。
預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)是一場計算噩夢(computational nightmare)。1969年,Cyrus Levinthal估計,一種蛋白質(zhì)有10300種可能的構(gòu)象組合,這將需要比已知宇宙的年齡更長的時間來用蠻力計算進行評估。而AlphaFold則可以在幾天內(nèi)就完成。
隨著科學(xué)的發(fā)展進步,AlphaFold的發(fā)現(xiàn)與James Watson和Francis Crick的DNA雙螺旋模型(DNA double helix model),或者最近Jennifer Doudna和Emmanuelle Charpentier的CRISPR-Cas9基因組編輯技術(shù)一樣,在科學(xué)上取得了突破。
幾年前,曾有一個團隊試圖教人工智能去掌握一個有3000年歷史的游戲,但最終如何訓(xùn)練人工智能來回答困擾生物學(xué)家50年的問題呢?數(shù)據(jù)科學(xué)家、人工智能公司PureStrategy的創(chuàng)始人Briana Brownell說,這就是人工智能的妙處:同樣的算法可以用于非常不同的事情。
“每當(dāng)你遇到問題,你想用人工智能來解決時,”她說,“你需要弄清楚如何將正確的數(shù)據(jù)輸入模型,然后將正確的輸出類型轉(zhuǎn)換回現(xiàn)實世界。”
她說,DeepMind的成功與其說是挑選正確的神經(jīng)網(wǎng)絡(luò)的功能,不如說是“它們選擇了如何以足夠復(fù)雜的方式設(shè)置問題,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的建模能夠真正回答問題。”
2018年,當(dāng)DeepMind在CASP13上發(fā)現(xiàn)了他們的人工智能的一次迭代時 -- AlphaFold顯示出了希望 -- 在所有參與者中實現(xiàn)了最高的精確度。該團隊訓(xùn)練它從頭開始模擬目標(biāo)形狀,而不使用先前已解決的蛋白質(zhì)作為模板。
到2020年,他們在人工智能中部署了新的深度學(xué)習(xí)架構(gòu),使用了一種經(jīng)過端到端培訓(xùn)的注意力模型。深度學(xué)習(xí)網(wǎng)絡(luò)中的注意力指的是管理和量化輸入和輸出元素之間以及輸入元素之間相互依賴關(guān)系的組件。
除了具有未知結(jié)構(gòu)的蛋白質(zhì)序列的數(shù)據(jù)庫外,該系統(tǒng)還接受了大約170000個已知實驗蛋白質(zhì)結(jié)構(gòu)的公共數(shù)據(jù)集的訓(xùn)練。
Brownell說:“如果你看看他們兩年前,和這次不同的是,人工智能系統(tǒng)的結(jié)構(gòu)是不同的。這一次,他們發(fā)現(xiàn)了如何將真實世界轉(zhuǎn)化為數(shù)據(jù)……并創(chuàng)建了一個可以轉(zhuǎn)換回現(xiàn)實世界的輸出。”
像任何人工智能系統(tǒng)一樣,AlphaFold可能需要處理訓(xùn)練數(shù)據(jù)中的偏差。例如,Brownell說,AlphaFold使用的是蛋白質(zhì)結(jié)構(gòu)的可用信息,這些信息已經(jīng)通過其他方式進行了測量。然而,也有許多蛋白質(zhì)具有未知的三維結(jié)構(gòu)。因此,她說,可以想象,一種偏見可能會蔓延到那些我們有更多結(jié)構(gòu)數(shù)據(jù)的蛋白質(zhì)。
Thornton說,很難預(yù)測AlphaFold的突破要花多長時間才能轉(zhuǎn)化為實際應(yīng)用。她說:“我們只有人體20000種蛋白質(zhì)中約10%的實驗結(jié)構(gòu)。一個強大的人工智能模型可以揭示其他90%的結(jié)構(gòu)。”
除了增加我們對人類生物學(xué)和健康的了解,她補充道:“這是朝著……構(gòu)建實現(xiàn)特定功能的蛋白質(zhì)邁出的真正的第一步。從蛋白質(zhì)療法到生物燃料或食用塑料的酶,可能性是無窮的。”
責(zé)任編輯:haq
-
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269487 -
人工智能
+關(guān)注
關(guān)注
1792文章
47442瀏覽量
239005
發(fā)布評論請先 登錄
相關(guān)推薦
評論