蛋白質(zhì)結(jié)構(gòu)研究加速度
蛋白質(zhì)是生命的基石,由氨基酸鏈組成,并折疊成復(fù)雜的形狀。蛋白質(zhì)根據(jù)儲存在DNA中的指令產(chǎn)生復(fù)雜的生物分子,它們執(zhí)行著至關(guān)重要的細(xì)胞任務(wù),并完成各種機(jī)體功能。
一些蛋白質(zhì)是有益的,例如那些參與消化食物的蛋白質(zhì);而另一些則是有害的,例如那些參與腫瘤生長的蛋白質(zhì)。它們各自都有著非常復(fù)雜的形狀和結(jié)構(gòu)。
由于蛋白質(zhì)的形狀與其功能密切相關(guān)。了解蛋白質(zhì)的結(jié)構(gòu)可以更好地了解其作用和工作原理,這也是解決許多生命科學(xué)問題的關(guān)鍵。
以前,研究人員需要付出幾個月或幾年的時間和精力,才能弄清蛋白質(zhì)的結(jié)構(gòu)。
如今,憑借人工智能的力量,幾秒鐘內(nèi)就能完成。
它不僅可被用于疾病研究、食物安全、疫苗開發(fā)、可持續(xù)發(fā)展等領(lǐng)域;
還幫助科學(xué)家深入了解體內(nèi)復(fù)雜過程是如何工作的、以及哪些有機(jī)分子能被用于克服污染、生命起源于何處等那些為全人類所關(guān)注的重要問題。
AlphaFold蛋白質(zhì)數(shù)據(jù)庫
AlphaFold蛋白質(zhì)數(shù)據(jù)庫不僅實現(xiàn)了1000倍的擴(kuò)容,成為[蛋白質(zhì)宇宙],更能在幾分鐘破解漸凍人等不治之癥相關(guān)的世界級生物難題。
這些轉(zhuǎn)儲數(shù)據(jù)將在DeepMind和歐洲分子生物學(xué)實驗室歐洲生物信息研究所共同建立的一個數(shù)據(jù)庫中免費公開。
在這些逾 2.14 億個結(jié)構(gòu)預(yù)測中,約35%的預(yù)測結(jié)果被認(rèn)為準(zhǔn)確度很高,即和實驗解析的結(jié)構(gòu)一樣可靠。
另有45%的預(yù)測被認(rèn)為置信度足夠高,在很多情況下都能使用。
AlphaFold預(yù)測的許多結(jié)構(gòu)都很可靠,能在很多情況下替代實驗解析的結(jié)構(gòu)。
其他情況下,研究人員會用AlphaFold的預(yù)測結(jié)果驗證和解讀實驗數(shù)據(jù)。
不可靠的預(yù)測結(jié)果一望即知,其中一些源于蛋白質(zhì)固有的無序性質(zhì),這種無序意味著蛋白質(zhì)本身沒有固定的形狀,至少在沒有其他分子的情況下是無序的。
AlphaFold的發(fā)展歷程
2016年,DeepMind公司開發(fā)的AlphaGo擊敗韓國傳奇圍棋選手李世石后,其先進(jìn)性與潛力受到認(rèn)可,DeepMind決定成立團(tuán)隊開始研究[蛋白質(zhì)折疊問題]。
2018年12月,AlphaFold在第13屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽上預(yù)測出了43種蛋白質(zhì)中25種蛋白質(zhì)的最精確結(jié)構(gòu)。
2020年,DeepMind 推出一個名為 AlphaFold的AI算法,它可以正確地完成蛋白質(zhì)的結(jié)構(gòu)測定。
2021年,與歐洲分子生物學(xué)實驗室EMBL合作,建立了一個公開發(fā)布 AlphaFold 預(yù)測結(jié)果的可搜索數(shù)據(jù)庫,即 AlphaFold DB,其公布的最初一組數(shù)據(jù)包含了 98% 的人類蛋白質(zhì)。
2021年7月15日,DeepMind通過一篇Nature論文開源了其基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的AlphaFold2模型;
7月22日,DeepMind再次發(fā)表Nature論文,推出AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,向公眾免費開放人類蛋白質(zhì)組以及另外20種模式生物的總共超過350000種結(jié)構(gòu),并且對98.5%的人類蛋白質(zhì)結(jié)構(gòu)進(jìn)行了準(zhǔn)確預(yù)測。
今年1月,DeepMind 宣布已經(jīng)有超過30萬研究者使用了 AlphaFold數(shù)據(jù)庫,并且添加了超過27個蛋白質(zhì)組,總計超過19萬條蛋白質(zhì)結(jié)構(gòu)預(yù)測數(shù)據(jù)。
這次添加的重要性在于其中17個蛋白質(zhì)組都和被忽視熱帶疾病有關(guān),影響全球十多億人。
今年7月,DeepMind 將 AlphaFold 數(shù)據(jù)庫從近100萬條擴(kuò)展到2.14億條,覆蓋了人類已知的絕大多數(shù)蛋白質(zhì)。
目前預(yù)測準(zhǔn)確度尚待提升
人工智能有一個學(xué)習(xí)的過程,要通過大量的訓(xùn)練來提升其準(zhǔn)確性。
如果AlphaFold預(yù)測的蛋白質(zhì)結(jié)構(gòu)是不常見的結(jié)構(gòu),AI無法通過已有的知識學(xué)習(xí)到這個結(jié)構(gòu),預(yù)測時就容易產(chǎn)生偏差。
AI是一個能夠利用現(xiàn)有的知識預(yù)測將來的工具,如果連現(xiàn)有的知識都是缺失狀態(tài),自然無法預(yù)測新結(jié)構(gòu)。
除非把世界上所有的蛋白質(zhì)結(jié)構(gòu)都預(yù)測并驗證過了,否則是不可能達(dá)到100%的準(zhǔn)確率。
雖然對部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測不完全準(zhǔn)確,但AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫在開放數(shù)據(jù)的同時也提供了相應(yīng)結(jié)構(gòu)預(yù)測的準(zhǔn)確度報告,為使用者提供參考。
將開啟數(shù)字生物學(xué)新時代
過去幾十年來,確定蛋白質(zhì)結(jié)構(gòu)的主要方法是實驗室中的各種成像技術(shù),包括X 射線晶體學(xué)、冷凍電鏡、微晶電子衍射等。
這些方式通常依賴昂貴的設(shè)備,耗時比較長,解析出一個蛋白質(zhì)結(jié)構(gòu)可能需要數(shù)月甚至數(shù)年時間。
與實驗室中的各種成像技術(shù)相比,基于氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)是一種極具吸引力的方式,也是 AI 在生命科學(xué)領(lǐng)域的重要落腳點。
以 AlphaFold 為代表的蛋白結(jié)構(gòu)預(yù)測模型可能是人工智能對科學(xué)界的最大貢獻(xiàn)。
DeepMind 在官方通稿中表示:以 AlphaFold 為代表的蛋白結(jié)構(gòu)預(yù)測將生物學(xué)帶入了一個結(jié)構(gòu)更為豐富的時代,并以數(shù)字化速度開啟科學(xué)探索。
結(jié)尾:
數(shù)量龐大的蛋白質(zhì)結(jié)構(gòu)為生命科學(xué)研究帶來的影響仍是毋庸置疑,尤其是在結(jié)構(gòu)生物學(xué)的領(lǐng)域。
AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫中的結(jié)構(gòu)雖然有不足之處,不能全部將其應(yīng)用于研究中,但數(shù)量龐大的蛋白質(zhì)結(jié)構(gòu)對生命科學(xué)各個領(lǐng)域的研究,仍有著不可忽略的意義。
部分資料參考:雷鋒網(wǎng):《AlphaFold 新成果再次引爆生命科學(xué)界》,ZAKER:《AlphaFold把幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)預(yù)測完了》,硅星人:《DeepMind“順手”放的大招,要一舉攻克漸凍人癥》
編輯:黃飛
-
人工智能
+關(guān)注
關(guān)注
1794文章
47642瀏覽量
239676
原文標(biāo)題:分析丨AlphaFold幾乎破解所有蛋白質(zhì),Deep Mind的下一步戰(zhàn)略?
文章出處:【微信號:World_2078,微信公眾號:AI芯天下】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論