百度最新研究成果登上Nature子刊封面,文心生物計(jì)算大模型獲國際頂刊認(rèn)可!
10月,國際頂級學(xué)術(shù)期刊《自然》旗下子刊《機(jī)器智能》發(fā)表了百度飛槳螺旋槳聯(lián)合百圖生科研發(fā)的文心生物計(jì)算大模型的又一重大成果《A method for multiple-sequence-alignment-free protein structure prediction using a protein language model》,并登上《機(jī)器智能》10月份封面。該研究提出了全球首個開源、并提供在線服務(wù),無需MSA輸入的蛋白結(jié)構(gòu)預(yù)測大模型HelixFold-Single。
該項(xiàng)研究是百度在生物計(jì)算領(lǐng)域繼HelixGEM和Linear Design兩項(xiàng)重磅工作之后,在蛋白領(lǐng)域的又一突破性成果。該工作打破了AlphaFold2等主流依賴MSA檢索模型的速度瓶頸,將蛋白結(jié)構(gòu)預(yù)測速度平均提高數(shù)百倍,實(shí)現(xiàn)了秒級別預(yù)測,該工作的發(fā)表也為產(chǎn)學(xué)研各界帶來了使用門檻更低、適用范圍更廣的蛋白結(jié)構(gòu)預(yù)測解決方案,有望促進(jìn)我國生命科學(xué)、生物醫(yī)藥、蛋白研究等領(lǐng)域的發(fā)展。
HelixFold-Single目前已經(jīng)落地在國家超算成都中心,通過超算平臺賦能川渝地區(qū)蛋白領(lǐng)域的科學(xué)研究機(jī)構(gòu)。在大分子藥物的應(yīng)用場景上,HelixFold-Single也已經(jīng)整合進(jìn)入百圖生科AIGP平臺,為百圖提供更高效的蛋白分析能力,助力其探索大分子創(chuàng)新藥。
另據(jù)研發(fā)團(tuán)隊(duì)介紹,基于HelixFold-Single和HelixFold研發(fā)過程中積累的經(jīng)驗(yàn),團(tuán)隊(duì)針對更具挑戰(zhàn)性的抗原抗體、多肽蛋白的相互作用場景,研發(fā)了更具通用性和魯棒性的復(fù)合體結(jié)構(gòu)預(yù)測算法HelixFold-Multimer,相比業(yè)界同類方法,精度提升了數(shù)倍。
HelixFold-Multimer 在68例2022年10月后公開的Sabdab抗原-抗體測試數(shù)據(jù)上,單模型的DockQ達(dá)到0.49,多模型融合的DockQ達(dá)到0.5,成功率達(dá)到67.6%,遠(yuǎn)超其他已公開方法。
HelixFold-Multimer在抗原-抗體復(fù)合物結(jié)構(gòu)預(yù)測的結(jié)果
在多肽-蛋白復(fù)合物結(jié)構(gòu)預(yù)測場景,選取PDB數(shù)據(jù)庫在2021年10月后發(fā)布的 61個多肽-蛋白復(fù)合體結(jié)構(gòu)數(shù)據(jù)進(jìn)行評估。單模型DockQ達(dá)到0.380,多模型融合的DockQ達(dá)到0.387,領(lǐng)先于其他結(jié)構(gòu)預(yù)測方法。
HelixFold-Multimer 在多肽-蛋白復(fù)合物結(jié)構(gòu)預(yù)測的結(jié)果
示例:
示例1:7VD7 沙門氏菌的毒素-抗毒素復(fù)合物,復(fù)合體構(gòu)象預(yù)測可以幫助理解毒素和抗毒素如何相互作用以調(diào)節(jié)細(xì)胞內(nèi)過程。Alphafold 2.3在紅色圈部分預(yù)測差異大,而 HelixFold-Multimer 預(yù)測得到了準(zhǔn)確的構(gòu)象。
示例2:7UA2 瘧疾傳播阻斷抗原Pfs230 domain 1 (Pfs230D1) 與納米抗體的復(fù)合體構(gòu)象,其中Pfs230D1是一種高功能活性的瘧疾傳播阻斷疫苗抗原,已在臨床試驗(yàn)中得到廣泛驗(yàn)證。7UA2復(fù)合體包含了Pfs230D1疫苗接種的受試者產(chǎn)生的人源單克隆抗體(hmAbs)和Pfs230D1構(gòu)象??梢钥吹?HelixFold-Multimer 預(yù)測的構(gòu)象(藍(lán)色)幾乎與真值重合,對接面的預(yù)測 DockQ也達(dá)到0.819,Interface RMSD為0.826 ?。
當(dāng)前,AI大模型技術(shù)正驅(qū)動生物計(jì)算領(lǐng)域的高速發(fā)展。基于文心生物計(jì)算大模型技術(shù)打造的飛槳螺旋槳PaddleHelix平臺,將幫助生命科學(xué)領(lǐng)域的研究人員更便捷、更高效地應(yīng)用大模型技術(shù),更好理解生命體的構(gòu)成和變化規(guī)律,以幫助研究者進(jìn)行更多開拓性研究。同時我們也深知,AI技術(shù)的更迭日新月異,想要全面領(lǐng)先,就需要集結(jié)大家的力量。我們希望探索出一種新形式,將強(qiáng)大的底座模型能力開放給國內(nèi)的科研工作者們,以在更加廣泛的維度上推動生物計(jì)算領(lǐng)域的技術(shù)變革。也希望對此工作感興趣的專家學(xué)者與我們聯(lián)系,共同推進(jìn)生物計(jì)算大模型在應(yīng)用側(cè)的研究。
審核編輯:劉清
-
MSA
+關(guān)注
關(guān)注
0文章
31瀏覽量
8850 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1266瀏覽量
24285
原文標(biāo)題:首次!百度蛋白大語言模型研究成果登上Nature子刊封面
文章出處:【微信號:baidu_2000,微信公眾號:百度】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論