新型冠狀病毒全球累計確診已超過400萬人,疫苗是終結疫情的關鍵勝負手。在所有正在研發的疫苗路徑中,研發速度更快、更具潛力的mRNA疫苗作為一種新興技術受到了國內外的重點關注。但同時,mRNA疫苗由于穩定性不足容易在保存、運輸中降解,也成為制約疫苗大規模推廣和使用最亟待解決的問題。
現在,這個困擾世界頂級疫苗公司和學界的生物學難題有望通過AI解決!5月13日,百度研究院重磅推出全球首個mRNA疫苗基因序列設計算法LinearDesign。該算法能夠在理論上設計出結構最穩定、蛋白質表達效率最高的mRNA序列,而這只需要90分鐘。如果進一步應用線性時間近似算法,時間更可以縮短到16分鐘!
美國羅徹斯特大學生物化學與生理系教授Dr. David H. Mathews表示:“LinearDesign的優勢在于速度!它能夠快速提供一系列的優良序列,研究者可以進一步通過實驗來測試其穩定性是否足以充當疫苗?!?/p>
事實上,從能夠轉譯同一種蛋白質的眾多同源序列中找到二級結構足夠穩定、密碼子足夠優化的mRNA序列挑戰難度是相當巨大的。以新型冠狀病毒為例,它的刺突蛋白(抗原)共有1273氨基酸,能翻譯成刺突蛋白的mRNA序列有10的632次方之多!
遍歷所有可能?這顯然難以完成。
假設一臺超級計算機能做到一秒鐘計算一個mRNA結構,那么從宇宙形成開始計算到現在,計算140億年,連mRNA序列所有可能的億萬分之一都無法算完!
要找出最優的mRNA,科學家們的傳統做法是隨機改變序列,再看看是否有益。當前,科學界也在尋找解決問題的不同策略,比如,卡耐基梅隆大學和斯坦福大學聯合百度合作開發的平臺Eterna,就旨在在通過解謎的方式吸引全球玩家共同設計安全穩定的mRNA。Eterna平臺所使用的,正是今年1月底百度開放的LinearFold算法作為其結構分析引擎。
LinearFold是十分成功的實驗性項目,它將生物學上的難題成功轉化為形式語言理論和計算機語言學上的經典問題。在LinearFold的啟發之下,百度研究院的研究團隊想到了不只是結構分析,而可以進一步運用計算機科學來設計出更穩定、蛋白質表達水平更高的mRNA序列。由此,LinearDesign應運而生。
針對多達10的632次方mRNA序列,LinearDesign采用了動態規劃算法來縮小搜索空間。我們知道直到AlphaGo出來之前,AI一直都無法戰勝人類棋手,主要原因就是圍棋的搜索空間太大了,有3的19x19次方個狀態,約合10的172次方??梢钥吹剑琺RNA序列設計問題的搜索空間遠遠大于下圍棋的搜索空間。
而LinearDesign的動態規劃算法首先用確定有限狀態自動機(DFA)來表達氨基酸和蛋白質,這樣不同位置上密碼子的選擇就可以抽象為計算理論中常用的DFA圖。如下圖,分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為DFA圖。
在此基礎上,將氨基酸的DFA串聯起來,即可得到一段蛋白質序列的DFA圖。如下圖是示例序列“methionineleucine stop”的DFA圖。
接下來,我們需要通過DFA來找出二級結構最穩定的mRNA序列。在這里,百度研究院借用了通常用于計算機語言學的常見工具,也就是隨機上下文無關文法(SCFG),用于指代RNA折疊。RNA二級結構可以通過SCFG構建語法樹來表示。
mRNA疫苗序列設計優化問題實際上是將單個RNA序列的二級結構計算(RNAfolding)推廣到多個RNA序列。在用DFA抽象表示多個RNA序列后,研究人員通過取DFA與SCFG的交集,來從多個mRNA序列中找到具有最穩定二級結構的序列。
從上圖的新型冠狀病毒突刺蛋白實驗結果可以看出,對比最左側圖A自然界存在抗體所對應的mRNA序列,右邊人工智能設計的二級結構非常緊密。其中的全局最優序列圖C,設計時間只需要1.6小時!而如果進一步應用線性時間近似算法,如圖B其設計時間將縮短到16分鐘。這項技術同樣適用于所有mRNA疫苗設計。
疫苗研發是一項耗時耗力的全世界性難題,運用人工智能,計算機科學技術疫苗研發正在不斷加速。目前,百度研究院已將LinearDesign網站免費開放,同時相關論文已發布于arXiv,全球研究機構及疫苗研發企業均可使用。百度已與中國疾病預防控制中心病毒病預防控制所簽署戰略合作協議,后續也將使用百度LinearDesign算法設計的mRNA疫苗序列進行體外實驗,驗證疫苗的穩定性和蛋白質表達效率。相信在全球研究者的共同努力下,疫苗研發進度將不斷提速。
責任編輯:pj
-
AI
+關注
關注
87文章
31155瀏覽量
269481 -
百度
+關注
關注
9文章
2272瀏覽量
90498 -
引擎
+關注
關注
1文章
361瀏覽量
22590
發布評論請先 登錄
相關推薦
評論