1985年11月21日的《自然》封面,是一張來自中國的“地圖”。這張地圖是清代總兵陳倫炯所編撰《海國聞見錄》中的插圖,是中國人開始認知與探索世界的見證,而選用這張封面,是為了配合當期的特別文章《科技在中國》。
那時候,中國正處在改革開放的浪潮中,中國科技登陸國際視野還顯得驚奇與稚嫩。
一轉眼,38年過去,伴隨著中國科技的飛速發展,越來越多的中國科研工作者、科研機構以第一作者的身份,登上被稱作科學金字塔尖的《自然》。
5月2日,《自然》雜志正刊發表了百度在生物計算領域的突破性研究成果,并以“加速預覽”(Accelerated Article Preview)形式最快發表。
在這篇題目為《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》的文章中,提出了mRNA序列優化算法LinearDesign。其不僅開創了AI與生物、醫療等領域融合突破的諸多可能性,也為中國科技走向世界畫上了新的一筆。
在這篇論文里,我們可以讀到遠超其成果本身的內容,比如AI的諸多可能性、一家科技企業的科學擔當,以及中國科技走向世界的遠大胸懷。
“出人意料”的生物計算
相信大家都知道,《自然》只收錄那些在基礎科學領域具有突破性與重大意義的研究。
或許可以說,百度在生物計算領域的探索,生動講述了什么叫“永遠不要低估AI的可能性”。
這件事要從新冠疫苗講起,雖然疫情的陰霾已經悄悄過去,但這場疫情讓全球看到了疫苗,尤其是mRNA疫苗在公共衛生事業的重要性。
所謂mRNA是一種天然分子,其可以產生靶標蛋白或免疫原,從而激活人體的特定免疫反應,以對抗各種病原體。并且其具有mRNA不帶病毒成分、沒有感染風險、研發周期短等重要優勢,是人類對抗新冠疫情的殺手锏。
但如此重要的領域,在疫苗和藥物研發中依舊有一些問題,比如如何才能高效設計出穩定、成藥性更好的mRNA序列?
為了解決這個問題,百度基于在AI領域的積累“出人意料”地將AI技術與疫苗研發結合,研發出了登錄《自然》雜志的LinearDesign算法。
這一算法運用自然語言處理中網格解析(Lattice Parsing)技術,對mRNA疫苗序列進行優化,從而提升疫苗的穩定性和有效性。
(美國心臟病學家和基因組學家埃里克·托普(Eric J. Topol)在推特上分享百度LinearDesign算法)
這里劃個重點,LinearDesign算法可以說是用語言學領域的知識去攻克了生物醫療上的難題。兩個領域雖然不能說毫不相關,基本也是相隔萬里,但是百度對AI技術的探索,卻讓二者完成了千里姻緣一線牽,LinearDesign算法由此誕生。
2020年5月,面對洶涌而來的疫情,百度研究院推出了全球首個mRNA疫苗基因序列設計算法LinearDesign,并宣布向全球疫苗研發機構及研究中心免費開放。LinearDesign能在16分鐘完成新冠病毒的mRNA疫苗序列設計,極大加速新冠疫苗的研發效率。
以新冠病毒的Spike蛋白為例,若采用傳統方法尋找一條穩定的mRNA序列,需要查看10632個mRNA序列,堪稱天文數字,但用LinearDesign算法,卻可以在11分鐘之內找到最穩定的候選序列。
2020年12月,百度憑借LinearFold和LinearDesign算法在新冠抗疫中的杰出貢獻,榮獲國際頂尖人工智能峰會The AI Summit舉辦的 AIconics獎項的首屆“AI For Good(人工智能向善)”獎。
在應用價值之外,LinearDesign算法還展示了AI作為一種底層科學探索工具,在生物與醫學領域的全新可能性。這種跨越學科的突破力,是《自然》雜志乃至全球科學界更為珍視的。
打開AI的深度與廣度
為什么百度能把LinearDesign算法這種AI+生物計算研究做大做強?這可能是我們必須讀懂的另一個關鍵信息。
其原因無他,千錘百煉而已。從2012年AI方興未艾,到今天AI火爆全球,這期間百度對AI技術的堅持和探索是始終如一的。這種堅持,滲透到了AI技術的各方各面,包括基礎設施研究、算法迭代,以及AI的跨學科融合。其中非常多的領域充滿未知與挑戰,也不符合傳統意義上企業對短期利益的追求。但構建堅實的基礎設施,探索前瞻性技術布局,卻是一家企業贏得未來的關鍵。
AI+生物計算,作為AI技術的延展性方向,更能體現出百度“淡化短期利益,著眼長期發展”的技術布局思路。生物計算可以解決蛋白質分析、新藥研發等關鍵問題,其價值巨大,以新藥研發為例,這個領域具有一種“3個10”特征,即10年、10億美元、10萬人才能研發出一種有效的新藥,而如果用AI作為藥物研發引擎,將可以極大程度改變新藥研發的范式,帶來難以估量的價值。
這條路價值雖大,但充滿挑戰,在短期內都難以實現商業回報,但百度依舊愿意依托AI技術與基礎設施的優勢,提前布局這條未來之路。早在2018年,百度就正式啟動了計算生物方向的研究。幾年過去,百度在這一領域已經構建了基礎設施、算法、生態合圍而成的立體創新版圖,比如剛剛提到的LinearDesign算法、可以極大加快RNA結構預測速度的 LinearFold 算法,一系列創新開始勾勒出百度在生物計算算法層的差異化優勢,而基于飛槳生態打造的生物計算平臺-螺旋槳PaddleHelix,則開啟了AI+生物計算底層開發工具的構建,為產學各界探索生物計算奠定了基礎。面向產業生態,百度為產業提供了面向化合物分子、蛋白分子、基因組學信息等領域預訓練大模型,將自身的技術優勢積極投身到產學研協作當中。就像在AI基礎設施層面,百度強調技術、生態與基礎設施的并行,在生物計算領域,同樣的戰略落地方式也推動了百度自身與生物計算行業的積極發展。
企業進行跨學科探索與底層技術創新,強調長線程和重積累,只有構建出完整的技術序列、技術體系,才能在此基礎上一鳴驚人。無論是在AI+生物計算領域,還是更為基礎的AI技術上,長期主義,始終是百度的王牌。
這樣的以重積累換取高效率的邏輯,展現在百度技術創新的方方面面。比如文心一言發布后的1個月內,完成了4次技術迭代,相較最初版本推理效率提升了10倍。這種技術迭代與產業化應用的效率從何而已?其中,飛槳支撐了文心一言從開發訓練到推理部署的全流程,并且通過聯合優化的方式,大幅提升了大模型的訓練與推理。從中就可以看出,底層技術與工具鏈的長期積累,為新技術的高效率升級奠定了基礎。
百度是如此打開AI技術的深度,中國科技也是如此打開走向世界的廣度。
大國科技走向世界
1985年11月,《自然》雜志探討了中國當時在高能物理、空間探索、地震預測等領域的科研水平,向世界展示了一個具有蓬勃科研創新活力的中國。
2008年7月,《自然》借著北京奧運的機會發布了中國特刊,向世界介紹了“中國目前論文發表數量比除了美國以外的其他國家都要多”,確定了中國科研實力的地位與價值。
幾十年來,《自然》里的“中國元素”,可謂與中國科技發展完美同頻,比如在1997年時《自然》發表的原創科研論文中只有0.4%涉及中國作者,2017年已增至約15%。這個數字的變化,恰好佐證了中國科技走向全球的變遷。
在這個過程中,一個角色是不可或缺的,那就是科技企業在整體科研環境中扮演的角色。自信息革命以來,我們可以在歐美發達國家的科技版圖中,看到很多重大創新都是由企業來完成。以AI+生物計算為例,DeepMind打造的AlphaFold2廣受關注。而谷歌母公司Alphabet,已經在持續推動這一算法在醫療健康、新藥研發等領域落地,打造了ChatGPT的OpenAI,也在AI疾病診療、AI蛋白質結構預測等領域進行著探索。
從世界范圍內的趨勢來看,AI+生物計算這一重要領域,主要創新陣地應該在科技企業,并且需要以科技企業為核心,形成產學研互動的良性生態。而百度在生物計算領域的布局與進取態勢,則在中國科技版圖中補完了這一環節。
中國科技走向全球,走向科技自立自強,離不開企業科研能力的不斷升級。從這個角度看,百度生物計算以第一完成單位身份在《自然》發表論文,可以看作一個新階段的信號。1985年,是世界看到中國科技;2008年,中國綜合科研能力躋身世界前列;今天,中國的科學家、學術機構、科技企業,都能作為第一作者登上《自然》,證明中國已經具備了多元化,立體化的科技能力。
中國科技的創新性和獨特性,已經從學術界延伸到產業界,更具有世界眼光,更具有大國擔當。
審核編輯黃宇
-
AI
+關注
關注
87文章
31490瀏覽量
269929 -
百度
+關注
關注
9文章
2277瀏覽量
90644
發布評論請先 登錄
相關推薦
評論