AI發展七十余年,每一技術性突破都將給人類未來開辟新一種可能性。而它與科學研究的深度融合,則會裂變出無數或無窮種可能性。
萬眾矚目下,今年10月,有著諾貝爾獎“嫡傳”之稱的諾貝爾化學獎終于揭曉,授予了對“鏈接化學和生物正交化學的發展作出了貢獻”的三位化學家,他們分別是美國化學家Carolyn R. Bertozzi、丹麥化學家Morten Meldal、美國化學家K. Barry Sharpless。
實際上,靴子落地前,關于這一獎項到底花落誰家引起了無數熱議。其中國際化學領域權威期刊《Chemical Reviews》就曾對該獎獲得者進行了讀者投票預測,帶領DeepMind團隊開發出能夠精準預測蛋白質結構的AlphaFold 2的John Jumper獲得了最高票數。
盡管由于“時間問題”,最終John Jumper并未折桂,但在此之前,John Jumper團隊已成功拿到了另一個堪稱“豪華版諾貝爾獎”“科學界的奧斯卡”的獎項——2023年生命科學突破獎(Breakthrough Prize in Life Sciences),這是迄今科研領域里獎金最高的生物學及醫學獎項。
為何John Jumper及其領導開發的AlphaFold會收獲如此多的青睞?主要原因在于,AlphaFold的誕生解決了困擾生物學界半個多世紀的經典難題,即1972年諾貝爾化學獎得主Christian Anfinsen提出的蛋白折疊問題(Protein Folding Problem)——“蛋白質的氨基酸序列應該能完全決定其結構”。
John Jumper團隊開創性地利用人工智能技術,終于破解了這一著名猜想,不僅讓蛋白質結構預測的研究走入一個新階段,也將人們對“AI for Science(科學智能)”的關注推向高潮。
簡單來說,AI for Science就是讓人工智能利用自身強大的數據歸納和分析能力去學習科學規律和原理,得出模型來解決實際的科研問題,特別是輔助科學家在不同的假設條件下進行大量重復的驗證和試錯,從而大大加速科研探索的進程,如今這一方法已在多個前沿科學領域中取得了顯著的成果。
與大家此前耳熟能詳且觸手可及的人工智能應用相比,AI for Science所涉及的生物制藥、能源、材料研發等科研領域盡管離大眾生活看似遙遠,但其背后的共同之處在于,利用人工智能來“解放”生產力——讓人們能夠從許多重復性、機械化的基礎工作中釋放出來,在人工智能的輔助下進行更高效的生產工作。這正是人工智能的價值和魅力所在。
AI for Science:用人工智能催化一場新的“科學革命”
讓我們回到AlphaFold,從解析蛋白質的技術演進,來觀察AI的加入到底能給科研帶來怎樣的顛覆。
作為生命的物質基礎,蛋白質與生命及各種生命活動有著極其緊密的聯系,包括人體所有疾病的發生幾乎都與蛋白質功能異常有關。換句話說,如果能人為地激發或抑制蛋白靶標,“控制”蛋白質的結構和功能,就能夠大大加速對疑難雜癥的靶向藥物和高效療法的研發。
在過去,生物學家們曾廣泛使用X射線衍射、冷凍電子顯微鏡等實驗技術來破譯蛋白質的三維結構,這類方法耗時長且成本高。因此從1994年開始,多支科研團隊在兩年一屆的國際蛋白質結構預測競賽(CASP,Critical Assessment of protein Structure Prediction)上施展拳腳,并由此催生了I-TESSER、RaptorX、RoseTTAFold等蛋白質結構預測模型。
但是問題也隨之而來,這些大部分用計算機基于理論預測的蛋白質結構模型,其實與實際觀測到的實驗數據相去甚遠,正確率不足40%。其后續發展需要持續提高預測模型的精度,以無限縮小預測結構和實驗誤差。
不僅如此,從蛋白質結構預測推進到藥物研發環節,不同藥物設計方法的原理和應用場景也有著極大差異。例如在制藥流程中,從前端的靶點發現、先導化合物的篩選優化,再到后期ADMET預測、甚至臨床效果預測等多個環節,都面臨著獨特的技術挑戰。在這個過程中,研究人員必須要進行高通量的重復性實驗,甚至要花費多年的時間,驗證次數也高達數百萬次。
而今,回看這個半世紀以來令無數學者著迷卻又難以跨越的難題,不過是科研領域延綿壁壘中的冰山一角。而成熟的AI技術與科研領域及多學科交叉融合誕生的“AI for Science”,無疑給這個難題以及人類在科學無人區的更多探索帶來了全新的可能性。
從2020年開始,AI for Science進入了集中爆發的發展階段,其中就包括了AlphaFold項目,其最新成果——由DeepMind在2021年發布的AlphaFold 2,已能成功預測98.5%的人類蛋白質三維結構,且預測結果與大部分蛋白質的真實結構只相差一個原子的寬度,可達到以往通過冷凍電子顯微鏡等復雜實驗觀察預測的水平。
類似于生命科學領域,分子動力學領域也出現了影響力同樣顯著的DeePMD-kit項目,其通過利用機器學習、高性能計算技術與物理建模相結合,能夠將分子動力學的極限提升至10億原子規模,同時保持高精度,大大解決了傳統分子動力學中“快而不準”、“準而不快”的難題。
還有在氣象預測領域,基于新型算子學習的神經網絡模型FourCastNet,能夠將天氣預報提速45000倍;在工業領域的流體、結構等PDE方程求解方面,也已證實基于數據+物理機理融合的AI方法,是解決復雜高維物理問題的突破口……
一言以蔽之,無論是今年爆火的AI繪畫、AI對話模型ChatGPT等AI應用,亦或是大量AI for Science領域的項目案例,都足以證明AI正在為各個行業、領域帶來了一場范式革新。但AI for Science更重要的意義在于,其對前沿科研所施加的加速作用,將對人類社會和經濟發展有著更為基礎,也更為深遠的影響。
而且,AI for Science的應用也不僅僅局限于依據已知科學原理來高效驗證或試錯,它也讓更多科研人員能夠基于AI在更復雜的場景中做探索,結合數據反推復雜場景下更為準確的物理規律。
毫不夸張地說,人工智能將成為科學家繼計算機之后的全新生產工具,同時也正在催化一場新的“科學革命”。
跨越落地壁壘,從深度學習框架出發
但從暢想回歸現實,人工智能行業想要獲得長足發展,真正成為人類新的生產工具,必然要跨過落地這道關卡。而AI for Science所具備的全面、深層次革新價值,亦讓它面臨遠高于人們常見AI應用的落地壁壘。
主要原因在于,AI for Science的落地應用需要大量的工業場景數據支持,以及合理的科學機理等效,而且高維、海量的數據也對算力和內存提出了更高的要求。總的來看,目前AI for Science落地應用的最大壁壘主要體現在數據、平臺技術、軟硬協同、領域求解能力和優秀研發生態上。
從數據角度,工業場景的數據維度高、格式繁雜且存在孤島現象,同時由于隱私和法律上的一些限制,部分數據很難實現公開共享。因此如何高效治理這些多特征、多來源的數據,解決小樣本、零樣本數據建模,是當前AI在科研領域落地的基礎。
從軟硬件協同角度,AI for Science的發展既離不開深度學習框架的支持,也無法脫離底層高性能硬件的支撐。一方面,AI for Science需要更加科學地求解真實物理問題,如高階PDE方程組的求解,以及數據+物理機理驅動的模型開發。另一方面,傳統的科學計算中心已廣泛支持各類科研任務,在其持續增加智能計算硬件能力的同時,也需要科學計算/智算硬件與AI開發框架深度整合,支持各類新型AI for Science計算場景并達到性能領先。
從研發生態角度,AI for Science作為一個充分體現交叉學科的新興科研范式,涉及生物學、分子動力學、計算流體力學、固體力學等學科,需要大量的跨領域科研人才,且不斷擴展的開源生態庫要與傳統數據集模擬軟件、數據集打通,才能滿足研發人員對開發工具鏈的需求,逐步形成穩定且優質的科研生態。
為了跨越這些壁壘,拉低AI for Science的應用門檻,產、學、研各界的科學家、企業們都開始踏上了AI for Science的范式革新+普惠之路。
在深度學習框架領域,國外如TensorFlow、PyTorch、MXNet等AI框架,自誕生以來就一直在幫助眾多科學家和工程師進行學術研究及工程實現,大大促進了AI領域的發展。作為國內AI領域的先行者,百度也憑借百度飛槳(PaddlePaddle)從2016年打響國產AI框架開源第一槍,并一路朝著全面AI技術布局演進。如今,飛槳平臺已能夠對各類硬件實現廣泛適配,并能直接部署到大規模的科學計算集群,與已有的科學計算生態緊密融合,強力支撐AI for Science方案的部署與應用。
同樣在2016年,向輝也開始在百度接觸AI行業,隨后親身經歷了AI在計算機視覺、自然語言處理、推薦等領域的技術應用與快速更迭,如今她已成為百度飛槳AI for Science產品負責人。
向輝在接受36氪專訪時談到,面對AI for Science的落地挑戰,百度飛槳認為核心要解決的是構建一個通用化的深度學習平臺,能夠銜接下游的各種異構算力,提供支持科學計算問題求解的API,以及編譯加速機制等,以更好支撐典型的科學計算場景建設和分析,如支持氣象預測、流體仿真、材料發現等領域問題。“同時也要建設可持續的、融合科研、科學計算、平臺以及終端用戶的開放生態。”她說。
為讓不同領域的科學工作者都可以靈活地使用當下熱門的科研模型,早在2019年,百度飛槳就已開始嘗試在AI for Science領域進行技術形態、產品路線等規劃,并在2020年初至2021年底相繼發布了生物計算平臺“螺旋槳PaddleHelix”、量子計算平臺“量槳PaddleQuantum”,以及面向流體、固體、電磁等領域的科學計算平臺“賽槳PaddleScience”。
此外,百度飛槳還提供了PINN、FNO、DeepONet等主流模型,以及用戶可直接復用的標準案例,如CFD中障礙物繞流、渦激振動、達西流等。
百度飛槳還支持基于組件進行定制化的問題復現與分析,支持數據驅動以及與物理機理相結合的多種方法,分別在物理仿真、化合物分子表征、量子糾纏處理等場景有了突破性的進展。
其中,為了更好地服務廣大科學計算用戶對各類PDE方程的求解需求,百度飛槳也在積極實現與優秀科學計算Repo-DeepXDE的全量模型支撐,目前已初步完成所有模型的精度對齊工作,并在百度飛槳最新的高階自動微分機制、自動化的分布式策略以及編譯加速機制等加持下,部分用例的求解效率已領先同類產品。
為進一步推動AI for Science的落地進程,百度飛槳還與多家高校、科研機構等開展了流體、材料、生物等方面的范例建設,并形成了一些開放性的、多學科交叉的生態社區。今年5月還推出了“飛槳AI for Science共創計劃”,希望通過與各方一道進行技術聯合開發、推廣資源共享,共建生態商機。
回想這些社區的發展經歷,向輝對不少學生團隊的項目記憶猶新。她回憶,其中北航有一個學生團隊開展了一個真空羽流模擬實驗,實驗本身需要在真空條件下,無法在地面上復現,但通過飛槳AI for Science的產品,團隊繁衍出了玻爾茲曼方程的一些系數,最終達到了令人驚艷的效果。“這些案例都已證明,在某些場景中,百度飛槳的AI for Science能夠一定程度地解決開發者們的科研問題。”向輝說。
一路發展至今,百度飛槳AI for Science工具集已能支持AI方法與基礎學科方法交叉融合,最大的特點在于能突破基礎學科中“基于數值計算求解控制方程”面臨的維數高、時間長、跨尺度、算力不足等挑戰,將數值差分等效為“基于數據、物理機理驅動的神經網絡模型實現”。
開辟AI for Science賽道,對百度飛槳來說無疑是AI能力的又一次挑戰和躍升。在大幅加速科學問題求解的同時,它也將為行業在探索更多未知科學問題的路上深踩油門。
平臺之下,底層算力賦能軟硬協同發展
正如前文所說,AI for Science的科學問題加速求解和產業落地,不僅需要框架或軟件平臺層面的支持,亦需要基礎設施提供強大算力和軟件優化能力。
面向科學計算領域,有大量芯片廠商在圍繞如何提高AI算力,加速AI應用落地做相應布局。而英特爾正是這一賽道中頗具代表性的領軍企業之一,其一直以來都在致力于“讓AI無處不在”。
在英特爾人工智能架構師楊威與36氪的訪談中,他從一家芯片企業的角度出發,針對AI for Science這一領域給我們帶來了不一樣的視角和觀點。
楊威認為,AI for Science普及的主要難點卡在如何降低AI硬件的成本,以及要有易于上手的AI軟件優化工具。
他強調:英特爾從第二代至強可擴展處理器開始,實現了CPU內置的AI加速。通過AVX-512和DL Boost等AI加速技術,讓“用CPU跑AI”成為了可能。此舉的意義,在于能夠充分激活和利用部署更廣泛且成本優勢更明顯的CPU的算力,在輸出絕大多數應用所需的通用算力的同時,還能通過對AI推理的加速推進AI應用的落地。同時英特爾還向公眾開源,即免費提供各種AI軟件優化工具,包括oneAPI、OpenVINO等,這些軟件的技術門檻與使用難度較低,且能幫助用戶釋放至強CPU的AI加速能力。
此外,考慮到AI for Science領域的模型或相似變體對內存的消耗非常敏感,且對大內存應用來說CPU平臺的計算資源通常會更具優勢,英特爾還有的放矢地的進一步強化了這方面的能力——其與至強CPU搭檔的英特爾傲騰持久內存,能提供遠超主流DRAM的容量,更容易達成TB級內存配置并擁有接近DRAM的性能。也就是說,它能夠在盡可能降低科學計算模型在整個鏈路上時延的同時,突破限制AI for Science應用的內存容量瓶頸。
雖然在現階段,英特爾針對AI for Science等AI應用的核心硬件布局是以CPU為主,加速的應用類型也是以推理為主,但這只是其在XPU時代擴展AI產品組合的第一步。在英特爾的“XPU愿景”里,隨著未來數據類型和應用類型的高速增長和裂變,其底層硬件架構也將從CPU拓展到CPU與GPU、FPGA和AISC加速器俱全的XPU架構。
基于這一策略,英特爾2023年不但會推出代號為Sapphire Rapids的第四代至強可擴展處理器,還會發布可與這款CPU搭配,專攻科學計算及AI加速的、代號為Ponte Vecchio的數據中心GPU產品,并由此形成在AI推理上以高性價比、易獲取和使用的CPU為主,在AI訓練上則以GPU為主的更完善布局。而且這種XPU組合還可借助oneAPI工具包實現對異構硬件的統一編程和管理,具有靈活調配、無縫協作和高效易用等特點。
依托上述產品組合已經或即將帶來的強大算力支持,英特爾從硬件到軟件多維度地為AI for Science提供了優化,力求讓更多科研人員可以親自參與到開發和定制當中,并實現科學智能的真正普及。在其持續的努力下,如今已有許多合作伙伴實現了產品落地。
例如在AI小分子藥物設計領域,英特爾與劑泰生物合作,在小分子藥物優化方面實現了高通量的分子生成,有望在更大的化學空間中探索更多潛在的候選分子。在大分子藥物設計領域,英特爾則與百度飛槳、晶泰科技、上海交大等各大機構和高校進行了深入合作,基于AlphaFold 2實現了高通量和長序列蛋白結構預測推理的優化,并在AlphaFold 2中引入了TB級內存技術,總體達到了降本增效。
其中,英特爾與百度飛槳也早在2017年就開始了以軟硬件協同優勢為主的合作。隨著雙方在AI領域的持續布局,合作的廣度和深度也在不斷提升。例如,英特爾和百度飛槳致力于實現英特爾全棧軟硬件和飛槳的相互支持,通過oneAPI實現深度適配與性能優化,并通過飛槳+OpenVINO等方式共建部署生態。
有意思的是,如今百度飛槳與英特爾在AI for Science領域達成合作,不僅與這些前序的合作有關,也與開發者生態有著千絲萬縷的關系。
長期以來,百度飛槳都在積極發展開發者生態,如建設飛槳特殊興趣小組(PPSIG),希望通過開放的社區形式與全球開發者共同構建一個開放、多元和架構包容的生態體系。而英特爾的一位專家正巧是PPSIG-科學計算Science小組最早期的成員,曾積極參與了PaddlePaddle科學計算開源社區建設,并且對分子動力學模擬在生物蛋白分子和能源材料的應用產生了濃厚興趣。
在這個契機下,雙方在AI for Science的合作也水到渠成。從2022年3月起,百度飛槳與英特爾結合各自實際,經過多次討論交流,最終確定了任務方向與合作內容,共同開展AI for Science在分子動力學和生命科學領域的實質性工作,并取得了一系列成果,包括:百度飛槳實現了國內首個完成與傳統分子動力學軟件LAMMPS以及AI勢函數訓練軟件DeepMD-kit融合工作的AI深度學習框架,并基于英特爾oneAPI實現了從訓練到推理全流程打通的“0到1”式突破性進展;百度Helix Fold模型基于至強平臺的AVX-512、oneDNN和大內存能力進行優化,不但實現了性能的顯著提升,還可輕松預測推理長度超過4000,即超長序列的蛋白質結構。
結語:AI for Science的普惠之路,臨界點已近
一個是在深度學習領域深耕多年,已成長為國內開源AI框架一哥的百度飛槳,一個是科學計算領域Top級玩家英特爾,雙方正依托各自優勢產品和對AI領域的持續布局,以靈活多樣的“組合拳”不斷拉低AI for Science的應用門檻,共同朝著“讓AI無處不在,更加普惠千行百業”以及“讓合作貫穿產、學、研,助AI for Science打通理論、實驗和產業應用道路”的目標持續推進。
站在這個關鍵的時間節點,我們再次回溯AI發展的七十余年,或能更清晰地看到,它在每一個發展階段的爆發,都在歷史長河中砸出了創新的波紋,這些波紋終于在今天疊加成推動產業變革的巨浪。正如今天的AI for Science,就正在一浪又一浪地驅動著科研沖擊范式革新的臨界點,身處其中的每一個參與者,都在抑制不住地暢想這種沖擊成功后將為人類未來開辟的可能性。
畢竟,這將是如核裂變鏈接反應或寒武紀生命大爆發一樣的無窮種可能性。
審核編輯黃昊宇
-
人工智能
+關注
關注
1795文章
47642瀏覽量
239703
發布評論請先 登錄
相關推薦
評論