生命科學 | 藥物研發 | 冷凍電鏡
靶點發現 | 序列比對 | 晶體預測
隨著高性能計算、數據挖掘、數據分析、深度學習、冷凍電鏡、靶點發現、晶體預測等技術的快速發展,生命科學領域的醫藥研發、AI預測蛋白質結構、基因測序、小分子研究、疫苗研發得到快速發展。
2022年生命科學領域趨勢
2022年生命科學行業的趨勢主要分成三個層面,國家政策、資本市場和產業格局。
國家政策
藥品、高值醫用耗材集中帶量采購進入常態化、制度化新的階段;DRG/DIP的支付方式改革加快落地;國家積極引導應對人口老齡化國家戰略。
2018-2022年國家層面生物科學行業政策及重點內容解讀
資本市場
二級市場開始回歸理性,重新構建估值體系有利于行業的良性發展;投資人更加偏好早期階段,高潛力的初創企業更容易受到資本的青睞;美元投資人從初期的主力參與到目前的持幣觀望,人民幣資本這兩年強勢崛起。
生物醫藥行業發展趨勢
產業格局
綜上所述,國家政策和資本市場帶動了產業格局的變化。在產業格局方面,新生代健康產業公司進入商業化階段;數字化和智能化正在深刻影響產業的發展。
近年來人工智能與各種數字化工具,已逐步滲透到健康產業的方方面面。在多個領域初步展現出突破瓶頸和降本增效的巨大潛力。
隨著數字化和智能化對整個健康產業賦能的不斷拓展與提升,整個健康產業中,很多傳統的技術和商業模式,都面臨著重構的可能。
在AI賦能新藥研發方面,隨著深度學習能力和人工智能技術的快速發展,以及算力的大幅提升,AI在新藥研發方面正在取得長足的進步,并展示出令人驚嘆的潛力。
中國生物醫藥行業細分領域競爭情況
以蛋白質結構預測為例,DeepMind公司的AlphaFold2已經預測出超過35萬種蛋白質結構,涵蓋了98.5%的人類蛋白質組以及20種生物的蛋白質結構。
全球TOP20跨國藥企均在Al領域有大量布局,包括諾華、輝瑞、GSK、阿斯利康、賽諾菲、復星醫藥在內的大批國內外企業紛紛試水AI新藥研發,期待跨越式提升新藥研發的效率。與此同時,包括藍海大腦也在這個領域加速布局。
數字化診斷對傳統診斷加速賦能,數字療法成為傳統治療技術方案強有力的補充。
手術機器人在臨床手術端,得到更加廣泛的應用,傳統醫院正在經歷越來越徹底的數字化改造。醫療與消費正在更加緊密地走向融合的整體趨勢。
截止2022年6月中國生物醫藥行業
企業數量區域分布(單位:家)
2021年中國生命科學
2021年,在中國生命科學領域內的大量數據顯示,中國健康產業規模達到10萬億元。我國60歲及以上人口已達2.7億。2021年健康領域投資為2522.8億元。
1000000億元。中國健康產業規模持續增長。隨著中國人口的進一步老齡化,以及政府和公眾對健康的重視和投入的不斷提高,據健康產業白皮書統計,2021年中國健康產業規模達到10萬億元。
其中,與藥品相關的市場模型約為2.9萬億元,醫療器械和診斷的市場規模約為1萬億元,醫療服務、數字醫療和一般健康的市場規模約為6.1萬億元。
2.7億人口。2021年,我國60歲及以上人口已達2.7億,占總人口的18.9%,比2020年增長0.2%;60歲及以上人口超過2億,占中國總人口的14.2%,比2020年上升0.7%,中國人口老齡化進一步加劇。
人口老齡化加劇。根據國家統計局發布的《中華人民共和國2021年國民經濟和社會發展統計公報》數據。2021年,我國人口自然增長率僅為0.34%,比2020年下降1.11%。因此,中國社會人口結構的老齡化仍然是中國健康產業最重要的核心底層驅動力之一。
2522.8億元。據統計,2020年中國健康領域融資額為2236.5億元,2021年為2522.8億元,同比增長12.8%。中國健康產業在資本市場趨于健康發展,估值體系發生變化,整體投資趨于理性。
2020年,中國大健康領域將有1538個融資項目。2021年為1831輛,同比增長19.05%。A股市場2021年科技創新板健康醫療公司IPO數量為37家,上半年24家,下半年13家。在港股市場,2021年健康行業上市公司有34家。總體來看,在資本市場上,健康產業呈現穩步增長。
生物醫藥行業產業鏈生態圖譜
高性能計算研究下
生命科學領域
生命科學行業發展至今,早已離不開高性能計算的輔助,從計算機輔助藥物設計、疫苗研發,到通過基因檢測提供精準醫療服務、產前篩查等,高性能計算HPC在生命科學研究中扮演著十分重要的角色。
生物信息學是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。生物信息學在短短十幾年間,已經形成了多個研究方向,其中與高性能計算相關的主要研究重點如下。
序列比對
序列比對(Sequence Alignment)的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列。在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較數據庫中的DNA序列,比較兩個或多個序列的相似性,在數據庫中搜索相關序列和子序列,尋找核苷酸(nucleotides)的連續產生模式,找出蛋白質和DNA序列中的信息成分。在序列對比的過程中將會產生巨量的數據,這對我們的存儲系統帶來了較大規模的挑戰。
現在用于存儲的硬盤容量每14個月會有一倍的增長,而基因序列的數據量則每5月左右會翻一番,例如:CeleraGenomics 和Sanger Centre 等主要基因研究機構都在管理數以萬億字節計的數據,其數據庫信息量超過了人類開展生物學研究以來積累的數據量。
序列拼接
序列拼接是將測序生成的reads短片段拼接起來,恢復出原始的序列。該問題是序列分析的基本任務,是基因組研究成功與失敗的關鍵,拼接結果直接影響到序列標注,基因預測、基因組比較等后續任務。基因組序列的拼接也是基因組研究必須解決的首要難題。其困難不僅來自它的海量數據(以人類基因組序列為例,從數量為10兆級的片斷恢復出長度為億級的原始序列),而且源于它含有高度重復的序列。
從計算機方面來講,在拼接初期,會有大量的初始數據導入內存,然后對這些數據進行處理。因此,序列拼接對于計算機的內存量和計算能力都有非常大的需求。
基于結構的藥物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構功能,相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括藥物治療。基于生物大分子結構及小分子結構的藥物設計是生物信息學中的極為重要的研究領域。為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊算法,在計算機上設計抑制劑分子,作為候選藥物。然后在數據庫中進行對比并且得到優勢結構,選擇使用分子模擬的方法實現藥物分子的設計。
分子動力學
主要是浮點計算為主 ,非常適合大規模并行,但是對網絡需求比較大,節點間需要使用低延時,高帶寬的Infiniband高速網。
測序儀離線處理
相比計算量,存儲容量需求更大;作業運行需要與作業調度系統結合;測序離線處理往往有序列拼接的需求,目前最主流的序列拼接軟件denovo為多線程程序,單節點內存容量需求非常大,往往需要達到256G甚至512GB,需要配置大容量內存SMP胖節點。
電子顯微鏡圖像處理
主要為浮點計算,其中大量的單精度FFT計算;軟件加速比完全線性,對網絡依賴低;軟件內存需求和IO需求較大,一般需要配置并行文件系統;系統計算量大,計算時間長,系統穩定性,可靠性要求高。
質譜儀原始資料處理
軟件加速比接近線性,對網絡依賴低;系統計算量大,計算時間長,系統穩定性,可靠性要求高。
藍海大腦高性能服務器
助力生命科學領域發展
方案介紹
藍海大腦高性能計算推出多樣化的架構滿足不同計算需求,利用革新型的存儲和內存技術和領先的軟件工具,建立廣泛的生態系統,快速處理增長的大型復雜數據集,升級系統可用性以獲得更高吞吐率,確保高性能計算(HPC)應用性能最優化。
生命科學的性能挑戰
藍海大腦憑借多年在生命科學生物基因分析領域積累的經驗,通過橫向擴展(scale-out)存儲系統、IB低延遲網絡、私有客戶端技術小文件聚合及使用自研PCI-E極速存儲等異構介質構建冷熱數據分層等,滿足生物基因應用中對海量數據存儲場景高可靠性、高性能低延遲和低能耗的存儲需求。
方案特點
客戶收益
生物基因分析研究產生的數據以每年10倍的速度快速增長,藍海分布式存儲通過卓越的系統架構,在為用戶提供海量的存儲空間。通過大比例糾刪功能,大幅提升容量利用率,為客戶提供更低的TCO。
DNA基因分析分布式存儲通過小文件聚合、對象聚合、全局緩存、多通道、硬件加速等技術,為客戶提供創新的性能加速方案,全面提升存儲系統性能。
生物基因分析的數據具有極高的價值,藍海大腦分布式存儲通過業界領先的冗余設計,為用戶提供強大的數據保護能力和系統可用性數據可用性高達99.9999%。
節點級和硬盤級均衡,磁盤間容量誤差率不超5%,節點間誤差不超1%,可用容量利用率高達95%。同時高密度存儲節點滿足客戶存儲空間和能耗要求。
支持豐富的主機連接接口,支持 10/25/40Gb iSCSI、56/100 In?niBand主機連接,無縫接入用戶現有環境,滿足客戶對高帶寬及高性能計算的差異化需求,支持后端10GE 組網下的RDMA模式傳輸,支持TOE 卸載,提高系統性能。
節點并行處理數據 IO、保障系統整體負載均衡,數據分散存儲,避免單節點故障帶來的風險,節點在線橫向擴展,滿足持續增長的容量和性能需求。
架構的優化設計,在文件場景下單一目錄可支持1000萬文件,文件系統支持千億級文件,單一命名空間支持20PB;支持5120節點擴展單集群可提供EB級容量空間。
審核編輯 黃昊宇
-
gpu
+關注
關注
28文章
4742瀏覽量
128968 -
服務器
+關注
關注
12文章
9184瀏覽量
85482 -
生命科學
+關注
關注
0文章
24瀏覽量
12358 -
深度學習
+關注
關注
73文章
5503瀏覽量
121200
發布評論請先 登錄
相關推薦
評論