色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習告訴你,新型冠狀病毒接下來將如何變異?

倩倩 ? 來源:美林數據Tempodata ? 2020-03-27 14:58 ? 次閱讀

提起達爾文的生物進化論,在人們的普遍認知中,這是開創現代科學的重要理論之一。像地球上其他所有為生存而掙扎的生物一樣,病毒也會進化或變異。讓我們看看人類病毒的來源——蝙蝠病毒的RNA核苷酸序列片段:AAAAT CAAA GCTT GTGTT GAA GAA GTTACAA CAACTCT GGAAG AAACTAAGTT與一小段人類的新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)的RNA核苷酸序列:AAAAT TAAG GCTT GCATT GAT GAG GTTACCA CAACACT GGAAG AAACTAAGTT顯然,冠狀病毒已經改變了它的內部結構以適應新的宿主物種(更準確地說,大約20%的冠狀病毒內部結構都發生了突變),但仍然保持了足夠數量的一致,使它仍然忠于它的起源物種。事實上,研究表明,COVID-19會不斷發生變異,以提高其存活率。在與冠狀病毒的對抗中,我們不僅需要探究擊敗病毒的方法,更需要明白病毒是如何變異的,以及如何應對病毒變異。這篇文章中將從以下幾個方面進行闡述:①從表面上解釋RNA核苷酸序列是什么②使用K-Means創建基因組信息集群③使用PCA實現可視化集群什么是基因組序列?DNA是脫氧核酸的簡稱,其基本單位是脫氧核糖核苷酸(也叫脫氧核苷酸),是大多數生物的遺傳物質,在真核生物、原核生物、DNA病毒內都存在的一種核酸;RNA則是核糖核酸的簡稱,其基本單位是核糖核苷酸,是RNA病毒的遺傳物質。新型冠狀病毒的基因序列就是RNA.基因組測序,通常被比作“解碼”,是分析取自樣本的脫氧核糖核酸(DNA)的過程。在每個正常細胞中有23對染色體,DNA的結構是這樣的:

DNA卷曲的雙螺旋結構可以使它展開成階梯狀,這個梯子是由成對的化學字母組成的,叫做堿基。在DNA中有四種堿基:腺嘌呤、胸腺嘧啶、鳥嘌呤和胞嘧啶。腺嘌呤只與胸腺嘧啶結合,鳥嘌呤只與胞嘧啶結合,這些堿基分別用A、T、G和C表示。這些堿基形成了各種各樣的代碼,指導有機體如何構建蛋白質——這就是DNA如何控制病毒一舉一動的基礎。

使用專門的設備,包括測序儀器和專門的標簽,可以顯示特定的DNA序列片段。由此獲得的信息將經過進一步的分析和比較,使研究人員能夠識別基因的變化,與疾病和表型的關系,并確定潛在的藥物靶標。一長串的基因組序列A、T、G和C,代表了有機體對環境的反應,而生物體的突變又是通過改變DNA產生的,因此觀察基因組序列是分析冠狀病毒突變的有效手段,其中序列對齊法是常用的方法,主要通過將兩個或多個核酸序列或者蛋白質序列進行對比,并將其中相似的結構區域突出顯示。序列對齊:給定兩個DNA序列A和B,對齊的方式是將空格分別插入到A和B序列中,得到具有相同長度的對齊后的序列C和D;空格可以插入到任意的位置(包括兩端),但是相同位置不能同時為空格,也即是不存在C[i]和D[i]同時為空格的情況。然后為對齊后的序列的每個位置打分,總分為每個位置得分之和,具體的打分規則如下:a、如果C[i] == D[i]且都不是空格,得3分;b、如果C[i] != D[j]且都不是空格,得1分;c、如果C[i] 或者D[i]是空格,得0分。求給定原序列A和B的一個對齊方案,使得該對齊方案的總分最高。例如,序列原序列A和B如下:String strA = “GATC”; String strB = “ATCG”;則其中一個對齊方案如下:GATC**ATCG該方案總得分score=2*0+3*3 = 9分。因此,經常通過序列對齊方式來比較序列與已知(尤其是功能和結構已知的序列)之間的同源性,預測未知序列的功能。因此本文后續對于序列的分析主要是針對序列對齊后形成的指標特征進行探索和分析。數據的獲取數據可以在Kaggle上找到,如下圖所示:

每一行代表蝙蝠病毒的一個突變。首先,花一分鐘來欣賞大自然是多么不可思議——在幾周內,冠狀病毒已經產生了262個突變來增加存活率。一些重要的列名解釋:

query acc.ver表示原始的病毒標識符。

subject acc.ver是病毒突變的標識符。

% identity表示序列中與原始病毒相同的百分比。

Alignment length表示序列中有多少項是相同的或對齊的。

mismatches表示突變項和原始項之間的不同項數。

bit score代表了一個衡量標準,衡量序列的對齊程度;分數越高,對齊程度越高。

每一列的統計度量如下所示(這些可以在Python中運用data.describe()語句被方便地調用):

有趣的是,通過查看% identity列,我們可以看到一個突變與原始病毒的最小對齊比率約為77.6%。然而巨大的標準偏差(7%的% identity)意味著原始病毒存在廣泛的變異范圍。在bit score中巨大標準偏差證實可以證實這一點——標準偏差大于平均值(即代表變異系統大于1,進一步說明了突變發生情況的多樣性)!通過相關性熱力圖可以很好的呈現變量之間的相關性,圖形中每個單元表示一個特征與另一個特征的相關性。

我們不難發現,很多數據都是高度相關的,這是可以解釋的,因為大多數的度量彼此存在一定的依賴性,因此導致變量之間存在高相關性,可以發現alignment length與bit score之間就具有高度相關性(0.94)。

使用K-Means來創建突變集群K-Means是一種聚類算法,是通過機器學習的方式在特征空間中確定數據點相似群組。我們運用K-Means的目標是找到突變的群體,這樣我們就可以對突變的本質以及如何針對性的處理它們有深入的了解。在此之前,我們首先需要確定集群k的數量,雖然這就像在二維空間中繪制一個點一樣簡單,但在高維空間中是幾乎無法實現的(如果我們想要保留最多的信息)。若用“肘部法則”來選擇k會顯得過于主觀,且不準確,所以我們會用輪廓法來代替。輪廓法是給不同取值k的集群打分,來區分聚類的結果好壞程度(好的聚類:內密外疏,同一個聚類內部的樣本要足夠密集,不同聚類之間樣本要足夠疏遠)。Python中的sklearn庫將使K-Means和輪廓法的實現變得非常簡單。

通過對上圖進行分析,可以發現群體數為5時聚類效果最佳。現在,我們可以進一步確定群體中心,這些點是每個群體的中心,代表了不同群體的突變樣本的共性特征。

注:特征已經被標準化,列與列之間無可比性

在此熱力圖中,行:代表不同的群體,列:代表每個群體的屬性。因為在聚類之間需要對于特征按比例進行縮放,以減少不同特征尺度差異的影響,所以圖中的數值在數量(縮放值,非原始尺度下的值)上沒有任何意義,但是,我們可以通過比較每個列中的縮放值,這使得我們可以對每個突變群體的特征相對大小產生一個更直觀的感覺。通過對以上聚類結果的分析,可以讓科學家將更多精力聚焦在對不同突變群體的特征研究上,進而針對性的研究不同類型的疫苗,治療和預防也將變的更有目標性。聚類的結果已經可以幫助我們解決很多方面的問題,但由于存在高維特征及特征之間相關性的存在,讓我們不能更好的去解讀聚類結果,因此,在下一節中,我們將使用PCA來實現聚類結果的可視化呈現。利用PCA進行集群可視化主成分分析是一種降維方法。它選擇多維空間中的正交向量來表示坐標軸,通過特征的空間變換,可以有效降低特征之間的相關性,進而通過貢獻度來保留最多的信息的特征,實現降維目的。同樣,我們可以通過Python的sklearn庫,PCA的執行可以被兩行代碼實現。首先,我們可以檢查被解釋的方差比(explained variance ratio),這是從原始數據集中保留的統計信息的百分比。在本例中,被解釋的方差比是0.9838548580740327,代表信息只有很少部分遺失!在此我們可以確信,無論我們從PCA得到什么分析,數據都是具有很高的可信度。每個新的特征(主成分)都是其他幾個列的線性組合。通過熱力圖,我們可以直觀地了解每一特征對于兩個成份(新的特征)中的重要性。

通過以上圖中數值的分析,關鍵是要理解在成分1中出現高數值是什么意思——在這種情況下,它的特點是有著更高的一致性,即更接近原始病毒;成分2的主要的特點是擁有更低的一致性,即突變遠離原始值,這也反映在bit score的較大差異上。

通過主成分將所有樣本映射到2維空間體系下,可以很明顯發現,病毒突變有5條主線,以下通過對這5條線的分析,可以讓我們獲取更多的信息。可以發現,有四個病毒突變在第一主成分(X軸)的左邊,一個在右邊。第一主成分的特征是alignment length具有很高的取值,這意味著第一個主成分的值越高,對應的alignment length就越長(越接近原始病毒)。因此,第一主成分的低值區與原始病毒的遺傳距離較遠,即大多數病毒集群與原始病毒有很大不同。因此,試圖研制疫苗的科學家應該意識到,這種病毒會發生大量變異。第二主成分(Y軸)在同一群體之間的差異性很小,在不同群體之間明顯分為3個區段,這就需要后續我們進一步分析,以便能夠更好的對于突變群體進行深入了解。結論本文一方面通過使用K-Means聚類算法,能夠幫助我們從眾多突變樣本中快速識別冠狀病毒的五個主要典型突變群體,另一方面用PCA分析方法在二維空間中實現這些群體的可視化展現,通過展示結果可以很直觀的呈現冠狀病毒有很高的突變率(這可能就是它如此致命的原因),通過對于這些分析結果,對于研制冠狀病毒疫苗的科學家來說,可以利用群體的共性特征值結合領域專業知識來充分解讀每個群體的特征信息,以便有針性的、更好的指導疫苗的研制及預防工作。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • DNA
    DNA
    +關注

    關注

    0

    文章

    243

    瀏覽量

    31108
  • K-means
    +關注

    關注

    0

    文章

    28

    瀏覽量

    11324
收藏 人收藏

    評論

    相關推薦

    芯系武漢半導體企業向受冠狀病毒地區捐贈匯總

    聯發科:捐贈1000萬元1月28日,聯發科官微顯示,已經向武漢東湖高新區***捐贈價值1000萬元人民幣的醫療相關物資,用于新型冠狀病毒肺炎的疫情防控工作。2.英特爾:捐贈100萬美元1月29日
    發表于 02-07 16:48

    怎樣預防手機上的新型冠狀病毒傳播

    一直是細菌和病菌的傳播站,除了指紋和汗液污漬等看得見的“臟”以外,看不見的“臟”更多:斯坦福大學的研究報告曾指出,觸屏手機的細菌與病毒數量是洗手間的18倍以上,德國“生活健康組織”更是呼吁要及時給手機消毒。那么,手機會不會成為新型冠狀病
    的頭像 發表于 02-04 14:19 ?7532次閱讀

    新型冠狀病毒加速了“智慧城市”對“傳統城市”的代替

    新型冠狀病毒成了2020年飛出來的一只黑天鵝! 隨著新型冠狀病毒肺炎的爆發,對于中國乃至全人類來說都是一場重大的災難,而隨著此次狀病毒的刺激
    的頭像 發表于 02-26 11:52 ?2717次閱讀

    預防新型冠狀病毒需要什么智能設備應該如何使用

    本來準備了好多鞭炮煙花,想過年了好好放一下,把過往一年的晦氣炸飛,喚醒今年的好運,結果,一切精心的準備,就被這個突如其來的新型冠狀病毒給廢了。
    的頭像 發表于 02-12 11:42 ?3639次閱讀

    新型冠狀病毒對Uber業務影響大

    北京時間3月3日消息,Uber公司在美國時間本周一的時候承認,新型冠狀病毒已經對于公司的業務造成了極大的影響。二月初的時候,Uber公司CEO曾表示,他們不認為病毒會對整體業務產生影響。
    的頭像 發表于 03-03 15:31 ?1980次閱讀

    蘋果和微軟這些美國科技巨頭是怎么應對新型冠狀病毒

    據國外媒體報道,全球科技行業正受到新型冠狀病毒的困擾,許多活動被取消,蘋果和微軟紛紛向投資者發出警告。
    的頭像 發表于 03-06 14:16 ?1808次閱讀

    Google Maps如何幫助解決冠狀病毒的流行

    冠狀病毒作斗爭是一項復雜的任務,需要大量人員的不斷努力,但不幸的是,比我們希望成功需要更多的時間。
    的頭像 發表于 03-16 14:01 ?2028次閱讀

    美國擬啟用Summit超算系統制止新型冠狀病毒大流行的蔓延

    近日,據媒體報道,IBM正在與美官方合作,提供全球最快的超級計算機算力,幫助研究人員制止新型冠狀病毒大流行的蔓延。
    的頭像 發表于 03-23 10:51 ?2114次閱讀

    波音公司已持有150億美元現金來渡過新型冠狀病毒疫的危機

    卡爾霍恩認為,盡管新型冠狀病毒疫情進一步嚴重化,但波音的商業業務依然良好,絲毫不低于危機爆發前,即使沒有政府的援助,波音也能夠生存下來。卡爾霍恩指出,波音公司現持有150億美元現金,用于幫助波音渡過難關。
    發表于 03-25 11:27 ?1250次閱讀

    利用機器學習發現新型冠狀病毒的潛在中和抗體

    隨著COVID-19大流行的爆發,Barati Farimani很快將他的實驗室的重點轉移到SARS-CoV-2研究上。此前,他曾使用機器學習工具來研究埃博拉病毒和艾滋病病毒的抗體,現
    的頭像 發表于 04-15 11:18 ?3537次閱讀

    聊天機器將如何解決冠狀病毒帶來的人員配備問題

    人工智能(AI)最引人注目的好處之一是,它可以幫助人們完成更多任務。這一點尤其重要,因為冠狀病毒大流行導致全球人員緊縮。
    發表于 05-15 17:15 ?625次閱讀

    淺談3D打印技術在抗擊新型冠狀病毒疫情中的應用

    當下,新型冠狀病毒疫情還在喪心病狂地肆虐著很多地區,像法國、意大利等已經正式宣布二波疫情的到來,而我國的形勢也不容樂觀,山東青島和新疆喀什先后曝出多個本土確診病例。 由此可見,與新型冠狀病毒
    發表于 11-20 14:42 ?1806次閱讀

    同茂線性馬達談又雙變異新型冠狀病毒

    11月24日,南非向世界衛生組織報告發現新型毒株奧密克戎毒株,也就是說,新型冠狀病毒變異病毒德爾塔之后,再度出現
    發表于 12-29 09:24 ?477次閱讀

    社交距離提醒(冠狀病毒)開源案例

    電子發燒友網站提供《社交距離提醒(冠狀病毒)開源案例.zip》資料免費下載
    發表于 10-31 15:13 ?0次下載
    社交距離提醒(<b class='flag-5'>冠狀病毒</b>)開源案例

    冠狀病毒實時更新器開源分享

    電子發燒友網站提供《冠狀病毒實時更新器開源分享.zip》資料免費下載
    發表于 10-28 09:46 ?0次下載
    <b class='flag-5'>冠狀病毒</b>實時更新器開源分享
    主站蜘蛛池模板: 一级毛片西西人体44rt高清 | 久久免费观看视频 | 国产精品免费久久久久影院 | 国产最新精品亚洲2021不卡 | 精品一区二区三区色花堂 | 好男人资源免费观看1 | 欧美一区二区视频97色伦 | 色妞色视频一区二区三区四区 | 国产精品嫩草久久久久 | 久艾草在线精品视频在线观看 | 亚洲精品乱码久久久久久中文字幕 | 激情丛林电影完整在线 | 亲嘴扒胸摸屁股视频免费网站 | lesbabes性欧美 | QVOD理论| 极品美女久久久久久久久久久 | 国内精品视频一区二区在线观看 | 欧美日韩视频高清一区 | 超碰在线视频公开 | 小小水蜜桃视频高清在线观看免费 | 国内精品伊人久久久久 | 韩国污动漫无遮掩无删减电脑版 | 国产亚洲精品久久久999密臂 | MELODY在线播放无删减 | 精品国产自在现线拍国语 | 午夜噜噜噜私人影院在线播放 | 内射无码AV-区二区在线观看 | 热热久久超碰精品中文字幕 | 91黄色影院 | 欧美三级黄色大片 | 三级网址在线播放 | 无码人妻少妇色欲AV一区二区 | 日本欧美高清一区二区视频 | 国产99在线视频 | 天天综合网网欲色 | 国产精品亚洲电影久久成人影院 | 人妻夜夜爽99麻豆AV | 久久精品动漫网一区二区 | 日韩成人性视频 | 色欲天天天综合网免费 | 手机在线成人精品视频网 |