色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何同時使用Nucleus與TensorFlow解決基因組學領域的機器學習問題

Tensorflowers ? 來源:lq ? 2019-02-20 14:38 ? 次閱讀

簡介

在本文中,我們將 DNA 測序糾錯表述為多級分類問題,并提出兩種深度學習解決方案。第一種方法是在單次讀取中糾錯,而第二種方法(如圖 1 所示)則通過多次讀取來達成共識,以預測正確的 DNA 序列。我們的Colab 筆記教程使用Nucleus和TensorFlow庫實現第二種方法。本文旨在向您展示如何同時使用 Nucleus 與 TensorFlow 解決基因組學領域的機器學習問題。

問題概覽

盡管 DNA 測序日漸快捷和便宜,其過程仍容易出錯。使用Illumina等公司開發的新一代測序 (NGS) 技術處理原始數據時,錯誤率約為 1%。第三代技術,例如Pacific BioSciences(PacBio) 公司開發的技術,正日益普及,其錯誤率約為 15%。測序錯誤可分為替換、插入和缺失,后兩者通常稱為 indel。所有這些錯誤均不利于下游的分析步驟,例如變異檢測和基因組組裝。

如要獲取較高質量的數據集,一個簡單的方法是舍棄可能包含錯誤的數據,丟棄全部讀取內容或去除低質量區域皆可。該方法并非理想之選,因為這會導致最終的數據集會變小。此外,某些序列上下文本來就有較高的錯誤率,進而導致采樣出現偏差。因此,大量研究都側重于開發更成熟的糾錯方法。大多數已開發的方法均可歸類為以下兩組之一:

對單次讀取進行操作的方法,旨在確定正確的讀取序列

對多次讀取進行操作的方法,以共識為基礎,旨在確定正確的基礎 DNA 序列

深度學習概覽

本文中闡述的兩種方法均使用深度神經網絡,學習將輸入映射至輸出的函數。神經網絡由若干層線性與非線性運算構成,而這些運算會依次應用至輸入。神經網絡已成功應用于包括圖像分類和自然語言翻譯在內的多個問題領域。最近,神經網絡也被用于解決基因組學問題,例如蛋白質結構預測和變異檢測。

方法

Nucleus

我們的實現需要Nucleus,這是由 Google Brain 的 Genomics 團隊開發的內容庫,用于處理基因組學數據。Nucleus 使用專門的 reader 對象與 writer 對象,可輕松讀取、寫入和分析常見基因組文件格式(如 BAM、FASTA 和 VCF)中的數據。Nucleus 讓我們能夠:

針對指定基因組區域中的所有變異查詢 VCF 文件

針對映射至指定基因組范圍的所有讀取內容查詢 BAM 文件

針對從指定位置開始的參考序列查詢 FASTA 文件

我們還能使用 Nucleus 將數據寫入TFRecords,這種二進制文件格式由協議緩沖區消息構成,可由 TensorFlow 輕松讀取。讀取 TFRecords 文件后,我們會使用Estimator API訓練和評估卷積神經網絡。

數據

以下是我們在實現過程中所使用的文件列表。所有數據均公開提供,且此 教程包含下載鏈接與說明。

NA12878_sliced.bam — 從 20 號染色體(位置 10,000,000–10,100,000)獲得的 Illumina HiSeq 讀取內容,降采樣至 30x 的覆蓋度

NA12878_sliced.bam.bai — NA12878_sliced.bam 的索引

NA12878_calls.vcf.gz — 瓶中基因組 NA12878 變異的真值集合

NA12878_calls.vcf.gz.tbi — NA12878_calls.vcf.gz 的索引

hs37d5.fa.gz — hs37d5 的參考基因組

hs37d5.fa.gz.fai 和 hs37d5.fa.gz.gzi — hs37d5.fa.gz 的索引文件

注:教程 鏈接

https://colab.research.google.com/github/google/nucleus/blob/master/nucleus/examples/dna_sequencing_error_correction.ipynb

網絡架構

卷積神經網絡通常用于處理計算機視覺任務,但也非常適用于基因組學。每個卷積層都會反復將學習后的過濾器應用于輸入數據。在網絡中早期出現的卷積過濾器會學習識別輸入數據的低級特征(如圖像中的邊緣及色彩梯度),而后期出現的過濾器則會學習識別更復雜的低級特征組合。對于 DNA 序列輸入,低級卷積過濾器會充當 motif 檢測器,這類似于序列標識圖的位置權重矩陣。

在實現過程中,我們使用的標準卷積架構依次由兩個卷積層及三個全連接層組成。我們使用非線性 ReLU 層提升模型的表現能力。當卷積層減少輸入量后,我們會進行最大池化,并會在全連接層充當正則化矩陣后退出此過程。請注意,在得到最終的全連接層后,我們不會加入 softmax 層,因為我們使用的損失函數是在內部應用 softmax。如需了解每層的詳情,請參閱此教程。

注:教程 鏈接

https://colab.research.google.com/github/google/nucleus/blob/master/nucleus/examples/dna_sequencing_error_correction.ipynb

方法 1:單次讀取的糾錯

為了糾正序列讀取中的錯誤,我們使用深度學習來訓練神經網絡,以解決一個較為普遍的問題:填充 DNA 序列中缺失的堿基。此方法旨在開發一種可理解 DNA 序列語法的模型。若僅靠真實序列的語法,我們可能無法獲取充足的信息來開發可用于生產環境的解決方案。盡管如此,這依然是一個簡單明了的示例應用。

出于指導目的,我們通過以下方法簡化此問題:

僅考慮存在替換錯誤的區域,并忽略 indel 錯誤

僅考慮未存在已知變異的區域

我們可以在參考基因組的區域中訓練該神經網絡。此網絡的輸入是定長的 DNA 序列,其核心是我們希望預測的堿基。此網絡的輸出是可能出現的堿基分布,且最終預測結果為可能性最高的堿基。我們使用在參考基因組中觀測到的堿基產生標簽集。由于我們僅使用映射至未存在已知真值變異之區域的讀取內容,因此可以將參考基因組中存在的堿基明確標記為標簽。

我們將參考基因組分割成非重疊的定長片段,以產生輸入序列。在訓練、評估和測試時,我們將參考序列中的一個堿基置零,以模擬缺失的堿基,如圖 3 所示(位置 5)。除了使用參考基因組來模擬缺失的數據之外,我們還可將此類模型應用于序列讀取的數據,特別是質量評分低于閾值的堿基。

方法 2:基于共識的糾錯

糾錯的最終目的是確定基礎 DNA 序列,而非為了糾正單次讀取的錯誤。在本部分,我們通過匯總序列堆疊來使用多次讀取達成的共識。如此一來,無需糾正單次讀取的中間步驟即可直接確定 DNA 序列。有關序列堆疊的示例如下方圖 4 所示。請注意,下圖僅展示了此窗口中存在的讀取部分。

出于指導目的,我們再次通過以下方法簡化此問題:

僅考慮存在替換錯誤的區域,并忽略 indel 錯誤

僅考慮未存在已知變異的區域

與第一種方法不同,我們并未在參考基因組中訓練此模型。相反,我們的訓練數據來自所映射的 Illumina HiSeq 讀取內容。此網絡的輸入是在所映射的讀取內容中觀測到的標準化堿基數矩陣,其核心是我們希望預測的正確堿基的位置。Clairvoyante(一種用于變異檢測的神經網絡)的作者以及Jason Chin 的示例方法中皆使用了類似的特征化方式。此網絡的輸出是可能出現的堿基分布,且最終預測結果為可能性最高的堿基。與第一種方法類似,我們使用在參考基因組中觀測到的堿基來產生標簽集。我們將包含錯誤(在堆疊中至少有一次讀取與中心位置中的參考序列不符)的示例及未包含錯誤(堆疊中的所有讀取均與中心位置中的參考序列相符)的示例結合使用。

結論

此隨附教程演示了本文所述的第二種方法。盡管我們分析的示例較為簡單,不適合在生產環境中部署,但我們希望它們能幫助開發者學會高效利用 Nucleus 和深度學習解決基因組學領域的問題。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    132930
  • 深度學習
    +關注

    關注

    73

    文章

    5512

    瀏覽量

    121415
  • tensorflow
    +關注

    關注

    13

    文章

    329

    瀏覽量

    60593

原文標題:使用 Nucleus 與 TensorFlow 進行 DNA 測序糾錯

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于大數據的食品精進安全食品

    開發的益生乳酸菌產品廣泛應用于食品、醫療、畜牧業和農業領域。會上,關于基因組學的新酶挖掘及其在油脂工業中的應用、蛋白組學與代謝在功能食品
    發表于 11-17 15:54

    基因組數據CNV分析簡介 精選資料分享

    除了利用aCGH和snp芯片來檢測CNV之外,也可以通過NGS數據來分析CNV, 比如全基因組和全外顯子測序。針對全基因組CNV的檢測,還針對開發了一種稱之為C...
    發表于 07-29 08:24

    基因組測序的優勢 精選資料分享

    基因組測序的優勢目前,隨著高通量測序技術快速發展、測序成本的進一步降低以及組裝方法的不斷完善,全基因組測序研究主要包括3個方面。第一種為不參考任何現有序列從頭組裝測序,是對未知基因組序列的物種進行
    發表于 07-29 08:31

    基因組CNV分析的策略是什么?

    基因組CNV分析的策略是什么?
    發表于 10-27 06:43

    基因組測序的優勢是什么?

    基因組測序的優勢是什么?
    發表于 10-27 06:27

    使用Arm服務器減少基因組學的時間和成本

    1、使用Arm服務器減少基因組學的時間和成本  我們現在可以展示三種主要aligners在Arm架構AWS Graviton3上的性能。AWS Gravaton3是AWS服務器系列中最新的基于Arm
    發表于 10-09 16:32

    利用基因組學和人工智能延年益壽將在未來可期

    近日,據外媒報道,抗衰老產業價值1100億美元,到2025年估計會達到6100億美元,全球科學家正在利用基因組學和人工智能的力量來延年益壽。
    的頭像 發表于 12-26 11:33 ?2413次閱讀

    AI加速推動醫療個體化轉型 基因組學將有望成為未來發展主流

    自2003年首次對人類基因組進行測序以來,整個基因組測序流程的成本就一直在下降,而且下降的速度遠快于根據摩爾定律所預測的速度。從新生兒基因組測序到開展全國人口基因組計劃,該
    發表于 01-02 10:41 ?903次閱讀

    為什么基因組是決定一個人特征的獨特遺傳密碼

    研究一個人或一群人的整個遺傳密碼可以幫助我們更好地了解疾病,并通過啟用精確醫學和強大的藥物基因組學,研究基因如何影響人體對藥物的反應。
    的頭像 發表于 06-10 15:46 ?3070次閱讀

    基于計算分析的高可用彈性宏基因組學計算平臺

    復雜度測序數據,讓研究人員在處理過程中面臨諸多困難面,大規模測序數據的分析消耗資源,如硬件資源、時間成本等;另一方面,計算分析過程中必然涉及到的大量宏基因組學計算分析工具很難由普通使用者自行部署、調試與維護。文中對比了領域內主流的宏基因
    發表于 04-19 10:54 ?6次下載
    基于計算分析的高可用彈性宏<b class='flag-5'>基因組學</b>計算平臺

    北鯤云超算平臺對于基因組學研究能夠提供哪些幫助?

    隨著眾多生物基因組測序項目的完成,生物數據正在加速度增長。從高通量/多組,到單分子/單細胞;從多倍體/單倍型到宏基因組/環境基因組;從精
    發表于 11-15 14:24 ?528次閱讀

    NVIDIA Clara Parabricks助力基因組學和藥物研究

    世界上最大的遺傳研究鑒定數據庫使科學家能夠訪問NVIDIA Clara Parabricks,以加速推進基因組學和藥物研發領域的發展。
    的頭像 發表于 02-17 11:07 ?1445次閱讀

    微流控芯片技術在單細胞基因組學研究中的應用

    單細胞基因組學包括單細胞全基因組測序和以單細胞和微量細胞為材料的全基因組范圍內的基因功能研究。功能基因組學以結構
    的頭像 發表于 03-03 13:04 ?2198次閱讀
    微流控芯片技術在單細胞<b class='flag-5'>基因組學</b>研究中的應用

    基因組學大型語言模型在多項任務中均展現出卓越的性能和應用擴展空間

    InstaDeep、慕尼黑工業大學(TUM)和 NVIDIA 之間的合作推動了面向基因組學的多超級計算規模的基礎模型開發進程。這些模型在大量預測任務(例如啟動子和增強子位點預測)中展示了最先進的性能
    的頭像 發表于 01-17 01:05 ?750次閱讀

    人工智能如何改變基因組學

    AI 和加速計算正在為基因組測序流程開辟新的可能性。 全基因組測序領域的進步已經點燃了數字生物的革命。 隨著新一代高通量測序成本的下降,基因組學
    的頭像 發表于 04-05 00:25 ?652次閱讀
    主站蜘蛛池模板: 国产人妻人伦精品59HHH | 国产成人精品免费视频大全可播放的 | 久久99热狠狠色AV蜜臀 | 一本道本线中文无码 | 亚洲精品一本之道高清乱码 | 精品视频在线观看视频免费视频 | 亚洲免费一 | 囯产精品一品二区三区 | 高清mv视频免费观看 | 日韩亚洲不卡在线视频 | 沦为公交两奶头春药高潮迭起 | 老师的快感电影完整版 | 小雪奶水涨翁工帮吸的推荐语录 | 国产手机在线亚洲精品观看 | 呜呜别塞了啊抽插 | 国产精品一区二区在线播放 | 亚洲乱码一区二区三区香蕉 | 肉动漫3D卡通无修在线播放 | 8x8x我要打机飞在线观看 | 欧美18videosex性欧美老师 | 亚洲欧洲日韩天堂无吗 | 小SAO货水真多把你CAO烂 | 成人区在线观看免费视频 | 最近的2019中文字幕HD | 涩涩视频在线看 | 色噜噜噜亚洲男人的天堂 | 99国产强伦姧在线看RAPE | 亚洲AV无码久久流水呻蜜桃久色 | 洗濯屋H纯肉动漫在线观看 羲义嫁密着中出交尾gvg794 | 爱很烂qvod| 九九99热久久999精品 | 久久99国产视频 | 国产自产第一区c国产 | 欲香欲色天天天综合和网 | 差差差差差差差差免费观看 | 中文字幕无码他人妻味 | 67194免费入口 | 99久久久无码国产精精品 | gv肉片视频免费观看 | 男人插曲女人身体视频 | 日本亚洲电影 |