麥克斯·德爾布呂克分子醫(yī)學中心的研究人員開發(fā)了一種新工具,可以更輕松地最大化深度學習在研究基因組學方面的力量。他們在《自然通訊》(Nature Communications)雜志中描述了Janggu的新方法。
想象一下,在晚餐之前,您首先必須重建專門為每種食譜設(shè)計的廚房。您將花費更多的時間進行準備,而不是實際做飯。對于計算生物學家來說,分析基因組數(shù)據(jù)是一個類似的耗時過程。在甚至沒有開始分析之前,他們就花費了大量寶貴的時間來格式化和準備龐大的數(shù)據(jù)集,以將其輸入到深度學習模型中。
為了簡化此過程,MDC的研究人員開發(fā)了一種通用的編程工具,該工具可將各種基因組數(shù)據(jù)轉(zhuǎn)換為所需的格式,以供深度學習模型進行分析。MDC柏林生物信息學和組學數(shù)據(jù)科學研究小組的科學家Wolfgang Kopp博士說:“以前,您最終在技術(shù)方面浪費了很多時間,而不是專注于要解決的生物學問題。”醫(yī)學系統(tǒng)生物學研究所(BIMSB),該論文的第一作者?!坝辛碎L谷,我們的目標是減輕某些技術(shù)負擔,并使盡可能多的人可以使用它?!?/p>
Janggu的名字來自韓國傳統(tǒng)鼓形,其側(cè)面像一個沙漏。沙漏的兩個大部分代表了Janggu的重點領(lǐng)域:基因組數(shù)據(jù)的預(yù)處理,結(jié)果可視化和模型評估。中間的狹窄連接器代表研究人員希望使用的任何類型的深度學習模型的占位符。
深度學習模型涉及對大量數(shù)據(jù)進行排序并找到相關(guān)特征或模式的算法。雖然深度學習是一種非常強大的工具,但它在基因組學中的使用受到限制。大多數(shù)已發(fā)布的模型往往只適用于固定類型的數(shù)據(jù),只能回答一個特定問題。交換或添加新數(shù)據(jù)通常需要從頭開始并進行大量編程工作。
Janggu將不同的基因組學數(shù)據(jù)類型轉(zhuǎn)換為通用格式,可以插入使用python(一種廣泛使用的編程語言)的任何機器學習或深度學習模型中。
使我們的方法與眾不同的是,您可以輕松地使用任何基因組數(shù)據(jù)集解決您的深度學習問題,任何形式的東西都可以使用,”生物信息學和Omics數(shù)據(jù)科學研究小組負責人Altuna Akalin博士說。
Akalin的研究小組有雙重任務(wù):開發(fā)新的機器學習工具,并使用它們來研究生物學和醫(yī)學領(lǐng)域的問題。在他們自己的研究工作中,他們一直為格式化數(shù)據(jù)花費了多少時間而感到沮喪。他們意識到問題的一部分是每個深度學習模型都包含自己的數(shù)據(jù)預(yù)處理。通過將數(shù)據(jù)提取和格式化與分析分開,它提供了一種更容易的方式來交換,合并或重用數(shù)據(jù)部分。這就像讓所有廚房工具和食材觸手可及,準備嘗試新食譜一樣。
Kopp說:“困難在于在靈活性和可用性之間找到適當?shù)钠胶狻!薄叭绻`活性太強,人們將被淹沒在不同的選擇中,并且將很難上手。”
Kopp準備了一些教程,以幫助其他人開始使用Janggu,以及示例數(shù)據(jù)集和案例研究。《自然通訊》的論文證明了Janggu在處理大量數(shù)據(jù),組合數(shù)據(jù)流以及回答不同類型的問題(例如根據(jù)DNA序列和/或染色質(zhì)可及性預(yù)測結(jié)合位點以及分類和回歸任務(wù))方面的多功能性。
盡管Janggu的大部分優(yōu)勢都在前端,但研究人員希望為深度學習提供完整的解決方案。Janggu還包括在深度學習分析之后的可視化結(jié)果,并評估模型學到的知識。值得注意的是,該團隊在包裝中加入了“高階序列編碼”,從而可以捕獲相鄰核苷酸之間的相關(guān)性。這有助于提高某些分析的準確性。通過使深度學習更容易且更友好,Janggu幫助打開了回答各種生物學問題的大門。
“最有趣的應(yīng)用之一是預(yù)測突變對基因調(diào)控的影響,” Akalin說?!斑@令人興奮,因為現(xiàn)在我們可以開始了解單個基因組,例如,我們可以查明引起調(diào)節(jié)變化的遺傳變異,或者我們可以解釋腫瘤中發(fā)生的調(diào)節(jié)突變。
-
連接器
+關(guān)注
關(guān)注
98文章
14653瀏覽量
137036 -
編程語言
+關(guān)注
關(guān)注
10文章
1950瀏覽量
34905 -
深度學習
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121412
發(fā)布評論請先 登錄
相關(guān)推薦
評論