背景
近三十年來,生命科學與計算科學飛速發展。生物信息學是一門生命科學與計算科學的前沿交叉學科。生物信息學產生和迅猛發展的主要推動力來自于新一代測序等高通量技術在生命科學領域越來越廣泛的應用。 基因組學是這一趨勢的一個主要例子,其中高通量下一代測序 (NGS) 設備被用于對 DNA、mRNA、調控區域、腸道微生物組等進行測序。計算工作流程也在快速開發和標準化,并且支持動態進行擴展。隨著大量基因組數據的收集,處理時間通常在數十億核心小時的數量級,處理成本也相應增加。因此,客戶正在尋找運行時間最短、成本最低的優化工具和系統。通常清況下有2種方式可供選擇。 第一種是建設本地計算集群。一方面建設本地大型計算集群成本昂貴,同時峰值負載的能力有限,項目的周期也相對較長,前期成本投入很大。第二種是構筑云上的HPC平臺。利用云資源可以快速構建云上HPC平臺,云上還提供了最新技術和資源的快速訪問,包括最新加速卡或減少計算所需時間的最新一代處理器。通過選擇合適的實例類型,可以縮短總體計算時間。
在這篇博文中,我們將展示如何利用北鯤云HPC平臺在AWS運行運行基因分析HPC任務。
概述
本指南將向您展示如何通過北鯤云控制臺啟動基于Amazon EC2構建的slurm集群,該集群提供有一個登錄節點,您可以在此節點上通過簡單配置結合AWS S3存儲快速投遞多個基因分析任務。
前置條件
在開始使用北鯤云平臺之前您需要做下面準備:
1.擁有訪問指定S3 bucket權限的1對AWS AK/SK。
2.用于存放計算輸入文件的S3 bucket。
3.用于存放計算結果文件的S3 bucket,也可以使用輸入文件bucket的不同目錄作為區分。
您可以通過AWS S3控制臺來快速創建S3 bucket并上傳輸入文件,如果已有bucket可跳過此步驟。這是一個簡單的過程,僅涉及四個步驟:
1. 登錄AWS S3控制臺。
2. 創建s3 bucket。
3. 設置bucket權限,推薦私有讀寫或者使用S3 bucket ACL策略進行更細粒度控制。
通過ACL限制只有指定的IAM角色ROLENAME可以訪問指定bucket下的資源(可選步驟):
4. 上傳輸入文件。
任務整體流程
用戶只需要準備好存放輸入和輸出文件的s3 bucket即可,無需關心集群內部調度細節,非常容易上手使用。
注冊并登錄北鯤云控制臺
您可能需要先注冊北鯤云賬號,賬號注冊后聯系客服可以獲得200算力金。
創建Workspace
Workspace是北鯤云為您在AWS上創建的一片虛擬空間,對應了AWS的某個region,后續使用的AWS相關服務和資源都在這個region下進行配置。
您需要先將賬號免費升級到企業版才能使用此功能,請聯系我們!
您需要選擇數據存放相同的地域創建Workspace,選擇相同地域的好處是數據在AWS EC2上和S3之間上傳下載可以使用內網進行訪問,速度更快而且更加安全。
支持免費創建多個Workspace以支持不同的研發團隊使用就近的AWS資源。
創建并登錄集群登錄節點
登錄到北鯤云控制臺后,首先要選擇與您數據存放地域一致或相鄰的Workspace, 后續使用的EC2集群及其他資源都在此地域下進行配置。
可通過webssh方式通過瀏覽器直接登錄,也可以通過xShell等其他連接工具連接到集群登錄節點內部。
集群登錄節點內部已內置虛擬用戶,可用于提交基因分析任務。
配置AWS AK/SK
AWS CLI 將使用 aws configure 指定的敏感憑證信息存儲在主目錄中名為 credentials 的文件夾中名為 .aws 的本地文件中。
在集群登錄節點內根據提示輸入AK/SK進行快速配置。
```
aws configure
```
特別申明:北鯤云不會在未經用戶授權的情況下訪問用戶的EC2,也不會獲取用戶的數據,用戶在使用平臺前需要簽署電子版法律協議。
準備作業腳本
大部分計算所需要的軟件在平臺上已經預裝好,IT人員不需要安裝和配置軟件運行環境,缺少您想要的軟件請點擊這里。
以常用的序列對比軟件blast+為例:
使用vim編輯器編寫您的作業計算腳本
```
vim job.sbatch
#!/bin/bash
#SBATCH --job-name=example //作業名稱
#SBATCH --partition c-64-1 //硬件類型 64核64G
#SBATCH --ntasks=64 //任務數量
#從s3下載您的輸入文件
aws s3 cp --quiet s3://genomics-cloudam/input.tar.gz /home/cloudam/
tar -zxvfinput.tar.gz
#加載軟件blast+
module addBLAST+/2.2.31
#提交blast+計算任務 相關參數需要替換為實際參數值
blastx -i -o -num_threads
#將結果文件打包上傳至s3
tar -zcvfresult.tar.gz /home/cloudam/result
aws s3 cp --quiet/home/cloudam/result.tar.gz s3://genomics-cloudam/
```
提交作業
```
sbatch job.sbatch
```
作業結束后,將會進行后置處理,結果將被寫入到s3 bucket內,閑置的EC2服務器將被銷毀并立即停止計費。
恭喜!您已使用北鯤云HPC平臺在 AWS上成功運行基因分析任務。還有更多的功能等待您來探索。
北鯤云平臺和AWS ParallelCluster的對比
|
AWS ParallelCluster | CLOUDAM Platform |
數據安全 | 數據在自己云賬號下 | 不保留用戶數據,數據落地都在用戶自己云賬號下,無需擔心數據安全 |
成本 | EC2, 網絡,存儲都需要收費 | 僅收取EC2按量使用費用 |
功能 | 僅提供基礎計算能力,并且都是基于命令行操作 | 除了基礎計算能力還提供了一系列可視化功能例如文件傳輸,鏡像中心,數據集,團隊協作,配額管理,操作審計,賬單報表,安全管理,系統管理等功能,并提供完善的技術支持服務 |
易用性 | IT人員需要手動配置和維護集群,需要單獨安裝軟件和配置使用環境,僅支持命令行操作 | 配置簡單,IT人員無需手動配置集群,無需安裝計算軟件,提供命令行提交,可視化作業提交和圖形界面提交等多種作業提交方式 |
結論
在這篇博文中,我們演示了如何使用北鯤云平臺在AWS來提交基因分析任務。快速訪問北鯤云用戶手冊并親自試用演示。有關北鯤云的更多信息,請查看主頁和文檔。
審核編輯 黃昊宇
-
HPC
+關注
關注
0文章
317瀏覽量
23813 -
AWS
+關注
關注
0文章
432瀏覽量
24405
發布評論請先 登錄
相關推薦
評論