色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深入了解AI計算從單機到集群的概括

云知聲 ? 來源:djl ? 作者:云知聲 ? 2019-08-09 09:29 ? 次閱讀

AI 計算:AI 計算:從單機到集群(上)和 AI 計算:從單機到集群(中)介紹基礎上,大家了解了 AI 計算容器化和集群調度的相關知識。那么本篇作為 AI 計算系列的收尾篇,指導大家如何打造一個完備高效的計算平臺。

本篇首先介紹一個完備高效計算平臺的整體架構,然后選擇架構中一些分系統作為切入點,詳細介紹這些系統的組成和特點,希望能夠為大家構建平臺時提供有益的參考。

— 整體架構 —

AI 計算任務和傳統的云服務有顯著不同,其具有如下特點:

業務流程長,邏輯復雜:從數據的采集、存儲、分析、挖掘到最終提供數據服務,需要把多種數據源融合以及關聯分析。

場景多樣化,不確定性強:需要與業務緊密結合,很多場景都是探索性質,并且要隨著業務變化和反饋持續的調整。

技術門檻高,對使用者要求高:多種計算引擎,多種計算模型,大規模機器學習的組合使用,以及多種計算資源(GPU/CPU) 協調計算。

針對以上特點,我們需要一個對使用者友好的計算平臺,能夠解決不同場景下對 AI 計算的不同需求,降低使用者的門檻。所以,作為一個完備高效的計算平臺,只具有計算任務的管理和調度是不夠的,還需要其他分系統和組件的協同配合。下圖展示的是平臺整體架構邏輯圖。從下往上分別是:

平臺基礎層:提供平臺的底層支撐,除了我們在中篇已經介紹的計算調度系統,還包括計算所需要的分布式存儲系統。

平臺計算層:提供平臺與 AI 具體算法相關的計算實現,與平臺緊密配合并深度優化定制,完成任務算法的具體實現。

平臺控制中心:提供平臺支撐和管理系統。

平臺業務層:支持多種業務領域的應用。

深入了解AI計算從單機到集群的概括

基于以上架構的平臺具有如下優勢:

友好的可視化界面:友好的使用接口,支持拖拽交互,無需編程

豐富的機器學習算法:內置支持豐富多樣的機器學習算法和模塊

完整的數據處理流程:兼容支持多種數據格式與完整的數據處理流程

高效的異構計算集群:高效的 GPU/CPU 異構計算平臺和分布式存儲系統

一站式服務體驗:一站式服務,易用,惠及更多用戶

從平臺整體框架圖看,平臺的構成子系統眾多,由于篇幅限制,不能一一介紹。本文挑選部分子系統向大家介紹。

— 平臺基礎層 —

在 AI 計算:從單機到集群(上)和 AI 計算:從單機到集群(中)中我們主要介紹了基于 GPU 和 CPU 的容器任務調度系統。容器任務在生命周期結束時,所有的生成數據都會隨著任務刪除而消失,為了保存任務的輸出結果,需要將外部存儲掛載到容器中保存訓練結果。除此之外,計算任務讀取外部數據進行模型訓練,也需要外部存儲支持。

分布式文件存儲系統

分布式文件存儲系統是計算平臺的重要部分,我們實現了連續空間的大規模分布式存儲系統,可擴展支持 PB 量級容量的存儲空間,兼容 POSIX 標準,無縫對接現有多種深度學習框架的讀寫接口,具有多重數據冗余能力,保證數據的安全可靠。同時提供高吞吐量的數據讀寫操作 ,滿足任務對數據的高速讀寫要求,此外,系統具有良好的擴展性,根據平臺需求對存儲容量自由擴展。

AI 計算任務需要海量數據支撐,對存儲的需求具有如下特點:

大容量:能夠支持大容量的數據存儲。

高 IO:具有高 IO 的數據讀寫操作。

兼容 POSIX 協議。

這寫特點決定了,與 AI 計算匹配的存儲系統必須是分布式存儲系統,才能滿足計算的要求。由于我們使用基于 Kubernetes 的計算任務調度系統,要求外部存儲首先能夠和 Kubernetes 結合,才能在計算任務中使用。Kubernetes 支持的外部存儲(https://link.zhihu.com/?target=https%3A//kubernetes.io/docs/concepts/storage/volumes/)包括很多類型,包括本地目錄 hostPath、網絡存儲 NFS、塊存儲 RBD、以及其他第三方云平臺存儲格式等。我們構建基于 Lustre 的分布式文件系統,為計算任務提供大容量和高 IO 的存儲方案。

Lustre 分布式文件系統歷史悠久,廣泛應用在各個國家的高性能計算中心。Lustre 是開放源代碼的集群文件系統, 提供與 POSIX 兼容的文件系統接口。Lustre 兩個最大特征是高擴展性和高性能,能夠支持數萬客戶端系統、很容易擴展到 PB 級存儲容量、并具有數百 GB 每秒的 I/O 吞吐量。

下圖是 Lustre 的組成架構圖,描述的是存儲整體邏輯框。左側為 Metadata Servers ( MDS, 媒體結構數據服務器),存儲數據的結構性信息,右側是 Object Storage Servers (OSS,對象存儲服務器)。存儲實際的數據信息。存儲節點間的網絡連接分為兩層,一種是用于數據傳輸的高性能網絡,采用萬兆網絡配置。一種是節點管理網絡,利用 Intel Manager for Lustre 軟件監控整個存儲集群的實時運行狀態和配置存儲集群。存儲系統組成分為三部分:OSS陣列,MDS陣列,存儲運行狀態實時監控服務器。OSS 和 MDS 直接通過高速和低延時的高性能網絡連接。監控服務器通過專用監控網絡連接 OSS 和 MDS。MDS 服務器負責管理 OSS 服務器上的數據,并處理來自客戶端的數據請求。每個 OSS 服務器的本地存儲器,比如硬盤,被劃分為多個 RAID 陣列,每個陣列被虛擬為 OST 數據類型。

OSS(對象存儲服務器),存儲實際的數據信息,采用 Dell 高密度陣列存儲。

MDS(媒體結構數據服務器),提供數據的描述和結構信息,通過陣列實現高可用的 MDS。

監控服務器,實時監控存儲系統運行狀態,具有管理和配置存儲系統的功能。

深入了解AI計算從單機到集群的概括

— 控制中心 —

如果說計算系統和存儲系統是平臺的雙引擎,那么控制中心就是平臺的駕駛艙??刂浦行闹苯用嫦蛴脩簦瑸橛脩籼峁﹫D形化的任務交互,為平臺提供監控和健康檢查,為任務提供鏡像分發等服務。我們選擇其中兩個分系統:平臺日志與實時監控系統和鏡像管理系統,向大家作簡單介紹。

平臺日志與實時監控系統

計算平臺的硬件涉及眾多功能不一的服務器,但作為管理和使用人員來說,希望整個系統能夠像一臺計算機那樣進行運行與管理。平臺日志與實時監控系統是平臺不可或缺的重要組件之一,保證平臺的穩定運行和監控實時資源的使用,所以在平臺中是至關重要的。我們獨自開發了一套圖形化的平臺任務和節點狀態監控系統,對整個計算集群中的計算資源進行管理。此系統是一套非常完備的用于監控和管理機群的解決方案,簡化了機群管理工作的復雜度,使管理員通過統一的操作就可以非常容易的管理與監控集群中的多種計算資源。

下圖展示的是實時監控系統邏輯框圖,在計算節點上通過 Node Exporter 和 GPU Exporter 等信息采集器收集節點運行狀態,包括計算資源,存儲,網絡帶寬占用情況,以及節點健康狀態。cAdvisor 監控節點上運行的多個任務的實時狀態和對 GPU 、內存等相關資源的使用情況,上述平臺運行信息定期發給 Prometheus 收集匯總。Grafana 查詢 Prometheus 存儲的信息,并通過圖像化方式展示。監控系統中的警告和通知管理子系統,會根據相應配置觸發郵件、短信或者即時通訊工具發送警告和通知信息給管理員,以保證平臺的正常運轉。

深入了解AI計算從單機到集群的概括

平臺日志與實時監控系統軟件具有如下優勢:

多種功能有效集中在一起,高效便捷便,于管理維護

同時支持圖形化界面操作與命令行方式操作,為系統管理員提供多種選擇

分級授權管理,為系統管理員和普通用戶提供不同權限的訪問,保證系統的安全性

全面的可定制的系統監控及報警功能

實時顯示節點 GPU、CPU、內存等資源使用信息

自動通知與報警

自動對監控結果進行篩選過濾,方便用戶使用

下圖顯示的是監控系統顯示節點 CPU 運行狀態、內存使用情況以及節點負載情況的示例:

深入了解AI計算從單機到集群的概括

鏡像管理系統

平臺中運行著各種計算任務,需要利用鏡像管理系統對所有的任務鏡像提供統一的管理。Docker 官方維護的Docker Registry(https://link.zhihu.com/?target=https%3A//docs.docker.com/registry)能夠提供簡單的鏡像倉庫功能,但不足以支撐企業級的應用,尤其在高可用,用戶管理和安全方面。Harbor 是由 VMWare 開發和維護的企業級 Registry 服務器,通過添加一些企業必需的功能特性,例如安全、標識和管理等,擴展了 Docker Registry 的實現。作為一個企業級私有 Registry 服務器,Harbor 提供了更好的性能和安全,提升用戶構建和傳輸鏡像的效率。Harbor 在架構上如下圖所示,主要包括:

Nginx Proxy:提供 Harbor 的圖形界面等服務,通過一個前置的反向代理統一接收瀏覽器、Docker 命令的請求,并將請求轉發給后端不同的服務。

Admin Server:提供用戶認證和授權,賦予用戶不同的角色。

Registry: 負責儲存 Docker 鏡像,并處理 Docker push/pull 命令。由于我們要對用戶進行訪問控制,即不同用戶對鏡像有不同的權限,Registry 會指向一個 Token 服務,強制用戶的每次 docker pull/push 請求都要攜帶一個合法的 Token,Registry 會通過公鑰對 Token 進行解密驗證。

Project: 這是Harbor的核心功能,主要提供以項目為基礎的鏡像管理。

圖中給出了四種角色,在 Harbor 工作流程中具有不同的權限:

Admin :具有所有權限

Developers:具有 push 與 pull 公開和私有項目鏡像的權限

Guests:具有 pull 公開和私有項目鏡像的權限

Anonymous:具有 pull 公開項目鏡像的權限

深入了解AI計算從單機到集群的概括

Harbor 具有如下特性:

基于角色的訪問控制 :用戶與 Docker 鏡像倉庫通過項目進行組織管理,一個用戶在不同的項目里具有不同的權限。

鏡像復制 : 支持在多個 Registry 實例中復制(同步)鏡像,尤其適合于負載均衡,高可用的場景。

圖形化用戶界面 : 支持通過瀏覽器來瀏覽,檢索 Docker 鏡像倉庫,管理項目。

AD/LDAP 支持 : 支持集成企業內部已有的 AD/LDAP,用于鑒權認證管理。也提供了高級的安全特性,諸如用戶管理,訪問控制和活動日志等。

RESTful API : RESTful API 實現對 Harbor 更多操控的接口,與其它管理軟件集成變得更容易。

部署簡單 : 提供在線和離線兩種安裝方式。

— 總結 —

本文是 AI 計算系列的收尾篇,在 AI 計算:從單機到集群(上)和 AI 計算:從單機到集群(中)基礎上,擴展介紹平臺的整體架構實現,并選擇架構中的部分子系統做詳細的描述。在本文介紹完成之后,大家應該具有這樣一個概念:一個高效完備的平臺僅僅具有計算調度系統的功能是不夠的,需要有相應的高 IO 和高可靠性的分布式存儲平臺與之相匹配。除此之外,還需要用戶友好的平臺控制中心,包括各種提供平臺支撐的管理系統和監控系統等。

AI 計算系列三篇文章分享暫時告一段落,由于篇幅限制,很多內容沒有機會詳細展開和闡述,但是希望大家能夠通過這三篇介紹,窺一斑而見全豹,了解面向 AI 計算的高效平臺的基本概念,進而能夠幫助大家實現從單機到集群,再到完備高效計算平臺的目標。后續有機會我們會再次為大家介紹 AI 計算平臺相關內容。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲系統
    +關注

    關注

    2

    文章

    416

    瀏覽量

    40984
  • 人工智能
    +關注

    關注

    1799

    文章

    47965

    瀏覽量

    241296
  • 計算平臺
    +關注

    關注

    0

    文章

    56

    瀏覽量

    9699
收藏 0人收藏

    評論

    相關推薦

    深入了解_環形變壓器額定功率計算公式

    深入了解_環形變壓器額定功率計算公式
    發表于 08-20 14:55

    深入了解示波器

    深入了解示波器
    發表于 11-14 22:32

    專家開講:深入了解電池技術 ──Part 1

    。筆者不會一一詳細介紹所有的電池技術,只選擇一些常見或是值得認識的;而在接下來的專欄里,筆者將開始介紹電池分類、常見規格以及專業術語,如果你有特別想知道的電池技術,歡迎留言!擴展閱讀:專家開講:深入了解
    發表于 08-18 09:33

    專家開講:深入了解電池技術──Part 3

    資深工程師 Ivan Cowie 的「深入了解電池技術」專欄Part 3來啰!這次要介紹的是鉛酸電池(lead-acidbatteries)技術。鉛酸電池是在1859年由法國物理學家Gaston
    發表于 08-18 09:37

    單片機的深入了解!

    項目名稱:單片機的深入了解!項目是否開源:否申請開發板數量:1 塊申請人團隊介紹:我們團隊由五個人組成,我們打算開始著手單片機的程序改編,設計一些比較特殊新穎的東西!希望給以支持!
    發表于 10-12 20:00

    深入了解LabVIEW FPGA資料分享

    深入了解LabVIEW FPGA
    發表于 05-27 08:35

    深入了解主動電掃描陣列(AESA)雷達系統

    深入了解主動電掃描陣列(AESA)雷達系統
    發表于 05-24 06:51

    示波器的深入了解

    示波器的深入了解 引言自然界運行著各種形式的正弦波,比如海浪、地震、聲波、爆破、空氣中傳播的聲音,或者身體運轉的自然節律。物理世界里,能
    發表于 11-04 11:53 ?52次下載
    示波器的<b class='flag-5'>深入了解</b>

    深入了解示波器入門手冊

    深入了解示波器入門手冊
    發表于 03-27 17:43 ?241次下載
    <b class='flag-5'>深入了解</b>示波器入門手冊

    深入了解電路噪聲的那些事

    模擬電子的相關知識學習教材資料——深入了解電路噪聲的那些事
    發表于 09-27 15:19 ?0次下載

    深入了解電感與磁珠的異同

    模擬電子的相關知識學習教材資料——深入了解電感與磁珠的異同
    發表于 09-27 15:19 ?0次下載

    AI計算教程,單機集群

    這里需要進一步說明下使用 k8s-device-plugin 的一個小 bug,由于 GPU 計算節點上的 docker runtime 默認設置為 Nvidia runtime,而 Nvidia runtime 的 NVIDIA_VISIBLE_DEVICES 環境變量默認值為 all。
    的頭像 發表于 08-09 09:20 ?2387次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>計算</b>教程,<b class='flag-5'>從</b><b class='flag-5'>單機</b><b class='flag-5'>到</b><b class='flag-5'>集群</b>

    帶你深入了解示波器

    帶你深入了解示波器
    發表于 02-07 14:26 ?19次下載

    深入了解安全光柵

    深入了解安全光柵
    的頭像 發表于 06-25 13:53 ?1314次閱讀
    <b class='flag-5'>深入了解</b>安全光柵

    深入了解 GaN 技術

    深入了解 GaN 技術
    的頭像 發表于 12-06 17:28 ?6307次閱讀
    <b class='flag-5'>深入了解</b> GaN 技術

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品
    主站蜘蛛池模板: 国产美女裸身网站免费观看视频 | 亚洲精品入口一区二区乱麻豆精品 | 好硬好湿好大再深一点动态图 | 亚洲国产精品久久精品成人网站 | 中文字幕亚洲男人的天堂网络 | 迅雷成人下载 | 色婷婷AV国产精品欧美毛片 | 一本大道熟女人妻中文字幕在线 | 免费观看成人www精品视频在线 | 爽爽影院线观看免费 | 国产主播AV福利精品一区 | 韩国女主播内部vip自带氏巾 | 亚洲精品成人无码区一在线观看 | 亚洲精品久久无码AV片银杏 | av淘宝 在线观看 | 亚洲国产精品自在自线观看 | 日本久久网站 | gratis videos欧美最新| 精品少妇爆AV无码专区 | 国产成人精品三级在线 | 亚洲 自拍 偷拍 另类综合图区 | 久久伊人久久 | 久久九九亚洲精品 | 国产精品一区二区四区 | 無码一区中文字幕少妇熟女网站 | 日产精品久久久久久久蜜殿 | 我的美女奴隶 | 最新亚洲中文字幕在线观看 | 强开乳罩摸双乳吃奶视频 | 秋霞三级理伦免费观看 | 门事件快播| 亚洲精品在看在线观看 | 天堂Av亚洲欧美日韩国产综合 | 久青草国产在线视频亚瑟影视 | 亚洲大片免费观看 | 午夜久久影院 | 日韩精品一区二区亚洲AV观看 | 你的欲梦裸身在线播放 | 超碰在线97久久视频观看 | 王雨纯羞羞 | 米奇在线8888在线精品视频 |