推理因其靈活性而成為邊緣計算的殺手級應用。今天,邊緣推理(也稱為邊緣 AI)解決了各個行業的問題:防止盜竊、發現疾病和減少農田中除草劑的使用。但對許多人來說,管理分布式邊緣服務器的復雜性可能會侵蝕業務價值。
邊緣人工智能數據中心在一個位置上沒有 10000 臺服務器。它在 10000 個位置有一個或多個服務器,通常位于沒有物理安全或訓練有素的 It 人員的位置。因此,邊緣人工智能服務器必須安全、有彈性,并且易于大規模管理。
圖 1 。使用 edge AI 的數據中心到云工作流
這就是為什么組織正在轉向云本地技術來管理其邊緣 AI 數據中心。
什么是云本機?
定義 Cloud Native 就像一個關于蒙著眼睛描述大象的笑話。你是在摸象牙、鼻子還是尾巴?
對于 IT 管理員來說,云本機意味著以代碼形式管理基礎設施。
軟件開發人員使用云本地工具和技術來編寫可移植應用程序。
IT 主管們擁抱云文化以降低成本并提高效率。
結合這些觀點, Cloud Native 是一種現代的軟件開發方法,它使用抽象和自動化來支持可擴展性、可移植性和快速交付。
容器化微服務是云本地應用程序的有效標準。Kubernetes是容器編排的市場領先平臺。它使用 de Clara 動態 API 支持大規模自動化。
Cloud native 誕生于公共云,但它正在企業中迅速傳播。 Gartner 預測,容器編排市場將增長到到 2024 年為 9 。 44 億美元。
云計算基礎( CNCF )為生態系統提供供應商中立的治理。 CNCF 策劃并支持開源、云本地軟件項目。 Containerd 、 Prometheus 和 Kubernetes 是 CNCF 維護的熱門項目。
為什么邊緣 AI 使用云計算?
云本機與邊緣計算有何關聯?為大規模公共云構建的工具能否使具有一個或兩個節點的邊緣位置受益?
簡而言之,答案是肯定的。云本機架構提供的不僅僅是巨大的可擴展性。它還提供性能、恢復力和易管理性,這些都是 edge AI 的關鍵功能。
性能
在過去 15 年中,企業傾向于使用虛擬機( VM )將應用程序整合到更少的服務器上。但是虛擬化開銷會降低應用程序性能。
邊緣 AI 偏愛容器。在邊緣,性能是王者。自動駕駛汽車必須在“看到”行人時猛踩剎車。容器以***金屬性能運行。而且許多容器可以共享同一臺服務器,從而整合應用程序,而無需虛擬化帶來的性能開銷。
Kubernetes 還可以通過優化工作負載布局來提高邊緣 AI 性能。 CPU 管理策略為特定工作負載隔離 CPU。這減少了上下文切換和緩存未命中。設備插件框架將加速器(如 GPU 或 FPGA )暴露在吊艙中。拓撲管理器將 CPU 、內存和加速器資源沿 NUMA 域對齊,從而減少昂貴的跨 NUMA 流量。
業務和管理
邊緣人工智能數據中心 MIG ht 跨越數百個位置。云原生工具支持公共云的大規模可擴展性,管理員可以使用相同的工具來管理邊緣 AI 數據中心。
圖 2 。邊緣人工智能數據中心的高級體系結構
第一天的操作包括初始部署和測試。 Kubernetes 具有足夠的靈活性,能夠在第一天就支持不同的體系結構。
在一個極端,整個 edge 數據中心是一個 Kubernetes 集群。此體系結構需要在集中式 API 端點和遠程工作者之間進行可靠通信。 API 端點通常是基于云的。
在另一個極端,每個邊緣節點都是一個獨立的集群,并維護自己的控制平面和應用程序。這種體系結構適用于間歇性或不可靠的集中式通信。
Kubernetes 還支持集群聯合。聯邦集群共享單一的應用程序配置源,但在其他方面是獨立的。聯合適用于松散耦合的邊緣站點。例如,醫院系統可以聯合起來共享患者數據。
部署第一天之后,邊緣數據中心管理將轉移到第二天操作。更新、升級和監視是第二天的操作。自動化和遠程第二天操作對于缺乏本地支持人員的邊緣位置的穩定性和安全性至關重要。
云本機生態系統包括許多用于集中觀察的流行工具。Prometheus是一個開源的監視和警報工具包。Grafana是一個開源的可觀察性工具,可以在圖形儀表板中顯示數據。
軟件生命周期管理也是第二天操作的一個重要方面。修補 VM 映像需要長時間的測試。容器與其依賴項捆綁在一起,并通過穩定的接口與內核交互。這使 CI / CD 和其他支持邊緣快速變化的云本機實踐成為可能。
應用彈性
彈性是指應用程序克服問題的能力。這是 cloud native 讓 edge AI 受益的另一個領域。
云本地應用程序通常通過擴展提供恢復能力。同一應用程序的多個克隆在負載平衡器后面運行,當克隆失敗時,服務將繼續。
這種方法在應用程序跨越兩個或多個節點的邊緣 AI 部署中效果良好。但許多邊緣人工智能數據中心每個位置只有一個節點。
Kubernetes 還支持單節點上的應用程序恢復能力。容器重啟策略自動重新啟動故障吊艙, Kubelet 可以使用活性探針檢測需要重新啟動的非故障條件。
edge AI 基礎設施軟件也應該具有彈性。Kubernetes 算子模式將基礎設施管理置于自動駕駛狀態,自動執行人工通常執行的任務。例如,在邊緣節點上檢測到內核升級的 Kubernetes 操作符將自動將節點的驅動程序重新編譯為新的內核版本。
挑戰
Cloud native 提供了彈性和性能,同時簡化了操作。這些是邊緣 AI 的關鍵考慮因素。然而,仍有一些領域必須繼續發展云計算。
超低延遲邊緣應用程序需要更好地了解底層硬件。例如,確定 CPU 中哪個內核的延遲最低。容器編排平臺還希望改進多租戶的工作負載隔離。云原生邊緣 AI 的好處和挑戰只是我們在即將到來的虛擬 GTC 人工智能會議十一月會議上探討的邊緣計算主題之一。
-
cpu
+關注
關注
68文章
10899瀏覽量
212607 -
NVIDIA
+關注
關注
14文章
5071瀏覽量
103490 -
邊緣計算
+關注
關注
22文章
3118瀏覽量
49306
發布評論請先 登錄
相關推薦
評論