伴隨著視覺 AI 復雜性的增加,精簡的部署解決方案已成為優(yōu)化空間和流程的關鍵。NVIDIA 能夠加快企業(yè)的開發(fā)速度,借助 NVIDIA Metropolis AI 工作流和微服務,企業(yè)只需數周就能將想法變成現(xiàn)實,而原本這項工作需要耗費數月時間。
本文將探討 Metropolis 微服務的功能:
借助 NVIDIA Metropolis 微服務進行云原生 AI 應用開發(fā)和部署
借助 NVIDIA Isaac Sim 進行仿真和合成數據生成
借助 NVIDIA TAO 套件進行 AI 模型訓練和微調
借助 PipeTuner 自動調整準確性
圖 1. 可擴展的現(xiàn)代視覺 AI 開發(fā)秘訣
借助 Metropolis 微服務和工作流
進行云原生 AI 應用開發(fā)和部署
使用 AI 對基礎設施進行管理和自動化具有一定的挑戰(zhàn)性,尤其是在超市、倉庫、機場、港口和城市等大而復雜的空間。這不僅需要增加攝像頭的數量,還需要在數萬乃至數十萬平方英尺的空間內,通過數百或數千個攝像頭構建能夠進行智能監(jiān)控、提取洞察,并突出顯示異常情況的視覺 AI 應用。
微服務架構可將復雜的多攝像頭 AI 應用分解成較小的獨立單位,這些單位通過定義明確的 API 進行交互,實現(xiàn)可擴展性、靈活性和彈性。該方法實現(xiàn)了每項微服務的獨立開發(fā)、部署和擴展,使整個應用更加模塊化和易于維護。
實時、可擴展的多攝像頭追蹤和分析應用包含以下關鍵組件:
多攝像頭追蹤模塊,用于匯總來自每個攝像頭的本地信息,并維護整個場景中的對象全局 ID
用于行為分析和異常檢測的各種模塊
軟件基礎設施,比如實時、可擴展的消息代理(例如 Kafka)、數據庫(例如 Elasticsearch)等
每個模塊必須是云原生微服務,以使您的應用具有可擴展性、分散性和彈性
圖 2. 使用 Metropolis 微服務
的可擴展視覺 AI 應用工作流
Metropolis 微服務為您開發(fā)視覺 AI 應用和解決方案提供了強大且可定制的云原生構建模塊,在提高彈性與安全性的同時,使從邊緣部署到云部署的原型設計、構建、測試和擴展過程變得更加簡單快捷。無論是倉庫和超市,還是機場和公路,這些微服務能夠加快各種空間獲得業(yè)務洞察的速度。
圖 3. 適用于視覺 AI 應用的 Metropolis 微服務套件
接下來的章節(jié)將詳細介紹一些關鍵的微服務:
媒體管理
感知
多攝像頭融合
媒體管理微服務
媒體管理微服務基于 NVIDIA 視頻存儲套件(VST),并提供了一種管理攝像頭和視頻的高效方式。VST 具有由硬件提供加速的視頻解碼、流式傳輸和存儲功能。
圖 4. 使用媒體管理微服務
來管理攝像頭和視頻文件
該微服務支持帶有控制和數據流的 ONVIF S 型配置文件設備 ONVIF 發(fā)現(xiàn)。您可以通過 IP 地址或 RTSP URL 手動管理設備。它還支持 H264 和 H265 視頻格式。VST 專為安全的行業(yè)標準協(xié)議和多平臺而設計。
感知微服務
感知微服務從媒體管理微服務獲取輸入數據,并在單個數據流中生成感知元數據(邊界框、單攝像機軌跡、Re-ID 嵌入向量)。隨后,它將這些數據發(fā)送到下游分析微服務,以進行進一步推理和深入分析。
圖 5. 使用感知微服務檢測并追蹤對象
該微服務使用 NVIDIA DeepStream SDK 構建。它通過提供能夠抽象化低級編程任務的預構建模塊和 API,為實時視頻 AI 推理提供了一種低代碼或無代碼方法。借助 DeepStream,您可以通過一個簡單的配置文件來配置復雜的視頻分析管線,指定對象檢測、分類、追蹤等任務。
多攝像頭融合微服務
多攝像頭融合微服務能夠聚合并處理多個攝像頭視圖的信息,通過 Kafka(或任何具有類似消息模式的自定義源)從感知微服務獲取感知元數據,并從攝像頭校準套件獲取外在校準信息作為輸入。
圖 6. 使用多攝像頭融合微服務
追蹤多個攝像頭中的對象
在這項微服務的內部,數據會進入行為狀態(tài)管理模塊,以維護之前批次的行為,并與傳入微批次的數據串接,創(chuàng)建出軌跡。
接下來,該微服務執(zhí)行分層聚類的兩個步驟,重新分配共存的行為并抑制重疊的行為。
最后,ID 合并模塊將單個對象的 ID 合并為全局 ID,從而保持多個傳感器觀測到的對象之間的相關性。
Metropolis AI 工作流
所提供的參考工作流和應用能幫助您評估和整合高級功能。
例如,多攝像頭追蹤(MTMC)工作流作為一項視頻分析參考工作流,可執(zhí)行多目標、多攝像頭追蹤,并提供一段時間內觀察到的唯一對象的計數。
圖 7. 使用多個 Metropolis 微服務
的多攝像頭追蹤工作流
該應用工作流從媒體管理微服務中獲取實時攝像頭視頻作為輸入。
它通過感知微服務執(zhí)行對象檢測和追蹤。
來自感知微服務的元數據進入多攝像頭融合微服務,以追蹤多個攝像頭中的對象。
并行線程進入經過擴展的行為分析微服務,首先對元數據進行預處理,并將圖像坐標轉換為世界坐標,然后運行狀態(tài)管理服務。
隨后,數據進入行為分析微服務,它與 MTMC 微服務一起以 API 端點的形式提供各種分析功能。
Web UI 微服務將結果可視化。
接口攝像頭校準
在大多數 Metropolis 工作流中,分析都是在真實世界坐標系中進行的。為了將攝像頭坐標轉換為真實世界坐標,我們提供了一個對用戶友好、基于網絡的攝像頭校準套件。該套件具有以下功能:
從 VMS 輕松導入攝像頭
用于在攝像頭圖像和平面圖之間選擇參考點的界面
用于自檢的即時重投影誤差
用于 ROI 和絆線的附加組件
圖像或建筑平面圖文件上傳
導出至網絡或 API
圖 8. Metropolis 攝像頭校準套件
這個直觀的套件簡化了攝像頭的設置和校準過程,實現(xiàn)了與 Metropolis 工作流和微服務的無縫集成。
2024 年 AI 城市挑戰(zhàn)賽
NVIDIA 多攝像頭追蹤工作流使用了多攝像頭人員追蹤數據集進行評估,該數據集來自與 CVPR 2024 聯(lián)合舉辦的第 8 屆 AI 城市挑戰(zhàn)賽(2024 年)研討會。這一數據集是該領域最大的數據集,涵蓋了 953 個攝像頭、2491 個人物和超過 1 億個邊界框,分為 90 個子集。數據集的視頻總時長為 212 分鐘,以每秒 30 幀的幀率高清(1080p)錄制。
NVIDIA 的這一方法取得了 68.7% 的 HOTA 高分,在 19 支國際團隊中排名第二(圖 9)。
圖 9. 2024 年 AI 城市挑戰(zhàn)賽
MTMC追蹤基準測試排行榜
該基準測試僅關注批處理模式(即應用可以訪問整個視頻)下的準確性。在線運行或流式運行的應用只能訪問歷史數據,不能訪問相對于當前幀的未來數據。這可能會使某些已提交的方法變得不切實際,或需要進行大規(guī)模的重構才能進行實際部署。該基準測試未考慮的因素包括:
從輸入到預測的延遲
運行時吞吐量(在既定計算平臺或預算范圍內可運行多少流)
可部署性
可擴展性
大多數團隊無需對這些方面進行優(yōu)化。
而 Metropolis 微服務中的多攝像頭追蹤除準確性外還必須考慮和優(yōu)化所有這些因素,以便能夠將實時、可擴展的多攝像頭追蹤部署到生產用例中。
一鍵式微服務部署
Metropolis 微服務支持在 AWS、Azure 和 GCP 上一鍵部署。部署工件和說明可在 NGC 上下載,因此您只需提供一些前提參數,就能在自己的云賬戶上快速啟動端到端 MTMC 應用。每個工作流都打包了一個 Compose 文件,因此也可以使用 Docker Compose 進行部署。
對于邊緣到云攝像頭流式傳輸,可以使用在邊緣運行的媒體管理客戶端(VST 代理),將邊緣的攝像頭連接到在任何一家 CSP 中運行的 Metropolis 應用,以進行分析。
這一簡化的部署流程使您能夠在各種云平臺上快速構建、測試和擴展視覺 AI 應用,從而減少將解決方案投入生產所需的時間和精力。
借助 Isaac Sim 進行
仿真和合成數據生成
訓練專用于特定用例的 AI 模型需要各種經過標記的數據集,而采集這些數據集往往成本高昂且耗時漫長。通過計算機仿真生成的合成數據是一種性價比更高的替代方法,能夠減少訓練的時間和費用。
仿真與合成數據在現(xiàn)代視覺 AI 開發(fā)周期中發(fā)揮著至關重要的作用:
生成合成數據并將其與真實數據相結合,以提高模型的準確性和通用性
幫助開發(fā)和驗證具有多攝像頭追蹤與分析功能的應用
調整部署環(huán)境,例如提出優(yōu)化的攝像頭角度或覆蓋范圍
NVIDIA Isaac Sim 可與合成數據生成(SDG)管線無縫集成,為加強 AI 模型訓練以及改進端到端應用設計與驗證提供了精密的配套工具。無論是機器人、工業(yè)自動化,還是智慧城市、零售分析,您都可以生成適用于各種應用的合成數據。
圖 10. 借助 NVIDIA Isaac Sim
創(chuàng)建用于 AI 訓練的合成數據集
Isaac Sim 中的 Omni.Replicator.Agent (ORA) 擴展程序可簡化人員和自主移動機器人(AMR)等智能體的仿真,并從包含這些智能體的場景中生成合成數據。
ORA 提供帶有默認環(huán)境、資產和動畫的 GPU 加速解決方案,為自定義集成提供助力。其自動攝像頭校準功能能夠生成與 Metropolis 微服務中的工作流兼容的校準信息,例如后文提到的多攝像頭追蹤(MTMC)工作流。
圖 11. 借助 ORA 擴展程序創(chuàng)建的場景
借助 TAO 套件
進行 AI 模型訓練和微調
Metropolis 微服務采用一些基于 CNN 和 Transformer 的模型,這些模型最初在真實數據集上進行預訓練,然后使用合成數據進行增強,以實現(xiàn)更加強大的泛化和應對罕見情況。
基于 CNN 的模型:
a.PeopleNet:基于NVIDIA DetectNet_v2架構。已在 760多萬張圖像上進行了預訓練,其中包含 7100 多萬個人物對象。
b.ReidentificationNet:使用 ResNet-50骨干。在真實數據集與合成數據集所組成的組合數據集上訓練而成,包括 Market-1501 數據集中的 751 個唯一 ID 和 MTMC 人員追蹤數據集中的 156 個唯一 ID。
基于轉換器的模型:
a.PeopleNet 轉換器:使用帶有 FAN-Small 特征提取器的 DINO 對象檢測器。在 OpenImages 數據集上進行預訓練,并在包含 150 多萬張圖像和 2700 多萬個人物對象的專有數據集上進行微調。
b.ReID 轉換器模型:采用 Swin 骨干并結合 SOLIDER 等自我監(jiān)督學習技術,生成適用于人員再識別的強大人類表征。該預訓練數據集包含由專有數據集與 Open Image V5 等開放數據集組成的組合數據集,共有 14392 張合成圖像(包含 156 個唯一 ID)和 67563 張真實圖像(包含 4470 個 ID)。
除了直接使用這些模型外,您還可以使用 NVIDIA TAO 套件在自定義數據集上輕松地對這些模型進行微調,以提高它們的準確性,并優(yōu)化新訓練的模型在幾乎任何平臺上的推理吞吐量。TAO 套件基于 TensorFlow 和 PyTorch 構建。
圖 12. NVIDIA TAO 套件架構
借助 PipeTuner 自動調整準確性
PipeTuner 是一款專門用于簡化 AI 管線調整工作的全新開發(fā)者工具。
AI 服務通常包含大量用于推理和追蹤的參數,因此要找到能夠最大程度提高特定用例準確性的最佳設置具有一定的挑戰(zhàn)性。而要進行手動調整,就需要對每個管線模塊有深入的了解,這在大量高維參數空間的情況下不切實際。
PipeTuner 能夠解決此類問題,它可以根據所提供的數據集自動識別最佳參數,使關鍵性能指標(KPI)達到最佳。通過高效探索參數空間,PipeTuner 簡化了整個優(yōu)化過程,使用戶即便不具備管線及其參數方面的技術知識也能使用。
圖 13. NVIDIA PipeTuner 套件工作流
總結
Metropolis 微服務在提高彈性和安全性的同時,簡化并加速了從邊緣部署到云部署的原型設計、構建、測試和擴展過程。這些微服務不但十分靈活、易于配置且無需編碼,而且封裝了高效的 CNN 和基于 Transformer 的模型,以滿足您的要求。只需點擊幾下,即可將整個端到端工作流部署到公有云或生產中。
通過使用 NVIDIA Isaac Sim、NVIDIA TAO 套件、PipeTuner 和 NVIDIA Metropolis 微服務,您可以輕松創(chuàng)建功能強大的實時多攝像頭 AI 解決方案。這一綜合全面的平臺能夠幫助各個行業(yè)的企業(yè)獲得有價值的洞察,并優(yōu)化空間和流程。
-
NVIDIA
+關注
關注
14文章
4996瀏覽量
103223 -
微服務
+關注
關注
0文章
137瀏覽量
7363 -
數字孿生
+關注
關注
4文章
1330瀏覽量
12273
原文標題:借助 NVIDIA Metropolis 微服務和 NVIDIA Isaac Sim,實現(xiàn)從數字孿生到云原生部署的實時視覺 AI
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論