色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA Cosmos世界基礎模型平臺的主要功能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-01-15 11:03 ? 次閱讀

隨著機器人技術和自動駕駛汽車的發展,加快物理 AI 的開發工作變得至關重要。物理 AI 使自主機器能夠感知、理解并執行物理世界中的復雜操作,而這些系統的核心是世界基礎模型(WFM)。這種 AI 模型通過物理感知視頻仿真物理狀態,使機器能夠做出準確的決策并與周圍環境進行無縫交互。

NVIDIA Cosmos 是一個幫助開發者為物理 AI 系統大規模構建定制世界模型的平臺。從數據整理、訓練到定制,它為每個開發階段提供了開放世界基礎模型和工具。

本文將介紹 Cosmos 及其加速物理 AI 開發的主要功能。

使用 NVIDIA Cosmos

加速世界模型開發

物理 AI 的構建難度極大,需要進行精確的仿真并理解和預測現實世界的行為。世界模型是克服這些挑戰的關鍵工具,它可以根據過去的觀察結果和當前的輸入預測未來的環境狀態。這些模型使物理 AI 構建者能夠在受控環境中仿真、訓練和完善系統,因此對他們價值連城。

但開發有效的世界模型需要大量數據、算力和現實世界測試,這可能會帶來巨大的安全風險、后勤障礙和高昂的成本。為了解決這些問題,開發者通常會使用 3D 仿真生成的合成數據訓練模型。雖然合成數據是一種強大的工具,但創建合成數據需要耗費大量資源,而且可能無法準確反映現實世界的物理特性,尤其是在復雜或邊緣場景中。

NVIDIA Cosmos 端到端平臺能夠加速物理 AI 系統世界模型的開發。Cosmos 基于 CUDA 構建,結合了目前最先進的世界基礎模型、視頻 tokenizer 和 AI 加速數據處理管線。

開發者可以通過微調 Cosmos 世界基礎模型或從頭開始構建新模型來加速世界模型的開發。除了 Cosmos 世界基礎模型,該平臺還包含:

用于高效整理視頻數據的 NVIDIA NeMo Curator

用于高效、緊湊和高保真視頻 token 化的 Cosmos Tokenizer

用于機器人和自動駕駛應用的預訓練 Cosmos 世界基礎模型

用于模型訓練和優化的 NVIDIA NeMo Framework

ce13ead8-d269-11ef-9310-92fbcf53809c.jpg

圖 1 NVIDIA Cosmos 是一個加速物理 AI 開發的世界基礎模型開發平臺,包含生成模型、數據采集器、tokenizer 和框架。

適用于物理 AI 的

預訓練世界基礎模型

Cosmos 世界基礎模型是在 9000 萬億個 token(包括來自自動駕駛、機器人、合成環境和其他相關領域的 2000 萬小時數據)上訓練而成的預訓練大型生成式 AI 模型。這些模型能夠創建逼真的環境和交互式合成視頻,為訓練復雜的系統(從執行高級動作的人形機器人仿真到端到端自動駕駛模型的開發)提供了一個擴展自如的基礎。

這些模型按架構可分為兩種:自回歸和擴散,并且均使用 Transformer 架構。這種架構擴展自如,并且能夠有效應對復雜的時間依賴性。

自回歸模型

Cosmos 自回歸模型專為視頻生成設計,可根據輸入文本和過去的視頻幀預測下一個 token。它使用了 Transformer 解碼器架構,并且對世界模型的開發作出了多項關鍵改進。

3D RoPE(旋轉位置嵌入)分別對空間和時間維度進行編碼,確保精確的視頻序列表示。

交叉注意層實現了文本輸入,提高了對世界生成的控制力。

QK 歸一化提高了訓練的穩定性。

該模型的預訓練循序漸進,從預測一個單輸入幀的 17 個未來幀開始,擴展到 34 個幀,最終達到 121 個幀(或 50000 個 token)。通過引入文本輸入,將描述與視頻幀相結合,并使用高質量數據對模型進行微調,最終獲得穩健的性能。這種結構化的方法使模型無論是否有文本輸入,都能夠生成不同長度和復雜程度的視頻。

ce277fa8-d269-11ef-9310-92fbcf53809c.png

圖 2 Cosmos 自回歸模型使用 Transformer 解碼器架構,并且對世界模型的開發作出了多項關鍵的改進

擴散模型

擴散模型由于能夠解構訓練數據并根據用戶輸入進行重建,從而生成高質量的逼真輸出,因此被普遍用于生成圖像、視頻和音頻

擴散模型的運行分為兩個階段:

前向擴散過程:通過在多個步驟中添加高斯噪聲,逐步破壞訓練數據,從而有效地將其轉化為純噪聲。

反向擴散過程:模型學會逐步逆轉噪聲,通過對損壞的輸入數據進行去噪處理來恢復原始數據。

經過訓練的擴散模型通過對隨機高斯噪聲進行采樣并將其傳遞到所學的去噪過程來生成新數據。此外,Cosmos 擴散模型還針對物理 AI 開發進行了多項關鍵更新。

3D 補丁化將視頻處理成更小的補丁,簡化了時空序列表示。

混合位置嵌入處理空間和時間維度,支持不同分辨率和幀率的視頻。

交叉注意層包含文本輸入,可根據描述更好地控制視頻生成。

借助 LoRA 實現的自適應層歸一化可將模型大小減少 36%,從而減少保持高性能所需的資源。

ce3e5214-d269-11ef-9310-92fbcf53809c.png

選擇不同大小的模型滿足各種需求

開發者可根據性能、質量和部署需求選擇以下三種大小的模型。

Nano:專為實時、低延遲推理和邊緣部署優化。

Super:高性能基準模型。

Ultra:追求最高的質量和保真度,是蒸餾定制模型的理想選擇。

優勢和局限性

Cosmos 世界基礎模型可生成低分辨率、與現實世界精準匹配的合成視頻數據,這些數據是訓練機器人和自動駕駛汽車系統的關鍵。雖然這些模型缺乏藝術感,但其輸出結果與物理世界非常接近,因此非常適合用于在物理AI模型訓練中實現精確的物體恒存和逼真的場景。

通過護欄保障 Cosmos 基礎模型的

安全使用

AI 模型需要護欄保證其可靠性,包括減少幻覺、防止輸出有害內容、保護隱私以及與 AI 標準保持一致,從而實現安全可控的部署。Cosmos 通過符合 NVIDIA 可信 AI 承諾的定制雙段護欄系統,保障世界基礎模型的安全使用。

Cosmos Guardrails 的運行分為兩個階段:前防護和后防護。

前防護

該階段包含兩層基于文本提示的安全措施:

關鍵詞屏蔽:攔截列表檢查器掃描提示中的不安全關鍵詞,使用詞素化檢測變體并攔截非英語術語或拼寫錯誤。

Aegis 護欄:NVIDIA 經過微調的 Aegis AI 內容安全模型可檢測并阻止語義上不安全的提示,包括暴力、騷擾和褻瀆等類別。如果檢測到不安全的提示,就會停止視頻生成并返回錯誤信息

后防護

后防護階段通過以下方式保障生成視頻的安全性:

視頻內容安全分類器:該多類分類器會對視頻進行逐幀安全評估。一旦有任何幀被標記為不安全,整個視頻將被拒絕。

人臉模糊過濾器:使用 RetinaFace 模型對生成視頻中的所有人臉進行模糊處理,以保護隱私并減少年齡、性別或種族偏見。

為了完善系統和覆蓋邊緣情況,NVIDIA 專家使用對抗性示例進行了嚴格的測試,對 10000 多對提示-視頻添加了注釋。

評估 Cosmos 世界基礎模型的

3D 一致性和物理一致性

世界基礎模型能夠為物理 AI 應用準確、高效地仿真現實世界的物理特性,Cosmos 基準測試在評估這一能力方面起到了至關重要的作用。目前,公開的視頻生成基準測試側重于生成視頻的保真度、時間一致性和速度,而 Cosmos 基準測試則增加了一個評估通用模型的新維度—— 3D 一致性和物理一致性,以便根據物理 AI 系統對準確性的要求對視頻進行評估。

3D 一致性

我們從一個開放數據集中整理了 500 個視頻子集,然后在這些視頻子集的靜態場景中對 Cosmos 模型進行了 3D 一致性測試。為避免與運動相關的復雜性,我們生成了描述視頻的文本提示。我們將測試結果與基準生成模型 VideoLDM 進行了比較。

使用的指標

幾何一致性:使用 Sampson 誤差和攝像機姿態估計成功率等指標,通過極線幾何約束技術進行評估。

視圖合成一致性:使用峰值信噪比(PSNR)、結構相似性指數(SSIM)和學習感知圖像補丁相似性(LPIPS)等指標進行評估。這些指標衡量的是根據插值攝像機位置合成視圖的質量。

Sampson 誤差越低、成功率越高,說明 3D 對齊度越高。同樣,PSNR 和 SSIM 越高、LPIPS 越低,說明質量越高。

ce536f82-d269-11ef-9310-92fbcf53809c.png

表 1 Cosmos 世界基礎模型與 VideoLDM 基本模型的 3D 一致性評估結果比較

結果

Cosmos 世界基礎模型在 3D 一致性方面優于基準模型(表 1),其幾何對齊度和攝像機姿勢成功率更高。這些模型合成的視圖與現實世界的質量相匹配,證明了它們可以作為有效的世界仿真器

物理對齊度

物理對齊度測試了 Cosmos 模型仿真現實世界物理特性(包括運動、重力和能量動態)的效果。我們使用 NVIDIA PhysX 和 NVIDIA Isaac Sim 設計了八個受控場景,以便評估虛擬環境中的重力、碰撞、扭矩、慣性等屬性。

使用的指標

像素級指標:峰值信噪比(PSNR)衡量模型輸出的像素值與參考視頻的匹配程度。數值越高,說明噪聲越小,準確度越高。結構相似性指數(SSIM)評估生成的幀與基準真相幀在結構、亮度和對比度方面的相似性。SSIM 值越高,視覺保真度就越高。

特征級度量:DreamSim 衡量從兩段視頻中提取的高級特征之間的相似度。該方法可評估生成內容的語義一致性,側重于物體和運動而非單個像素。

物體級指標:IoU(Intersection-over-Union)計算視頻中預測物體區域與實際物體區域的重疊度,尤其適合用于通過仿真追蹤特定物體以確保其行為符合物理預期。

PSNR、SSIM、DreamSim 和 IoU 越高,表示物理對齊度越高。

ce64f43c-d269-11ef-9310-92fbcf53809c.jpg

表 2 在 Cosmos 世界基礎模型自回歸變體所支持的最大長度——33 幀上根據各指標計算出的物理對齊度結果

結果

Cosmos 世界基礎模型顯示出與物理定律的高度一致性(表 2),尤其是在增加調節數據的情況下。與基準模型相比,在攝像機調節數據集上進行的后訓練使姿勢估計成功率提高了兩倍。但也發現了需要重點改進的地方,如物體無常性(物體意外消失或出現)和不合常理的行為(如違反重力)。

使用 Cosmos 和 NVIDIA Omniverse

為物理 AI 應用定制模型

視頻搜索和理解:通過理解空間和時間模式簡化視頻標記和搜索,使訓練數據的準備工作更加輕松。

可控的 3D 轉真實合成數據生成:借助 NVIDIA Omniverse,開發者可以創建 3D 場景并使用 Cosmos 生成逼真的視頻。可通過 3D 場景精準控制生成的視頻,獲得高度定制化的合成數據集。

策略模型開發和評估:專為以行動為條件的視頻預測而微調的世界基礎模型可對策略模型(將狀態映射到行動的策略)進行可擴展、可重復的評估,從而減少對有風險的現實世界測試或復雜仿真任務的依賴,例如障礙物導航或物體操作。

行動選擇預測:Cosmos 為物理 AI 模型提供了評估潛在行動結果的預測能力。

多重宇宙模擬:借助 Cosmos 和 NVIDIA Omniverse,開發者可以模擬多種未來結果,幫助 AI 模型評估和選擇實現目標的最佳策略。從中受益的應用包括預測性維護、自主決策等。

從通用模型到定制專業模型

Cosmos 引入了一種分為兩個階段的世界模型訓練方法。

通用模型:Cosmos 世界基礎模型作為通用模型構建并在廣泛的數據集上訓練而成。所使用的數據集包括各種現實世界的物理和環境。這些開放式模型能夠處理從自然動力學到機器人交互等廣泛的場景,為一切物理 AI 任務提供了堅實的基礎。

專業模型:開發者可以使用更小但更具針對性的數據集對通用模型進行微調,以創建專為特定應用(例如自動駕駛或人形機器人)量身定制的專業模型或者生成定制的合成場景(例如帶有緊急車輛的夜景或高保真工業機器人環境)。與從頭開始訓練模型相比,該微調過程大大減少了所需的數據和訓練時間。

Cosmos 通過高效的視頻處理管線、高性能 tokenizer 和先進的訓練框架加快了訓練和微調的速度,使開發者能夠滿足運營需求并覆蓋邊緣案例,推進了物理 AI 的開發工作。

使用 NVIDIA NeMo Curator 加速數據處理

為了訓練模型,需要投喂經過整理的高質量數據,這需要耗費大量時間和資源。NVIDIA Cosmos 包含一個由 NVIDIA NeMo Curator 驅動并專為 NVIDIA 數據中心 GPU 優化的數據處理和整理管線。

NVIDIA NeMo Curator 使機器人和自動駕駛汽車開發者能夠高效處理龐大的數據集。以 2000 萬小時的視頻為例,在NVIDIA Hopper GPU 上處理只需 40 天,在 NVIDIA Blackwell GPU 上處理只需 14 天,而使用未優化的 CPU 管線處理則需要 3.4 年。

主要優點包括:

整理速度提高了 89 倍:大幅縮短處理時間

可擴展性:無縫處理 100 PB 以上的數據

高吞吐量:先進的過濾、字幕添加和嵌入功能可在不影響速度的情況下確保質量

ce81e0ec-d269-11ef-9310-92fbcf53809c.png

圖 4 Cosmos 包含可將視頻數據處理速度提高 89 倍的 NeMo Curator

使用 Cosmos Tokenizer 進行高保真壓縮和重建

在對數據進行整理后,需要對其進行 token 化才能用于訓練。token 化將復雜的數據分解為易于管理的單元,使模型能夠更加高效地處理和學習數據。

Cosmos tokenizer 簡化了這一過程,在保持質量、降低成本和復雜性的同時,加快了壓縮和可視化重建的速度。用于自回歸模型的離散 tokenizer 將數據處理時間縮短了 8 倍并將數據所占空間壓縮了 16×16 倍,一次最多可處理 49 個幀。用于擴散模型的連續 tokenizer 將數據處理時間縮短了 8 倍并將數據所占空間壓縮了 8×8 倍,最多可處理 121 個幀。

使用 NVIDIA NeMo 進行微調

開發者可以使用 NVIDIA NeMo 框架對 Cosmos 世界基礎模型進行微調。無論是在本地數據中心還是在云端,NeMo Framework 都能加快在 GPU 驅動的系統上訓練模型的速度,幫助開發者增強現成的模型或構建新的模型。

NeMo Framework 通過以下方式實現多模態數據的高效加載:

將 TB 大小的數據集分片成多個壓縮文件,以減少 IO 開銷。

確定性地保存和加載數據集,以避免重復并最大程度地減少計算浪費。

在交換數據時,使用經過優化的通信方式減少網絡帶寬。

開始使用 NVIDIA Cosmos

Cosmos 世界基礎模型是開放模型并且可在 NGC 和 Hugging Face 上獲得。開發者還可在 NVIDIA API 目錄上運行 Cosmos 世界基礎模型。此外,API 目錄上還提供用于提高文本提示準確性的 Cosmos 工具、便于未來輕松識別 AI 生成序列的內置水印系統以及用于解碼增強現實應用視頻序列的專用模型。如需了解更多信息,請觀看演示。

用于加速數據處理管線的 NeMo Curator 以托管服務和 SDK 的形式提供。開發者現在可以申請搶先體驗。Cosmos tokenizer 是開放式神經網絡并且可在 GitHub 和 Hugging Face 上獲得。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    211

    文章

    28557

    瀏覽量

    207686
  • NVIDIA
    +關注

    關注

    14

    文章

    5049

    瀏覽量

    103351
  • AI
    AI
    +關注

    關注

    87

    文章

    31262

    瀏覽量

    269622

原文標題:CES 2025 | 使用 NVIDIA Cosmos 世界基礎模型平臺推進物理 AI 的開發工作

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問TIMx有哪些主要功能

    TIMx簡介TIMx主要功能
    發表于 11-09 08:56

    MusrLicManage的主要功能

    MusrLicManage簡介MusrLicManage主要功能
    發表于 12-16 07:22

    物聯網平臺主要功能是什么?常見的物聯網平臺有哪些?

    物聯網平臺主要功能是什么?常見的物聯網平臺有哪些?
    發表于 05-17 06:47

    ECC是什么?有什么主要功能

    ECC是什么?有什么主要功能
    發表于 06-21 07:00

    網卡實現的主要功能是什么

    從介質訪問控制方法的角度局域網可分為哪幾類?以太網交換機是根據什么去轉發數據幀的?網卡實現的主要功能是什么?
    發表于 10-20 06:24

    DC的主要功能或者主要作用是什么

    什么是DC?DC能接受多少種輸入格式?DC的主要功能或者主要作用是什么?如何配置DC?
    發表于 10-20 07:02

    電話伴侶的主要功能

    電話伴侶的主要功能          &n
    發表于 12-31 13:46 ?915次閱讀

    電話機的主要功能

    電話機的主要功能         
    發表于 12-31 14:37 ?1043次閱讀

    網絡電話的主要功能

     網絡電話的主要功能         
    發表于 12-31 14:53 ?733次閱讀

    bios的主要功能

    本視頻主要詳細介紹了bios的主要功能,分別是BIOS系統設置程序、POST上電自檢、BIOS系統啟動自舉程序、硬件IO和中斷服務。
    的頭像 發表于 03-28 15:10 ?7498次閱讀

    直線導軌的主要功能

    直線導軌的主要功能
    的頭像 發表于 07-26 17:42 ?1139次閱讀
    直線導軌的<b class='flag-5'>主要功能</b>

    AMI網絡的主要功能

    電子發燒友網站提供《AMI網絡的主要功能.pdf》資料免費下載
    發表于 11-27 11:56 ?0次下載
    AMI網絡的<b class='flag-5'>主要功能</b>

    NVIDIA Cosmos世界基礎模型平臺發布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進的生成式世界基礎模型、高級 tok
    的頭像 發表于 01-08 10:39 ?135次閱讀

    NVIDIA發布Cosmos?平臺,助力物理AI系統發展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos?平臺,該平臺專為自動駕駛汽車(AV)和機器人等物理AI系統而設計,旨在推動這些領域
    的頭像 發表于 01-08 15:36 ?282次閱讀

    NVIDIA發布Cosmos平臺,加速物理AI開發

    NVIDIA近日宣布了一項重大創新——推出NVIDIA Cosmos?平臺。該平臺集成了先進的生成式世界
    的頭像 發表于 01-13 11:06 ?235次閱讀
    主站蜘蛛池模板: 777EY_卡通动漫_1页| qvod电影网| 春水福利app导航| 葵司中文第一次大战黑人| 亚洲欧洲久久| 簧片在线免费观看| 亚洲综合网国产精品一区| 极品色αv影院| 一亲二脱三插| 久久久无码精品一区二区三区| 一区二区三区无码被窝影院| 国精产品一区一区三区有| 亚洲乱亚洲乱妇13p| 精品国产高清自在线看| 有码 亚洲 制服 国产 在线| 麻婆豆腐传媒视频免费| 99久久国内精品成人免费| 青青伊人久久| 国产国产成人人免费影院| 亚洲AV无码国产精品色午夜情 | 久热人人综合人人九九精品视频| 一本色道久久综合亚洲AV蜜桃| 精品无码无人网站免费视频| 中文字幕永久在线| 青青青伊人| 国产免费高清mv视频在线观看| 亚洲国产成人精品无码区99| 久久xxxx| 扒开 浓密 毛| 亚洲 欧美 综合 高清 在线| 久久久久综合网| YELLOW视频在线观看最新 | 欧美性猛交xxxxxxxx软件| 国产成人自产拍免费视频| 野花香在线观看免费高清播放视频| 蜜桃传媒视频| 国产高清在线观看视频| 伊久久| 人妻少妇偷人精品无码洋洋AV | 亚洲视频在线观看视频| 男女生爽爽爽视频免费观看|