本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU
以及亞馬遜云科技的 EFA 來訓練其
最大的新一代大語言模型(LLM)。
大語言模型的一切都很龐大——巨型模型是在數千顆 NVIDIA GPU 和海量的數據集上所訓練而成。
不過這可能會給想要使用生成式 AI 的企業帶來很多巨大的挑戰。NVIDIA NeMo(一個用于構建、自定義和運行 LLM 的框架)能夠幫助企業克服上述挑戰。
亞馬遜云科技(AWS)有一支由資深科學家和開發者組成的團隊,致力于為 Amazon Bedrock(一項用于基礎模型的生成式 AI 服務)創建 Amazon Titan 基礎模型。該團隊在過去幾個月中一直在使用 NVIDIA NeMo。
亞馬遜云科技高級應用科學家 Leonard Lausen 表示:“我們使用 NeMo 的一大原因是它具有可擴展性,其優化功能使我們能夠以較高的 GPU 利用率運行,同時能夠擴展到更大的集群,進而能夠更快地訓練出模型,并向客戶交付。”
實現真正的大規模訓練
NeMo 的并行技術可實現高效的大規模 LLM 訓練。當與亞馬遜云科技的 Elastic Fabric Adapter(EFA)配合使用時,團隊可以將 LLM 擴展到多顆 GPU 上,從而加快訓練速度。
EFA 為亞馬遜云科技客戶提供了一個 UltraCluster 聯網基礎設施,可直接連接 1 萬多顆 GPU,并使用 NVIDIA GPUDirect 繞過操作系統和 CPU。
這一結合使亞馬遜云科技的科學家們能夠提供出色的模型質量,這是只依靠其他數據并行方法無法大規模實現的。
通用框架
Lausen 表示:“NeMo 的靈活性支持亞馬遜云科技根據新的 Titan 模型、數據集和基礎設施的具體情況來定制訓練軟件。
亞馬遜云科技的創新成果包括從 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式傳輸。Lausen 表示:“由于 NeMo 本身就是基于標準化 LLM 訓練管線組件的常用程序庫(如 PyTorch Lightning)所構建的,因此整合這些改進很容易。”
亞馬遜云科技和 NVIDIA 的共同目標是將雙方的合作經驗融入到 NVIDIA NeMo 等產品和 Amazon Titan 等服務中,最終造福客戶。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。掃描下方海報二維碼,立即注冊 GTC 大會。
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3839瀏覽量
91662
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論