印度人打招呼的方式遠不止 Namaste、Vanakkam 和 Sat sri akaal 這三種。印度有 22 種憲法認可的語言,而根據印度人口普查記錄,該國還有 1500 多種語言。英語是互聯網上最常用的語言,而會說英語的印度居民只占到印度總人口的 10% 左右。
作為世界上人口最多的國家,印度正在快速推進數字化進程。印度企業和當地初創公司正在開發多語種 AI 模型,讓更多印度人能夠用自己的母語進行技術互動。這是主權 AI 的典型案例之一,主權 AI 指的是開發基于本地數據集,并且能夠反映某地區特定方言、文化和習俗的本國 AI 基礎設施。
這些項目正在構建各種印度語言和英語的語言模型,驅動企業的客服 AI 智能體、快速翻譯內容以便更多人獲取信息,并使服務更易覆蓋超過 14 億的多元化人口。
為了支持這些舉措,NVIDIA 為印地語這一印度最流行且使用者超過五億的語言推出了一個小語言模型。該模型被命名為Nemotron-4-Mini-Hindi-4B,現已作為一項NVIDIA NIM微服務提供,可輕松部署在任何 NVIDIA GPU 加速系統上用于優化性能。
印度 IT 服務和咨詢公司 Tech Mahindra 是首家使用 Nemotron Hindi NIM 微服務開發 AI 模型的公司。模型被命名為 Indus 2.0,主要針對印地語及其數十種方言。Indus 2.0 利用 Tech Mahindra 的高質量微調數據進一步提高模型的準確性,使銀行、教育、醫療及其他行業的客戶能夠提供本地化服務。
Tech Mahindra 在 10 月 23 日至 25 日于孟買舉行的 NVIDIA AI Summit 上展示了 Indus 2.0。該公司還使用NVIDIA NeMo開發了其主權大語言模型(LLM)平臺 TeNo。
NVIDIA NIM 使構建
印地語 AI 應用變得輕而易舉
Nemotron Hindi 模型擁有 40 億個參數,源自 NVIDIA 開發的一個 150 億參數多語種語言模型——Nemotron-4 15B。該模型由 NVIDIA NeMo(一個用于開發生成式 AI 的端到端云原生框架和微服務套件)使用真實印地語數據、合成印地語數據和等量英語數據所組成的數據集剪枝、蒸餾和訓練而成。
這個數據集由NVIDIA NeMo Curator創建。NeMo Curator 通過大規模處理用于訓練和定制的高質量多模態數據,提高了生成式 AI 模型的準確性。它還使用NVIDIA RAPIDS庫來加速多節點 GPU 系統上的數據處理管線,從而減少處理時間和總體擁有成本。NeMo Curator 還提供處理高質量數據所需的合成數據生成、數據過濾、分類和數據去重預建管線與構建模塊。
在使用 NeMo 進行微調后,最終模型在多項針對 80 億參數以下 AI 模型的準確性基準測試中處于領先地位。該模型被打包成一項 NIM 微服務,可輕松用于支持教育、零售、醫療等行業的用例。
其可作為NVIDIA AI Enterprise軟件平臺的一部分獲取。該軟件平臺為企業提供技術支持、企業級安全等額外資源,幫助企業簡化生產環境中的 AI 開發。
多家企業為印度的多語種人口提供服務
印度各地的創新公司、大型企業和全球系統集成商都在使用 NVIDIA NeMo 構建定制語言模型。
NVIDIA 初創加速計劃會員公司正在使用 NeMo 開發多種印度語言的 AI 模型。該計劃的會員均為前沿初創公司。
Sarvam AI 為企業客戶提供語音轉文本、文本轉語音、翻譯和數據解析模型。該公司開發的 Sarvam 1 是印度首個本土多語種 LLM。該模型是完全在搭載 NVIDIA Tensor Core GPU 的印度本國 AI 基礎設施上訓練而成的。
Sarvam 1 在開發過程中使用了包括 NeMo Curator 和 NeMo 框架在內的 NVIDIA AI Enterprise 軟件,支持英語及 10 種主要印度語言,包括孟加拉語、馬拉地語、泰米爾語和泰盧固語。
Sarvam AI 還使用 NVIDIA NIM 微服務、適用于對話式 AI 的NVIDIA Riva、NVIDIA TensorRT-LLM軟件和NVIDIA Triton 推理服務器來優化和部署具有亞秒級延遲的對話式 AI 智能體。
另一家初創加速計劃會員公司 Gnani.ai 構建了一個多語種語音轉語音的大語言模型,為 AI 客服助手提供支持,該助手每天為印度和美國的 150 多家銀行、保險和金融服務公司處理約 1000 萬次實時語音交互。該模型使用 NVIDIA Hopper GPU 和 NeMo 框架,基于超過 1400 萬小時的對話語音數據訓練而成,支持 14 種語言。
Gnani.ai 使用 TensorRT-LLM、Triton 推理服務器和 Riva NIM 微服務來優化其虛擬客戶服務助手 AI 和語音分析 AI。
使用 NeMo 構建 LLM 的大型企業包括:
沃爾瑪控股的印度大型電商公司 Flipkart 正在通過集成NeMo Guardrails(一個使開發者能夠為 LLM 添加可編程護欄的開源工具套件),以提高其對話式 AI 系統的安全性。
Ola Group 擁有印度最大的網約車平臺之一。該集團旗下的企業 Krutrim 正在使用 Mistral NeMo 12B 開發多語種印度語系基礎模型。Mistral NeMo 12B是一個極其先進的 LLM,由 Mistral AI 和 NVIDIA 共同開發而成。
總部位于欽奈的全球技術公司 Zoho Corporation 將使用 NVIDIA TensorRT-LLM 和 NVIDIA Triton 推理服務器為其 70 多萬客戶優化和提供語言模型。該公司將使用在 NVIDIA Hopper GPU 上運行的 NeMo 為 100 多個商業應用從頭開始預訓練窄模型、小模型、中模型和大模型。
印度的各大全球系統集成商也在為其客戶提供由 NVIDIA NeMo 加速的解決方案。
Infosys 將利用 NVIDIA AI 堆棧開發特定工具和解決方案。該公司的卓越中心還在開發由 AI 驅動的小型語言模型,這些模型將作為服務提供給客戶。
Tata Consultancy Services 基于NVIDIA NIM Agent Blueprint為電信、零售、制造、汽車和金融服務行業開發了 AI 解決方案。該公司提供的產品包括 NeMo 驅動的特定領域語言模型。這些模型經過定制后,能夠處理客戶查詢,并回答 IT、人事或現場操作等各個企業部門員工提出的針對本企業的問題。
Wipro 正在使用包括 NIM Agent Blueprint 和 NeMo 在內的 NVIDIA AI Enterprise 軟件,來幫助企業輕松開發定制對話式 AI 解決方案,例如支持客戶服務互動的數字人等。
Wipro 和 TCS 還使用 NeMo Curator 的合成數據生成管線生成英語以外的其他語言的數據,以便為客戶定制 LLM。
-
NVIDIA
+關注
關注
14文章
5025瀏覽量
103265 -
AI
+關注
關注
87文章
31155瀏覽量
269481 -
模型
+關注
關注
1文章
3268瀏覽量
48926 -
語言模型
+關注
關注
0文章
530瀏覽量
10298
原文標題:印度企業使用通過 NVIDIA AI 構建的 LLM 為十多億當地語言使用者提供服務
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論