PLASTER是一個與深度學習有關的框架,為致力于開發和部署基于 AI 的服務的人士提供了全方位指導。本文介紹了每個框架元素的測量方式,以幫助您應對諸多 AI 挑戰。
目前,業界對深度學習的性能存在很多疑惑。在今年早些時候的GPU技術大會上,黃仁勛先生曾表示,“超大規模數據中心是世界上有史以來最復雜的計算機”。
那么,我們該如何對深度學習的性能進行評估呢?標準又有哪些?
對此,我們的答案是:PLASTER。這是一個與深度學習性能有關的框架,涵蓋了每一個驅動深度學習性能發展的要素。
機器學習正在經歷爆炸式發展,這不僅體現在模型的大小和復雜性上,還體現在迅速涌現的多種神經網絡架構上。因此,甚至連專家也難以深入了解模型選項,然后選出合適的模型來解決他們的 AI 業務問題。
完成深度學習模型的編碼和訓練之后,要針對特定的運行時推理環境優化模型。NVIDIA 開發出兩個重要工具,解決了訓練和推理難題——CUDA和TensorRT(NVIDIA 可編程推理加速器)。此外,NVIDIA 的深度學習平臺能加快所有深度學習框架的訓練和推理速度。
PLASTER——Latency 延遲
人和機器都需要對象反應才能作出決策和采取行動。延遲是指提出請求與收到反應之間經過的時間。
就大多數面向人類的軟件系統而言,延遲時間通常以毫秒計算。
消費者和客戶服務應用對數字助理的需求很廣泛。但是,在人嘗試與數字助理交互時,即使是短短幾秒的延遲也會開始讓人感到不自然。
PLASTER——Accuracy 準確性
準確性在各行各業都很重要,尤其是在醫療保健業。過去數十年里,醫學成像技術取得了長足發展,這意味著需要將大量數據從醫療設備傳輸給醫療專家進行分析。
一直以來,無非通過兩種方式解決此數據量問題:在高延遲的情況下傳輸完整的信息,或者數據取樣和重建,但相關技術可能導致重建和診斷不準確。
深度學習的一個優點是高精度訓練和低精度實施。
PLASTER——Size of Model 模型大小
深度學習網絡模型的數量正在激增,其大小和復雜性也在相應增長,這推動著我們對功能更強大的訓練系統的需求。在深度學習模型中,計算能力和物理網絡擴展的推動因素包括:
? 層數
? 每層節點數(神經元數)
? 每層的計算復雜度
? 某層的某個節點與鄰近層的節點之間的連接數
PLASTER——Throughput 吞吐量
開發者正在指定的延遲閾值內逐漸優化推理性能。延遲限定可確保良好的客戶體驗,在該限值內最大化吞吐量對最大程度提高數據中心效率和營收至關重要。
一直以來,業界都傾向于將吞吐量用作唯一的性能指標,原因是每秒計算次數越高,其他方面的性能通常也越好。但是,如果系統未能按照指定的延遲要求、功耗預算或服務器節點數提供足夠的吞吐量,最終將無法很好地滿足應用場合的推理需求。如果未能在吞吐量和延遲之間取得適當的平衡,可能會導致客戶服務水平低下、未達到服務水平協議 (SLA) 的要求和服務遭遇失敗。
PLASTER——Energy Efficiency 能效
隨著深度學習加速器的性能不斷提升,它的功耗也越來越高。功耗可能會迅速增加向客戶提供服務的成本,因此,關注設備和系統的能效變得更有必要。
在某些場合下,需要密集地處理數據以便用自然的聲音智能地回答問題,而語音處理恰好就是這樣一種解決方案。能實時處理語音的數據中心推理功能無疑需要使用許多個機架的計算機,從而影響到公司的總體擁有成本。因此,業界開始使用每瓦特推理次數來衡量運營成效。超大規模數據中心正設法最大程度地提高能效,即在固定的功耗預算下提供盡可能多的推理次數。
PLASTER——Rate of Learning 學習頻率
“AI”由兩個詞組成,其中一個是智能 (Intelligence)。因此,用戶將希望神經網絡能在合理的期限內學習和適應。要使復雜的深度學習系統獲得商業界的青睞,軟件工具開發者必須支持“開發與運維” (DevOps) 行動。
各類組織正不斷試驗深度學習技術和神經網絡,同時學習如何更有效地構建和實施深度學習系統。由于推理服務會收集新的數據,并且會不斷發展和變化,因此必須定期重新訓練模型。所以,IT 組織和軟件開發者必須提升模型接收新數據和重新訓練的頻率。
-
AI
+關注
關注
87文章
31028瀏覽量
269384 -
深度學習
+關注
關注
73文章
5506瀏覽量
121259
原文標題:PLASTER:一個與深度學習性能有關的框架 | 內含白皮書下載鏈接
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論