2016年,一場風(fēng)風(fēng)火火的人機(jī)大戰(zhàn),谷歌旗下DeepMind的圍棋程序AlphaGo以5局4勝的大比分贏得勝利,掀起了全世界人民,尤其是中國老百姓,對于AI前所未有的熱潮,深度學(xué)習(xí)的概念也從實驗室、教科書首次進(jìn)入了普通大眾的視野。不少人通過互聯(lián)網(wǎng),第一次了解到AI的魅力。但是,AI的應(yīng)用遠(yuǎn)不止互聯(lián)網(wǎng)企業(yè)這么簡單,它已經(jīng)滲透到安防、公安ISV、研究機(jī)構(gòu)、金融、醫(yī)療等各行各業(yè)。
縱觀整個2017年,互聯(lián)網(wǎng)圈里提到最多的一個詞一定是“人工智能”,而且這個“人工智能”已經(jīng)不僅是2016年那個很會下棋的AlphaGo,它成了無所不能的助手管家,能和你對話(智能音響),能幫公安抓人(人臉識別),也開始搶老司機(jī)的活兒(無人駕駛)。如今的人工智能早已不再是70多年前的那個“它”了。
中國制造2025——智能制造工程
中國制造2025戰(zhàn)略中,智能制造是一個非常關(guān)鍵的奮斗目標(biāo)。到2020年,制造業(yè)重點領(lǐng)域智能化水平顯著提升,試點示范項目運營成本降低30%,產(chǎn)品生產(chǎn)周期縮短30%,不良品率降低30%。到2025年,制造業(yè)重點領(lǐng)域全面實現(xiàn)智能化,試點示范項目運營成本降低50%,產(chǎn)品生產(chǎn)周期縮短50%,不良品率降低50%。
智能制造工程推動制造業(yè)智能轉(zhuǎn)型,推進(jìn)產(chǎn)業(yè)邁向中高端;高端裝備創(chuàng)新工程以突破一批重大裝備的產(chǎn)業(yè)化應(yīng)用為重點,為各行業(yè)升級提供先進(jìn)的生產(chǎn)工具。重點聚焦“五三五十”重點任務(wù),即:攻克五類關(guān)鍵技術(shù)裝備,夯實智能制造三大基礎(chǔ),培育推廣五種智能制造新模式,推進(jìn)十大重點領(lǐng)域智能制造成套裝備集成應(yīng)用。
那么,如何加速智能制造的發(fā)展進(jìn)度?盡快實現(xiàn)廣泛的行業(yè)領(lǐng)域應(yīng)用呢?
容錯服務(wù)器專家的觀點認(rèn)為,以邊緣計算引領(lǐng)人工智能的發(fā)展,將有力的推動制造智能化進(jìn)程,并且讓人工智能更加“聰明”。
目前,受過訓(xùn)練的人工智能系統(tǒng),在特定領(lǐng)域的表現(xiàn)已可超越人類,而相關(guān)軟件技術(shù)迅速發(fā)展的背后,邊緣計算解決方法的運用讓人工智能變得更加強(qiáng)大。物聯(lián)網(wǎng)(IoT)將可望進(jìn)化成AIoT(AI+IoT)。 智能機(jī)器人的遍地開花可能還只是個開端,人工智能終端的邊緣運算能力,其所將帶來的價值更讓人引頸期盼。
容錯邊緣計算團(tuán)隊認(rèn)為,基于邊緣計算解決方案的人工智能終端,將在各行各業(yè)帶來變革,從而改變未來的走向。傳統(tǒng)人工智能運算的硬件架構(gòu),主要包括中央處理器(CPU)、圖型處理器(GPU)、現(xiàn)場可編程數(shù)組(FPGA)等。
特定領(lǐng)域的專用人工智能系統(tǒng),由于應(yīng)用背景需求明確、深厚之領(lǐng)域知識、模型建立計算簡單可行,在單項測試之智能水平,目前已可超越人類智能,在許多領(lǐng)域取得具體成效。如今的技術(shù)挑戰(zhàn)在于,如何發(fā)展低功耗、高準(zhǔn)確率的認(rèn)知計算,包括新型運算架構(gòu)電路設(shè)計、算法等。 未來人工智能將由特定的算法加速器,來加速包括卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neutral Network)、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neutral Network)在內(nèi)的各種神經(jīng)網(wǎng)絡(luò)算法。邊緣計算推動人工智能實現(xiàn)變革性發(fā)展,這是實現(xiàn)智能制造必須跨過的一步。
雖然目前人工智能領(lǐng)域的主流研究是在服務(wù)器上的人工智能運算,但有越來越多應(yīng)用產(chǎn)品須在終端上進(jìn)行實時運算,此種技術(shù)便是邊緣運算的運用。這個發(fā)展趨勢將改變整體人工智能運算系統(tǒng)架構(gòu)的設(shè)計與技術(shù)需求。
容錯專家認(rèn)為,人工智能在邊緣側(cè)的不斷擴(kuò)展,是駕馭數(shù)據(jù)洪流的關(guān)鍵環(huán)節(jié)之一,也是物聯(lián)網(wǎng)未來發(fā)展的重要趨勢。隨著人工智能如火如荼的發(fā)展,海量數(shù)據(jù)需要快速有效地分析和提取洞察,這也大大加強(qiáng)了對于邊緣計算的需求。
兩個問題值得思考,首先是邊緣側(cè)趨向負(fù)載整合。以前的數(shù)據(jù)很多都是結(jié)構(gòu)化數(shù)據(jù),可以通過Excel表格或者簡單的關(guān)系型數(shù)據(jù)庫對其進(jìn)行維護(hù)和管理。但今后會有越來越多的非結(jié)構(gòu)化數(shù)據(jù)需要進(jìn)行處理并借此發(fā)現(xiàn)內(nèi)在關(guān)聯(lián),這時就需要邊緣計算和人工智能技術(shù)。
其次,構(gòu)建邊緣協(xié)同的端到端系統(tǒng)。在一個邊緣協(xié)同的端到端系統(tǒng)中,由于不同網(wǎng)源的功耗、計算性能和所能承擔(dān)的成本各不相同,因此在選取硬件架構(gòu)時往往會有特定要求。要根據(jù)用戶需求提供不同架構(gòu)的解決方案,涵蓋至強(qiáng)處理器、至強(qiáng)融核處理器、Movidius/Nervana神經(jīng)網(wǎng)絡(luò)處理器和FPGA、網(wǎng)絡(luò)以及存儲技術(shù)等硬件平臺,以及多種軟件工具及函數(shù)庫,優(yōu)化開源框架,來讓他們進(jìn)行自主選擇。
容錯服務(wù)器及容錯軟件,具有ftServer 的Lock Step和 everRun Check Point技術(shù), 在實時性,可靠性,安全私密性上有獨特的優(yōu)勢,在已經(jīng)有廣泛的工業(yè)自動化 (IA) 客戶應(yīng)用的基礎(chǔ)之上, 助力邊緣計算產(chǎn)業(yè)創(chuàng)新技術(shù)的落地。
容錯服務(wù)器,在中國制造2025的奮斗目標(biāo)下,協(xié)助邊緣計算產(chǎn)業(yè)聯(lián)盟建立開放與創(chuàng)新的平臺、行業(yè)踐行與示范的平臺。攜手人工智能技術(shù),加速中國制造2025實現(xiàn)進(jìn)程。
如何搭建一套高效的AI計算平臺?
早在1950年,圖靈在論文中探討了機(jī)器智能的問題,并提出了著名的圖靈測試,1956年達(dá)特茅斯的討論會上,人工智能這一概念由此誕生。幾十年中,人工智能曾大起大落,原因為何?
“數(shù)據(jù)”先背一個鍋,最早的人工智能也可以稱之為專家系統(tǒng),也就是把專家們的所有理論、方法全都錄入到計算機(jī),在具體執(zhí)行任務(wù)的時候,計算機(jī)會檢索數(shù)據(jù)庫中相似的內(nèi)容,如果沒有,那么它就無能為力了。
然后是算法,類似于數(shù)據(jù)庫檢索的算法可能只能稱之為一個笨辦法,但20世紀(jì)90年代,神經(jīng)網(wǎng)絡(luò)的概念就成為熱點,人工智能卻沒有取得長足的進(jìn)展。這是因為受限于另一個重要因素-計算。由于硬件計算平臺的限制,十余年間的進(jìn)展極其緩慢,直到以GPU為核心的協(xié)處理加速設(shè)備的應(yīng)用,人工智能應(yīng)用效率才得以大大提升。
近年來,眾多企業(yè)都已經(jīng)看到了AI未來的前景,想紛紛踏入這篇沃土,孕育新的商機(jī)。想要跨進(jìn)這個新領(lǐng)域,首先要做的,是要擁有一套好的AI架構(gòu)。那么如何打造最優(yōu)的AI計算平臺?怎樣的AI計算硬件架構(gòu)更高效?AI 更注重哪些性能指標(biāo)?
要把AI練好要分三步,即“數(shù)據(jù)預(yù)處理——模型訓(xùn)練——識別推理”。三個過程分別對應(yīng)不同的計算特點:數(shù)據(jù)預(yù)處理,對IO要求較高;模型訓(xùn)練的并行計算量很大,且通信也相對密集;推理識別則需要較高的吞吐處理能力和對單個樣本低延時的響應(yīng)。
當(dāng)我們知道了AI計算的特性之后,我們通過實測數(shù)據(jù)來看看人工智能計算對于服務(wù)器的硬件性能訴求有什么樣的特點:
CPU和GPU誰是AI計算的主力軍?
▼ CPU和GPU負(fù)載實測數(shù)據(jù)▼
上圖是一個搭載4塊GPU卡服務(wù)器上運行Alexnet神經(jīng)網(wǎng)絡(luò)的測試分析圖,從圖上我們可以很清楚的看到計算的任務(wù)主要由GPU承擔(dān),4塊GPU卡的負(fù)載基本上都接近10%,而CPU的負(fù)載率只有不到40%。由此可見, AI計算的計算量主要都在GPU加速卡上。
內(nèi)存和顯存,越大越好嗎?
▼ 內(nèi)存和顯存負(fù)載實測數(shù)據(jù)▼
同樣的測試環(huán)境,內(nèi)存容量固定時,總?cè)萘啃枨箅SBatch size擴(kuò)大而增加,Alexnet模型,Batch size為256時,占用CPU內(nèi)存60GB,GPU顯存9GB。
這樣看,AI計算對于CPU內(nèi)存和GPU顯存容量的需求都很大。
磁盤IO,在模型訓(xùn)練過程中要求并不太高
▼ 磁盤IO實測數(shù)據(jù)▼
通過上圖我們可以看到,磁盤IO是一次讀,多次寫,在Alexnet模型下,磁盤讀帶寬85MB/s,寫帶寬0.5MB/s。所以, 在模型訓(xùn)練階段,磁盤的IO并不是AI計算的瓶頸點。
PCIE帶寬,“路”越寬越不堵
▼ PCIE帶寬負(fù)載實測數(shù)據(jù)▼
最后,我們再看看AI計算對于PCIE帶寬的占用情況。圖上顯示,帶寬與訓(xùn)練數(shù)據(jù)規(guī)模成正比。測試中,PCIE持續(xù)讀帶寬達(dá)到5.7GB/s,峰值帶寬超過8GB/s,因此PCIE的帶寬將是AI計算的關(guān)鍵瓶頸點。
于是,我們可以得出幾個結(jié)論:
1. 數(shù)據(jù)預(yù)處理階段需要提高小文件的隨機(jī)讀寫性能
2. 模型訓(xùn)練階段需要提升并行計算能力
3. 線上推理階段需要提升批量模型推理的吞吐效率
用高計算性能的CPU服務(wù)器+高性能存儲,解決小文件隨機(jī)讀取難題
數(shù)據(jù)預(yù)處理的主要任務(wù)是處理缺失值,光滑噪聲數(shù)據(jù),識別或刪除利群點,解決數(shù)據(jù)的不一致性。這些任務(wù)可以利用基于CPU服務(wù)器來實現(xiàn),比如浪潮SA5212M5這種最新型2U服務(wù)器,搭載最新一代英特爾至強(qiáng)可擴(kuò)展處理器,支持Intel Skylake平臺3/4/5/6/8全系處理器,支持全新的微處理架構(gòu),AVX512指令集可提供上一代2倍的FLOPs/core,多達(dá)28個內(nèi)核及56線程,計算性能可達(dá)到上一代的1.3倍,能夠快速實現(xiàn)數(shù)據(jù)的預(yù)處理任務(wù)。
在存儲方面,可以采用HDFS(Hadoop分布式文件系統(tǒng))存儲架構(gòu)來設(shè)計。HDFS是使用Java實現(xiàn)分布式的、可橫向擴(kuò)展的文件系統(tǒng),因為深度學(xué)習(xí)天生用于處理大數(shù)據(jù)任務(wù),很多場景下,深度學(xué)習(xí)框架需要對接HDFS。通過浪潮SA5224M4服務(wù)器組成高效、可擴(kuò)展的存儲集群,在滿足AI計算分布式存儲應(yīng)用的基礎(chǔ)上,最大可能降低整個系統(tǒng)的TCO。
▼ 浪潮SA5224M4 4U36盤位存儲服務(wù)器 ▼
SA5224M4一款4U36盤位的存儲型服務(wù)器,在4U的空間內(nèi)支持36塊大容量硬盤。并且相比傳統(tǒng)的雙路E5存儲服務(wù)器,功耗降低35W以上。同時,通過背板Expander芯片的帶寬加速技術(shù),顯著提升大容量SATA盤的性能表現(xiàn),更適合構(gòu)建AI所需要的HDFS存儲系統(tǒng)。
用GPU服務(wù)器實現(xiàn)更快速、精準(zhǔn)的AI模型訓(xùn)練
從內(nèi)部結(jié)構(gòu)上來看,CPU中70%晶體管都是用來構(gòu)建Cache(高速緩沖存儲器)和一部分控制單元,負(fù)責(zé)邏輯運算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行,這種通用性結(jié)構(gòu)對于傳統(tǒng)的編程計算模式非常適合,但對于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運算的深度學(xué)習(xí)計算需求,這種結(jié)構(gòu)就顯得有心無力了。
與 CPU 少量的邏輯運算單元相比,GPU設(shè)備整個就是一個龐大的計算矩陣,動輒具有數(shù)以千計的計算核心、可實現(xiàn) 10-100 倍應(yīng)用吞吐量,而且它還支持對深度學(xué)習(xí)至關(guān)重要的并行計算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過程。
根據(jù)不同規(guī)模的AI模型訓(xùn)練場景,可能會用到2卡、4卡、8卡甚至到64卡以上的AI計算集群。在AI計算服務(wù)器方面,浪潮也擁有業(yè)界最全的產(chǎn)品陣列。既擁有NF5280M5、AGX-2、NF6248等傳統(tǒng)的GPU/KNL服務(wù)器以及FPGA卡等,也包含了創(chuàng)新的GX4、SR-AI整機(jī)柜服務(wù)器等獨立加速計算模塊。
浪潮AI計算服務(wù)器陣列
其中,SR-AI整機(jī)柜服務(wù)器面向超大規(guī)模線下模型訓(xùn)練,能夠?qū)崿F(xiàn)單節(jié)點16卡、單物理集群64卡的超高密擴(kuò)展能力;GX4是能夠覆蓋全AI應(yīng)用場景的創(chuàng)新架構(gòu)產(chǎn)品,可以通過標(biāo)準(zhǔn)機(jī)架服務(wù)器連接協(xié)處理器計算擴(kuò)展模塊的形式完成計算性能擴(kuò)展,滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各種AI應(yīng)用場景對計算架構(gòu)性能、功耗的不同需求;AGX-2是2U8 NVLinkGPU全球密度最高、性能最強(qiáng)的AI平臺,面向需要更高空間密度比AI算法和應(yīng)用服務(wù)商。
根據(jù)業(yè)務(wù)應(yīng)用的需要,選擇不同規(guī)模的GPU服務(wù)器集群,從而平衡計算能力和成本,達(dá)到最優(yōu)的TCO和最佳的計算效率。
用FPGA來實現(xiàn)更低延遲、更高吞吐量的線上推理
GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效,但在推理時一次性只能對于一個輸入項進(jìn)行處理,并行計算的優(yōu)勢不能發(fā)揮出來。而FPGA正是強(qiáng)在推斷。大幅提升推斷效率的同時,還要最小限度損失精確性,這正是FPGA的強(qiáng)項。
▼ 業(yè)界支持OpenCL的最高密度最高性能的FPGA-浪潮F10A▼
以浪潮F10A為例,這是目前業(yè)界支持OpenCL的最高密度最高性能的FPGA加速設(shè)備,單芯片峰值運算能力達(dá)到了1.5TFlops,功耗卻只需35W,每瓦特性能到42GFlops。
測試數(shù)據(jù)顯示,在語音識別應(yīng)用下,浪潮F10A較CPU性能加速2.87倍,而功耗相當(dāng)于CPU的15.7%,性能功耗比提升18倍。在圖片識別分類應(yīng)用上,相比GPU能夠提升10倍以上。
通過CPU、GPU、FPGA等不同計算設(shè)備的組合,充分發(fā)揮各自在不同方向的優(yōu)勢,才能夠形成一套高效的AI計算平臺。然后選擇一個合適的框架,運用最優(yōu)的算法,就能夠?qū)崿F(xiàn)人工智能應(yīng)用的快速落地和精準(zhǔn)服務(wù)。
評論
查看更多