2019 ISSCC 大會于2月17—21日在美國舊金山開幕,Facebook 首席 AI 科學家 Yann LeCun 在會上發表了主題演講「深度學習硬件:過去、現在和未來」,詳細介紹了深度學習研究的發展將如何影響未來硬件架構。
如今,只要在網絡上搜索“深度學習”算法,都會顯示很多相關的信息,在過去的數十年里,人工智能已經越來越成功地應用于生物識別、語音識別、視頻識別、翻譯等。國內更是誕生了諸如曠視科技、商湯科技、極鏈科技Video++、依圖科技等優秀人工智能初創企業。設計人員將大量高度并行的計算加載到硬件上,尤其是最初為快速圖像渲染而開發的圖形處理單元(GPU)。這些芯片特別適合于計算密集型“訓練”階段,該階段使用許多經過驗證的例子來調整系統參數。在“推理”階段,其中部署深度學習處理的輸入,需要更大的存儲器訪問和快速響應,目前已經可以使用GPU實現。
深度學習與GPU
為了快速應對增長的需求,許多公司都正在開發能夠直接賦予深度學習能力的硬件,迫切的需要進行推理以及培訓。近年來隨著深度學習的迅速發展,卷積神經網絡(Convolutional Neural Network)被廣泛使用,特別是在圖像識別場景中的應用。為了滿足更多場景應用,需要有一種能夠根據實際場景需求替換不同CNN網絡模型的系統框架。在過去的20年里,視頻、游戲等產業推動了GPU的進步,其繪制圖形所需的矩陣正是深度學習所需的計算類型。
GPU技術的進步則是推動了神經網絡的發展,因為在沒有GPU的情況下訓練深度學習模型在大多數情況下會非常緩慢。許多人把生產中深度學習的想法想的過于復雜,我們可以在生產中使用CPU和選擇的網絡服務器進行深入學習。生產中進行訓練是非常罕見的。即使你想每天更新你的模型權重,也不需要在生產中進行訓練。這意味著你只是在生產過程中進行“推理”,比“培訓”更快更容易。你可以使用任何你喜歡的Web服務器,并將其設置為簡單的API調用。如果能夠有效地批量處理數據,GPU只會提供更快的速度。
GPU在處理圖形的時候,從最初的設計就能夠執行并行指令,從一個GPU核心收到一組多邊形數據,到完成所有處理并輸出圖像可以做到完全獨立。由于最初GPU就采用了大量的執行單元,這些執行單元可以輕松的加載并行處理,而不像CPU那樣的單線程處理。另外,現代的GPU也可以在每個指令周期執行更多的單一指令。所以GPU比CPU更適合深度學習的大量矩陣、卷積運算的需求。深度學習的應用與其原先的應用需求頗為類似。GPU廠家順理成章的在深度學習,找到了新增長點。
深度學習發展是否出現“瓶頸”
我們之所以使用GPU加速深度學習,是因為深度學習所要計算的數據量異常龐大,用傳統的計算方式需要漫長的時間。但如果未來深度學習的數據量有所下降,或者說我們不能提供給深度學習所需要的足夠數據量,是否就意味著深度學習也要進入“瓶頸”了呢?
做深度神經網絡訓練需要大量模型,然后才能實現數學上的收斂。深度學習要真正接近成人的智力,它所需要的神經網絡規模非常龐大,它所需要的數據量,會比我們做語言識別、圖像處理要多得多。假設說,我們發現我們沒有辦法提供這樣的數據,則很有可能出現瓶頸。
目前,深度學習還在蓬勃發展往上的階段。比如我們現階段主要做得比較成熟的語音、圖像、視頻方面,整個的數據量還是在不斷的增多的,網絡規模也在不斷的變復雜。可以說深度學習是GPU計算發展的關鍵,誰能找到最適合深度學習的模式,誰就是勝利者。
結語:
深度學習經過這么長時間的發展,在網絡的種類、復雜程度和處理的信息量上都發生了天翻地覆的變化。當前,網絡種類上,從早期的 AlexNet 和 GoogleNet 到現在各企業推出的 GAN以及各種深度強化學習的網絡,它們各自網絡結構都有不同,開發者在適應最新的網絡上常常會遇到一些麻煩。處理的信息量也在成倍地增長,算力需求越來越高的情況下,也將對搭載處理單元的硬件有著更高的要求。
-
機器學習
+關注
關注
66文章
8436瀏覽量
132887 -
深度學習
+關注
關注
73文章
5511瀏覽量
121391 -
深度學習技術
+關注
關注
0文章
11瀏覽量
6773
發布評論請先 登錄
相關推薦
評論