電子發(fā)燒友網(wǎng)報道(文/李彎彎)在深度學(xué)習(xí)中,經(jīng)常聽到一個詞“模型訓(xùn)練”,但是模型是什么?又是怎么訓(xùn)練的?在人工智能中,面對大量的數(shù)據(jù),要在雜亂無章的內(nèi)容中,準(zhǔn)確、容易地識別,輸出需要的圖像/語音,并不容易。因此算法顯得尤為重要。算法也就是模型。
算法的內(nèi)容,除了核心識別引擎,也包括各種配置參數(shù),如:語音智能識別的比特率、采樣率、音色、音調(diào)、音高、音頻、抑揚頓挫、方言、噪音等。成熟的識別引擎,核心內(nèi)容一般不會經(jīng)常變化。為實現(xiàn)“識別成功”這一目標(biāo),就只能對配置參數(shù)做調(diào)整。
對不同輸入,我們會配置不同參數(shù)值,最后在結(jié)果統(tǒng)計取一個各方比較均衡、識別率較高的一組參數(shù)值,這組參數(shù)值,就是訓(xùn)練后得到的結(jié)果,這就是訓(xùn)練的過程,也叫模型訓(xùn)練。
如何訓(xùn)練一個AI模型?
此前發(fā)布一個詳細的案例,訓(xùn)練的模型是用來對手寫數(shù)字圖片進行分類的LeNet5模型。MindSpore是華為推出全場景AI計算框架,2020年3月28日宣布MindSpore正式開源。
首先是安裝MindSpore,MindSpore提供給用戶使用的是Python接口。安裝的時候,選擇合適的版本、硬件平臺、操作系統(tǒng)、編程語言、安裝方式。其次是定義模型,安裝好之后,就可以導(dǎo)入MindSpore提供的算子(卷積、全連接、池化等函數(shù))來構(gòu)建模型了。構(gòu)建一個AI模型就像建一個房子,MindSpore提供的算子就像是磚塊、窗戶、地板等基本組件。
接下來是導(dǎo)入訓(xùn)練數(shù)據(jù)集,什么是訓(xùn)練數(shù)據(jù)集呢,剛剛定義好的模型是不能對圖片進行正確分類的,要通過訓(xùn)練過程來調(diào)整模型的參數(shù)矩陣的值。訓(xùn)練過程就需要用到訓(xùn)練樣本,也就是打上了正確標(biāo)簽的圖片。這就好比教小孩兒認(rèn)識動物,需要拿幾張圖片給他們看,告訴他們這是什么,教了幾遍之后,小孩兒就能認(rèn)識了。
那么這里訓(xùn)練LeNet5模型就需要用到MNIST數(shù)據(jù)集。這個數(shù)據(jù)集由兩部分組成:訓(xùn)練集(6萬張圖片)和測試集(1萬張圖片),都是0~9的黑白手寫數(shù)字圖片。訓(xùn)練集是用來訓(xùn)練AI模型的,測試集是用來測試訓(xùn)練后的模型分類準(zhǔn)確率的。
再接下來就是訓(xùn)練模型,訓(xùn)練數(shù)據(jù)集和模型定義完成后,就可以開始訓(xùn)練模型了。在訓(xùn)練之前,還需要從MindSpore導(dǎo)入兩個函數(shù):損失函數(shù),就是衡量預(yù)測結(jié)果和真實標(biāo)簽之間的差距的函數(shù);優(yōu)化器,用來求解損失函數(shù)關(guān)于模型參數(shù)的更新梯度的。準(zhǔn)備好之后,開始訓(xùn)練,把前面定義好的模型、損失函數(shù)、優(yōu)化器封裝成一個Model,使用model.train接口就可以訓(xùn)練LeNet5模型了。最后就是測試訓(xùn)練后的模型準(zhǔn)確率。
訓(xùn)練AI模型花費大
當(dāng)然,模型訓(xùn)練需要強大的算力支撐,尤其是參數(shù)量大的模型,花費極大。
比如OpenAI的語言模型GPT-3,這是一個大型的、數(shù)學(xué)模擬的神經(jīng)網(wǎng)絡(luò),從網(wǎng)絡(luò)上抓取大量文本進行訓(xùn)練后,GPT-3可以以驚人的連貫性預(yù)測哪些詞應(yīng)該填在其他詞前后,生成流暢的文本。據(jù)估計,訓(xùn)練GPT-3的成本接近500萬美元。
一些小企業(yè)想要訓(xùn)練一個參數(shù)較大的算法,往往比較苦難。健康IT公司Optum的一位領(lǐng)導(dǎo)此前表示,他們團隊使用語言模型來分析通話記錄,識別哪些患者風(fēng)險較高,哪些應(yīng)該及早推薦轉(zhuǎn)診。只是訓(xùn)練一個GPT-3大小千分之一的語言模型,也會很快耗盡團隊的預(yù)算。
Glean提供Gmail、Slack和Salesforce等應(yīng)用程序進行搜索的工具,用于解析語言的新AI技術(shù),可以幫助公司的客戶更快地發(fā)掘正確的文件或?qū)υ挕?/div>
但是訓(xùn)練這樣一個尖端的人工智能算法需要花費數(shù)百萬美元。Glean只好使用更小、能力更弱的AI模型,然而這些模型無法從文本中提取出盡可能多的含義。
小結(jié)
過去十幾年,AI取得了一些列舉世矚目的成績,包括在游戲中擊敗人類,讓汽車可以行駛在城市的街道上,AI自己編寫連貫的文字,做出可以媲美畫家的畫作。這都得益于數(shù)據(jù)量的不斷積累,算法的不斷優(yōu)化,以及可以支撐算法訓(xùn)練的算力的不斷強化。
然而,在發(fā)展的過程中同樣還存在一些問題。比如對于小企業(yè)來說,訓(xùn)練高級AI算法成本高,這就會使得AI的全面應(yīng)用受到阻礙等問題。當(dāng)然AI整體呈現(xiàn)出快速發(fā)展的趨勢,業(yè)界也在不斷探索有利于AI發(fā)展的方式,比如大模型的出現(xiàn),本身也是為了解決通用性的問題,比如說模型簡化,減少模型訓(xùn)練所需要算力等。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269915 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
36瀏覽量
3880 -
算力
+關(guān)注
關(guān)注
1文章
1012瀏覽量
14911
發(fā)布評論請先 登錄
相關(guān)推薦
GPU是如何訓(xùn)練AI大模型的
在AI模型的訓(xùn)練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
如何訓(xùn)練自己的LLM模型
訓(xùn)練自己的大型語言模型(LLM)是一個復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓(xùn)練LLM
為什么ai模型訓(xùn)練要用gpu
GPU憑借其強大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
AI大模型的訓(xùn)練數(shù)據(jù)來源分析
AI大模型的訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對AI大
如何訓(xùn)練ai大模型
訓(xùn)練AI大模型是一個復(fù)雜且耗時的過程,涉及多個關(guān)鍵步驟和細致的考量。 一、數(shù)據(jù)準(zhǔn)備 1. 數(shù)據(jù)收
ai模型訓(xùn)練需要什么配置
AI模型訓(xùn)練是一個復(fù)雜且資源密集的過程,它依賴于高性能的硬件配置來確保訓(xùn)練的效率和效果。
大語言模型的預(yù)訓(xùn)練
隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)作為人工智能領(lǐng)域的一個重要分支,取得了顯著的進步。其中,大語言模型(Large Language Model, LLM)憑借其強大的語言理解和生成
人臉識別模型訓(xùn)練流程
人臉識別模型訓(xùn)練流程是計算機視覺領(lǐng)域中的一項重要技術(shù)。本文將詳細介紹人臉識別模型的訓(xùn)練流程,包括數(shù)據(jù)準(zhǔn)備、
人臉識別模型訓(xùn)練是什么意思
人臉識別模型訓(xùn)練是指通過大量的人臉數(shù)據(jù),使用機器學(xué)習(xí)或深度學(xué)習(xí)算法,訓(xùn)練出一個能夠識別和分類人臉的模型
深度學(xué)習(xí)模型訓(xùn)練過程詳解
深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一
【大語言模型:原理與工程實踐】大語言模型的預(yù)訓(xùn)練
訓(xùn)練數(shù)據(jù)時,數(shù)量、質(zhì)量和多樣性三者缺一不可。
數(shù)據(jù)的多樣性對于大語言模型至關(guān)重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠提供多樣的語言表達特征,如官方知識型數(shù)據(jù)、口
發(fā)表于 05-07 17:10
評論