AI模型在實際運用中可能出現性能下降而達不到最初的標準,這種情況并不罕見。例如,也許你已經注意到你經常使用的生成人工智能服務的響應質量發生了變化。這些說法經常出現在新聞網站和社交媒體上。
但人工智能模型的性能是否會隨著時間的推移而惡化?
事實上,人工智能模型的有效性可能會下降,并且容易產生“幻覺”。
用人工智能專家的語言來說,這種現象通常被稱為“模型衰退”或“模型漂移”,這兩種術語經常互換使用。
發生這種情況的原因多種多樣。
“
為什么它很重要
人工智能越來越多地應用于日常生活的各個方面,包括拯救生命的行動和大額投資等。2023年3月,IEEE Spectrum上的一篇文章(https://spectrum.ieee.org/self-driving-cars-2662494269)強調了一個顯著的現實風險:自動駕駛汽車中的人工智能模型出現故障,導致了嚴重的車禍。
定期更新和使用當前數據進行重新培訓是維持這些模型在不斷變化環境中有效的關鍵。
“
什么是AI模型漂移
IEEE會員Eleanor “Nell” Watson解釋說,人工智能模型的準確性經常會因為現實世界中不斷變化的環境而發生變化。
“例如,”Watson說,“考慮一個經過訓練以預測消費者購買模式的模型。它是在代表某個時間點的消費者行為的數據集上訓練的。部署后,消費者偏好和市場動態可能會因新趨勢、經濟變化甚至全球事件等各種因素而演變。由于該模型是在舊數據上訓練的,它可能無法準確捕捉這些新模式,導致其預測的準確性或相關性降低。這是模型衰減的表現。”
對抗數據漂移非常重要。為了做到這一點,人工智能研究人員傾向于將人工智能漂移進一步分類。如果你想了解更多,請查看這篇IEEEXplore的論文:https://ieeexplore.ieee.org/document/9808752。
Watson說:“解決模型衰退問題包括定期監測、調整和用新數據更新模型,完善模型的架構,甚至在某些情況下從頭開始重新訓練。”同時還指出:“確保模型與當前數據的狀態和動態保持一致,以及對于數據的合理使用,對于維護AI模型的準確性至關重要。”
“
合成數據:一個新出現的挑戰
訓練人工智能模型需要大量的數據,有時這些數據是稀缺的。為了彌補這一不足,研究人員轉向了合成數據。
從本質上講,合成數據是基于真實數據集生成的人工數據(https://standards.ieee.org/industry-connections/synthetic-data/#:~:text=Synthetic%20data%20is%20artificial%20data,e.g.%2C%20for%20AI%20training).)。它是實際的,同時也能夠在統計上代表原來存在的數據。
研究人員明白,盡管合成數據有其存在的用途,但過度的依賴合成數據也可能導致性能下降,IEEE Spectrum發表的兩篇研究論文探討了這一想法:https://spectrum.ieee.org/ai-collapse。
Watson說,過度依賴合成數據“可能會縮小視角并強化偏見,因為模型可能會根據類似系統生成的數據進行訓練”。生成人工智能的快速內容生產速度往往加劇了這個問題。
挑戰可能更加嚴峻。人工智能模型的開發者經常通過人們的幫助來標記數據。例如,如果你想開發一個識別圖像情感內容的人工智能模型,通常需要人們來對圖像進行評分。或者有時,研究人員需要大量的調查數據,這種勞動力極其廉價——時薪不到1美元。這些被稱為人類智能任務(https://www.designboom.com/technology/ai-has-generated-150-years-worth-of-photographs-in-less-than-12-months-study-shows-08-21-2023/)。
“一些人為生成的數據可能是不真實的,”Watson說,“外包給人工智能任務工作者的任務使用人工智能越來越自動化,導致潛在的偏見和不準確。公司所需要的自然、高質量的數據,可能需要額外的身份驗證層來確保人工生成內容的真實性。”
審核編輯:黃飛
-
AI
+關注
關注
87文章
31463瀏覽量
269865 -
人工智能
+關注
關注
1794文章
47622瀏覽量
239586 -
自動駕駛汽車
+關注
關注
4文章
377瀏覽量
40853
原文標題:AI模型表現下降的原因
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論