機器學習 (ML) 模型的性能既取決于學習算法,也取決于用于訓練和評估的數據。算法的作用已經得到充分研究,也是眾多挑戰(如 SQuAD、GLUE、ImageNet 等)的焦點。此外,數據也已經過改進,包括一系列應對 ML 評估問題的研討會。相比之下,專注于 - 用于評估 ML 模型的數據的研究和挑戰并不常見。
此外,許多評估數據集包含容易評估的項目,例如帶有易于識別的主題的照片,因此錯過了真實世界環境的自然歧義。評估中缺少模糊的真實世界樣本,削弱了可靠地測試機器學習性能的能力,這使 ML 模型容易形成“弱點”,即模型難以或無法準確評估的樣本的類別,因為評估集中缺少這一類樣本。
SQuAD
https://rajpurkar.github.io/SQuAD-explorer/
GLUE
https://gluebenchmark.com/leaderboard
ImageNet
https://kobiso.github.io/Computer-Vision-Leaderboard/imagenet
為了解決識別 ML 模型中這些弱點的問題,我們最近在 HCOMP 2020 上發起了眾包機器學習不良測試集 (CATS4ML) 數據挑戰賽(面向全球研究人員和開發者開放至 2021 年 4 月 30 日)。挑戰的目標是提高 ML 評估集的標準,并盡可能多地找到使算法處理起來會有困惑或其他問題的樣本。CATS4ML 依靠人們的能力和直覺來發現機器學習具有信心但實際上卻分類錯誤的新數據樣本。
眾包機器學習不良測試集
https://cats4ml.humancomputation.com/
什么是 ML 的“弱點”?
弱點有兩類:已知的未知(Known Unknowns)和未知的未知(Unknown Unknowns)。已知的未知是指模型對正確分類沒有把握的樣本。研究界在被稱為主動學習的領域研究這一問題,并發現了解決方法,用很籠統的話來說就是,在不確定的樣本上向人們交互式地征集新的標簽。例如,如果模型不確定一張照片的主題是否是貓,會要求人員進行驗證;但如果系統確定,則不會要求人員驗證。雖然這方面還有改進的空間,但令人欣慰的是,模型的置信度與其性能相關,也就是說,人們可以看到模型不知道的東西。
主動學習
http://digital.library.wisc.edu/1793/60660
另一方面,未知的未知是指模型對其答案充滿信心,但實際上是錯誤的樣本。主動發現未知的未知的研究(例如,Attenberg 2015 和 Crawford 2019)已經幫助發現了大量的非預期機器行為。與這類發現未知的未知方法相比,生成對抗網絡 (GAN) 以計算機光學錯覺的形式為圖像識別模型生成未知的未知,導致深度學習模型犯下人類無法感知的錯誤。雖然 GAN 在有意操縱的情況下會發現模型漏洞,但真實世界樣本可以更好地突出模型在日常性能中的失敗。這些真實世界樣本是 CATS4ML 感興趣的未知的未知 - 挑戰的目的是收集人類可以可靠地解釋但許多 ML 模型會自信地不同意的未經操作的樣本。
Attenberg 2015
https://dl.acm.org/doi/10.1145/2700832
Crawford 2019
https://excavating.ai
示例說明由對抗噪聲引起的計算機視覺錯覺如何幫助發現 ML 模型的機器操作未知的未知(基于 Brown 2018)
Brown 2018
https://ai.googleblog.com/2018/09/introducing-unrestricted-adversarial.html
CATS4ML 數據挑戰賽第一版:
Open Images 數據集
CATS4ML 數據挑戰賽側重于視覺識別,使用Open Images 數據集的圖像和標簽。挑戰賽的目標圖像選自 Open Images 數據集,以及來自同一數據集的一組 24 個目標標簽。挑戰賽的參與者被邀請發明新的創造性方法探索這個現有的公開可用數據集,并以預先選擇的目標標簽列表為中心,為 ML 模型發現未知的未知樣本。
CATS4ML 數據挑戰賽
https://cats4ml.humancomputation.com/
CATS4ML 是對 FAIR 最近推出的 DynaBench 動態數據收集研究平臺的補充。DynaBench 使用 ML 模型在人類參與下解決靜態基準問題,而 CATS4ML 則專注于通過鼓勵探索現有 ML 基準有無可能屬于未知的未知不利樣本改善 ML 評估數據集。結果將有助于檢測和避免未來的錯誤,也將對模型的可解釋性提供見解。
FAIR
https://ai.facebook.com/tools/dynabench/
DynaBench
https://dynabench.org/
CATS4ML 旨在由此通過提供數據集資源來提高人們對這個問題的認識,開發者可以利用這些資源發現算法弱點。這也將讓研究人員了解如何為機器學習創建更平衡、更多樣化、更具有社會意識的基準數據集。
編輯:jq
-
數據
+關注
關注
8文章
7134瀏覽量
89391 -
GLUE
+關注
關注
0文章
5瀏覽量
7368 -
機器學習
+關注
關注
66文章
8438瀏覽量
132928
原文標題:探索機器學習中的未解之謎
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論