Google AI推出“what-if ”工具,用戶完全不需要編寫代碼就能分析機器學習模型。該工具提供交互式可視化界面,用戶可以探索并比較模型結果,可以快速地發(fā)現(xiàn)模型中的錯誤。
構建高效的機器學習系統(tǒng),需要提出并解決許多問題。僅僅訓練模型然后就放著不管是遠遠不夠的。優(yōu)秀的機器學習從業(yè)者要像偵探一樣,時刻注意探索如何更好地理解構建的模型:數(shù)據(jù)點的變化將對模型的預測結果造成什么影響?同一個模型對不同的群體會有哪些不同的表現(xiàn)?用來測試模型的數(shù)據(jù)集的多樣化程度如何等等。
要回答這些問題并不容易。要回答這些“假設”問題,通常要編寫自定義的一次性代碼來分析特定模型。這個過程不僅效率低下,而且除了程序員,其他人很難參與改進機器學習模型的過程。
Google AI PAIR計劃的一個重點就是讓更廣泛的人群能夠更方便地對機器學習系統(tǒng)進行檢查、評估和調(diào)試。
今天,我們正式發(fā)布What-If工具,該工具是開源的TensorBoard Web應用程序的一項新功能,它允許用戶在不編寫代碼的情況下分析機器學習模型。What-If工具給出了TensorFlow模型和數(shù)據(jù)集的指針,提供了一個交互式可視化界面,用于探索模型結果。
What-If工具顯示一組250張面部圖片及其檢測微笑模型的結果
What-If工具功能強大,可以使用Facets自動顯示數(shù)據(jù)集,從數(shù)據(jù)集手動編輯示例并查看更改的效果,還能自動生成部分依賴圖(partial dependence plots),顯示模型的預測結果隨任何單個功能的更改而變化的情況。
探索數(shù)據(jù)點上的What-if情景
下面詳細介紹What-If工具的兩個功能。
只需一鍵,自動對比數(shù)據(jù)點與模型預測最相似點
用戶只需單擊一個按鈕,就可以將數(shù)據(jù)點與模型預測不同結果的最相似點進行比較。我們稱這些點為“Counterfactuals”,可以顯示出預測模型的決策邊界。用戶也可以手動編輯數(shù)據(jù)點,并探索模型預測的變化。
在下面的截圖中,該工具用于二進制分類模型,該模型根據(jù)美國人口普查數(shù)據(jù)集的公共人口普查數(shù)據(jù),預測一個人的年收入是否超過5萬美元。這是機器學習研究人員使用的基準預測任務,尤其是在分析算法的公平性時。
在這種情況下,對于選定的數(shù)據(jù)點,模型預測該人年收入超過5萬美元的信度為73%。該工具自動定位數(shù)據(jù)集中最相似的人,模型預測其年收入低于5萬美元,然后將選定數(shù)據(jù)點和與之最相似、但預測結果相反的數(shù)據(jù)點進行并排比較。如下圖所示,二者只有在年齡和職業(yè)上存在微小的差異,但模型的預測結果已經(jīng)完全相反了。
對Counterfactuals的比較。二人只有在年齡和職業(yè)上存在微小的差異,但模型的預測結果已經(jīng)完全相反
模型性能和算法公平性分析
用戶還可以探索不同分類閾值的影響,同時考慮不同數(shù)值公平性標準等約束條件。下圖所示為微笑探測器模型的結果,該模型在開源CelebA數(shù)據(jù)集上訓練,數(shù)據(jù)集是已標記的名人面部圖像。
下圖所示數(shù)據(jù)集中的面部圖像按照頭發(fā)是否為棕色分開,兩個圖像中的每一組都建立一條ROC曲線和一個預測結果的混淆矩陣,再設置一個置信度滑塊,設定模型必須在超過某一置信度時才能判定目標的面部是微笑的。本例中,What-If工具自動設置兩組的置信度閾值,以優(yōu)化模型,實現(xiàn)機會均等。
使用What-if工具對微笑檢測模型兩部分數(shù)據(jù)的預測表現(xiàn)的比較,其中預測模型分類閾值設置滿足“機會公平”
檢測錯誤分類、評估模型公平性、調(diào)查模型不同數(shù)據(jù)集
為了說明What-if工具的功能,我們使用預先訓練的模型發(fā)布了一組Demo:
檢測錯誤分類:多類分類模型,模型根據(jù)對植物的花的四次觀測來預測植物的種類。What-if工具有助于顯示模型的決策邊界,弄清導致錯誤分類的原因。
評估二元分類模型的公平性:上面提到的用于微笑表情檢測的圖像分類模型。What-if工具有助于評估不同子圖像組的算法公平性。在該模型的訓練中,有意沒有提供來自特定人群的示例,目的是為了顯現(xiàn)What-if工具如何能夠揭示模型中的這種偏差。對模型預測公平性的評估需要仔細考慮整體背景,不過What-if工具是一個有用的量化起點。
調(diào)查模型在不同子群體中的表現(xiàn):回歸模型可以用于根據(jù)人口普查信息預測受試者的年齡。What-if工具能顯示出模型在不同子群體中的相對表現(xiàn),以及不同特征如何單獨影響預測結果。該模型使用美國人口普查數(shù)據(jù)集進行訓練。
What-If工具的實地應用
我們將What-If工具在Google內(nèi)部團隊中進行了測試,該工具在測試中顯現(xiàn)出了直接價值。有團隊很快發(fā)現(xiàn)他們的模型錯誤地忽略了數(shù)據(jù)集的整個特征,修復了以前未發(fā)現(xiàn)的代碼錯誤。 還有團隊使用該工具將模型示例按性能高到低排列出來,并發(fā)現(xiàn)表現(xiàn)不佳的模型示例的運行模式。
我們期待Google內(nèi)外的人們都來使用What-If工具,以更好地理解機器學習模型,并開始評估預測模型的公平性。 我們的代碼是開源的,歡迎對該工具繼續(xù)添磚加瓦。
-
Google
+關注
關注
5文章
1766瀏覽量
57621 -
代碼
+關注
關注
30文章
4803瀏覽量
68750 -
機器學習
+關注
關注
66文章
8425瀏覽量
132772
原文標題:測試機器學習模型不用寫代碼!谷歌“what-if”工具輕松搞定
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論