這是一個驚人的圖像,說明了AI研究的根深蒂固的偏見。將美國第一任黑人總統巴拉克·奧巴馬(Barack Obama)的低分辨率圖片輸入到旨在生成去像素臉部的算法中,然后輸出的是白人。
也不僅僅是奧巴馬。獲取相同的算法,以從低分辨率輸入生成女演員露西·劉或女議員亞歷山大·奧卡西奧·科爾特斯的高分辨率圖像,并且所產生的面孔看起來明顯是白色的。正如一則流行的推文援引奧巴馬的例子所言:“這張圖片充分說明了人工智能存在偏見的危險。”
但是,是什么原因導致這些輸出的呢?它們真正告訴我們關于AI偏差的什么信息?
首先,我們需要對這里使用的技術有所了解。生成這些圖像的程序是稱為PULSE的算法,該算法使用一種稱為“放大”的技術來處理視覺數據。升級就像在電視和電影中看到的“縮放和增強”這樣的比喻,但是與好萊塢不同,真實的軟件不能僅僅從無到有地生成新數據。為了將低分辨率圖像轉換成高分辨率圖像,該軟件必須使用機器學習來填補空白。
對于PULSE,執行這項工作的算法是StyleGAN,它是由NVIDIA研究人員創建的。盡管您以前可能沒有聽說過StyleGAN,但您可能對它的工作很熟悉。這是負責制作那些怪異逼真的人臉的算法,您可以在ThisPersonDoesNotExist.com等網站上看到這些人臉;如此真實的面孔經常被用來制作虛假的社交媒體資料。
PULSE所做的是使用StyleGAN“想象”高分辨率版本的像素化輸入。它不是通過“增強”原始的低分辨率圖像來實現此目的,而是通過生成一個全新的高分辨率面(當像素化時看起來與用戶輸入的像相同)。
這意味著可以以多種方式放大每個去像素的圖像,就像使用一組配料制作不同的菜肴一樣。這也是為什么您可以使用PULSE來查看《毀滅戰士》,《德軍總部3D》的英雄,甚至是哭泣的表情符號在高分辨率下的樣子的原因。并不是說算法會像“縮放并增強”底片那樣“尋找”圖像中的新細節。而是發明新的面孔以還原為輸入數據。
從理論上講,這種工作已經進行了幾年,但是,就像AI界經常發生的那樣,當這個周末在網上共享了易于運行的代碼版本時,它就吸引了更多的聽眾。那是種族差距開始擴大的時候。
PULSE的創建者說趨勢很明顯:當使用該算法按比例放大像素化圖像時,該算法通常會生成具有白種人特征的人臉。
該算法的創建者在Github上寫道:“看起來PULSE產生白色面孔的頻率要比有色人種的面孔高得多。”“這種偏見很可能是從StyleGAN接受過數據集訓練而來的,盡管可能還有其他我們不知道的因素。
換句話說,由于對StyleGAN進行了數據訓練,因此當試圖繪制看起來像像素化輸入圖像的人臉時,它默認為白色特征。
這個問題在機器學習中極為普遍,這也是面部識別算法在非白人和女性臉上表現較差的原因之一。用于訓練AI的數據通常偏向一個人口統計學的白人,并且當程序看到不在該人口統計學中的數據時,其性能就會很差。并非巧合的是,白人主導著AI研究。
但是,奧巴馬的例子所揭示的關于偏見的確切內容以及它所代表的問題可能如何得到解決都是復雜的問題。實際上,它們是如此復雜,以至于單一圖像引發了AI學者,工程師和研究人員之間的激烈爭論。
從技術上講,一些專家不確定這是否是數據集偏差的一個示例。AI藝術家Mario Klingemann認為,應該歸咎于PULSE選擇算法本身,而不是數據。克林格曼指出,他能夠使用StyleGAN從相同的像素化奧巴馬圖像生成更多非白色輸出,如下所示:
克林格曼說,這些人臉是使用“相同的概念和相同的StyleGAN模型”生成的,但使用的搜索方法與Pulse不同,他說,我們不能僅僅從幾個樣本中真正判斷出一種算法。他告訴The Verge:“可能有數以百萬計的可能的面孔都將縮小為相同的像素模式,而且所有這些面孔都是‘正確的’。”
(順便說一下,這也是為什么這樣的工具不太可能用于監視目的的原因。這些過程創建的面孔是虛構的,并且如上面的示例所示,與輸入的基本事實無關。但是, ,這并不是說過去巨大的技術漏洞已阻止警察采用技術。)
但是,無論原因如何,算法的輸出似乎都是有偏差的-在該工具廣泛可用之前,研究人員并未注意到這一點。這說明了一種不同且普遍存在的偏見:一種在社會層面上起作用的偏見
-
分辨率
+關注
關注
2文章
1071瀏覽量
42004 -
人工智能
+關注
關注
1795文章
47642瀏覽量
239733
發布評論請先 登錄
相關推薦
評論