在科技爆發的時代,人工智能(Artificial Intelligence, AI)技術越來越常出現在我們生活。AI技術表示能夠讓機器具有類似人類的智慧,可用來提升人們的生活質量、工作效率等。以日常生活中常見的攝影機為例,這些攝影機可以組成一套監控系統,守護我們的安全。受惠于消費電子產品的發展與低廉的價格,一般民眾也能在自己的家里安裝攝影機,目的通常是為了居家監護,觀測是否有人進出畫面、隨時注意家中寶寶的狀態,或者觀看寵物的最新動向。市面上的攝影機產品大多具有人物偵測,甚至是人臉或口鼻偵測等相關功能。這些功能可以自動判斷畫面中的信息,讓我們得知人物出現的時機,不需要長時間觀看畫面去追尋特定的人物。而當我們談到人物偵測時,最廣為人知的方法就是「人臉偵測」(detection),藉由分析人臉的器官部位特征,如:眼睛、鼻子、嘴巴等,可以得知畫面中是否有人臉。另一個進階應用為「人臉識別」(recognition),用來辨識人臉的身分為何,此技術需要事先建立數據庫搜集每個人員的臉部特征,因此常引來隱私權的爭議。本文將探討人臉偵測的原理,并說明可能遇到的潛在問題。
傳統人臉偵測的原理
傳統的人臉偵測做法,需要分析圖片上每一個像素點(pixel)的RGB色彩值,這種作法會花費大量的運算資源與時間。根據相關的研究論文,研發出分析方法的團隊使用哈爾小波轉換(Haar wavelet)的概念來設計一個分析影像特征的方法,稱為哈爾特征(Haar-like feature),藉由搜集人體的身形輪廓特征,可以在圖片上偵測是否有人物出現。
圖一(a)即為舉例說明邊緣線條的哈爾特征。后來團隊擴充此方法,發展為成臉部偵測的系統。因為人臉輪廓具有一定的規律性,特別是在眼睛、鼻子、嘴巴區域,此處的輪廓特征最為明顯。圖一(a)的左半部則為哈爾特征,用來分析畫面中的輪廓是否與已有的輪廓特征方格相近。以圖一(b)的上方為例,就是將特定影像區域的內容與哈爾特征進行分析,計算兩者的相似度。當影像內容與哈爾特征完全相同時,所得到的相似率為1。然而,實際影像不可能會與哈爾特征完全相同,如圖一(b)的下方。此相似率可以協助我們評估畫面上的對象是否符合指定特征。
圖一:哈爾特征的樣式與計算范例。
藉由收集相關的特征數據,能夠建立一個數據庫來描述人臉的特征,進一步讓計算機判斷是否有人臉出現在畫面上。以鼻子為例,鼻翼四周的輪廓就是一個很明顯的臉部特征。
然而,當計算機進行分析時,就需要計算指定圖片區域的像素點數值,這個計算量往往相當龐大。以圖一的為例,當我們計算4×4的圖片區域時,里面一共有16個像素點,若要計算該區域的數值總和時,直覺的做法是將這16個點加在一起。此方法雖然簡單,但圖片尺寸變大、需要分析的特征變多時,會消耗大量的運算資源與時間。因此,研究人員進一步提出一系列的方法來縮短整體流程,首先是積分圖(integral image),此方法會在起始階段掃描整張圖片并計算每個像素點的累加值?;氐较惹暗睦雍?,計算圖片區域的數值總和時,只需要計算4個像素點的信息。以圖二為例,當我們想要計算灰色區域的數字總和時,直覺做法為將6個像素點的數值累加起來。而積分圖的做法是先建立一個像素點的累加值,然后再選取鄰近四個像素點的數值進行運算,如圖二積分圖中被粗框框起來的數值。此作法可以大幅度降低運算成本,不論計算的范圍有多大,只需要4個數值的運算即可得到區域的總和。
圖二:積分圖例子。
后續的研究還有結合自適應增強(adaptive boosting, AdaBoost)與串接(cascade)技術,判斷畫面上是否有特定的臉部器官,若有符合條件(如:發現鼻子)才會進行后續的分析。此流程的執行速度能夠在一秒鐘處理15張圖片(frame per second, FPS),可用于實時的對象偵測。這個技術被廣泛用在現有的人臉偵測系統,網絡上也有許多教學供有興趣的人去研究使用。
灰階加速運算,卻產生公平性爭議
值得注意的是,這些人臉偵測的系統都會把彩色圖片轉換成灰階(grayscale)樣式,研究人員也有特別說明這一點,這套快速的偵測系統僅適用于灰階的圖片。在人類眼中,我們能夠看到各式各樣的色彩。對計算機來說,也常使用RGB色彩空間來定義顏色,一張彩色的圖片可以用RGB三個通道來描述內容。以一個像素點來說,它的顏色一共有255×255×255(約1658萬)種組合。如果采用灰階的色彩空間,一個像素點只有255種組合。當計算機在分析圖片的時候,使用灰階圖片可以降低大量的運算資源并縮減時間。此外,灰階的程序代碼復雜度也較低,如果一開始使用彩色空間進行輪廓分析,需要考慮各種信息,如:亮度、色差??等,將這些信息納入分析之后,整體執行效率往往比灰階圖片還要慢?;谛实男枨?,大多辨識系統的流程都會先將彩色照片轉換為灰階照片,期望能夠快速地獲得結果。
然而,這種做法會遇到一些潛在的問題,膚色淺的人種在此系統中會有較好的辨識效果,膚色深的人種會不易被辨識,由于人權意識的興起,AI技術的公平性也常受到檢視?;仡櫹惹疤岬降臄祿幚砹鞒?,他們會先將彩色照片轉換為灰階照片,然后再分析灰階照片上的輪廓特征,檢查是否有特定輪廓的信息。以圖三為例,有3種不同膚色的人臉示意圖,當轉換成灰階照片后,可以發現膚色深的輪廓較不明顯。根據后續的研究數據顯示,研究人員將搜集的皮膚顏色數據集大致分為3種類型:淡色皮膚、棕黃皮膚、深色皮膚。圖三的人臉圖片參考所統計的皮膚色碼,然后使用臉部偵測來觀察各自的辨識效果。
圖三:不同膚色的臉部偵測流程。
這3張圖片都屬于人臉,唯一的差別只是膚色不同,理論上應該都能夠被偵測到。當這3張圖片轉換成灰階照片后,我們觀察鼻子附近的輪廓,可以發現深色皮膚的鼻子輪廓較不明顯。這些照片套用先前提到的哈爾特征計算方式,即黑色區域與白色區域的數值相減,淺色皮膚的照片會得到較高的相似率,而深色皮膚會得到較低的相似率。從上面的例子可以得知,膚色淺的人種在此模型中會有較好的辨識效果,而膚色深的人種會不易被辨識。其背后原因和跟運算流程有關,因為將彩色圖片轉成灰階圖片可以大幅縮減運算時間,但對于不同膚色的人種會有不同的偵測結果。對當初的開發者來說,他們僅是想要提出一套快速的偵測方法,但此方法間接產生公平性的議題,這個影響也是始料未及。
對象偵測技術YOLO的發展與爭議
除了人臉偵測的技術以外,對象偵測(object detection)技術在計算機視覺(computer vision, CV)研究領域也受到許多注目,因為攝影機的畫面通常包含許多信息,如:寵物、車輛等,對象偵測可以自動分析畫面中的對象種類。以YOLO(You Only Look Once)為例,此方法直接將整張原始(彩色)圖片輸入至卷積神經網絡(convolutional neural networks, CNN)進行分析,并且依靠圖像處理器(graphicsprocessing unit, GPU)的運算能力,一秒鐘可以處理45張圖片,表示已能夠進行實時對象偵測。YOLO發表之后受到許多人的關注,累積至2021年10月的論文引用數已高達1萬9千多次。YOLO的作者后來發表YOLOv2與YOLOv3的研究,提供更快速、更精準、可識別更多對象的能力,并且開放原始碼讓有興趣的研究團隊可以研究他們技術。
然而,YOLO的作者雷德蒙(Joseph Redmon)在2020年于個人twitter發表了一段令人震撼的宣言:
I stopped doing CV research because I sawthe impact my work was having. I loved the work but the military applicationsand privacy concerns eventually became impossible to ignore.
雷德蒙表示雖然個人很熱愛計算機視覺的研究,但發現到其研究成果在很多領域產生影響,特別是軍事應用與個人隱私的問題,這些倫理議題是無法忽略的,因此選擇離開計算機視覺的研究,讓其他人繼續接手相關研究。YOLO官網后來仍發布新版的YOLOv4的信息,作者就不再出現雷德蒙的名字,取而代之是原本的程序代碼維護者。
審核編輯:湯梓紅
-
計算機
+關注
關注
19文章
7534瀏覽量
88466 -
RGB
+關注
關注
4文章
801瀏覽量
58642 -
AI
+關注
關注
87文章
31490瀏覽量
269915 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239690
原文標題:生活中的AI應用:淺談人臉偵測原理及衍伸的倫理議題
文章出處:【微信號:易心Microbit編程,微信公眾號:易心Microbit編程】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論