在智能手機領域,蘋果就如同是新技術的標準,只要通過了蘋果之手的似乎都可以火起來。然而許多的技術有時候并不是有蘋果首創,蘋果將“非成熟技術不用原則”貫穿始終。
從 2007 年推出第一部 iPhone到現在已經十年?;仡櫄v年來的 iPhone 產品,很多的新技術都并非首創,而且蘋果都會選擇較為成熟的技術搭載在產品上,以求給消費者較好的用戶體驗。
比如說,真正讓 iPhone 成為業界標桿的觸屏技術,其實早在 1999 年摩托羅拉就已經推出了搭載觸屏技術的 A6188;還有從 iPhone 5S 開始使用的指紋識別技術,最先也由摩托羅拉在 2011年推出。
圖丨摩托羅拉觸屏手機 A6188 及指紋解鎖手機 Atrix 4G
當年,喬布斯似乎為蘋果定下了非成熟技術不用的原則,一方面當然是為了照顧用戶體驗,另一方面,他一直強勢的認為一旦某一技術搭載在 iPhone 上,就必須成為業界典范。而事實也的確如此,從普及智能手機,到數個語音助理Siri,到指紋識別,到取消3.5mm耳機插孔,都在某種程度上設定了新的業界標準,使得其他手機廠商紛紛跟進。
現在,全新的 iPhone 8 及iPhone X 已經上市,其面部識別功能 Face ID無疑是一大亮點。但和往常一樣,這并不是一個全新的技術。蘋果早在2013年推出的 iOS 7 中其實就已經整合了相關的核心功能組件,而其中技術甚至可以追溯至2001年。但直到 2017 年,蘋果才認為這項技術已經成熟,是時候搭載到最新的 iPhone 產品上了。
蘋果機器學習開發團隊于 16 日發表了一篇技術文章,主要是在介紹Vision 這個 API 背后所牽涉到的神經網絡機制,以及最初如何靠由簡單的非神經網絡算法,做出人臉識別的功能。
眾所周知,iPhone X 中的 Face ID 功能利用人臉識別取代過去的指紋識別,在有效提升便利性之余,也憑借其基于機器學習的核心算法,以及對臉孔的 3D 掃描機制,確保手機能識別出真正的主人,且隨著使用的時間增加,手機對主人臉孔的熟悉度也會跟著增加。
即便因為戴眼鏡或者是口罩而識別不出,甚至是經過整容,但只要輸入密碼,手機就會把剛剛捕捉到的臉孔特征加進學習模型中,往后戴一樣的眼鏡或口罩時,手機還是可以認得你,不必擔心會有被盜用等安全疑慮。
當然,密碼還是要保管好!
圖丨iPhone X 中的 Face ID 功能演示
然而,為了達到夠高的識別正確率,蘋果從算法到硬件設計,可是花了很多心思。但這個過程可以回溯到2011 年蘋果在 iOS 5 上發表的一套圖像識別框架 Core Image 身上。
雖然和 2004 年在 Mac OS X 上的 Core Image 名字完全一樣,但內容完全不同,Mac OS X 上的 Core Image 主要就是用來作為圖形處理使用,可在圖形上實時套用一般圖像處理軟件可做到的特效濾鏡。
蘋果把 Core Image 搬到 iOS 5 上后,隨著操作系統的改版也不斷增加新功能,隨著 2013 年的 iOS 7,蘋果引進了CIDetector這個功能類,而其最重要的核心功能,就是用來進行臉部識別。
但這時的臉孔識別并沒有太大的商用價值,因為只能識別是不是人臉,卻無法從人臉特征認出本人。后來蘋果轉而在 2014 年投入深度學習研究,經過 3 年的時間,推出OpenML這個完整的深度學習生態,以及與之搭配的Neuro engine 硬件 AI 處理單元。且推出首個基于硬件處理的手機深度學習應用Face ID。
Face ID的雛形CIDetector,源自 2001 年
Core Image 演進到 iOS 7.0,其功能包含了 CIImage、CIContex、CIFilter 以及 CIDetecor,而重點中的重點,就是 CIDetecor 這個功能類了。
所以說,當iOS 7 引入 CIDetecor 之后,基本上就具備了臉部識別的能力,但各位可能會有疑惑,那怎么從 iOS 7 進展到 iOS 11,隔了這么久才使出 Face ID 這個大絕招?
既然是大絕招,當然前期練功運氣的過程不可避免,且 iOS 7 所使用的臉部識別算法有很大的缺陷,蘋果也認為要把這個技術用來做高精度的臉孔識別還為時過早。
實際上,iOS 7 中 CIDetector 的臉部識別技術,使用了 Viola-Jones 這種基于簡單特征的對象識別技術,此技術早在 2001 年就由同是畢業于麻省理工學院的 PaulViola(目前就職于亞馬遜) 及 Michael Jones(現供職于三菱電機研究實驗室,MERL)兩人共同提出,基于 AdaBoost 算法,使用 Haar-like 小波特征(簡稱類 haar 特征,是一種用來描述圖像的數字特征)和積分圖方法進行人臉檢測。
雖然這兩人并非最早使用提出小波特征的研究者,但是他們設計了針對人臉檢測更有效的特征,并對 AdaBoost 訓練出的強分類器進行級聯。這可說是人臉檢測史上里程碑式的一筆,也因此當時提出的這個算法被稱為Viola-Jones 算法。
毫無疑問,對于 2001 年計算機還不是那么普及的時代背景下,能夠創造出針對人臉的識別算法雖有其開創性的意義,但是該算法太過粗糙,采用的特征點數量太小,因此容易造成誤判,或者是被干擾的狀況。
也因為這個問題,蘋果不敢貿然把臉部識別的功能放到產品中,畢竟誤判率太高,對產品的使用體驗會是嚴重傷害。
圖丨三星面部識別
但還是有不少“勇敢”的廠商直接把這種臉部識別技術做到產品中:比如說,微軟的 Surface 平板,以及三星的 Galaxy 手機和平板,早在 2016 年就先后強調其集成在產品中的臉部識別功能。理所當然的,其識別出錯機率高不說,只要拍張賬號所有人的臉部照片,就可以打印出來讓機器識別,并可認證通過——可以想象,這樣的安全性表現,自然過不了蘋果對產品要求的基本門坎。
但到了 iOS 8,CIDetector 這個功能類又增加了針對條形碼、物體形狀以及文本的識別能力,用的都還是同一套計算邏輯。人臉識別的功能依舊保留,但只用在非關鍵的照相或者是圖片處理上,并且通過 GPU 加速來增加其識別效率。
在這時,CIDetector 的人臉識別功能最主要是用來判斷“是不是人臉”,而不是判別出“這是誰的臉”,離現在的 Face ID 功能還有相當遙遠的距離,反而在條形碼判讀方面的應用還比較廣,而其對象識別能力,亦逐漸被用在 AR 功能上。
無論如何,可以見得蘋果對于新興技術的運用相當謹慎,至今也是如此。不久前,《麻省理工科技評論》曾對蘋果現任CEO蒂姆·庫克 (TimCook)進行了專訪。當被問及如何看待很多人認為蘋果在AI領域正在落后于谷歌、微軟、亞馬遜等公司,他的回答是:“不僅僅是人工智能,其他方面也是一樣。大家經常把我們正在賣的東西跟別人規劃的東西做比較。很多人賣的是概念,他們有他們的理由,我沒有批評誰的意思,只是我們不這么做?!?/p>
“消費者是不會在意整合進產品的機器學習技術,他們甚至都不知道這種技術的存在。而恰恰是有了機器學習,iPhone的電池續航時間更長。其實iPhone里有一大堆東西都會讓你感覺‘哦,原來那也是機器學習啊’。我們從來不覺得需要告訴消費者我們的產品里有哪些用到了機器學習,因為這不是消費者最關心的。我們關心,因為我們在技術領域工作,但用戶不在乎,他們只在乎好不好用?!?/p>
云端 AI 牽扯到隱私問題,蘋果轉而尋求終端解法
到了 2014 年,蘋果看到深度學習在大型計算平臺上的應用已經越來越成熟,進而想到了逐漸實用化的深度學習在移動平臺應該同樣有著極高的應用潛力,研發人員產生了一個想法:如果把深度學習放在手機上,那是不是可以做到更酷炫、更精確的識別功能?
然而,理想很豐滿,但現實很骨感。先不論現在的手機已經逐漸集成用來處理 AI 計算的專用處理單元,比如說華為在麒麟 970 使用的 NPU,2014 年的手機芯片計算性能非常羸弱,不堪作為深度學習的視覺模型計算平臺。
當時行業里如果要做到 AI 功能,通常都是通過云端 API 提供相關的深度學習方案。如果使用基于云的深度學習方案,那么諸如臉孔識別,就可以通過手機收集臉孔圖像,然后發送至云端來進行學習以檢測人臉。這些基于云的服務通常使用強大的桌面級 GPU 架構,并且同時使用了龐大的內存。通過這些云服務設備,手機這樣的終端也能使用深度學習來解決問題。
但這又產生了另一個問題,蘋果的 iCloud 受到嚴格的隱私與數據使用限制,所以 iCloud 上雖然存在龐大的照片數據,但這些數據都不能被用來進行深度學習。理論上發送到 iCloud 的照片和視頻都會再發送到云存儲設備前先經過加密,并且只能通過注冊到 iCloud 的賬戶來進行解密,所以,要進行深度學習,蘋果只能選擇在手機上直接進行相關計算,而不是在云端處理。
也正因為此,挑戰就來了:要在 iPhone 上進行深度學習,就必須占用相當龐大且珍貴的 NAND 存儲空間,且學習時必須將整個數據庫都加載到內存中,并且耗用大量的 CPU 或 GPU 計算能力。
另外,與基于云計算的服務不同,云計算的資源只需要專注于視覺問題,反觀終端設備上的深度學習計算必須與其它正在運行的應用程序共享系統資源。最后,這些計算必須獲得足夠高效的處理,要能在相當短的時間內處理龐大的照片庫,且不能帶來顯著的功耗或熱量增加。
用 OverFeat 深度學習算法取代傳統 Viola-Jones 的特征識別方式
2014 年蘋果的研發人員開始探討如何通過深度學習來檢測圖像中的人臉時,深度卷積網絡 (DCN)其實才剛剛開始在物體檢測上有所發揮,并產生相當可靠的結果。而 DCN 算法中,最突出的是一種名為“OverFeat”的作法,靠由相對簡單的邏輯,可以達到相當有效且可靠的圖像描繪結果。
研發人員使用了基于 OverFeat 論文中的見解來架構最初的 Face ID 里面的人臉識別算法,并以之建立了一個完整的卷積網絡,靠以達成兩個任務目標:
1. 使用二進制分類來預測輸入數據中臉部的存在與否。
2. 預測邊界框架的參數回歸,靠以更好的定位輸入中的臉部數據。
研究人員使用了幾個訓練這種網絡的方法:
最簡單的訓練過程是創建一個固定大小圖像塊的大數據集,該圖像對應網絡的最小單一有效輸入,靠以優化整個網絡算法的多任務目標計算能力。訓練的數據集代表了理想狀態下的學習判讀過程,研發人員靠此判斷整個網絡的計算潛力以及彈性,并針對更多不同的可能性來調整網絡的參數。而訓練完畢之后,網絡就能夠預測任一圖像中是否包含了人臉,如果判斷為是,那它還能指出人臉在圖像中的坐標和比例。
圖丨蘋果研發人員優化過的人臉識別 DCN 網絡結構
由于網絡是完全卷積的,所以能夠高效的處理任意大小的圖像,并且生成 2D 輸出對應地圖。而對應地圖上的每個點都可對應到輸入圖像中的任何區塊,而這些點也包含了來自網絡中,對于該圖塊是否存在人臉以及該人臉在圖塊中的相對位置和比例的預測。
當我們完整定義網絡后,就可建立標準的處理流水線來執行人臉檢測,這個流水線里面包含了多尺度的圖像金字塔、人臉檢測器以及后處理模塊等三大部分。多尺度的金字塔主要是用來處理各種尺寸的臉孔。當收集到臉孔數據,我們把網絡應用到金字塔的每個不同尺度級別,并從每一層收集候選檢測資料。后處理模塊則是用來把這些檢測結果跨度進行組合,靠以產生對網絡映對圖像中,臉部檢測的最終預測邊界框的列表。
圖丨使用 DCN 卷積網絡建立出來的人臉檢測流水線
打造基于深度學習計算的 OpenML,創造人臉識別的基礎平臺 Vision
雖然蘋果過去為其終端設備設計了不少針對圖像處理的 API,比如說前面提到的 Core Image,但這些基于舊世代邏輯的 API,其實已經無法很好的應對未來復雜應用的計算需求,而因為深度學習的應用不論在云端或者是終端已經是不可避免的趨勢,所以蘋果研發人員推出了OpenML這個深度學習開發環境,以及Vision這個針對深度學習優化的圖像成像信道。
憑借 Vision,開發人員大部分的基本圖形操作可以自動完成。另外,在內存耗用以及功耗表現方面,尤其是流媒體,以及圖像捕捉過程,內存的占用過去一直是個懸而未決的問題。隨著攝影鏡頭的照相解析能力越來越高,其所能捕獲的圖像質量以及容量需求也不斷增加。研發人員通過部分二次采樣解碼以及自動平鋪技術來解決內存占用過高的問題,因此,機器視覺可以被應用到各種圖像中,即便是全景照片這種非常規高寬比的大型圖像也能順利工作。
Vision 也能妥善且有效率的使用中間體來優化圖像識別的工作。諸如人臉識別,或者是人臉標志檢測的工作都可以通過相通的中間體來加以處理。研發人員把相關算法的接口抽象出來,找到要處理的圖像或緩沖區的所有權位置后,Vision 就可以自動創件以及緩存中間圖像,靠以提高相關的視覺任務計算性能。
師徒制神經網絡訓練法解決過高的系統資源占用問題
Vision 的人臉檢測工作也需要大量的 GPU 計算,但 GPU 本身是一種相當耗電的架構,且計算過程中也會占用一定的內存空間。為了減少內存的占用,研發人員通過分析計算圖來分配神經網絡的珠間曾,靠以讓多個圖層能夠對應到同一個緩沖區。這個技術能夠減少內存占用,且不會明顯影響性能,并且可在 CPU 或是 GPU 上進行處理,兼顧了效率和彈性表現。
為了確保深層神經網絡在后臺運行時,前臺的系統操作流暢性仍能維持一致,研發人員更將網絡的每一層分割 GPU 工作,直到每個工作線程的占用的 CPU 時間都少于1 毫秒,讓操作系統可以快速將應用情境切換到優先級更高的任務上,比如說 UI 動畫的處理,靠以確保使用者得到的使用體驗仍能維持一致。
研發人員雖靠由 Vision 建立起基本的神經網絡。然而網絡復雜度和規模仍是要把這個網絡放到計算資源有限的終端設備上的最大挑戰。為了克服這個挑戰,研發人員必須把網絡限制在相對簡單的拓樸結構中,而且網絡層數、信道數量以及卷積濾波器的內核大小也要受到限制。
這是個兩難的問題,如果網絡規模太小,那就不足以構成可以快速判斷圖像的流水線,但太大,性能又會受到手機硬件的計算性能限制,導致反應遲緩,且功耗和發熱會嚴重影響使用體驗。事實上,不論怎么嘗試,當時要把整個神經網絡搭載到僅僅只有 1GB 的手機內存,可說是完全不可能的任務。
研發人員最終采用了類似“師生”的培訓方法,也就是使用 1 個具有完整規模的“大師”網絡,以之來訓練另 1 個較小,且層數較少的“學生”網絡,靠由這個訓練,最終只具備簡單卷積網絡結構的學生網絡,也能呈現出極為接近大師網絡的識別結果。最終,把神經網絡放到手機上的計劃終于獲得實現。
結合 Neural Engine 芯片,GPU 和 CPU 更可專注于使用體驗的改善
開發了 3 年的 Vision 成為蘋果在今年的 WWDC 發表泛用 AI 的機器學習框架 OpenML 的重要部件之一,而除了 Vision 以外,還加入了用于協助自然語言處理的 Fundation 、及讓游戲開發商可以在游戲中導入 AI 的 GameplayKit 等三大應用框架,這些開發環境也都用上了深度學習技術。
雖然通過 OpenML,可以妥善利用 GPU 和 CPU 的計算性能,達到不錯的深度學習性能,但蘋果并不滿足于現況,并認為要達到最好的使用體驗,就必須加入專用的深度學習硬件,這么一來不但可以增加神經網絡的規模,強化識別的正確性,同時也不會造成系統的延遲,而這也就是蘋果為何要與 Vision 同步研發 A11 內建 Neuro Engine 的主要原因。
憑借 Neuro Engine,所有深度學習相關的工作都可通過這個專屬的核心來進行處理,CPU 和 GPU 可以專注進行前臺任務,不會被后臺的任務所干擾,比過去所有的架構都更有效率,使用此計算架構加速的 Face ID,也表現出極高的識別速度以及正確性。Neural Engine 可做到每秒鐘六億次的操作效率,也就是0.6TOPS,在其功耗限制的條件下能做到這樣的效能輸出,其實已經算是業界數一數二了。
而作為蘋果軟硬生態未來不可缺的一部份,Neural Engine 也將會在整個蘋果終端的開發環境中占有非常重要的地位,不僅是目前的圖像識別或臉孔識別工作,未來在 AR 或 VR 圖像的繪制或迭加到真實世界的處理,肯定都會發揮其增進深度學習計算效能,并優化整體系統功耗表現,靠此更加強化蘋果在相關應用的使用體驗。
評論