01
數(shù)字圖像基本概念
數(shù)字圖像(Digital Image),是計(jì)算機(jī)視覺(jué)與圖像處理的基礎(chǔ),區(qū)別于模擬圖像。通常直接觀測(cè)到的圖像可以理解成連續(xù)的模擬量,模擬量在處理時(shí)涉及運(yùn)算相對(duì)復(fù)雜,內(nèi)部相關(guān)性較高,難以形成統(tǒng)一定量的標(biāo)準(zhǔn)。隨著計(jì)算機(jī)的發(fā)展,為便于計(jì)算機(jī)的運(yùn)算與定量處理,同大多數(shù)模擬量一樣,模擬圖像需要通過(guò)采樣量化轉(zhuǎn)化為離散的數(shù)字量,即數(shù)字圖像。
1.1 數(shù)字圖像提取
數(shù)字圖像通過(guò)對(duì)模擬圖像采樣和量化得到,該過(guò)程通常由圖像傳感器(例如CMOS圖像傳感器)實(shí)現(xiàn),圖像傳感器通常為感光元件陣列。圖像傳感器的性能決定了采集到的數(shù)字圖像的質(zhì)量。
1.1.1 采樣處理
采樣(Sampling)處理即對(duì)圖像所在空間坐標(biāo)進(jìn)行數(shù)字化,將空間上連續(xù)的圖像轉(zhuǎn)變?yōu)殡x散的采樣點(diǎn)。采樣處理的評(píng)估指標(biāo)為圖像的空間分辨率。
1.1.2 量化處理
量化(Quantifying)處理即對(duì)采樣信號(hào)按一定規(guī)則賦值,對(duì)采樣點(diǎn)幅度進(jìn)行離散化。量化處理的評(píng)估指標(biāo)為圖像的幅度分辨率,也稱為灰度級(jí)分辨率。量化通常以圖像的明暗信息為標(biāo)準(zhǔn),考慮人眼識(shí)別能力,采用8bit 0~255來(lái)描述黑~白。
量化通常可分為均勻量化和非均勻量化:
均勻量化對(duì)連續(xù)灰度值等間隔分層,層數(shù)越多,產(chǎn)生的量化誤差越小;
非均勻量化通常基于不同的特性設(shè)置不同的采樣間距,例如,基于視覺(jué)特征的非均勻量化通常縮小細(xì)節(jié)豐富地方的采樣間距,基于統(tǒng)計(jì)特征的非均勻量化通常縮小灰度值出現(xiàn)頻繁的采樣間距。
通過(guò)采樣與量化處理后提取的數(shù)字圖像可以由一個(gè)矩陣進(jìn)行表示,矩陣的大小為圖像的空間分辨率,矩陣每個(gè)元素的值為對(duì)應(yīng)像素的幅度分辨率。
1.2 數(shù)字圖像概念
數(shù)字圖像處理過(guò)程中常見(jiàn)概念:
1.2.1 數(shù)字圖像基本單位——像素
像素(Pixel),也稱為像元,是數(shù)字圖像的基本元素。像素在模擬圖像離散化過(guò)程中生成,即采樣過(guò)程提取到的每一個(gè)采樣點(diǎn)就是一個(gè)像素。每個(gè)像素都具有位置坐標(biāo)與灰度值(或顏色值)。在其他條件相同的情況下,包含像素越多的圖像,清晰度越高。
1.2.2 數(shù)字圖像的灰度與深度
數(shù)字圖像的灰度與深度通常用來(lái)衡量量化程度。灰度指每個(gè)像素取值大小,灰度范圍即每個(gè)像素取值的范圍,通常在其他條件相同的情況下,灰度值范圍越大的圖像越清晰;深度指每個(gè)像素存儲(chǔ)所需要的容量,通常也稱為灰度級(jí),灰度范圍越大,所需要的深度越大。通常用8bit表示256個(gè)灰度級(jí),灰度為0~255中某個(gè)整數(shù),深度為8。
1.2.3 數(shù)字圖像的分辨率
數(shù)字圖像的分辨率包括空間分辨率和幅度(灰度)分辨率。空間分辨率指數(shù)字圖像所包含的像素個(gè)數(shù),用于衡量圖像大小(通常利用分辨率描述圖像大小不能離開空間單位,例如印刷行業(yè)采用dpi表示每英寸像素?cái)?shù));幅度(灰度)分辨率指數(shù)字圖像量化灰度的位數(shù),與深度的含義相同。
1.2.4 數(shù)字圖像的常見(jiàn)種類
二值圖像:圖像像素亮度值僅由0和1構(gòu)成;
灰度圖像:圖像像素亮度值由0~255表示黑~白;
彩色圖像:由RGB三幅不同顏色的灰度圖像組成;
立體圖像:某物體從不同角度拍攝的一對(duì)圖像,可以計(jì)算出圖像深度信息;
三維圖像:由一組堆棧的二維圖像組成,每幅圖像表示物體的一個(gè)橫截面;
1.2.5 數(shù)字圖像的常見(jiàn)格式
JPG格式:全稱為JPEG,以24為顏色存儲(chǔ)單個(gè)光柵圖像,支持最高級(jí)別的有損壓縮,壓縮比率可達(dá)100:1,但會(huì)犧牲大量圖像質(zhì)量,通常在10:1到20:1的壓縮比下保證圖像質(zhì)量。JPEG壓縮可以很好得處理類似色調(diào),但不能很好得處理亮度差異大和純色區(qū)域。JPEG支持隔行漸進(jìn)顯示,但不支持透明性和動(dòng)畫,對(duì)JPEG圖像進(jìn)行除旋轉(zhuǎn)裁剪外得編輯操作通常會(huì)導(dǎo)致圖像質(zhì)量損失,因此在編輯過(guò)程通常以PNG作為過(guò)渡格式;
PNG格式:流式網(wǎng)絡(luò)圖形格式(Portable Network Graphic Format,PNG)是20世紀(jì)90年代中期開始開發(fā)的圖像文件存儲(chǔ)格式,其目的是企圖替代GIF和TIFF文件格式,同時(shí)增加一些GIF文件格式所不具備的特性PNG采用從LZ77派生的無(wú)損數(shù)據(jù)壓縮算法,用來(lái)存儲(chǔ)灰度圖像時(shí),灰度圖像的深度可多到16位,存儲(chǔ)彩色圖像時(shí),彩色圖像的深度可多到48位,并且還可存儲(chǔ)多到16位的α通道數(shù)據(jù)。PNG格式包括許多類,實(shí)踐中大致可分為256色和全色,其中256色PNG可以代替GIF格式,全色PNG可以代替JPEG格式。PNG支持alpha透明,即支持透明、不透明和半透明,圖像顏色較少且主要以純色或平滑漸變色填充和亮度差異大的圖像適合以PNG8格式存儲(chǔ);
GIF格式:GIF(GraphicsInterchange Format)圖像互換格式是CompuServe公司在1987年開發(fā)的圖像文件格式。GIF文件的數(shù)據(jù)采用了可變長(zhǎng)度等壓縮算法,是一種基于LZW算法的連續(xù)色調(diào)的無(wú)損壓縮格式,壓縮率一般在50%左右。它不屬于任何應(yīng)用程序,目前幾乎所有相關(guān)軟件都支持。GIF的圖像深度從1bit到8bit,最多支持 256 種色彩圖像。在一個(gè) GIF文件中可以存多幅彩色圖像,如果把存于一個(gè)文件中的多幅圖像數(shù)據(jù)逐幅讀出并顯示到屏幕上,就可構(gòu)成一種最簡(jiǎn)單的動(dòng)畫。GIF支持動(dòng)畫和布爾透明,即不支持半透明(alpha透明),GIF支持可選擇性的間隔漸進(jìn)顯示,同時(shí)LZW水平掃描壓縮使得同一圖片橫向GIF比豎向GIF占用空間更小;
BMP格式:BMP是一種與硬件設(shè)備無(wú)關(guān)的圖像文件格式,采用位映射存儲(chǔ)格式,除了圖像深度可選可選1bit、4bit、8bit及24bit以外,不采用其他任何壓縮,因此BMP 文件所占用的空間很大。BMP支持索引色和直接色,存儲(chǔ)數(shù)據(jù)時(shí),圖像按從左到右、從下到上的順序進(jìn)行掃描;
SVG格式:可縮放矢量圖形 (Scalable Vector Graphics)是由萬(wàn)維網(wǎng)聯(lián)盟制定的一個(gè)基于可擴(kuò)展標(biāo)記語(yǔ)言(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的子集)的開放標(biāo)準(zhǔn),用于描述二維矢量圖形的一種圖形格式,因此在放大時(shí)不會(huì)失真,線不會(huì)變?yōu)橄袼攸c(diǎn)。SVG使用XML格式定義圖形,與DOM和XSL等W3C標(biāo)準(zhǔn)是一個(gè)整體;
02
數(shù)字圖像處理算法
數(shù)字圖像處理算法通常包括圖像增強(qiáng)、圖像拼接、圖像分割、圖像壓縮、圖像識(shí)別、圖像變換、圖像復(fù)原、圖像重建等研究領(lǐng)域。
2.1 圖像增強(qiáng)
圖像增強(qiáng)技術(shù)針對(duì)光照不足、雨霧影響等噪聲較大的圖像,改善畫質(zhì),提高圖像清晰度。常用算法包括直方圖均衡化、Retinex理論、深度學(xué)習(xí)等。
2.1.1 直方圖均衡化
圖像直方圖和圖像像素之間存在直接映射關(guān)系,直方圖均衡化可以將這一映射表達(dá)出來(lái)。直方圖均衡化的基本思想是對(duì)圖像像素統(tǒng)計(jì)個(gè)數(shù)多的灰度級(jí)進(jìn)行展寬,對(duì)像素統(tǒng)計(jì)個(gè)數(shù)少的灰度級(jí)進(jìn)行縮減,改變圖像通道的直方圖分布以達(dá)到視覺(jué)上對(duì)比度增強(qiáng)的效果。
直方圖均衡化圖像增強(qiáng)通過(guò)利用直方圖可以進(jìn)行層次差分表達(dá)的特性,增強(qiáng)圖像的對(duì)比度,并將相鄰像素間的灰度差放大,從而提高圖像對(duì)比度。
直方圖均衡化僅對(duì)圖像像素進(jìn)行映射,計(jì)算像素強(qiáng)度而忽略其空間信息,導(dǎo)致圖像的局部亮度調(diào)節(jié)能力不夠好,從而影響到某些場(chǎng)景的整體亮度,同時(shí)可能會(huì)引入其他噪聲。
2.1.2 Retinex理論
Retinex的基本思想是,將待增強(qiáng)圖像S分解為圖像的反射成分R(x)與光照成分L(x)的積,即對(duì)象自身色彩與光照成分無(wú)關(guān),取決于對(duì)象表面的反射特性,因而從輸入圖像中移除干擾圖像強(qiáng)度的成分可以獲得圖像的增強(qiáng)。
將固有先驗(yàn)引入到分解模型中來(lái)增強(qiáng)對(duì)比度,在反射層和光照層分別引入約束條件(反射層通過(guò)顏色相似性對(duì)相鄰像素進(jìn)行規(guī)范約束,光照層通過(guò)分段平滑進(jìn)行約束)可以解決增強(qiáng)圖像出現(xiàn)過(guò)亮等問(wèn)題。
2.1.3 深度學(xué)習(xí)
隨著深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、對(duì)抗生成網(wǎng)絡(luò)(GAN)等圖像增強(qiáng)算法也相繼被提出。下圖是在Retinex原理啟發(fā)下提出的CNN網(wǎng)絡(luò)方法流程圖,將網(wǎng)絡(luò)分成用來(lái)調(diào)節(jié)光線和用來(lái)消除噪聲兩部分。
無(wú)監(jiān)督深度網(wǎng)絡(luò)模型,零參考深度曲線估計(jì)網(wǎng)絡(luò)(Zero-DCE)方法利用深度網(wǎng)絡(luò)將增強(qiáng)作為圖像特定曲線估計(jì)的任務(wù),該方法不要求有成對(duì)或不成對(duì)的數(shù)據(jù),而是訓(xùn)練一種用于估算像素水平和高次曲線的網(wǎng)絡(luò)以適應(yīng)給定的圖像動(dòng)態(tài)范圍。
2.2 圖像拼接
圖像拼接技術(shù)針對(duì)單鏡頭拍攝圖像顯示范圍的局限性,將多幅圖像拼接為一幅以克服圖像視野的限制、擴(kuò)大圖像范圍進(jìn)而更好地展示細(xì)節(jié)。圖像拼接的主要方法有兩種:基于區(qū)域的圖像拼接方法和基于特征的圖像拼接方法。
2.2.1 基于區(qū)域的圖像拼接方法
基于區(qū)域的圖像拼接方法通過(guò)對(duì)兩張待拼接圖像在同一區(qū)域內(nèi)的強(qiáng)度差進(jìn)行計(jì)算得到拼接后圖像。基于區(qū)域的拼接方法有:像素點(diǎn)匹配法、基于互信息的方法和基于拉普拉斯金字塔的方法。此類方法的優(yōu)點(diǎn)是最優(yōu)地利用了圖像對(duì)齊信息,但是計(jì)算量大,配準(zhǔn)精度低,對(duì)常見(jiàn)幾何變換沒(méi)有不變性。
2.2.2 基于特征的圖像拼接方法
基于特征的圖像拼接方法是通過(guò)像素得到圖像特征信息進(jìn)而匹配和拼接圖像,步驟包括:圖像的特征提取與描述、特征匹配、重投影拼接和圖像融合。圖像特征提取與描述是描述一塊與其他區(qū)域高度可區(qū)分的區(qū)域,局部特征應(yīng)準(zhǔn)確、有效、區(qū)分性強(qiáng)。特征匹配要找同一場(chǎng)景的待拼接圖像間的匹配點(diǎn)。重投影拼接和圖像融合是指使用幾何變換將圖像對(duì)齊到一個(gè)統(tǒng)一的坐標(biāo)系統(tǒng)中并消除由光照影響產(chǎn)生的拼接縫。此步中首先要描繪輸入圖像的幾何變換關(guān)系,一般的變換關(guān)系是8個(gè)自由度的單應(yīng)性矩陣,然后進(jìn)行重投影拼接,最后融合拼接縫處光照突變的像素。
基于特征的圖像拼接技術(shù)普適性好、在各領(lǐng)域使用頻率最高、范圍最廣,因此是實(shí)現(xiàn)圖像拼接最好的選擇。圖像配準(zhǔn)常用算法包括Harris角點(diǎn)檢測(cè)、SIFT、PCA-SIFT、FAST、ORB、SURF等算法;圖像重投影拼接與融合常用算法為RANSAC算法。
2.3 圖像分割
圖像分割技術(shù)針對(duì)圖像中某些特定物體進(jìn)行研究,將待研究物體分離以更清晰得研究物體變化特點(diǎn)。圖像分割技術(shù)主要應(yīng)用于醫(yī)學(xué)和科研領(lǐng)域,醫(yī)學(xué)圖像中不同的人體器官、組織和病變區(qū)域所表現(xiàn)的復(fù)雜特點(diǎn),以及醫(yī)學(xué)圖像自身的復(fù)雜性和多模態(tài)性,對(duì)適用于各種類型的醫(yī)學(xué)圖像分割任務(wù)的圖像分割算法提出了很高的要求。圖像分割技術(shù)根據(jù)圖像特征手工提取和自動(dòng)學(xué)習(xí)方式可劃分為兩大類:傳統(tǒng)圖像分割方法和基于深度學(xué)習(xí)的圖像分割方法。
2.3.1 傳統(tǒng)圖像分割方法
傳統(tǒng)醫(yī)學(xué)圖像分割方法主要依賴于圖像中強(qiáng)度值的不連續(xù)性和相似性特征。例如基于邊緣檢測(cè)的方法根據(jù)圖像中強(qiáng)度級(jí)別或圖像灰度級(jí)別的瞬時(shí)變化,利用其不連續(xù)性實(shí)現(xiàn)圖像的分割,其主要關(guān)注孤立點(diǎn)的識(shí)別。閾值分割或區(qū)域分割等根據(jù)圖像分割的預(yù)設(shè)標(biāo)準(zhǔn),基于一定范圍內(nèi)的像素相似性來(lái)分割圖像。傳統(tǒng)的醫(yī)學(xué)圖像分割方法可大致分為閾值分割法、基于區(qū)域的分割方法、聚類分割法、基于邊緣檢測(cè)的分割方法、基于模型的分割方法。
2.3.2 基于深度學(xué)習(xí)的圖像分割方法
基于深度學(xué)習(xí)的分割方法克服了傳統(tǒng)手工特征分割的局限性,在特征自動(dòng)學(xué)習(xí)方面凸顯優(yōu)勢(shì)。其中,全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)在語(yǔ)義分割取得優(yōu)異的效果,為語(yǔ)義分割提供了新的思路和方向,在醫(yī)學(xué)圖像語(yǔ)義分割任務(wù)中得到了廣泛的應(yīng)用,并在該領(lǐng)域取得了大量的研究成果。從數(shù)據(jù)驅(qū)動(dòng)技術(shù)的角度出發(fā),深度學(xué)習(xí)在醫(yī)學(xué)圖像分割中的方法可大致劃分為監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和其他方法。
2.4 圖像壓縮
圖像壓縮技術(shù)針對(duì)圖像數(shù)據(jù)冗余度較大的問(wèn)題,將圖像中的冗余度壓縮以減小圖像數(shù)據(jù)量,從而加速圖像的傳輸于處理過(guò)程。圖像壓縮技術(shù)的研究方向主要包括兩個(gè)方面:傳統(tǒng)的圖像壓縮技術(shù)研究和基于深度學(xué)習(xí)的圖像壓縮技術(shù)研究。
2.4.1 傳統(tǒng)的圖像壓縮技術(shù)研究
傳統(tǒng)的圖像壓縮技術(shù)研究從信息恢復(fù)的角度主要分為無(wú)損壓縮和有損壓縮兩類:
無(wú)損壓縮編碼:壓縮過(guò)程不損失任何信息,重建后的圖像與原來(lái)的圖像完全相同,在數(shù)據(jù)壓縮過(guò)程中盡量降低冗余度,常用編碼包括Huffman編碼、算數(shù)編碼、行程編碼等;
有損壓縮編碼:壓縮過(guò)程通過(guò)損失一定的信息實(shí)現(xiàn)更高的壓縮率,重建后的圖像與原圖有差距,常用編碼包括JPEG,H.264等。
2.4.2 基于深度學(xué)習(xí)的圖像壓縮技術(shù)研究
傳統(tǒng)的編碼質(zhì)量評(píng)估通常針對(duì)一些客觀的性能指標(biāo),對(duì)于比較主觀的質(zhì)量指標(biāo)和語(yǔ)義質(zhì)量指標(biāo)比較難以滿足其要求,也無(wú)法獲得圖像深層次的語(yǔ)義信息。因此,傳統(tǒng)的圖像壓縮編碼在這方面已經(jīng)無(wú)法滿足現(xiàn)代的要求,深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的發(fā)展進(jìn)步帶來(lái)一種新的解決圖像壓縮編碼的問(wèn)題方式:端到端的圖像壓縮能夠?qū)D像編碼中的各個(gè)模塊進(jìn)行聯(lián)合優(yōu)化,依靠數(shù)據(jù)自身進(jìn)行評(píng)估。
2.5 圖像識(shí)別
圖像識(shí)別技術(shù)針對(duì)通過(guò)計(jì)算機(jī)視覺(jué)識(shí)別物體這一方向深入研究發(fā)展,在神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展下取得優(yōu)異成就。圖像識(shí)別技術(shù)可劃分為兩類:傳統(tǒng)圖像識(shí)別算法和基于深度學(xué)習(xí)的圖像識(shí)別算法。
2.5.1 傳統(tǒng)圖像識(shí)別算法
傳統(tǒng)的圖像識(shí)別算法包括微分算子邊緣檢測(cè)算法、Canny邊緣檢測(cè)算法、角點(diǎn)檢測(cè)算法等。
Canny邊緣檢測(cè)算法: 一般包含4個(gè)步驟:濾波、梯度幅值和梯度方向計(jì)算、非極大值抑制計(jì)算、邊緣檢測(cè)與連接。首先通過(guò)高斯濾波函數(shù)去除圖像的噪聲,并對(duì)圖像進(jìn)行平滑處理,接著通過(guò)一階有限差分法分別對(duì)濾波后的圖像水平和垂直方向的像素點(diǎn)進(jìn)行偏導(dǎo)求解,再使用非極大值抑制算法將局部最大值之外的正負(fù)梯度值設(shè)置為0,最后通過(guò)不相同的2個(gè)閾值對(duì)候選邊緣圖像中的像素進(jìn)行處理,保留兩閾值范圍內(nèi)的像素,最終檢測(cè)出物體。傳統(tǒng)的Canny邊緣檢測(cè)算法降噪能力較差,同時(shí)使用4個(gè)具有各向異性的5階差分模板檢測(cè)多個(gè)方向上的像素點(diǎn),不僅能夠檢測(cè)上下左右4個(gè)領(lǐng)域的灰度加權(quán)值,同時(shí)還能夠檢測(cè)對(duì)角線方向的值。為了提高Canny算法的自適應(yīng)能力,采用自適應(yīng)中值濾波和形態(tài)學(xué)閉合運(yùn)算來(lái)防止多方向梯度幅值計(jì)算時(shí)邊緣信息被弱化,同時(shí)利用目標(biāo)與背景的最佳分離點(diǎn)是最優(yōu)梯度下最大的類間方差與最小的類內(nèi)方差這一概念,來(lái)計(jì)算Canny算法中的上下閾值,以此來(lái)提高其自適應(yīng)能力。
角點(diǎn)檢測(cè)算法: 是通過(guò)一個(gè)固定像素窗口在圖像中進(jìn)行任意方向的滑動(dòng),比較滑動(dòng)前后窗口中的像素灰度值,如果存在較大的變化,則可判斷出該像素內(nèi)存在角點(diǎn)。角點(diǎn)檢測(cè)算法分為3類:基于二值圖像的角點(diǎn)檢測(cè)、基于灰度圖像的角點(diǎn)檢測(cè)和基于邊緣輪廓的角點(diǎn)檢測(cè)。傳統(tǒng)的Harris角點(diǎn)檢測(cè)算法精度較低,抗噪性差,將Sobel算法和Harris算法結(jié)合可以有效提高算法性能(首先使用Sobel算法進(jìn)行角點(diǎn)初選,將非極大值抑制算法中的矩形模板用圓周模板替代,以此來(lái)提高檢測(cè)精度,最后使用臨近點(diǎn)剔除法提高算法的抗噪性)。通過(guò)比較階梯邊緣、L型拐角、Y或T型拐角、X型拐角和星型拐角的強(qiáng)度變化特性后,利用多尺度各向異性高斯方向?qū)?shù)濾波器,從輸入圖像中提取灰度變化的新方法能夠連續(xù)地提取圖像中的邊緣點(diǎn)和角點(diǎn)特征。
2.5.2 基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的圖像識(shí)別算法
基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的圖像識(shí)別算法主要可以分為卷積神經(jīng)網(wǎng)絡(luò)、注意力神經(jīng)網(wǎng)絡(luò)、自編碼神經(jīng)網(wǎng)絡(luò)、生成網(wǎng)絡(luò)和時(shí)空網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是所有其他復(fù)雜網(wǎng)絡(luò)的基礎(chǔ),基于CNN卷積神經(jīng)網(wǎng)絡(luò)提出了一系列典型的框架: Le Net、Alex Net、Goole Net、VGGNet、Res Net、Inception、DenseNet。
03
FPGA與數(shù)字圖像處理
數(shù)字圖像由大量的像素組成,數(shù)字圖像處理算法通常基于未壓縮的原圖,以1920*1080 RGB格式 256灰度圖像為例,單幅圖像的數(shù)據(jù)量為1920*1080*3*8bit=6.22MB。DSP、GPU、CPU通常以幀為單位對(duì)圖像的處理,需要將采集圖像從內(nèi)存讀取后進(jìn)行處理,處理一幀的圖像都將耗費(fèi)大量的時(shí)間,使得視頻圖像的幀率難以提高。
FPGA數(shù)字圖像處理的優(yōu)勢(shì)在于以行為單位實(shí)時(shí)流水線運(yùn)算,從而達(dá)到最高的實(shí)時(shí)性。FPGA可以直接與圖像傳感器芯片連接獲得圖像數(shù)據(jù)流,RAW格式還可以進(jìn)行插值以獲得RGB圖像數(shù)據(jù)。FPGA通過(guò)內(nèi)部Block RAM緩存若干行圖像數(shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)流水線處理,F(xiàn)PGA的Block RAM類似于CPU的Cache,但是Cache不能完全控制,Block RAM完全可控,因此可以用它實(shí)現(xiàn)各種靈活的運(yùn)算處理。
由于Block RAM在FPGA中的有限性,通常也可采用外接DDR將圖像緩存后讀出,但是這種處理模式類似于CPU從內(nèi)存中讀取處理,無(wú)法達(dá)到最高的實(shí)時(shí)性。因此,如何合理利用Block RAM這一稀缺資源是充分發(fā)揮FPGA圖像處理實(shí)時(shí)性的關(guān)鍵。
FPGA對(duì)圖像數(shù)據(jù)流處理通常采用順序讀取,可以快速高效實(shí)現(xiàn)以3x3到NxN算子進(jìn)行的濾波、腐蝕、膨脹、邊緣提取等算法,以及卷積神經(jīng)網(wǎng)絡(luò)的卷積層運(yùn)算,F(xiàn)PGA的并行特性決定了處理這種類型算法相比于其他處理器速度最快,優(yōu)勢(shì)最大。盡管這種算法運(yùn)算較為簡(jiǎn)單,但通過(guò)不同算子的配合可以實(shí)現(xiàn)例如邊緣提取,運(yùn)動(dòng)目標(biāo)識(shí)別等不同功能,同時(shí)可以滿足實(shí)時(shí)性的要求。
因此,F(xiàn)PGA的并行特性使之在圖像處理和深度學(xué)習(xí)領(lǐng)域存在一定的優(yōu)勢(shì),由于FPGA開發(fā)相對(duì)于DSP等嵌入式需要一定的門檻,導(dǎo)致該領(lǐng)域的工程師數(shù)量相對(duì)較少,對(duì)于FPGA擅長(zhǎng)的功能有待進(jìn)一步發(fā)掘。
審核編輯:劉清
評(píng)論
查看更多