卷積神經網絡圖像識別
在機器視覺的概念中,圖像識別是指軟件具有分辨圖片中的人物、位置、物體、動作以及筆跡的能力。計算機可以應用機器視覺技巧,結合人工智能以及攝像機來進行圖像識別。
根據神經網絡的構建方式,一個相對簡單的改變就可以讓較大的圖像變得更好處理。改變的結果就是我們所見到的卷積神經網絡(CNNs,ConvNets)。
神經網絡的廣適性是他們的優點之一,但是在處理圖像時,這個優點就變成了負擔。卷積神經網絡對此專門進行了折衷:如果一個網絡專為處理圖像而設計,有些廣適性需要為更可行的解決方案做出讓步。
對于任意圖像,像素之間的距離與其相似性有很強的關系,而卷積神經網絡的設計正是利用了這一特點。這意味著,對于給定圖像,兩個距離較近的像素相比于距離較遠的像素更為相似。然而,在普通的神經網絡中,每個像素都和一個神經元相連。在這種情況下,附加的計算負荷使得網絡不夠精確。
卷積神經網絡通過消除大量類似的不重要的連接解決了這個問題。技術上來講,卷積神經網絡通過對神經元之間的連接根據相似性進行過濾,使圖像處理在計算層面可控。對于給定層,卷積神經網絡不是把每個輸入與每個神經元相連,而是專門限制了連接,這樣任意神經元只能接受來自前一層的一小部分的輸入(例如3*3或5*5)。因此,每個神經元只需要負責處理一張圖像的一個特定部分。(順便提一下,這基本就是人腦的獨立皮質神經元工作的方式。每個神經元只對完整視野的一小部分進行響應)。
卷積神經網絡的優勢
卷積神經網絡是在Hub等人對貓的視覺皮層中細胞的研究基礎上,通過擬生物大腦皮層構而特殊設計的含有多隱層的人工神經網絡。卷積層、池化層、激活函數是卷積神經網路的要組部分。卷積神經網絡通過局部感受野、權重共享和降采樣3種策略,降低了網絡模型的復雜度,同時對于平移、旋轉、尺度縮放等形式的變有度的不變性。因此被廣泛應用于圖像分類、目標識別、語音識別等領域一般情況下,常見的卷積神經網絡由輸入層、卷積層、激活層、池化層、全連接層和最后的輸出層構成。
卷積神經網絡采用原始圖像作為輸入, 可以有效的從大量樣本中學習到相應地特征, 避免了復雜的特征提取過程。由于卷積神經網絡(CNN) 可以直接對二維圖像進行處理, 因此, 在圖像處理方面得到了廣泛的應用, 并取得了較多的研究成果。該網絡通過簡單的非線性模型從原始圖像中提取出更加抽象的特征,并且在整個過程中只需少量的人工參與。
卷積神經網絡具有局部感知和參數共享兩個特點,局部感知即卷積神經網絡提出每個神經元不需要感知圖像中的全部像素,只對圖像的局部像素進行感知,然后在更高層將這些局部的信息進行合并,從而得到圖像的全部表征信息。不同層的神經單元采用局部連接的方式,即每一層的神經單元只與前一層部分神經單元相連。每個神經單元只響應感受野內的區域,完全不關心感受野之外的區域。這樣的局部連接模式保證了學習到的卷積核對輸入的空間局部模式具有最強的響應。權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。而且卷積神經網絡采用原始圖像作為輸入,可以有效的從大量樣本中學習到相應地特征,避免了復雜的特征提取過程。
責任編輯:YYX
-
圖像識別
+關注
關注
9文章
521瀏覽量
38330 -
卷積神經網絡
+關注
關注
4文章
367瀏覽量
11892
發布評論請先 登錄
相關推薦
評論