山楂(Crataegus Pinnatifida)是薔薇科山楂屬植物,是典型的“藥食同源”植物,在我國廣泛分布于吉林、遼寧、河北、河南、山東、山西等地區。我國山楂年產量超過 150萬噸,市場前景廣闊,但由于不同產地的山楂中各類營養成分含量存在差異,因此其在價格上也有所區分,而當今山楂市場上產地混用、以次充好等現象屢見不鮮,使許多消費者上當受騙,這些現象嚴重破壞了市場秩序。因此,目前市場亟需一種能夠快速準確對山楂進行產地溯源的方法。
為滿足市場需求,本文旨在探究高光譜成像技術在山楂產地識別中的應用及不同采樣方向對于模型分類性能的影響,利用高光譜成像系統(410~2500 nm),分別采集山楂樣本果梗面、側面及底面的光譜數據,結合多種機器學習算法分別建立產地識別模型,最終實現基于高光譜成像技術對山楂進行產地溯源的目的。
續
二、結果與分析
2.3 基于全波段的建模分析
2.3.1預處理及分類建模方法
篩選為篩選出最佳預處理和分類建模方法,分別采用4種預處理方法和3種分類建模方法建立模型,以樣本底面數據為代表,各模型分類準確率見表1。對比四種預處理數據分類模型準確率可以發現,引入預處理方法之后,大部分模型的分類精度得到了提高,而D1對于三種分類模型(PLSDA、SVM和RF)均為最優預處理方式。對比三種不同模型(PLSDA、SVM和RF)分類準確率,發現無論采用哪種預處理方式,采用RF建立的分類模型雖然有較高的訓練集準確率,但是預測集準確率一般;采用PLSDA和SVM建立的分類模型訓練集和預測集準確率良好,其中以SVM模型分類準確率最高。綜上所述,對于底面數據,D1為最佳預處理方式,采用SVM建立的分類模型分類準確率高,且具有優秀的穩定性和泛化能力。為進一步驗證結論,分別使用C和G數據集進行建模對比,均呈現相同的規律,故判斷D1為最優預處理方式,SVM為最佳分類建模算法,后續均采用D1-SVM(經D1預處理后建立的SVM模型)方式進行分類建模。
表1不同預處理分類模型準確率
2.3.2不同采樣方式分類建模分析
本研究為探究不同采樣方向對模型分類結果的影響,分別收集了樣本側面朝上(C)、果梗面朝上(G)和底面朝上(D)的高光譜圖像。同時為模擬實際應用時隨機拍攝到的高光譜數據,將三個數據集進行等比混合建立一個新數據集(R),使用四個數據集分別進行分類建模,建模方法均采用D1-SVM,綜合對比各項指標篩選出最優模型。各模型分類準確率結果見表2。
對于使用R數據集建立的分類模型,其準確率較高(100%,96.7%),根據圖4d并由公式(3)和公式(4)計算得出,不同產區的精確率和召回率均超過90%。對比四個數據集模型的準確率可以發現,三種單面數據集(C、D和G)模型準確率均高于使用R數據集建立的模型,這說明對于山楂樣本,在高光譜數據采集時保持樣品方向一致可以有效提高分類模型準確率,這一規律與研究人員在玉米真菌感染檢測中的發現一致。橫向對比C、G和D三個模型,其中使用D數據集建立的分類模型準確率最高,訓練集和預測集準確率均達到100%,各產區樣本全部預測正確。為避免過擬合現象,對D-D1-SVM模型進行十折交叉驗證,其平均準確率為98.8%。綜上所述,D-D1-SVM模型對于不同產區山楂的分類效果最優。
表2不同方向數據分類模型準確率
圖4全波段模型混淆矩陣
注:a、b、c、d分別為對應C-D1-SVM、
G-D1-SVM、D-D1-SVM、R-D1-SVM四個模型
2.4 基于特征波長的建模分析
2.4.1特征波長的選擇
為篩選出最佳特征提取方法,分別使用2種提取方式提取4個數據集的特征波長,最終得到的波長見表3及圖5。對比兩種方法提取得到的特征波長數量發現,使用SPA提取出的特征波長數量明顯少于CARS,進一步觀察特征波長分布(圖5),發現使用SPA提取出的特征波長分布均勻,各個波段均有涉及;而CARS提取的特征波長分布較為集中,主要分布于750nm、2000nm及2250nm處的三個特征峰。觀察各組特征波長重合的部分,發現750nm、1700nm和2200nm附近的重合波長較多,說明這三處吸收峰可能包含不同產區樣本的差異信息。對這些特征峰進行深入分析,700~800nm處的吸收峰來自于樣品內部的葉綠素,也受樣品的外部顏色特征影響;1700nm附近的吸收峰可歸因于酰胺基團;2200nm處的吸收峰為C—H和C—O的聯合吸收峰。
表3不同方法提取特征波長數量
圖5不同數據集特征波長
注:a、c、e、g分別為G、C、D和R數據集經SPA提取得到的特征波長;b、d、f、h分別為G、C、D和R數據集經CARS提取得到的特征波長
2.4.2特征波長建模分析
使用4個數據集的特征波長分別建立SVM模型,其準確率見表4。觀察發現使用SPA篩選特征波長建立的模型分類準確率優于CARS,這一現象在G和D數據集上尤為明顯。綜合考慮波長數量和模型準確率,SPA篩選的波長數量更少,模型復雜度較低,且準確率更高。與本研究得到的結果不同,有研究人員在基于特征波段建立紅景天分類模型時,發現CARS為最佳特征波段提取方法,這說明對于不同的檢測對象,應當選用不同的特征提取方法,而對于山楂樣本,SPA相比于CARS特征波長提取效果更好。
采用SPA提取特征波長的分類模型預測集混淆矩陣見圖6,對比四個數據集的準確率(表4)看出,R-SPA模型預測集準確率為87.8%,根據其混淆矩陣(圖6d)并由公式(3)和公式(4)計算得出,模型對于河北產區的精確率和召回率僅為79.2%和82.4%,分類能力一般。而C-SPA、G-SPA和D-SPA三個模型準確率均超過90%(分別為90.3%、91.5%和93%),這一現象再次證明在高光譜數據采集時,保持樣品方向一致可以有效提高分類模型準確率。綜合對比所有模型,D-SPA模型擁有最高的分類準確率,訓練集和預測集準確率分別為95.2%和93%,根據其混淆矩陣(圖6c)并由公式(3)和公式(4)計算得出,模型對于各產區的精確率和召回率均超過90%(其中山東產區精確率和召回率最低,分別為91.6%和90%);且這一模型涉及的特征波長數量最少,在保證分類準確率的情況下擁有較低的模型復雜度。
綜上所述,采集高光譜數據時保持樣品擺放方式一致有助于提高模型分類準確率。采用SPA提取特征波長建立的產地分類模型復雜度較低且準確率良好。可以在波長數量有限的情況下對山楂產地進行判別,為后續山楂專屬小型化高光譜設備的開發提供了方法參考。
表4特征波長建模準確率
圖6特征波長模型混淆矩陣
注:a、b、c、d分別對應C-SPA-SVM、G-SPA-SVM、D-SPA-SVM、R-SPA-SVM四個模型。
綜合考慮全波段模型和特征波長模型的分類結果,發現采集樣本光譜數據時,樣本的擺放方式會影響后續分類建模準確率。無論全波段還是特征波長模型,使用D數據集建模分類效果都明顯優于R數據集(提高了約5%),相對于C和G數據集也有所提高。觀察山楂樣品的外部特征,發現樣品底面存在萼片部位,結合寧素云等的研究報道:山楂不同部位的化學成分含量存在差異,推測不同產地山楂其萼片部位各成分含量的差異相比于其他部位更大,進而導致分類特征更加明顯。
三、結論
本研究基于高光譜成像技術建立了山楂產地識別模型。為探究樣本拍攝方向對分類結果的影響,采集了山楂樣本三個不同方向(C、G和D)的光譜數據,分別使用偏最小二乘判別分析(PLSDA)、支持向量機(SVM)和隨機森林(RF)三種方法建立模型,通過對比模型分類準確率得到最優建模方法,最終成功區分了5個不同省級產區的山楂,為山楂無損檢測設備的開發提供了參考。經過對比篩選發現,一階導數(D1)為最優預處理方式,SVM為最優建模算法;使用連續投影算法(SPA)提取特征波長數量少且分類模型準確率高。全波段最優建模方法為D-D1-SVM,訓練集和預測集準確率均達到100%;特征波長最優建模方法為D-SPA-SVM,訓練集和預測集準確率分別為95.2%和93%。本研究證明基于高光譜成像技術對山楂產地進行溯源是可行的,為維護山楂市場秩序提供一種新的識別方式;同時驗證高光譜圖像采集方向會對檢測結果產生影響,為后續開發山楂專屬高光譜檢測設備提供理論依據和參考。
推薦:
便攜式高光譜成像系統 iSpecHyper-VS1000
專門用于公安刑偵、物證鑒定、醫學醫療、精準農業、礦物地質勘探等領域的最新產品,主要優勢具有體積小、幀率高、高光譜分辨率高、高像質等性價比特點采用了透射光柵內推掃原理高光譜成像,系統集成高性能數據采集與分析處理系統,高速USB3.0接口傳輸,全靶面高成像質量光學設計,物鏡接口為標準C-Mount,可根據用戶需求更換物鏡。
審核編輯 黃宇
-
成像
+關注
關注
2文章
248瀏覽量
30637 -
高光譜
+關注
關注
0文章
370瀏覽量
10070
發布評論請先 登錄
相關推薦
應用于血跡檢測的高光譜成像技術研究

基于高光譜成像的法醫痕跡非接觸分析

高光譜成像系統:光譜成像技術在海域目標探測中的應用

基于高光譜成像技術的山楂產地判別方法

評論