引言
化學(xué)需氧量(COD)是以化學(xué)方法測(cè)量水樣中需要被氧化的還原性物質(zhì)的量。水樣在一定條件下的COD以氧化1升水樣中還原性物質(zhì)縮小化的氧化劑的量為指標(biāo),折算成每升水樣全部被氧化后,需要的氧的毫克數(shù),以mg·L-1來(lái)表示。COD測(cè)試可以很容易地量化水中有機(jī)物的含量。COD最常見(jiàn)的應(yīng)用是量化地表水(如湖泊和河流)或廢水中可氧化污染物的量,在水質(zhì)監(jiān)測(cè)中起到了巨大的作用。傳統(tǒng)的有重鉻酸鹽滴定法和分光光度法等方法,電化學(xué)方法和流動(dòng)注射分析法用于COD檢測(cè),但這些檢測(cè)方法都存在檢測(cè)周期較長(zhǎng)?消耗試劑等缺點(diǎn),對(duì)水體的批量檢測(cè)也難以實(shí)現(xiàn)。
而利用高光譜技術(shù)和機(jī)器學(xué)習(xí)手段對(duì)水質(zhì)參數(shù)進(jìn)行反演近期已成為國(guó)內(nèi)外熱點(diǎn)研究問(wèn)題。高光譜技術(shù)能夠獲得物體連續(xù)的光譜信息,近年來(lái)逐步應(yīng)用于水農(nóng)產(chǎn)品檢測(cè)?生植被和水資源調(diào)控等領(lǐng)域。在水質(zhì)參數(shù)高光譜反演建模中,國(guó)內(nèi)外學(xué)者采取機(jī)器學(xué)習(xí)方法對(duì)不同水質(zhì)參數(shù)進(jìn)行建模,如總氮?總磷?水質(zhì)濁度?一般懸浮物?化學(xué)需氧量等,并取得了一定成果。
實(shí)驗(yàn)部分
2.1 預(yù)處理
高光譜數(shù)據(jù)通常包含由相機(jī)或儀器產(chǎn)生的隨機(jī)噪聲和光譜變化。光譜預(yù)處理可以減少或消除數(shù)據(jù)中與自身性質(zhì)無(wú)關(guān)的信息,降低模型的復(fù)雜性,提高數(shù)據(jù)和模型的可解釋性(魯棒性和準(zhǔn)確性)。光譜數(shù)據(jù)的預(yù)處理在進(jìn)行多變量分析之前是必不可少的。SG平滑能夠使光譜曲線平滑,MSC方法能夠消除基線漂移和平移現(xiàn)象。采用SG平滑?MSC以及SG平滑結(jié)合MSC光譜預(yù)處理手段對(duì)原始光譜進(jìn)行預(yù)處理并進(jìn)行比較。
2.2 特征波段提取
高光譜波段由大量的波段組成,有些波段的相關(guān)性較高而且存在冗余以及噪聲等。對(duì)特征波段的提取在一定程度上可以規(guī)避這兩種情況。
2.3 反演模型
選取線性回歸?隨機(jī)森林?AdaBoost?XGBoost四種機(jī)器學(xué)習(xí)建模方法。線性回歸是一種確定兩個(gè)或多個(gè)變量間相互依賴(lài)定量關(guān)系的機(jī)器學(xué)習(xí)方法;隨機(jī)森林算法是決策樹(shù)的集成,通過(guò)平均決策樹(shù)可以大大降低過(guò)擬合的風(fēng)險(xiǎn),是比單一決策樹(shù)性能更優(yōu)的模型;Adaboost是將弱學(xué)習(xí)器結(jié)合創(chuàng)造一個(gè)強(qiáng)學(xué)習(xí)器的機(jī)器學(xué)習(xí)方法;XGBoost是一種改進(jìn)的梯度提升迭代決策樹(shù)(GBDT)算法。
2.4 模型評(píng)估
采取RMSE,R2和RPD三個(gè)指標(biāo)對(duì)反演模型進(jìn)行對(duì)比和評(píng)價(jià)。
結(jié)果與討論
3.1 原始光譜及數(shù)值統(tǒng)計(jì)分析
圖1為樣本水體的原始光譜曲線,水體在550~600nm的反射率較高,在700~750nm的反射率較低。從圖中可以看出每個(gè)水體樣本曲線的變化趨勢(shì)類(lèi)似,沒(méi)有呈現(xiàn)較大的差異,而且難以直接通過(guò)光譜曲線對(duì)其COD含量進(jìn)行判斷。水體樣本的COD值統(tǒng)計(jì)結(jié)果如表1所示。
圖1 水體樣本原始光譜反射率曲線
表1 COD含量描述統(tǒng)計(jì)分析
圖 2 土壤樣本去包絡(luò)的反射率
3.2 光譜預(yù)處理結(jié)果
使用三種光譜預(yù)處理方法對(duì)原始光譜進(jìn)行預(yù)處理,預(yù)處理后的光譜分布如圖3(a,b,c)所示。經(jīng)過(guò)光譜預(yù)處理后,高光譜的數(shù)據(jù)質(zhì)量得到了一定改善,但還是無(wú)法直觀的從光譜曲線上判斷水體的COD含量,因此還需要通過(guò)機(jī)器學(xué)習(xí)方法對(duì)其建模進(jìn)行分析。
圖3 水體樣本預(yù)處理后的光譜分布
3.3 反演模型
對(duì)原始光譜數(shù)據(jù)和三種不同的預(yù)處理方法分別使用四種機(jī)器學(xué)習(xí)模型建模。模型的反演精度與建模的訓(xùn)練時(shí)間如表2—表5所示。由表2—表5中數(shù)據(jù)可以看到,XGBoost在原始光譜以及三種經(jīng)過(guò)預(yù)處理數(shù)據(jù)上的建模精度均優(yōu)于其他模型,且訓(xùn)練時(shí)間小于隨機(jī)森林模型以及Adaboost模型。線性回歸所建的反演模型表現(xiàn)較差,說(shuō)明COD與光譜數(shù)據(jù)并沒(méi)有直接的線性關(guān)系。在所有的模型中,通過(guò)XGBooost對(duì)經(jīng)過(guò)SG平滑和MSC處理的數(shù)據(jù)所建的反演模型精度最高,其中R2為0.92,RMSE為7.1mg·L-1,RPD為3.4。通過(guò)不同預(yù)處理方式所得的XGBoost反演模型散點(diǎn)圖如圖4(a—d)所示。
圖4 不同預(yù)處理方法下XGBoost反演模型COD預(yù)測(cè)值與實(shí)測(cè)值關(guān)系散點(diǎn)圖
結(jié)論
在實(shí)際生產(chǎn)過(guò)程中可根據(jù)實(shí)際需求,綜合考慮模型精度?模型訓(xùn)練時(shí)間等因素進(jìn)行模型的選擇。研究結(jié)果表明,基于機(jī)器學(xué)習(xí)的高光譜COD反演模型精度可以達(dá)到較高水平,為機(jī)器學(xué)習(xí)在高光譜水質(zhì)監(jiān)測(cè)領(lǐng)域的應(yīng)用提供了參考。此外,機(jī)器學(xué)習(xí)模型可解釋性需要進(jìn)一步研究。
歡迎關(guān)注公眾號(hào):萊森光學(xué),了解更多光譜知識(shí)。
萊森光學(xué)(深圳)有限公司是一家提供光機(jī)電一體化集成解決方案的高科技公司,我們專(zhuān)注于光譜傳感和光電應(yīng)用系統(tǒng)的研發(fā)、生產(chǎn)和銷(xiāo)售。
審核編輯黃宇
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132936 -
高光譜
+關(guān)注
關(guān)注
0文章
343瀏覽量
9982
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論