近红外光谱
近紅外光譜
總結(jié)一下在使用近紅外光譜技術(shù)對事物某一指標(biāo)進行預(yù)測的基本步驟。
實驗儀器
實驗室中使用的儀器是NIRQuest512近紅外光譜儀和USB4000光譜儀。NIRQuest近紅外光譜儀輸出波長范圍為900-1700nm,USB4000輸出波長可涵蓋200nm-1100nm。
具體測量物質(zhì)的透射光強或反射光強,由使用的光纖決定,本次實驗中使用的光纖為漫反射光纖。
http://www.oceanoptics.cn/products/180(紅外光譜儀-海洋光學(xué))
http://www.hamamatsu.com.cn/product/12371/12421/list.html(微型光譜儀-濱松中國)
軟件參數(shù)
Ocean Optics SpectraSuite軟件中有兩個參數(shù)需要調(diào)整,一個是平滑次數(shù),另一個是積分時間。平滑次數(shù)相當(dāng)于是個預(yù)處理,自己調(diào)的不會影響到波峰波谷就行。積分時間可以理解為曝光時間,比如積分時間1ms,就是檢測器接收光子的時間為1ms。一般是根據(jù)不同應(yīng)用來調(diào)積分時間的,調(diào)到一定范圍,信號能量就會弱,所以積分時間越高,能量越高,具體積分時間調(diào)多大,我也不知道…
實驗數(shù)據(jù)
實驗數(shù)據(jù)獲取是非常關(guān)鍵的。
首先要閱讀文章,搜集一下前人的實驗方法,查閱資料看看有沒有國家標(biāo)準(zhǔn),比如茶葉烘干就是有國家標(biāo)準(zhǔn)的,按照國標(biāo)方法測量得出的數(shù)據(jù)更具有權(quán)威性,當(dāng)然依據(jù)前人的論文方法或許也是可行的。
實驗材料或者實驗步驟比較復(fù)雜的,最好是考慮好各種各樣可能出現(xiàn)的問題,比如我的數(shù)據(jù)在采集過程中,光纖探頭沒有與樣本垂直照射,有一定的傾斜,那可能就會對實驗結(jié)果造成一定的影響。我的實驗材料是粉末狀,采用的是漫反射光纖,于是首先要確定的是粉末厚度,最好的情況是粉末的厚度能夠阻擋光的透射,在實驗時我是以肉眼是否看得見為標(biāo)準(zhǔn)的。如果要嚴謹些,可以用透射光纖去測量透射后的光強。光譜對于外界信息反應(yīng)比較敏感,可能盛放樣品的容器也會對測量結(jié)果造成影響,所以需要進行實驗對光譜的重復(fù)性加以實驗,繪圖即可,不必參照他人論文的驗證指標(biāo),因為他那個指標(biāo)可能真的不好用!
數(shù)據(jù)處理
數(shù)據(jù)處理用的比較多的是matlab,其他的軟件還有spss,unscrambler(就用過這兩種)。有一說一,我感覺matlab是最好用也是最方便的;spss也還行,但是我的安裝有一點問題,缺少了一部分文件,輸出會報錯,現(xiàn)在也有網(wǎng)頁版的SPSSAU,一天10塊錢可以使用所有的功能,而且會直接輸出數(shù)學(xué)模型,還算可以。Unscrambler缺點是不能做數(shù)據(jù)劃分,但是如果自己在matlab中跑通了樣本劃分程序,也可以考慮在Unscrambler中做完剩余部分。
研究過程一般是:預(yù)處理→數(shù)據(jù)樣本劃分→提取特征波長→建模→模型評價
提取特征波長可能也是可選項,但是在開發(fā)儀器中,一般是必須的,因為如果用全光譜建模,儀器的成本會非常高,甚至可以說沒有開發(fā)儀器的必要。如果能提取出有代表性的特征波長,僅用led燈去照射即可獲得對應(yīng)波長下的反射率,再將反射率帶入到模型當(dāng)中計算出值,這將會大大降低儀器的成本。
預(yù)處理
預(yù)處理方法有很多,資料也很多就不一一列舉。一般常用的有歸一化、S-G平滑處理、多元散射校正、正態(tài)化和標(biāo)準(zhǔn)變換、一階導(dǎo)數(shù)等。
樣本劃分
樣本劃分有三種:隨機樣本劃分、KS樣本劃分、SPXY樣本劃分。
簡單介紹下:
隨機采樣法最為簡單,該方法隨機從樣品中抽出目標(biāo)數(shù)量的樣品作為校正集,剩余樣品為預(yù)測集,由此方法難以得出理想的樣品集。KS算法利用樣品之間的歐氏距離由遠及近進行劃分校正集與預(yù)測集,常用于定性分析。SPXY算法在KS基礎(chǔ)上改進而來,常用于定量分析。
特征波長提取
連續(xù)投影算法(Successive Projections Algorithm,SPA):SPA是一種前向選擇方法,從第一個波長開始,向其他未選擇的波長上投影,之后將投影過后不斷迭代,將向量最大的波長引入到波長組合中,一直循環(huán)N次,每一個新選入到波長組合中的波長,與前一個選入的波長線性關(guān)系最小。SPA的目的是選取信息冗余最小的波長,以解決共線性的問題。每次循環(huán)過后使用“留一交叉驗證法”對選入的波長組合進行多元線性回歸,并驗證均方根誤差(RMSE),通過比較選取RMSE最小的波長組合(成忠等 2010)。
主成分分析法(Principle Component Analysis,PCA):PCA首先在數(shù)據(jù)矩陣中,向各個數(shù)據(jù)點構(gòu)成的向量投影,以協(xié)方差為數(shù)據(jù)標(biāo)準(zhǔn),找出能夠包含當(dāng)前數(shù)據(jù)最大信息量的一個向量;再以上述提取出的一維向量為基準(zhǔn),繼續(xù)按照投影方式結(jié)合協(xié)方差尋找第二個向量,構(gòu)成二維,不斷遞推下去,最終所計算的維數(shù)可以通過直接規(guī)定或者根據(jù)數(shù)據(jù)的可信度來選擇(劉玲玲 2013)。
無信息變量去除(Uninformation Variable Elimination,UVE):把相同于自變量矩陣的變量數(shù)目的隨機變量矩陣加入光譜矩陣中,然后通過交叉驗證的逐一剔除法建立PLS模型,得到回歸系數(shù)矩陣,分析回歸系數(shù)矩陣中回歸系數(shù)向量的平均值和標(biāo)準(zhǔn)偏差商的穩(wěn)定性。
模型建立
偏最小二乘(Partial Least Squares,PLS),偏最小二乘集中了主成分分析、典型相關(guān)性分析和線性回歸方法的特點。其原理是從自變量組合因變量組中提取出相關(guān)性最大的部分建立回歸。剩余部分稱為殘差矩陣,并從中繼續(xù)提取出兩變量的主成分建立回歸,不斷迭代,求得回歸方程。根據(jù)返回的預(yù)測均方根誤差(Root mean square error,RMSE)結(jié)果選擇主成分分數(shù)進行建模,當(dāng)RMSE達到最低時,對應(yīng)的變量個數(shù)即為建模需要的隱變量個數(shù)。
模型評價
評價預(yù)測模型的指標(biāo)有多種,本文分別采用預(yù)測均方根誤差(Root Mean Square Error of Prediction,RMSEP),決定系數(shù)(R2)以及相對分析誤差(Relative Predictive Deviation,RPD)對預(yù)測模型的性能進行檢測。各個指標(biāo)計算公式如式:
式中,n為參與預(yù)測模型的樣品數(shù),SD為標(biāo)準(zhǔn)差, 和 分別表示第i個樣品的測量值以及模型的預(yù)測值, 為預(yù)測集樣品成分的平均值。當(dāng)R2越接近1,RPD大于1.4時,可認為該模型可以使用,當(dāng)RPD大于2時可認為模型具有很好的預(yù)測效果。
總結(jié)
- 上一篇: Linux系统的性能测试
- 下一篇: OpenHarmony网络应用开发