近期,中科院合肥研究院智能所離子束生物工程與綠色農業研究中心吳躍進研究員課題組圍繞近紅外光譜分析技術,提出一種基于組合移動窗口和智能優化算法相結合的變量選擇算法。相關工作已在光譜學期刊Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy在線發表。
近年來,隨著光譜技術的發展,光譜數據呈現數量高、維度高、復雜度高等特點。光譜數據中不僅包含大量的噪聲和干擾變量,而且當樣本數量遠小于變量數量時,尋找最優變量子集將成為NP-hard問題,對光譜數據挖掘和光譜定量分析提出了挑戰。提取關鍵變量信息減少數據維度不僅可以提高光譜定量分析能力,而且可以選取特征光譜,降低儀器研發成本,提高經濟效益。
這項工作改進傳統粒子群算法(PSO),提出變維度的粒子群算法(VDPSO),結合組合移動窗口策略實現光譜數據變量的快速選擇。該算法可以在不同維度上搜索數據空間,降低限入局部極值和過擬合的風險。與四種高性能變量選擇算法BOSS,VCPA,iVISSA和IRF進行比較,結果表明該算法可以選擇最優的光譜信息,提升模型的預測能力。該算法有望進一步應用于基因組學、蛋白質組學、代謝組學和定量構效關系(QSAR)等學科數據分析中。
該研究工作得到安徽省重點研究開發計劃、中國科學院戰略性先導科技專項、國家自然科學基金等資金支持。
文章鏈接:https://doi.org/10.1016/j.saa.2020.118986
不同算法選擇的變量區間