《Smart Agricultural Technology》:Optimised Waveband Selection for Low-Cost Multispectral Estimation of Tomato Lycopene Concentration Using Machine Learning
編輯推薦:
本論文聚焦于番茄番茄紅素的無損定量檢測難題。為實現低成本、高精度且適用于工業化部署的目標,研究人員創新性地將優化的多光譜成像技術與機器學習模型相結合。通過系統性地進行波段選擇,研究發現僅使用兩個關鍵波段(595nm和635nm)并結合淺層神經網絡,即可實現高達0.951的R2預測精度。該方法在顯著降低硬件成本和復雜度的同時,保持了與復雜系統相當的檢測性能,為優化番茄采收、分揀和儲存提供了精準、經濟的實時監測工具,有助于提升番茄的營養價值和減少供應鏈浪費。
番茄是全球蔬菜產量的重要貢獻者,也是人類飲食中番茄紅素的主要來源。番茄紅素作為一種具有強大抗氧化特性的類胡蘿卜素,其攝入與降低心血管疾病、癌癥和神經退行性疾病的風險密切相關。在番茄產業中,番茄紅素的積累直接關聯果實成熟度,因此精準測定其濃度對于確定最佳采收時間、優化采后物流和儲存策略至關重要。
然而,傳統測定方法如高效液相色譜法(High-Performance Liquid Chromatography, HPLC)和分光光度法雖然精確,但屬于破壞性取樣,過程復雜且耗時,無法滿足大規模、快速、非接觸的在線檢測需求。盡管基于可見光成像和色度空間(如CIE Lab*)的方法已被探索,但它們在番茄成熟后期,即果實已完全變紅而內部番茄紅素濃度仍在變化的階段,預測精度顯著下降。此外,許多現有技術(如色差計)需要接觸或近距離測量,難以分析整個果實表面;而高光譜成像系統雖然性能優異,但成本高昂、掃描時間長,限制了其在工業場景的實際應用。因此,開發一種低成本、高精度、非破壞性且能適用于番茄所有成熟階段的番茄紅素檢測方法,成為亟待解決的關鍵問題。
為了應對這些挑戰,一篇發表在《Smart Agricultural Technology》上的研究提出了一種結合優化多光譜成像與機器學習的新型解決方案。該研究旨在通過戰略性選擇關鍵波段,在保證高預測精度的前提下,最大限度地減少所需波段數量,從而降低硬件成本和系統復雜度,為工業部署鋪平道路。
研究人員主要采用了以下幾個關鍵技術方法:
- 1.
多光譜成像系統構建與優化:研究團隊開發了一個包含15個LED波長(380 nm至940 nm)的半球形漫射照明多光譜成像系統。該系統采用Basler acA1300-gmNIR單色面陣相機,并通過優化光照幾何結構和均勻性,最大限度地減少了番茄表面的鏡面反射,確保了高質量、一致的數據采集。
- 2.
基準測量與數據預處理:使用基于分光光度法的化學計量學方法(Anthon & Barrett法)對101個涵蓋所有成熟階段的Saluoso RZ F1番茄樣本進行破壞性測量,獲取番茄紅素濃度的地面真值(ground truth)。對采集的多光譜圖像,使用灰度閾值算法進行番茄區域分割,并提取每個波段下分割區域內的平均像素強度,形成特征向量。
- 3.
機器學習模型與波段選擇策略:研究評估了四種機器學習方法:支持向量回歸(Support Vector Regression, SVR)、k近鄰回歸(k-Nearest Neighbors, k-NN)、卷積神經網絡(Convolutional Neural Network, CNN)和淺層神經網絡(Shallow Neural Network, SNN)。為了在15個波段中找出最優組合并降低計算負擔,研究采用了改進的順序前向選擇(Sequential Forward Selection, SFS)方法。該方法從最佳單波段開始,迭代地添加能最大提升模型性能的波段,并對每次組合使用六次重復的六折分層交叉驗證進行穩健評估。
研究結果
3.1. 樣本分布
研究使用的101個番茄樣本,其番茄紅素濃度范圍從0.32 mg/kg到91.3 mg/kg,確保了所有成熟階段的代表性。通過視覺檢查,將濃度高于25.5 mg/kg的71個樣本定義為“完全紅色”番茄子集,用于專門評估成熟后期階段的檢測精度。
3.2. 基線 – 使用CIE Lab色度空間a值的回歸分析*
作為基線比較,研究首先使用了傳統的LAB色度空間方法。結果顯示,使用對數回歸時,a值與番茄紅素濃度的擬合相關系數Rr2可達0.948,這與先前研究的高報告值一致。然而,當使用指數回歸從a值預測番茄紅素濃度時,對所有樣本的預測Rr2降至0.756。更關鍵的是,當僅對“完全紅色”番茄子集進行預測時,相關性急劇下降至Rr2=0.169,根均方預測誤差(Root Mean Squared Error of Prediction, RMSEP)高達15.80 mg/kg。這明確揭示了傳統色度方法在番茄成熟后期檢測精度嚴重不足的局限性。
3.3. 單波段機器學習處理
隨后,研究評估了四種ML模型處理單個波段平均反射率的能力。所有模型在單個波段下的預測性能(R2>0.88)均超過了LAB指數回歸方法。其中,支持向量回歸在595nm(橙色波段)處取得了最佳單波段預測R2=0.901。
3.4. 多波段機器學習方法
通過應用順序前向選擇策略,研究比較了支持向量回歸和k近鄰回歸在多波段組合下的表現。支持向量回歸在六波段組合下達到了最高R2=0.940,優于k近鄰回歸的R2=0.920。兩種方法的預測速度都非常快(約1-3毫秒),且無需GPU硬件,顯示出工業部署的潛力。
3.5. 神經網絡方法
研究對比了淺層神經網絡和基于ResNet-34的卷積神經網絡。盡管卷積神經網絡的參數量(約2100萬)遠超淺層神經網絡(僅631個),但在所有波段組合下,淺層神經網絡的性能均優于或等于卷積神經網絡。在Python平臺上,淺層神經網絡(使用Adamax優化器)最高R2為0.942。當使用MATLAB的Fitnet工具并采用貝葉斯正則化(Bayesian Regularisation, BR)優化器進行十次重復的十折交叉驗證時,淺層神經網絡在六波段組合下取得了本研究中的最佳性能R2=0.959。
3.6. 雙波段組合的機器學習結果
研究發現,僅使用兩個波段(595nm和635nm)的淺層神經網絡模型表現尤為突出。使用Adamax優化器時,R2為0.943,RMSEP為6.584 mg/kg;而使用貝葉斯正則化優化器時,R2進一步提升至0.951,RMSEP為6.317 mg/kg。這一配置在精度損失極小的情況下,為實現極低成本、快速(可單次拍攝)的檢測系統提供了可能。
3.7. 結果總結
研究結果綜合表明,所有測試的機器學習方法在多波段配置下均顯著超越了傳統的LAB預測方法。淺層神經網絡結合貝葉斯正則化優化器取得了最佳整體性能。特別值得注意的是,雙波段淺層神經網絡方案在預測精度(R2=0.951)與系統成本、復雜度之間實現了卓越的平衡。
研究結論與討論
該研究的核心結論是,通過優化多光譜成像與機器學習相結合,成功開發出一種能夠高精度、非破壞性估算番茄紅素濃度的方法,特別是在傳統方法失效的完全紅色番茄成熟后期階段。
研究發現,傳統的基于a*值的LAB色度學方法在番茄紅素濃度超過25.5 mg/kg的紅色番茄中預測能力嚴重不足(R2僅0.169),而本研究的雙波段淺層神經網絡方法在該子集上的預測R2達到了0.787,顯示出巨大優勢。這突顯了機器學習模型在解析光譜信息方面優于簡單經驗公式的能力。
最具實踐意義的發現是,僅需兩個關鍵波段(595nm和635nm)即可實現接近最佳性能(R2=0.951)的預測。與需要六波段或更多的系統相比,雙波段系統能大幅降低硬件成本(估計可降低20倍)、圖像采集時間和系統復雜性。研究人員提出,這可以通過一個雙相機、雙濾光片、寬光譜照明的雙光譜成像架構來實現,從而實現單次拍攝、在線處理,滿足工業化分揀線的速度要求。初步成本估算顯示,基于樹莓派(Raspberry Pi)平臺的原型系統成本可控制在較低水平,功耗約15W,吞吐量約每秒10個番茄,具備實際應用的潛力。
研究也指出了當前工作的局限性和未來方向,包括:機器學習模型(尤其是淺層神經網絡)的架構和超參數尚有優化空間;順序前向選擇波段方法可能遺漏更優的非順序組合;當前系統依賴于受控光照環境,在溫室或田間復雜光照和背景下,需要開發動態校準和更魯棒的圖像分割算法;未來需要擴大數據集,涵蓋更多番茄品種和生長季節,以驗證方法的普適性和穩健性。
總之,這項研究為解決番茄產業中番茄紅素快速、精準、低成本無損檢測的難題提供了創新且實用的技術路線。其提出的雙波段機器學習方案,在精度與成本效益之間取得了突破性平衡,不僅有助于優化番茄的采收和采后管理,最大限度地保留營養價值并減少浪費,也為開發適用于工業環境的智能農業傳感器奠定了堅實的技術基礎。