基于高光谱成像技术与XGBoost模型的水稻种子耐盐碱性能鉴定研究
(1.青岛农业大学理学与信息科学学院,山东青岛 266109 ) (2.青岛袁策集团有限公司,山东青岛 266000)
(3.青岛九天智慧农业集团有限公司,山东青岛 266000)
王忠建 1 万吉丽 2 李霞 3 苏航 1 赵文馨 1 徐硕 1 赵磊 1*
摘要:为解决传统耐盐碱水稻种子筛选周期长,效率低的问题。本研究基于高光谱图像数据,采用增量主成分分析(Incremental PCA)技术,并结合 XGBoost 模型进行水稻种子的耐盐碱性能鉴定研究。实验结果表明,XGBoost 模型在五折交叉验证中表现出较优的分类性能,平均准确率达 82.75%。
关键词:高光谱成像;耐盐碱性;水稻种子;增量 PCA;机器学习
引言:
土壤盐碱化是制约全球农业可持续发展的关键环境问题。全球盐碱化土壤面积已超 8.3 亿 hm2。耐盐碱水稻作为盐碱地改良的重要作物,其品种筛选对盐碱地改良及粮食安全保障具有重要意义。
传统鉴定方法存在明显缺陷:田间表型观测周期长且受环境干扰;生理生化分析操作繁琐、具破坏性,无法满足高通量育种需求。高光谱成像技术(HSI)为无损检测提供新路径,已应用于小麦穗发芽识别,但基于高光谱成像技术对水稻种子耐盐碱的研究较少。本研究结合高光谱成像技术与XGBoost 模型,探索无损、高精度的鉴定方法,提升筛选效率。
一、材料与方法
1.实验材料
本研究选取 12 个水稻品种,按耐盐碱特性分为两组:耐盐碱组(10 个品种)与非耐盐碱组(6 个品种)。所有种子均由青岛袁策集团有限公司提供,以保证研究结果的代表性与实际应用价值。具体品种信息如下:耐盐碱品种包括24jdck1、24jdck2、24z52、24z54、24z56、24z57、24z59、24z510、24z513、24zs8;非耐盐碱品种包括 hy051、nj9108、nuomi1、wyd4、yc018、zh10。所有种子均经严格脱壳与干燥处理,确保表面清洁、状态均一,以避免清洗或消毒对种子内在特性的干扰。实验前,种子在自然干燥条件下放置24 小时,进一步保证样本状态的一致性。
2.高光谱数据处理
高光谱成像数据通过瑞松 Pika L03030988 型高光谱相机采集,该系统含配备线扫描探测器与光栅的高光谱相机、样品固定平台、卤素灯光源及 Spectronon 数据采集分析软件,具备操作简便、杂散光少、失真度低、信噪比高、图像质量优的特点,适用于捕获种子精细光谱特征。
实验在恒温恒湿实验室(26±0.5℃,50±2% 湿度)开展,实验室用双层遮光窗帘避免自然光干扰,光源与样品距固定 50cm 以保证光照稳定(800±50 lux),样本经标准化处理,托盘置于样品台中央且与相机光轴垂直,每次采集前按操作手册严格校准系统,相机参数优化为积分时间17.069ms、增益 0、帧速率 17 帧/秒。采集时种子平铺白色托盘并固定于电动平移台,扫描路径为 100mm×100mm,每品种前 5 粒预扫描,反射率波动>5%则重新校准;正式扫描同步记录 512 波段光谱数据与 1024×1024 像素空间图像,每个样本扫描 3 次取平均,数据存为.bip 格式,采集后Spectronon 软件自动保存该格式数据并导出原始反射率矩阵。
原始数据无实际物理单位,需经预处理转化为具研究意义的数据:先通过 Spectronon 软件进行辐射校正,将原始DN 值转为辐亮度以消除仪器响应差异,再将辐亮度归一化为 0~1 的反射率,从而排除光源强度、环境散射等外部干扰,保留地物固有光谱特征以满足定量分析需求;接着裁剪原始高光谱图像边缘无效区域以去除噪声,采用 64×64 像素滑窗(步长 32 像素)采样,通过高效向量化切片扩充数据集,生成多个三维张量样本;最后将滑块采样后的数据以二进制浮点格式保存为 npy 文件,同步生成含“耐盐碱”或“非耐盐碱”类别标签的 txt 标注文件。
采用增量 PCA 处理高维数据,按批次输入样本迭代更新主成分矩阵,解决传统 PCA 内存溢出问题。将每个样本特征保存前 30 个主成分,保留 98.7%累计贡献率。
3.分类模型与实验设计
本研究对比 5 种机器学习模型:逻辑回归、K 近邻、 SVM、随机森林、XGBoost。为确保实验结果的稳健性与通用性,本研究采用 5 折分层交叉验证(Stratified K-Fold CrossValidation)对上述模型进行评估,系统流程图(如图 1 所示)。

二、实验结果与分析
各模型在降维后的特征空间中进行训练与验证,结果汇总:(如表 1 所示)

五折交叉验证结果显示(表 1),XGBoost 模型综合表现最优,平均准确率达 82.75%,标准差 0.0152,训练耗时0.94 秒。从数据趋势看,XGBoost 通过梯度提升策略有效捕捉了光谱特征的非线性关联,在处理 30 维降维特征时仍能保持较高的准确率。
三、讨论
XGBoost 模型因精准适配高光谱数据复杂性而表现突出,其梯度提升框架通过逐次迭代优化损失函数,能自适应挖掘光谱特征非线性关系,内置正则化机制可有效抑制噪声,实现 82.75%准确率与 0.0152 标准差的平衡;相比之下,SVM(RBF 核)虽处理非线性问题但对局部噪声敏感,随机森林抗过拟合却难捕捉全局关联,逻辑回归受线性假设限制性能上限低,K 近邻因高维空间距离度量区分度衰减表现不佳。
同时,本研究仍存在一定的局限性,12 个品种的样本量难以覆盖水稻种质遗传多样性,可能影响模型泛化能力。后续将继续扩大种质资源库,尝试引入 3D 卷积神经网络,或融合高光谱、RGB 与质构数据突破单一模态信息瓶颈。 结论:
本研究整合高光谱成像技术、增量主成分分析与XGBoost 模型,构建了水稻种子耐盐碱性快速鉴定框架。实验显示,XGBoost 模型在五折交叉验证中平均准确率达82.75%,兼顾精度与效率。该方法有望为水稻种质资源快速筛选与精准育种提供一定的技术支持。
参考文献:
【1】王炳春.现阶段我国开展盐碱地综合利用对策研究[J].中国农垦,2024,(01):52-54
【2】王乾.水稻苗期耐盐性鉴定及相关基因筛选[D].海南大学,2023
【3】孙传亮,马攀,刘泽厚,等.基于高光谱成像技术的不同类型小麦穗发芽籽粒识别[J].四川农业大学学报,2023,41(06): 1071-1078.
通讯作者:赵磊(1980 年 11 月-)男,汉族,山东济宁人,博士研究生,教授,研究方向:模式识别。



