一种基于近红外定性分析的种子品种真实性鉴别方法

文档序号:6246271阅读:294来源:国知局
一种基于近红外定性分析的种子品种真实性鉴别方法
【专利摘要】本发明公开了一种基于近红外定性分析的种子品种真实性鉴别方法,该方法包括:采集种子样本的近红外光谱数据,并确定建模集和测试集;对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特征提取;从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变换矩阵;将该变换矩阵应用于剩余测试集;采用支持向量机方法建立定性分析模型;利用该定性分析模型对剩余测试集进行品种真实性鉴别。本发明建立在近红外光谱基础上,通过光谱预处理、特征提取、校正测试集、建模、鉴别等一系列操作,建立更为稳定的近红外光谱分析模型,解决因同一台仪器长时间的光谱偏移带来的模型适用性问题,使鉴别结果更为准确。
【专利说明】一种基于近红外定性分析的种子品种真实性鉴别方法

【技术领域】
[0001] 本发明涉及种子的品种鉴别领域,特别是一种基于近红外定性分析的种子品种真 实性鉴别方法。

【背景技术】
[0002] 中国是农业大国,农业是安天下、稳民心的战略产业。"国以农为本,农以种为先", 种业安全是我国粮食安全的前提,是农业安全的先决条件之一。然而,我国的种业市场不容 乐观,品种侵权行为严重,假劣种子坑农害农事件时有发生。企业维权难,诉讼难,追赔难, 致使许多优良品种遭受侵权,以至于形成育种的不如卖种的、搞科研的不如搞经营的怪象。
[0003] 目前所采用的品种鉴别方法大体可分为以下三类:一)基于形态特性的鉴别方 法,主要包括种子形态鉴别、幼苗形态鉴别、田间种植鉴别和计算机模拟形态分析等方法; 二)基于分子生物学技术的鉴别方法,主要包括蛋白质指纹图谱和DNA指纹图谱两类鉴别 方法;三)基于化学、物理特性的鉴别方法,主要有苯酚染色法、氢氧化钠染色法、氢氧化钾 染色法、荧光扫描图谱法等。
[0004] 以上方法均存在多种技术障碍:(1)鉴别时间长;(2)鉴别成本高;(3)过程烦琐;
[4] 鉴别者需要专门技术知识;(5)鉴别需要特定的测试条件、化学试剂、器材等。因此,种 业市场缺乏有效的快速现场鉴别技术手段和设备,给农业生产、管理执法等带来诸多困难, 难以有效保障种子安全与粮食安全。
[0005] 近红外光谱是基于物质对近红外谱区电磁波吸收的一种光谱技术,由于近红外光 谱分析技术具有简便、快捷、低成本、无污染以及不破坏样品等优点,因此被广泛应用于多 个行业。近红外定性分析主要用于物质的定性判别分析,即通过比较未知样品和建模样品 或标准样品的光谱来确定未知样品的归属。
[0006] 在实际应用中发现,同一台仪器长时间的光谱偏移面临着模型适用性的问题,由 于相同物质不同品种间成分相差较小,光谱相互交叠,因此这种差异对定性分析的影响甚 至比定量分析更为严重,严重时甚至完全不能正确识别。
[0007] 针对种子品种真实性鉴别方法的现状与诸多不足,与同一台仪器长期的光谱偏移 问题,本发明提出一种基于近红外定性分析的种子品种真实性鉴别方法。


【发明内容】

[0008] (一)要解决的技术问题
[0009] 有鉴于此,本发明的主要目的是为了提供一种简单可行、快速高效,并且能提高模 型适用性的一种基于近红外定性分析的种子品种真实性鉴别方法。
[0010] (二)技术方案
[0011] 为达到上述目的,本发明提供了一种基于近红外定性分析的种子品种真实性鉴别 方法,该方法包括:步骤1:采集种子样本的近红外光谱数据,并确定建模集和测试集;步骤 2 :对建模集和测试集依次进行预处理、偏最小二乘(PLS)特征提取和线性鉴别分析(LDA) 特征提取;步骤3 :从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变 换矩阵;步骤4 :将该变换矩阵应用于剩余测试集;步骤5 :采用支持向量机(SVM)方法建立 定性分析模型;步骤6 :利用该定性分析模型对剩余测试集进行品种真实性鉴别。
[0012] 上述方案中,步骤1中所述采集种子样本的近红外光谱数据,是采用近红外光谱 仪在不同时间采集种子样本的近红外光谱数据。所述确定建模集和测试集,是将在同一天 采集的光谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采 集日期采集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原 始测试数据。
[0013] 上述方案中,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征 提取和线性鉴别分析特征提取,具体包括:
[0014] 步骤21 :对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行 预处理;
[0015] 步骤22 :对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到PLS特 征矩阵,以利用该矩阵将数据变换到PLS空间;
[0016] 步骤23 :利用该PLS特征矩阵,将经过预处理之后的建模集和测试集数据变换到 PLS空间中;
[0017] 步骤24 :对经过PLS特征提取之后的建模集数据进行线性鉴别分析特征提取,得 到LDA特征矩阵,以利用该投影矩阵将数据变换到LDA空间;
[0018] 步骤25 :利用该LDA特征矩阵,将经过PLS特征提取之后的建模集和测试集数据 变换到LDA空间中;
[0019] 步骤26 :利用变换到LDA空间中的建模集数据进行建模,用变换到LDA空间中的 测试集数据进行鉴别。
[0020] 上述方案中,步骤2中所述的预处理、偏最小二乘特征提取、线性鉴别分析特征提 取,在对建模集和测试集处理时采用相同的参数。所述的预处理,是为了去除或降低不确定 的背景信息对光谱数据的噪声干扰,采用的预处理方法包括数据归一化处理、导数法处理、 平滑处理或中心化及标准化处理。
[0021] 上述方案中,步骤22中所述PLS特征矩阵提取,具体算法如下:
[0022] 步骤221 :对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为 1 ;令样本矩阵为Xtl,类别信息矩阵为Ytl ;其中,Xtl定义为n条光谱p个数据点的原始光谱矩 阵,Ytl为对应的类别属性矩阵:
[0023]

【权利要求】
1. 一种基于近红外定性分析的种子品种真实性鉴别方法,其特征在于,该方法包括: 步骤1 :采集种子样本的近红外光谱数据,并确定建模集和测试集; 步骤2 :对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分析特 征提取; 步骤3 :从建模集和测试集中选取光谱校正集,并计算建模集与测试集之间的变换矩 阵; 步骤4 :将该变换矩阵应用于剩余测试集; 步骤5 :采用支持向量机方法建立定性分析模型; 步骤6 :利用该定性分析模型对剩余测试集进行品种真实性鉴别。
2. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤1中所述采集种子样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集 种子样本的近红外光谱数据。
3. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤1中所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集 是用来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不 同的测试集,测试集是用来鉴别种子品种真实性的原始测试数据。
4. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和线性鉴别分 析特征提取,具体包括: 步骤21 :对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处 理; 步骤22 :对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到偏最小二乘 特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间; 步骤23 :利用该偏最小二乘特征矩阵,将经过预处理之后的建模集和测试集数据变换 到偏最小二乘空间中; 步骤24 :对经过偏最小二乘特征提取之后的建模集数据进行线性鉴别分析特征提取, 得到线性鉴别分析特征矩阵,以利用该投影矩阵将数据变换到线性鉴别分析空间; 步骤25 :利用该线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集和 测试集数据变换到线性鉴别分析空间中; 步骤26 :利用变换到线性鉴别分析空间中的建模集数据进行建模,用变换到线性鉴别 分析空间中的测试集数据进行鉴别。
5. 根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤2中所述的预处理、偏最小二乘特征提取和线性鉴别分析特征提取,在对建模集和 测试集处理时采用相同的参数。
6. 根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤2中所述的预处理,是为了去除或降低不确定的背景信息对光谱数据的噪声干扰, 采用的预处理方法包括数据归一化处理、导数法处理、平滑处理或中心化及标准化处理。
7. 根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤22中所述偏最小二乘特征矩阵提取,具体算法如下: 步骤221 :对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为I ;令 样本矩阵为Xtl,类别信息矩阵为Ytl ;其中,Xtl定义为η条光谱p个数据点的原始光谱矩阵, Ytl为对应的类别属性矩阵:
Yci中,yu = 1表示第i条光谱属于第j类,yu = 〇表示第i条光谱不属于第j类; 步骤222:求矩阵Γ Jtl的协方差矩阵C = X' A),其中协方差矩阵常数舍弃; 步骤223 :求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值 的大小排列,取最大的η维特征值对应的特征向量组成投影矩阵W1^ ; 步骤224 :得到新的特征向量为:x' i = XiW' PIjS。
8. 根据权利要求4所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤25中所述将经过偏最小二乘特征提取之后的建模集和测试集数据变换到线性鉴 别分析空间中,具体如下: 步骤251 :假设有C类样本,总样本数为INi为第i类样本数,则定义类内散布矩阵Sw、 类间散布矩阵Sb如下:
其中,
^,为第i类模式的均{I
为总样本均值; 步骤252 :线性鉴别分析分析的目标,是寻找一个变换矩阵W,使得Fisher准则取得最 大值的方向为Sb与Sw比值最大的方向,其中Sw非奇异时:
其中,WiQ = 1,2,...,)对应为下式特征值降序排列前η个值对应的特征向量:SBw = ASww;如果Sw非奇异,则上式可直接转换为AP1SsW = Iw来求解,即求解对应的 特征值和特征矩阵,取最大的η维特征值对应的特征向量组成投影矩阵Wuia ; 步骤253:得到Wuia即可进行数据转换Y' =YW' ωΑ。
9. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征在 于,步骤3中所述的建模集和测试集,是指经过预处理、偏最小二乘和线性鉴别分析特征提 取之后的光谱数据集。
10. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤3中所述的选取光谱校正集,是指从建模集和测试集中各自挑选出用于光谱校 正的光谱数据。
11. 根据权利要求10所述的基于近红外定性分析的种子品种真实性鉴别方法,其特 征在于,所述从建模集和测试集中各自挑选出用于光谱校正的光谱数据是采用Kennard/ Stone算法,具体包括以下过程: 步骤31 :设置需要选取的校正样品个数k ; 步骤32 :计算所有建模集样本两两之间的距离,将距离最远的两个样本选为校正集的 第一、二个样本; 步骤33 :对于剩余样本,计算其与已选样本之间的距离并取其最小值,然后选择这些 距离中最大值对应的样本为本次选择样本; 步骤34 :重复步骤33,直至选够k个样本组成建模集的校正集; 步骤35 :在测试集中选择建模集中所选出的对应编号的样本作为测试集的校正集。
12. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤3中所述计算建模集与测试集之间的变换矩阵,具体包括: 步骤a :设建模集光谱校正集矩阵为S1,测试集光谱校正集矩阵为S3,矩阵的行列分别 表示样品数和数据点数;由S1和S3根据公式/7 求得变换矩阵,其中,&和f为 中心化后的光谱矩阵,是&的广义逆; 步骤b :利用步骤a中得到的F计算背景校正矩阵匕=,其中Sln和s2n分 别为S1和S3每列元素平均值组成的行向量; 通过以上两步,得到了变换矩阵F和背景校正矩阵bs。
13. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,由于同一台光谱仪随着时间推移,会产生光谱偏移,步骤3中所述的变换矩阵,是为 了在建模集和测试集之间建立校正模型,使测试集可以利用该校正模型进行光谱校正,解 决光谱偏移所带来的模型不适用的问题,不同的测试集对应不同的变换矩阵。
14. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤4中所述将变换矩阵应用于剩余测试集,具体包括: 步骤41 :对测试集光谱中的测试集数据X2,计算其变换后的矩阵= I2F + ,其 中,F和bs为求得的变换矩阵和背景校正矩阵,1为全1的列向量,长度为样本数; 步骤42 :变换后的数据矩阵Γ 2即可用已建模型进行鉴别。
15. 根据权利要求14所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤4中所述剩余测试集,是指从测试集中挑选出光谱校正集之后剩余的测试数据 集。
16. 根据权利要求1所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤5中所述采用支持向量机方法建立定性分析模型,具体包括: 步骤51 :将经过预处理及特征提取之后的建模样本数据X1, x2, ...,Xn,作为支持向量 机建模数据; 步骤52 :确定建模样本数据中的类别标签数据yi,y2, . . .,yn,yi e {+1,-1}; 步骤53 :设置支持向量机建模过程中的各个参数,包括分类器、核函数类型等,以此来 确定最佳分类界面; 步骤54 :利用该最佳分类界面,对未知样本数据进行分类。
17. 根据权利要求16所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤53中所述设置支持向量机建模过程中的各个参数,包括分类器、核函数类型,以 此来确定最佳分类界面,具体包括: 假设这个最佳的分类界面为:w' x+b = O 则判另函数为:f(x)=w^ x+b, 因此:
假定两类样本到分类界面最小的距离均为d,即存在样本Xl e Wl,X2 e W2,使得: f (X1) = W1 x^b = d f (x2) = w' x2+b = -d 右边归一化得: w' d Xi+bd = 1 w, d x2+bd = 其中:
因此,可得:
? 1 要使分类间隔d = Pl最大,等效于t||wf最小问题转化为一个典型的优化问题: s. t YiCwi
Xj+b) -1^0 其中,约束条件表示所有样本被正确分类,使用拉格朗日算法可以求解此优化问题,从 而得到最佳的分类界面。
18. 根据权利要求16所述的基于近红外定性分析的种子品种真实性鉴别方法,其特征 在于,步骤6中所述利用定性分析模型对剩余测试集进行品种真实性鉴别,是利用支持向 量机方法对剩余测试集进行分类鉴别,并给出鉴别结果,具体包括: 利用所建立的支持向量机分类器的最佳分类界面,对未知分类的测试样本数据进行分 类,根据其分类结果确定其所属类别。
【文档编号】G01N21/359GK104374739SQ201410599260
【公开日】2015年2月25日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】张丽萍, 李卫军, 董肖莉, 覃鸿 申请人:中国科学院半导体研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1