专利名称:物质成分含量的近红外光谱无损检测方法及装置的利记博彩app
技术领域:
本发明涉及近红外光谱分析技术,尤其涉及一种物质成分含量的近红外光谱无损 检测方法及装置。
背景技术:
近红外光谱检测技术具有无损伤、无污染、实时快速测定物质成分浓度(或者性 质参数)的特点,因此被广泛应用于农业、生物医学、化工等领域。虽然近红外光谱能携带 丰富的物质分子结构信息,且容易获取和被处理,可用来分析绝大多数种类的化合物及其 混合物的成份浓度(或者性质参数),但是,近红外光谱信息强度比中红外谱区低、谱峰宽, 样品近红外光谱的有效信息率低。对复杂样品进行近红外光谱分析即是要从复杂、重叠、变 动的光谱中提取微弱信息。而随着高性能光谱仪器及基础测试技术的不断完善,基于化学 计量学的近红外光谱微弱信息提取方法研究,则成为了近红外光谱无损检测物质成分浓度 (或者性质参数)的关键点之一,它决定着近红外光谱检测技术的最终应用与前景。多元校正是一种重要的化学计量学方法,多元校正是近红外光谱检测技术中的一 个关键步骤,用于建立在已知物质成分浓度(或性质参数)与光谱之间的关联关系,利用该 关系,可用于后续预测未知样品的物质成分浓度(或性质参数),高精度多元校正模型的建 立可使得物质成分含量的近红外光谱无损检测的结果更精确。多元校正方法可分为线性和非线性两大类。线性校正方法如多元线性回归、主成 分回归、偏最小二乘回归等,其理论性质易于讨论,常常能比较好的解决问题。然而,随着人 们对事物认识能力的提高,对于复杂样品,多组分混合物分析体系中各组分的相互作用、仪 器的基线漂移等,致使吸收光谱偏离朗伯_比耳定律,呈现非线性的特质,为了建立预测准 确性好和稳健性强的近红外光谱分析多元校正模型,非线性建模方法的研究越来越引起人 们的关注。目前常见的非线性校正方法有非线性偏最小二乘法、人工神经网络等。基于样 条变换、多项式拟合等的非线性偏最小二乘法,选择恰当的参数能很好的拟合非线性关系, 但是仍然不能解决模型的复杂性问题;人工神经网络是一种智能的非线性多元校正方法, 具有很强的非线性建模能力,但也存在一些局限性,如模型和参数选择复杂、训练速度慢、 容易陷入极小点、过拟合等等。另外,校正集样本是建立多元校正模型的基础,多元校正即是根据已知的一定数 量的校正集样本的光谱和标准方法测得的该校正集样本的物质成分浓度(或性质参数)建 立关联关系。由于样本化学组成复杂,且样本信息包含在相似性很强的高维光谱中,校正集 样本的合理筛选对提高模型预测精度至关重要。通常要求校正集样本应具有范围宽、分布 均勻、精度高、典型性的特点,选择特征信息丰富、尽量少干扰的足够数量的校正集样本是 模型准确的前提,决定了模型的适应性和可靠性。目前常用的校正集样本优选方法有随机法;基于同类就近选择样本的光谱欧氏 距离算法;根据样本光谱之间距离差异进行样本挑选的算法,如Kermard-Stone法等。随机 法选取样本完全是随意的,没有任何规律,或者仅遵循简单的规则,通过该方法每次组成校正集的样本可能差异很大,不能保证所选样本代表性及模型的外推能力。同类就近选择样 本的建模方法只能降低非线性的校正误差,无法发现除去光谱特征异常样本干扰,往往不 够可靠和精确。Kermard-Stone法的优点是能保证训练库中样本按照空间距离分布均勻,但 是需要进行数据转换和计算样本两两空间距离,计算量大。综上所述,利用常用的非线性多元校正方法和校正集样本优选方法的近红外光谱 检测技术,均存在模型复杂、计算量大的问题,以及还存在物质成分含量近红外光谱无损检 测中校正模型的训练速度慢、不易于硬件实现等缺陷;且采用现有非线性校正模型不适用 于小样本建模、容易产生过拟合,影响了物质成分含量近红外光谱无损检测结果的精度。另 外,因离线训练的校正模型复杂,通常的物质成分含量的近红外光谱无损检测装置硬件中 写入的校正模型固定,这对于成分特别复杂的被测对象的物质成分含量的检测的适用性不 佳。
发明内容
有鉴于此,本发明的主要目的在于提供一种简单、快速、高效的物质成分含量的近 红外光谱无损检测方法及装置,本发明提供的方法简洁,便于近红外光谱无损检测技术中 的硬件实现,根据被测对象情况调节模型及其参数,能提高物质成分含量检测结果的精度 和适用性。本发明的另一个目的在于提供一种校正集样本优选方法,通过基于自模型混合物 分析的技术,消除含重复信息或无用信息的样本,从而解决样本间共线性的技术问题,从而 选出少数的具有代表性样本,用于建立多元校正模型,可达到简化训练过程、提高建模速 度、降低模型复杂性以便于近红外光谱无损检测过程中的硬件实现和提高物质成分含量近 红外无损检测结果的精度的技术效果。为达到上述目的,本发明的技术方案是这样实现的一种物质成分含量的近红外光谱无损检测方法,该检测方法包括A、利用近红外光谱仪采集大量被测样品的近红外光谱数据,构成校正样本集;B、采用标准分析方法测定校正样本集中样本待测组分的化学含量的真值;C、对所述近红外光谱数据进行预处理,以去除噪声、基线或其他干扰待测物质成 分信息的无用信号;D、对上述经预处理后的校正集样本的光谱数据进行基于自模型混合物分析的校 正集样本优选;E、用优选出的校正样本集建立基于核函数变换的非线性偏最小二乘校正模型;F、用所构造的基于核函数变换的非线性偏最小二乘校正模型,检测未知样本的物 质成分含量。其中,步骤C所述对所述近红外光谱数据进行预处理,进一步包括小波变换过程, 包括Cl、选择小波基和小波分解层数,将所述光谱矩阵X的每条信号进行小波分解;其 中光谱矩阵X的每一行中各元素代表一个样本在各个波长下的吸光度值;C2、对光谱信号在小波域内的低频段小波系数置零来实现基线校正,利用较高频 段小波系数阈值处理来实现噪声去除;
7
C3、用分解后去噪和基线校正后的第N层低频和高频系数进行信号重构,重构的 各条光谱信号组成新的光谱矩阵xnOT。类似地,步骤C所述对所述近红外光谱数据进行预处理,进一步包括微分处理过 程,具体为选择微分窗口宽度g及微分阶次;并对所述光谱数据进行一阶微分去除与波长 无关的漂移,或进一步进行二阶微分处理去除与波长相关的漂移。其中,步骤D所述的基于自模型混合物分析的校正集样本优选方法,包括D1、将光谱矩阵Xnrat进行转置得到X:,则XLw矩阵每一列各元素代表一个样本在 各个波长下的吸光度值;D2、计算光谱矩阵X:中各列向量即样本i的纯度值Pu,其计算公式为 其中,μ i为均值、ο i为标准差、α为补偿因子;D3、根据步骤D2求得的各列向量i的Piil值,判断Piil值的大小,将具有最大Piil 值的第i个列向量作为选出的第一个样本;D4、选择第k(k彡2)个样本,具体为根据下列公式计算矩阵X:中列向量i的长 其中,Cli, j为光谱矩阵χ'中第i行第j列元素,由"(/X, =‘/ +,得
到关系矩阵C = D(I)D(I)tAi,根据下列公式计算关系权函数P ^k ; 其中,k表示待确定的第k个样本,Ph表示目前已经选定了的第(k-Ι)个样本在 C矩阵中所在列向量的标号,P1表示通过步骤D3已选择的第一个样本在C矩阵中所在列向 量的标号;则纯度值Pi,k为Pi,k= pi,k(oi/(yi+a));将具有最大Pi,k值的第i个列向量作为选出的第k个 样本;D5、重复上述步骤D4,并通过依次迭代选择的样本建立多元校正模型,交互 验证评价模型的性能,将具有最小预测均方根误差(RMSEP,Root MeanSquare Error of Prediction)时选取的样本个数作为最优的样本个数,所述RMSEP计算公式为
.其中,为预测值,y为参考值,η为样本个数; D6、用优选出的一定个数的样本组成新的最优的校正样本集。步骤E所述建立基于核函数变换的非线性偏最小二乘校正模型,包括Ε1、确定初始参数,包括核函数及其参数、主成分个数;Ε2、对校正集的自变量进行核函数变换,然后进行中心化处理;其中,核函数
;η表示校正集样本的个数,k(·,·)
表示两个向量的内积;
表示校正集样本的光谱;核函数变换过程 即是非线性处理过程,核函数变换之后的矩阵包含了非线性信息;中心化的公式为
; I表示单位矩阵,In表示各元素都为1的η维向量。
Ε3、对经核函数变换后得到的矩阵,建立偏最小二乘校正模型,并根据交互验 证方法确定最优的核函数、核参数以及主成分个数;所述最终建立的基于核函数变换的非 线性偏最小二乘校正模型为
;其中,b为矩阵原始变量的偏最小二乘回归 系数向量,f为残差向量。其中,所述核函数主要有协方差核、多项式核和高斯核;所述协方差核
、多项式核
高斯核 img/>其中,i、j分别表示第i、j个样本的光谱向量;p、q、σ分别为需根据实际情况确 定的核参数。步骤F所述检测未知样本的物质成分含量的过程,包括F1、用光谱仪采集未知样本的光谱;F2、对于未知样本的光谱,采用与校正集样本相同的预处理方法进行光谱处理,去 除噪声、基线以及其他干扰物质成分信息的无用信息;F3、对于经预处理后的未知样本的光谱进行核函数变换,然后进行中心化处理;未 知样本的核函数变换公式为 其中,xt^i = 1, ... , η)表示未知的样本的光谱;Xi(i = 1,. . .,η)表示校正集 样本的光谱冲心化的公式为元,,=(Aw-iVnUa-1Vr); F4、通过已建好的模型获得未知样本的物质成分含量的预测值。计算公式为 L·, = I为本发明最终通过上述近红外无损检测方法获得的检测结果的值。一种物质成分含量的近红外光谱无损检测装置,该装置主要包括校正集样本优选 单元100、模型建立单元200和预测值获取单元300 其中,校正集样本优选单元100,用于获取用于建立基于核函数变换的非线性偏最小二 乘校正模型的最优的校正集样本;模型建立单元200,用于建立基于核函数变换的非线性偏最小二乘校正模型;以 及预测值获取单元300,用于得到本发明所述的物质成分含量近红外光谱无损检测 的结果。
其中,所述校正集样本优选单元100进一步包括校正集样本数据获取子单元110,用于获取大量已知样本的近红外连续光谱数据, 以及与之相应的采用标准分析方法测得的校正样本集中样本待测组分的化学含量的真值, 构成校正集样本;校正集样本数据预处理子单元120,用于对所述校正集样本数据获取子单元110 获取的所述校正集样本光谱数据进行预处理;以及最优校正集样本获取子单元130,用于根据所述校正集样本数据预处理子单元 120获取的预处理后的校正集样本光谱数据和所述校正集样本数据获取子单元110中获取 的相应的真值,确定最优的一定数量的用于建立校正模型的样本并提供给所述模型建立单 元200和预测值单元300。其中,所述模型建立单元200和预测值获取单元300进一步包括校正集样本核函数变换子单元210,用于对所述最优校正集样本获取子单元130 得到的一定数量的最优校正集样本进行核函数变换,构成校正集样本的核函数变换后的矩 阵;基于核函数变换的非线性偏最小二乘校正模型获取子单元220,用于对所述校正 集样本核函数变换子单元210中得到的核函数变换后的矩阵建立非线性偏最小二乘校正 模型,并将获得的回归系数提供给预测值单元300 ;以及所述预测值获取单元300进一步包括未知样本光谱数据获取子单元310,用于获取待测的未知成分含量的样本的近红 外波段的连续光谱;未知样本光谱数据预处理子单元320,用于对所述未知样本光谱数据获取子单元 310获取的所述未知样本数据进行预处理,所采用的预处理方法及其参数与所述校正集样 本数据预处理子单元120所采用的相同;未知样本核函数变换子单元330,利用所述最优校正集样本获取子单元130获得 的最优的校正集样本,用于对所述未知样本光谱数据预处理子单元320获取的预处理后的 未知样本光谱数据进行核函数变换,所采用的核函数及其参数与所述校正集样本核函数变 换子单元210所采用的相同,构成未知样本的核函数变换后的矩阵;预测值计算子单元340,用于根据所述基于核函数变换的非线性偏最小二乘校正 模型获取子单元220得到的回归系数和所述未知样本核函数变换子单元330得到的未知样 本的核变换后的矩阵,通过计算得到所述未知样本的被测物质成分含量的检测值。本发明所提供的物质成分含量的近红外光谱无损检测方法及装置,具有以下优点;本发明通过利用基于自模型混合物分析技术的校正集样本优选方法,仅选出少量 的样本用于建立多元校正模型,可快速建立校正模型,达到提高近红外光谱无损检测技术 中多元校正模型的建模效率的效果,同时由于样本优选使得模型的复杂性降低,从而还可 达到便于近红外光谱无损检测过程中的硬件实现的技术效果;另外,若对于采集到的大量 的校正集样本,由于本发明提出的样本优选方法可消除样本间的共线性问题,从而能选出 少而精的、具有代表性的样本用于建立校正模型,能够用于提高物质成分含量近红外光谱 无损检测结果的精度和可靠性。本发明方法采用基于核函数变换的方式建立的非线性校正模型,仅通过向量的内积完成非线性映射过程,其变换过程简单易实现,从而进一步简化 了多元校正模型,降低了物质成分含量近红外光谱无损检测过程硬件实现的困难;仅通过 核函数及其参数的选择,可应用于不同的待测量对象,因而本发明提供的方法具有广泛的 适应性;另外,本发明所述的非线性校正模型具有适应于小样本、具有较好的泛化能力的特 点,尤其适用于经校正集样本优选后的少量样本建模情况,能达到显著提高物质成分含量 近红外光谱无损检测结果的精度的效果。
图1为本发明物质成分含量的近红外光谱无损检测方法流程图;图2为采用本发明方法获取的原始近红外光谱示意图;图3为经微分预处理后得到的近红外光谱示意图;图4为基于自模型混合物分析的校正集样本优选方法通过最大纯度值选择第一 个样本的示意图;图5为基于自模型混合物分析的校正集样本优选方法通过交互验证得到的预测 均方根误差(RMSEP)确定最佳的校正集样本个数图;图6为本发明校正集样本经核函数变换后的曲线图;图7为本发明采用优选出的校正集样本建立基于核函数变换的非线性偏最小二 乘校正模型的回归系数曲线图;图8为本发明所述的未知样本经核函数变换后的曲线图;图9为采用本发明物质成分含量的近红外光谱无损检测方法用于预测未知样本 得到的预测结果与参考值的相关性图;图10为本发明物质成分含量的近红外光谱无损检测装置组成结构示意图。
具体实施例方式下面结合附图及本发明的实施例对本发明的方法及装置作进一步详细的说明。本发明的核心思想是利用近红外光谱仪采集大量样品的光谱样本,构成校正样 本集,通过预处理方法对校正样本集光谱进行预处理,以去除噪声和基线等无用信息,以改 善光谱质量,提高光谱与被测物质成分含量之间的相关性;通过自模型混合物分析技术,从 校正样本集中选取有代表性的少量样本的子集,构成最优的校正样本集,用于后续的非线 性多元校正模型的建立,以提高建模效率、降低模型复杂性以及便于物质成分含量近红外 光谱无损检测装置的硬件实现;采用优选出的校正样本集,建立基于核函数变换的非线性 偏最小二乘校正模型,利用采集到的大量的校正集样本,通过选择最优的校正集样本,并根 据实际被测对象情况选择预处理和校正模型及其参数,从而达到提高物质成分含量近红外 无损检测结果的精度和适用性的目的。图1为本发明物质成分含量的近红外光谱无损检测方法流程图,如图1所示,该方 法包括步骤101、利用近红外光谱仪采集大量的被测样品的近红外光谱数据,构成校正样 本集。这里,本发明以谷物蛋白质含量的近红外光谱无损检测过程为例,对被测谷物进
11行近红外光谱采集,所述光谱采集范围为1100 2498nm,波长变量个数为700个,光谱矩阵 中每一行各元素代表一个样本在各个波长下的吸光度值。校正集样本总个数为60个,其原 始光谱的光谱矩阵X的图形如图2所示。步骤102、采用标准分析方法测定校正样本集中样本待测组分的化学含量的真值。这里,采用标准分析方法测定上述60个校正集样本的蛋白质含量真值范围为 7. 6540 9. 7110%,呈随机分布,其浓度标准差为0. 4986%。步骤103、对所述近红外光谱数据进行预处理,去除噪声、基线或其他干扰待测物 质成分信息等的无用信息。这里,所述预处理,主要是用来去除上述样本光谱测量数据中由于仪器噪声、基线 漂移和物质中的能导致干扰的物质成分等的无用信息,从而提高光谱质量。所述预处理方 式包括小波变换、微分等所有能够去除噪声、基线和其他干扰待测物质成分信息的无用信 号的方式,但并不限于小波变换、微分等处理过程;其中,所述小波变换过程,包括如下步骤步骤1031 选择小波基和小波分解层数,将所述光谱矩阵X的每条信号进行小波 分解;其中光谱矩阵X的每一行中各元素代表一个样本在各个波长下的吸光度值;步骤1032 对光谱信号在小波域内的低频段小波系数置零来实现基线校正,利用 较高频段小波系数阈值处理来实现噪声去除;步骤1033 用分解后去噪和基线校正后的第N层低频和高频系数进行信号重构, 重构的各条光谱信号组成新的光谱矩阵xnM。所述的光谱微分处理过程,包括如下步骤
步骤1031 ’ 选择微分窗口宽度g及微分阶次;步骤1032'光谱的一阶微分算法如公式(1)所示,一阶微分可去除与波长无关 的漂移;Xnew (i, j) = [x(i, j+g)-x(l, j)]/g⑴光谱的二阶微分算法如公式(2)所示,二阶微分可去除与波长相关的漂移。Xnew(i,j) = [x(i, j+g)-2x(i,j) +χ(i,j-g) ]H (2)本发明实施例采用微分预处理方式对原始近红外光谱进行处理时,选择微分窗口 宽度g = 17,微分阶次为2阶,经微分预处理后得到的新的光谱Xnew如图3所示,预处理后 得到的光谱Xnew的波长变量个数为666个,即Xnew的矩阵维数为60X666。需要指出的是,本发明中,对近红外光谱进行预处理的方式并不限于上述方法,其 他任何去噪和基线校正等无用信息消除的预处理手段,也均适用。步骤104、对经预处理后的校正集样本的光谱数据进行基于自模型混合物分析技 术的校正集样本优选。这里,所述基于自模型混合物分析技术的校正集样本优选方法,是指对经过预处 理后的校正集样本的光谱Xnew进行样本优选。进一步地,所述基于自模型混合物分析技术的样本优选方法,包括以下步骤步骤1041、将光谱矩阵Xnew进行转置得到χ'_,则X:矩阵每一列各元素代表一个 样本在各个波长下的吸光度值。这样,能够为样本优选自动实现的计算机程序设计带来方 便。
步骤1042、计算光谱矩阵X:中各列向量i的纯度值Pu。如图4所示,是在选第1个样本时,求得的各样本的纯度值。这里,光谱矩阵X-中 各列向量i即样本i的纯度值Pu的计算如公式(3)所示,纯度值用以表征各样本含被测 物质成分含量信息量的大小,也就是说对校正模型的贡献。 其中,^为均值、Qi为标准差、α为补偿因子(一般取均值的1 5%)。步骤1043、选择第一个样本。根据所述步骤1042求得的各列向量i即样本i的Pu值,判断Pu值的大小,具 有最大Pu值的第i个样本即为选出的第一个样本。从图4可知,具有最大纯度值(ρ5>1 = 797. 12)的校正集中的第5个样本作为优选出的第1个样本,用于后续的校正模型的建立。步骤1044、选择第k(k ^ 2)个样本。计算矩阵X:中列向量i的长度Ii如公式 ⑷所示 其中,du 为光谱矩阵X:中第 i 行第
,得
到关系矩阵C = D(I)D(I)tAI,计算关系权函数Piil^MAS (5)所示。
(5) 其中,k表示待确定的第k个样本,Ph表示目前已经选定了的第(k-Ι)个样本在 C矩阵中所在列向量的标号,P1表示已选择的第一个样本在C矩阵中所在列向量的标号,则 纯度值Pi,k为 具有最大Pi,k值的第i个样本为选出的第k个样本。根据公式(4)、公式(5)、公式(6)可求得与已优选出的前k-Ι个样本具有最小共 线性的样本,作为选出的第i个样本,本实施例中,预先选出30个样本,为后面确定样本个 数,以确定最优的校正样本集做准备。步骤1045、最优样本个数判定。重复上述步骤1044,并通过依次迭代选择的样本 建立多元校正模型,交互验证评价模型的预测性能,具有最小预测均方根误差(RMSEP)时 选取的样本个数即为最优的样本个数。所述RMSEP计算公式为 其中,为预测值,y为标准方法测得的参考值,η为样本个数。本实施例中,通过依次迭代选择的30个样本建立偏最小二乘多元校正模型,采用 交互验证评价模型的性能,实验显示,当选取前26个样本建立多元校正模型时,其交互验证得到的RMSEP(RMSEP = 0. 12% )为最小,如图5所示,判定最优样本个数为26。
步骤1046、组成最优的校正样本集。用优选出的一定个数的样本组成新的最优的 校正样本集,其光谱矩阵为x。pt,为了符合一般的习惯,仍然将光谱矩阵x。pt每一行元素表示 为一个样本在各个波长下的吸光度值。 本实施例中,将选取的前26个样本组合为最优的校正样本集用于建立最终的多 元校正模型,此时得到的光谱矩阵X。pt的维数变为了 26X666。步骤105、用优选出的校正样本集样本的光谱数据和与之对应的标准值,建立基于 核函数变换的非线性偏最小二乘校正模型。这里,所述的基于核函数变换的非线性偏最小二乘校正模型的建立,是指将经过 光谱预处理和样本优选后得到的优化的校正样本集的光谱矩阵x。pt,与步骤102中采用的 标准分析方法测定的校正样本集中样本待测组分的化学含量的真值建立关联关系,以用于 预测未知样本的待测成分含量。所述的基于核函数变换的非线性偏最小二乘校正模型的建立,包括以下步骤步骤1051、确定初始参数,包括核函数及其参数、主成分个数。常用的核函数有协 方差核、多项式核和高斯核等,其表达式分别如公式(8)、公式(9)、公式(10)所示 以上三式中的i、j分别表示第i、j个光谱向量;P、q、σ分别为需根据实际情况 确定的核参数。本实施例中,确定初始参数,选用高斯核,核函数ο = 1、最大主成分个数为20。步骤1052、对校正集的自变量进行核函数变换,其变换矩阵如公式(11)所示,然 后进行中心化处理,其表达式如公式(12)所示。
以上二式中的η表示校正集样本的个数。k(·,·)表示两个向量的内积;Xi(i = 1,. . .,η)表示校正集样本的光谱;I表示单位矩阵,In表示各元素都为1的η维向量。在实施例中,经核函数变换处理后的矩阵如图6所示,经核函数变换后得到的 最终用来建立校正模型的光谱矩阵的维数降为了 26X26,与最初的原始光谱X的维数 60X700相比,明显有简化光谱模型,降低模型复杂性,有助于提高模型训练速度和降低谷 物中蛋白质含量近红外光谱无损检测的硬件实现难度。同时由于采用了高斯核变换,该模 型也包含了非线性信息。步骤1053、对经核函数变换后得到的矩阵,建立偏最小二乘校正模型,并根据 交互验证方法确定最优的核函数、核参数以及主成分个数。如公式(13)所示为最终建立的 基于核函数变换的非线性偏最小二乘校正模型,
其中,b为足rai 矩阵原始变量的偏最小二乘回归系数向量,f为残差向量。在本实施例中,对经核函数变换后得到的矩阵足·,建立偏最小二乘校正模型,并 根据交互验证方法选定最优的核函数为高斯核、核参数σ = 1以及主成分个数为19。采用 优选出的校正集样本建立的基于核函数变换的非线性偏最小二乘校正模型的回归系数曲 线如图7所示。步骤106、用所构造的基于核函数变换的非线性偏最小二乘校正模型,来检测未知 样本的物质成分含量。这里,所述的检测未知样本的物质成分含量,是指采用光谱仪采集未知样本的光 谱,将该光谱进行和校正集样本相同的预处理,通过已建立的校正模型,得到该未知样本的 待测成分含量的预测值。进一步地,所述未知样本的物质成分含量的预测,包括如下步骤步骤1061、用光谱仪采集未知样本的光谱。本实施例中,采集20个未知的样本光谱。步骤1062、对于未知样本的光谱,采用与校正集样本相同的预处理方法进行光谱 处理,去除无用信息。本实施例中,采用微分预处理方法对未知样本的原始近红外光谱进行处理,选择 微分窗口宽度g = 17,微分阶次为2阶。步骤1063、对于经预处理后的未知样本的光谱进行核函数变换,核函数及其参数 的选择与步骤105中所选的一致,其变换矩阵如公式(14)所示,然后进行中心化处理,其表 达式如公式(15)所示。
其中,XtiG = 1,. . .,η)表示未知的样本的光谱;Xi(i = 1,. . .,η)表示校正集 样本的光谱。本实施例中,对于经预处理后的未知样本的光谱进行核函数变换,核函数及其参 数的选择与步骤1053中确定的一致,即选择核函数为高斯核、核参数ο =1,则其核变换后 的矩阵如图8所示。步骤1064、获得未知样本的物质成分含量的检测值,其计算的表达式如公式(16) 所示 本实施例中,获得未知样本的物质成分含量的检测值,按公式(16)求得该20个未 知样本的蛋白质含量,采用本发明的物质成分含量近红外光谱无损检测方法,得到的检测 值与采用标准方法测得的参考值的相关性如图9所示。另外,为与一般的近红外光谱无损检测方法进行比较,表一给出了不同方法建立 的模型对未知样本进行预测的参数,结果表明,本发明提出的物质成分含量近红外光谱无损检测方法的检测精度明显优于一般方法,且本发明提出的物质成分含量近红外光谱无损 检测方法简单、快速,校正集样本优选和核函数变换过程均能降低模型的复杂性,便于硬件 的实现,且通过选择适当的预处理方法及其参数、核函数及其参数,该物质成分含量的近红 外光谱无损检测方法还可适用于人体生化参数如血糖、植物生化参数如叶片水分、苹果糖 度等的以及其他生物物质成分含量的无损检测,并可显著提高检测结果的精度。
表一选用不同光谱分析方法的预测参数 本发明还提供了所述的物质成分含量的近红外无损检测装置,如图10所示。因 现有近红外光谱无损检测装置采用的预测模型通常是离线训练的校正模型,模型复杂,且 通过硬件中写入的校正模型通常是固定不可调的,这对于成分特别复杂的被测对象的物质 成分含量的检测的适用性不佳。而采用本发明提供的装置,可自动的实现校正样本优选和 非线性校正模型的训练过程,参数设置不复杂、模型简单,具有较高的无损检测速度和准确 度。且本发明提供的装置还可根据实际被测对象情况调整预处理方法及其参数、以及调节 校正模型及其参数,能提高物质成分含量检测结果的精度和适用性。该装置主要包括光源、近红外光谱仪、微处理器和检测结果显示屏四个模块,由光 源发出的近红外光照射在被测物体上,由近红外光谱仪获取光源经被测物体后反射或者透 射后的吸光度数据,通过微处理器处理获取的该光谱吸光度数据、建立并保存校正模型、计 算未知样本的被测物质成分含量的检测值,并由检测结果显示屏显示该检测值。其中微处 理器模块包括校正集样本优选单元100、模型建立单元200和预测值获取单元300。其中,校正集样本优选单元100,用于获取一定数量的用于建立基于核函数变换的非线 性偏最小二乘校正模型的最优的校正集样本。所述校正集样本优选单元100进一步包括 校正集样本数据获取子单元110、校正集样本数据预处理子单元120和最优校正集样本获 取子单元130。所述校正集样本数据获取子单元110,用于获取大量样本的近红外连续光谱数据, 以及与之相应的采用标准分析方法测得的校正样本集中样本待测组分的化学含量的真值, 构成校正集样本并提供给校正集样本数据预处理子单元120 ;校正集样本数据预处理子单 元120,连接校正集样本数据获取子单元110,用于对校正集样本数据获取子单元110获取 的校正集样本数据进行预处理,包括预处理方法及其参数的选择,将预处理后得到的光谱 数据提供给最优校正集样本获取子单元130,同时还将选择的预处理方法及其参数提供给 未知样本光谱数据预处理子单元320 ;最优校正集样本获取子单元130,连接校正集样本数 据预处理子单元120,用于根据校正集样本数据预处理子单元120获取的预处理后的校正 集样本数据和校正集样本数据获取子单元110中获取的相应的真值,确定一定数量的最优 校正集样本并提供给模型建立单元200和预测值单元300。模型建立单元200,连接校正集样本优选单元100,用于利用校正集样本优选单元 100获得的最优的校正集样本建立基于核函数变换的非线性偏最小二乘校正模型,并将该模型提供给预测值获取单元300。所述模型建立单元200进一步包括校正集样本核函数 变换子单元210和基于核函数变换的非线性偏最小二乘校正模型获取子单元220。其中,所述校正集样本核函数变换子单元210,用于对最优校正集样本获取子单元130 获得的最优校正集样本进行核函数变换,包括核函数及其参数的选择,将获得的校正集样 本的核函数变换后的矩阵提供给基于核函数变换的非线性偏最小二乘校正模型获取子单 元220,同时将选择的核函数及其参数提供给未知样本核函数变换子单元330。所述基于核函数变换的非线性偏最小二乘校正模型获取子单元220,连接校正集 样本核函数变换子单元210,用于根据校正集样本核函数变换子单元210获取的核函数变 换后得到的矩阵,建立非线性偏最小二乘校正模型,并将获得的回归系数提供给预测值获 取单元300。预测值获取单元300,连接校正集样本优选单元100和模型建立单元200,利用校 正集样本优选单元100得到的最优的校正集样本和模型建立单元200得到的模型参数,获 取未知样本的物质成分含量近红外光谱无损检测的结果。所述预测值获取单元300进一步 包括未知样本光谱数据获取子单元310、未知样本光谱数据预处理子单元320、未知样本 核函数变换子单元330和预测值计算子单元340。其中,所述未知样本光谱数据获取子单元310,用于获取待测的未知成分含量的样本的 近红外波段范围的连续光谱,并将该光谱数据提供给未知样本光谱数据预处理子单元320。所述未知样本光谱数据预处理子单元320,连接校正集样本数据预处理子单元 120和未知样本光谱数据获取子单元310,用于根据校正集样本数据预处理子单元120提供 的所选择的预处理方法及其参数,对未知样本光谱数据获取子单元310获取的未知样本光 谱数据进行预处理。所述未知样本核函数变换子单元330,连接校正集样本核函数变换子单元210、最 优校正集样本获取子单元130和未知样本光谱数据预处理子单元320,用于根据校正集样 本核函数变换子单元210提供的所选的核函数及其参数,并利用最优校正集样本获取子单 元130提供的最优校正集样本,对未知样本光谱数据预处理子单元320提供的预处理后的 未知样本光谱数据进行核函数变换,将获得的核函数变换后的矩阵提供给预测值计算子单 元 340。所述预测值计算子单元340,连接未知样本核函数变换子单元330和基于核函数 变换的非线性偏最小二乘校正模型获取子单元220,用于利用基于核函数变换的非线性偏 最小二乘校正模型获取子单元220获得的回归系数和未知样本核函数变换子单元330获得 的待测的未知样本核函数变换后的矩阵,计算得到未知样本的待测成分含量的检测值。以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
权利要求
一种物质成分含量的近红外光谱无损检测方法,其特征在于,该检测方法包括A、利用近红外光谱仪采集大量被测样品的近红外光谱数据,构成校正样本集;B、采用标准分析方法测定校正样本集中样本待测组分的化学含量的真值;C、对所述近红外光谱数据进行预处理,以去除噪声、基线或其他干扰待测物质成分信息的无用信号;D、对上述经预处理后的校正集样本的光谱数据进行基于自模型混合物分析的校正集样本优选;E、用优选出的校正样本集建立基于核函数变换的非线性偏最小二乘校正模型;F、用所构造的基于核函数变换的非线性偏最小二乘校正模型,检测未知样本的物质成分含量。
2.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步 骤C所述对所述近红外光谱数据进行预处理,进一步包括小波变换过程,包括Cl、选择小波基和小波分解层数,将所述光谱矩阵X的每条信号进行小波分解;其中光 谱矩阵X的每一行中各元素代表一个样本在各个波长下的吸光度值;C2、对光谱信号在小波域内的低频段小波系数置零来实现基线校正,利用较高频段小 波系数阈值处理来实现噪声去除;C3、用分解后去噪和基线校正后的第N层低频和高频系数进行信号重构,重构的各条 光谱信号组成新的光谱矩阵XnOT。
3.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步 骤C所述对所述近红外光谱数据进行预处理,进一步包括微分处理过程,具体为选择微分 窗口宽度g及微分阶次;并对所述光谱数据进行一阶微分去除与波长无关的漂移,或进一 步进行二阶微分处理去除与波长相关的漂移。
4.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步 骤D所述的基于自模型混合物分析的校正集样本优选方法,包括D1、将光谱矩阵Xnew进行转置得到X:,则X:矩阵每一列各元素代表一个样本在各个 波长下的吸光度值;D2、计算光谱矩阵X:中各列向量即样本i的纯度值Pu,其计算公式为Pia = σ i/(u +α )其中,μ i为均值、σ i为标准差、α为补偿因子;D3、根据步骤D2求得的各列向量i的Pu值,判断Pu值的大小,将具有最大Pu值的 第i个列向量作为选出的第一个样本;D4、选择第k (k > 2)个样本,具体为根据下列公式计算矩阵XL^列向量i的长度Ii,其中,Cli,j为光谱矩阵χ'中第i行第j列元素,由=^7/ a2+( + )2,得到关Jnew,J,J /系矩阵C = D (I)D (l)T/n,根据下列公式计算关系权函数Piik; 其中,k表示待确定的第k个样本,Plri表示目前已经选定了的第(k-Ι)个样本在C矩 阵中所在列向量的标号,P1表示通过步骤D3已选择的第一个样本在C矩阵中所在列向量的 标号;则纯度值Pi,k为 将具有最大Pi,k值的第i个列向量作为选出的第k个样本;D5、重复上述步骤D4,并通过依次迭代选择的样本建立多元校正模型,交互验证评价模 型的性能,将具有最小预测均方根误差RMSEP时选取的样本个数作为最优的样本个数,所述RMSEP计算公式为 .其中,为预测值,y为参考值,η为样本个数;D6、用优选出的一定个数的样本组成新的最优的校正样本集。
5.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步 骤E所述建立基于核函数变换的非线性偏最小二乘校正模型,包括 Ε1、确定初始参数,包括核函数及其参数、主成分个数;Ε2、对校正集的自变量进行核函数变换,然后进行中心化处理;其中,核函数变;η表示校正集样本的个数,k( 表示两个向量的内积;Xi(i = 1,...,n)表示校正集样本的光谱;核函数变换过程 即是非线性处理过程,核函数变换之后的矩阵包含了非线性信息;中心化的公式为 I表示单位矩阵,In表示各元素都为1的η维向量。 ηηΕ3、对经核函数变换后得到的矩阵,建立偏最小二乘校正模型,并根据交互验证方 法确定最优的核函数、核参数以及主成分个数;所述最终建立的基于核函数变换的非线性 偏最小二乘校正模型为j) = Klrainb + / ;其中,b为Iiram矩阵原始变量的偏最小二乘回归系数 向量,f为残差向量。
6.根据权利要求5所述的物质成分含量的近红外光谱无损检测方法,其特征在于, 所述核函数主要有协方差核、多项式核和高斯核;所述协方差核树W) = Vl、多项式核其中,i、j分别表示第i、j个样本的光谱向量;P、q、σ分别为需根据实际情况确定的 核参数。
7.根据权利要求1所述的物质成分含量的近红外光谱无损检测方法,其特征在于,步 骤F所述检测未知样本的物质成分含量的过程,包括F1、用光谱仪采集未知样本的光谱;F2、对于未知样本的光谱,采用与校正集样本相同的预处理方法进行光谱处理,去除噪 声、基线以及其他干扰物质成分信息的无用信息;F3、对于经预处理后的未知样本的光谱进行核函数变换,然后进行中心化处理;未知样 本的核函数变换公式为 其中,Xti (i = 1,...,η)表示未知的样本的光谱;Xi(i = 1,...,η)表示校正集样本 的光谱冲心化的公式为 F4、通过已建好的模型获得未知样本的物质成分含量的预测值。计算公式为 L为本发明最终通过上述近红外无损检测方法获得的检测结果的值。
8.一种物质成分含量的近红外光谱无损检测装置,其特征在于,该装置主要包括校正 集样本优选单元(100)、模型建立单元(200)和预测值获取单元(300)其中,校正集样本优选单元(100),用于获取用于建立基于核函数变换的非线性偏最小二乘 校正模型的最优的校正集样本;模型建立单元(200),用于建立基于核函数变换的非线性偏最小二乘校正模型;以及预测值获取单元(300),用于得到本发明所述的物质成分含量近红外光谱无损检测的 结果。
9.根据权利要求8所述的物质成分含量的近红外光谱无损检测装置,其特征在于,所 述校正集样本优选单元(100)进一步包括校正集样本数据获取子单元(110),用于获取大量已知样本的近红外连续光谱数据,以 及与之相应的采用标准分析方法测得的校正样本集中样本待测组分的化学含量的真值,构 成校正集样本;校正集样本数据预处理子单元(120),用于对所述校正集样本数据获取子单元(110) 获取的所述校正集样本光谱数据进行预处理;以及最优校正集样本获取子单元(130),用于根据所述校正集样本数据预处理子单元 (120)获取的预处理后的校正集样本光谱数据和所述校正集样本数据获取子单元(110)中 获取的相应的真值,确定最优的一定数量的用于建立校正模型的样本并提供给所述模型建 立单元(200)和预测值单元(300)。
10.根据权利要求8所述的物质成分含量的近红外光谱无损检测装置,其特征在于,所 述模型建立单元(200)和预测值获取单元(300)进一步包括校正集样本核函数变换子单元(210),用于对所述最优校正集样本获取子单元(130) 得到的一定数量的最优校正集样本进行核函数变换,构成校正集样本的核函数变换后的矩 阵;基于核函数变换的非线性偏最小二乘校正模型获取子单元(220),用于对所述校正集 样本核函数变换子单元(210)中得到的核函数变换后的矩阵建立非线性偏最小二乘校正 模型,并将获得的回归系数提供给预测值单元(300);以及所述预测值获取单元(300)进一步包括未知样本光谱数据获取子单元(310),用于获取待测的未知成分含量的样本的近红外 波段的连续光谱;未知样本光谱数据预处理子单元(320),用于对所述未知样本光谱数据获取子单元 (310)获取的所述未知样本数据进行预处理,所采用的预处理方法及其参数与所述校正集 样本数据预处理子单元(120)所采用的相同;未知样本核函数变换子单元(330),利用所述最优校正集样本获取子单元(130)获得 的最优的校正集样本,用于对所述未知样本光谱数据预处理子单元(320)获取的预处理后 的未知样本光谱数据进行核函数变换,所采用的核函数及其参数与所述校正集样本核函数 变换子单元(210)所采用的相同,构成未知样本的核函数变换后的矩阵;预测值计算子单元(340),用于根据所述基于核函数变换的非线性偏最小二乘校正模 型获取子单元(220)得到的回归系数和所述未知样本核函数变换子单元(330)得到的未知 样本的核变换后的矩阵,通过计算得到所述未知样本的被测物质成分含量的检测值。
全文摘要
本发明公开一种物质成分含量的近红外光谱无损检测方法及装置,利用其装置,通过采用光谱仪采集校正集样本、对光谱进行预处理、通过样本优选选择最优的校正样本集和利用最优的校正样本集建立非线性校正模型等步骤,然后利用光谱仪采集未知成分含量的光谱样本,经与校正集样本相同的光谱预处理,通过已建非线性校正模型检测该未知样本的成分含量。采用本发明提供的方法和装置,能够有效解决现有物质成分含量的近红外无损检测方法中校正模型复杂、训练速度慢、不易于硬件实现的问题,并能显著提高物质成分含量无损检测结果的精度及稳定性。
文档编号G01N21/35GK101915744SQ20101021829
公开日2010年12月15日 申请日期2010年7月5日 优先权日2010年7月5日
发明者张广军, 李丽娜, 李庆波 申请人:北京航空航天大学