基于增量偏最小二乘法的样品成份测定方法

文档序号:9373013阅读:600来源:国知局
基于增量偏最小二乘法的样品成份测定方法
【技术领域】
[0001] 本发明涉及一种成份测定方法,尤其是一种基于增量偏最小二乘法的样品成份测 定方法。
【背景技术】
[0002] 在食品、药品及石油化工产品的生产中,按照美国食品药品协会提出的过程分析 技术(Process Analysis Technology,PAT)相关标准,需要对生产过程中的中间产品进行 分析和检测,以明确其各物质含量、中间生成物状态及其变化规律,从而满足产品质量设计 要求,生产出可靠的最终产品。近红外光谱检测技术以其快速、无损、低成本的特性成为过 程分析技术中的通用方法,得到业界的广泛应用。其原理是:当近红外光照射(穿过或反 射)待测样品时,样品分子中的基团吸收红外光产生振动,使偶极矩发生变化,在不同的波 长处,吸光率不同,从而获得红外吸收光谱。对于溶液,按照朗伯比尔定理,吸光率和溶液的 浓度呈线性关系。
[0003] 在过程分析中,随着生产的进行,样本是逐个获得的。设采集的第i个样本点 < xw,yw>,X Rixp是观测值,为红外光谱数据,y Rixq是因变量,为X ω对应的 物质浓度,前η个样本点构成校正集< Χ(η),Υ(η) >,自变量X (n) e RηΧρ为包含η个校正样品 的光谱数据,Y(n) e RnXq代表物质浓度,如果用< X,Y >代表训练样本全集,随着< X,Y > 样本数量不断增加,X与Y回归模型预测精度应该逐渐提高。
[0004] 目前,过程分析技术主要采用化学计量学中的已有方法建立过程分析模型。但是, 在PAT分析中,参与训练的样本具是逐步获得的,具有增量特性,与普通的化学计量学建模 方法有所不同。其样本空间随着不同批次样本点的采集会发生改变,当新样本到达后,需要 用这个新样本更新模型。因此,尽管偏最小二乘法(Partial Least Squares,PLS)在化学 计量学中得到了广泛应用,但是由于PLS采用批量学习模式,调整PLS参数时,需要抛弃已 有模型,重新训练全部数据,并采用交叉验证等方法选择新参数,建立新模型,因而存在训 练时间长、空间消耗大、建模效率低等问题;另外,应用PLS模型对样品中的成分含量进行 预测时,预测精度有待进一步提高。

【发明内容】

[0005] 本发明的目的在于,提供一种基于增量偏最小二乘法(Incremental Partial Least Squares,IPLS)的样品成份测定方法,它可以有效解决现有的PLS模型用于实际生 产产品在线检测中面临的实际问题,尤其是采用PLS模型进行产品的增量数据检测时,其 需要抛弃已有模型,重新训练全部数据,建立新模型,从而导致训练时间长、空间消耗大、建 模效率低的问题,以及应用PLS模型对样品中的成分含量进行预测时,预测精度有待进一 步提尚的问题。
[0006] 为解决上述技术问题,本发明采用如下的技术方案:一种基于增量偏最小二乘法 的样品成份测定方法,包括以下步骤:
[0007] SI,采集待测样品的近红外光谱数据;
[0008] S2,通过增量偏最小二乘模型,获得该近红外光谱数据所对应的样品中各成分的 含量。优选的,步骤S2中所述的增量偏最小二乘模型通过以下方法建立:
[0009] a.收集η个样本的近红外光谱数据及其对应的样品中各成分的含量数据作为初 始校正集;
[0010] b.将初始校正集中的数据进行中心化处理,得初始中心化样本数据;
[0011] c.对所述的初始中心化样本数据进行偏最小二乘(PLS)回归,得初始回归系数及 偏最小二乘初始回归模型;
[0012] d.当第i个样本点加入该校正集时,对其进行中心化处理,并利用偏最小二乘初 始回归模型获得相应的预测值;其中,i = n+1,n+2,……;
[0013] e.计算所述的预测值与真实值之间的误差;若该误差小于等于阀值δ,则令i = i+Ι,转至d;否则对回归系数进行更新后,令i = i+Ι,转至d,直至得到最终的回归系数B1, 即得增量偏最小二乘模型。
[0014] 太劳昍的来骢P由·诵忖W下卞·忒甜同归系数进行更新,得最终的回归系数B1: [0015;
[0016] 其中,i = n+1, n+2,......,Bi为第i个样本点< χ ω, y;〉加入校正集时得到的 更新的回归系数,B1 i为对所述的初始校正集中的η个训练样本数据进行偏最小二乘法 回归时获得的初始回归系数,η为正常数,其大小由沿着梯度反方向搜索时的步长决定; < >为第i个样本点的中心化数据,.?为第i个样本点的预测值,<:ττ为;的转置。
[0017] 本发明采用梯度学习的方法寻找优化的回归系数,一方面采取了增量学习的方 法,另一方面通过上述的回归系数优化公式可以更快速的更新模型,提高模型适应新数据 的能力。
[0018] 上述方法的步骤e中,所述的增量偏最小二乘模型为:
[0019] y = XBi+E
[0020] 其中,所述的y为待测样品中各成分的含量,X为待测样品的近红外光谱数据,B1 为增量偏最小二乘模型最终的回归系数,E为残差。
[0021] 前述的基于增量偏最小二乘法的样品成份测定方法中,步骤e中所述的阀值δ采 用K-折交叉验证的方式确定。
[0022] 优选的,本发明具体通过以下方法确定阀值δ :
[0023] (1)将初始校正集中的η个样本数据平均分为k份,以第j份作为增量训练集,剩 余的k-Ι份作为初始训练集进行交叉验证,其中,I < j < k(k彡4);
[0024] (2)对所述的初始训练集中的数据进行中心化处理,得初始中心化样本数据;
[0025] (3)对初始中心化样本数据进行PLS回归,得初始回归系数及PLS初始回归模型;
[0026] (4)当第j份作为增量训练集中的数据加入该初始训练集时,对增量训练集中的 数据进行中心化处理,并利用PLS初始回归模型获得相应的预测值;
[0027] (5)设 δ = 2 \ 1 彡 i 彡 ntop,其中 ntope N ;
[0028] (6)计算所述的预测值与真实值之间的误差;若该误差小于等于δ,则转至(7); 否则对所述的回归系数进行更新,并将该更新后的回归系数应用到作为增量训练集的第 j份数据上,获得相应的预测值及交叉验证均方差MSE(k,i);将所述的交叉验证均方差 MSE(k,i)放入均方差矩阵中;
[0029] (7)令 i = i+Ι,若 i < ntop转至(5);否则,则令 j = j+Ι,转至(1);若 j > k,得 k行ntop列的均方差矩阵;
[0030] (8)对所述的k行ntop列的均方差矩阵的每一列求均值,获得均值矩阵;
[0031] (9)查找均值矩阵中的均方差最小值,该均方差最小值在矩阵中所对应的列号为 itest,相应的21?即为最优阀值δ。
[0032] 采用本发明的上述方法确定的最优阀值δ,可以使得增量偏最小二乘模型的预测 精度最高。
[0033] 本发明中所述的待测样品为谷物、土壤、草或复方中药药物。
[0034] 优选的,所述的待测样品为含有芍药苷的复方中药药物。
[0035] 与现有技术相比,本发明具有以下优点:
[0036] 1、通过利用增量偏最小二乘模型对待测样品的近红外光谱数据进行处理,从而即 可获得该近红外光谱数据所对应的样品中各成分的含量,与采用传统的偏最小二乘模型进 行数据处理相比,节约了时间和空间,所得回归系数基本相同,预测均方根误差却更小,可 见,本发明中的增量偏最小二乘模型具有更高的预测精度和建模效率;
[0037] 2、本发明采用梯度学习的方法寻找优化的回归系数,一方面采取了增量学习的方 法,另一方面通过上述的回归系数优化公式可以更快速的更新模型,提高模型适应新数据 的能力;
[0038] 3、本发明中,引入了模型更新的阀值,对样本起到筛选作用,降低部分高密度样本 反复取样对模型的影响,同时可以有效增加稀疏样本到模型,降低模型复杂度的同时,提高 了模型的精度。本发明中通过采用K-折交叉验证的方式确定最佳阀值,可以使得增量偏最 小二乘模型的预测精度更高,预测误差更小,同时节约了时间和空间,可以更好的进行增量 光谱数据的定量分析;
[0039] 4、本发明中,随着建模数据的增多,会比PLS节约更多的建模时间,同时,基于阀 值的样本筛选机制,使得建立的IPLS模型变得更准确,预测精度更高;
[0040] 5、本发明中的基于增量偏最小二乘模型的样品中成分含量的测定方法,对复方中 药药物中芍药苷含量的测定非常有效,相对于PLS的预测值的改善程度达9. 18 %,说明了 IPLS的提出,在复方中药药物数据集表现出了极强的预测能力;
[0041] 6、本发明中的基于增量偏最小二乘模型的样品中成分含量的测定方法,对草中 碳、氮、硫元素含量的测定非常有效,相对于PLS的预测值的改善程度达0.57%,说明了 IPLS的提出,在草数据集表现出了极强的预测能力;
[0042] 7、本发明中的基于增量偏最小二乘模型的样品中成分含量的测定方法,对土壤中 有机质含量的测定非常有效,相对于PLS的预测值的改善程度达2. 78%,说明了 IPLS的提 出,在土壤数据集表现出了极强的预测能力;
[0043] 8、本发明中的基于增量偏最小二乘模型的样品中成分含量的测定方法,对谷物中 水分、油脂、蛋白质、淀粉含量
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1