一种基于特征化学成分的烟叶判别分组方法
【专利摘要】本发明涉及一种基于特征化学成分的烟叶判别分组方法,属于烟叶原料分类判别技术领域。本发明对烟叶内在化学成分指标进行相关性替代,获得初步筛选化学指标,采用系统聚类方法将初筛指标进行聚类分组,再应用偏最小二乘判别分析进一步筛选对各分组具有重要贡献的化学指标,最后采用费歇尔逐步判别法构建各分组判别模型。本发明烟叶判别分组方法简单,易操作,为卷烟叶组配方设计提供了一种科学合理的烟叶分类应用方法,较大程度上减轻了叶组配方技术员对烟叶的抽吸评价压力,易于推广应用。
【专利说明】
-种基于特征化学成分的烟叶判别分组方法
技术领域
[0001] 本发明属于烟叶原料分类判别技术领域,具体设及一种基于特征化学成分的烟叶 判别分组方法,同时本发明还设及烟叶特征化学成分筛选方法及其分组模型的构建。
【背景技术】
[0002] 卷烟作为特殊的消费品,其抽吸口味(即卷烟的内在质量)必须要满足消费者的喜 好,从而实现卷烟的市场消费。卷烟的品质取决于其内在化学成分的协调性,与烟草的种 植、品种、±壤、气候、采收和加工具有密切的关系,卷烟的内在质量设及到植物学、农学、物 理、化学W及生理学等多学科交叉问题。要提升卷烟的内在质量及品质稳定性,必须对卷烟 的叶组配方、工艺处理、加香加料及辅助材料选择等关键因素进行严格控制。其中,叶组配 方是形成产品质量及风格特征的基础。叶组配方技术作为调配烟叶的技术和艺术,它是通 过多品种、多等级、小配比的方式将不同品质和风格的烟叶原料进行配方应用来塑造产品 质量风格。传统配方技术主要是靠专业配方技术员通过抽吸感官评价对进入配方的烟叶原 料进行逐一筛选。由于烟叶原料品种、等级非常多,逐一抽吸评价给技术人员筛选烟叶原料 带来了较大的困难,且过多的抽吸也会直接影响技术人员对烟叶原料感官质量判断的准确 性和可靠性。因此,如何对大量不同品种、等级烟叶原料进行科学合理的分组,减轻叶组配 方技术员筛选原料的困难,成为叶组配方技术研究的重点。
【发明内容】
[0003] 本发明的目的是为了解决现有技术的不足,提供一种烟叶特征化学成分筛选的方 法,并基于特征化学成分构建烟叶分组模型,该方法及模型为卷烟叶组配方设计提供了一 种科学合理的烟叶分类应用方法,较大程度上减轻了叶组配方技术员对烟叶的抽吸评价压 力
[0004] 为实现上述目的,本发明采用的技术方案如下:
[0005] -种基于特征化学成分的烟叶判别分组方法,对烟叶内在化学成分指标进行相关 性替代,获得初步筛选化学指标,采用系统聚类方法将初筛指标进行聚类分组,再应用偏最 小二乘判别分析(PLS-DA)进一步筛选对各分组具有重要贡献的化学指标,最后采用费歇尔 (Fisher)逐步判别法构建各分组判别模型,具体步骤如下:
[0006] 步骤(1),相关性替代:
[0007] 对待分组的烟叶内在化学成分,包括常规化学成分、质体色素、多酪、挥发性有机 酸、非挥发性有机酸和致香成分进行相关性分析,按具有极显著相关的同类指标可相互替 代的原则,筛选出具有代表性的特征化学成分指标;
[000引所述的常规化学成分包括总植物碱、总氮、总糖、还原糖、钟离子、氯离子、石油酸 提取物总量和淀粉;
[0009] 步骤(2),聚类分组:
[0010] 应用系统聚类分析对步骤(1)得到的特征化学成分指标进行聚类分析,确定烟叶 分组组别;
[0011] 步骤(3),重要贡献指标筛选:
[0012] W步骤(1)筛选出的特征化学成分指标的含量为自变量,W聚类分组烟叶的组别 为因变量,采用化S-DA分析方法进行化学成分指标分析,并利用变量重要性投影算法 (化riable importance in the projection,VIP)对不同组别烟叶的特征化学成分指标进 行筛选,按VIP〉1的原则对特征化学成分指标进行筛选,最终筛选出对表征不同组别烟叶具 有重要贡献的特征化学成分指标;
[0013] 步骤(4),费歇尔逐步判别模型建立:
[0014] W不同组别烟叶及对其表征具有重要贡献的化学指标为基础,采用费歇尔逐步判 别法构建不同组别烟叶判别模型;然后对于未知分组烟叶样品,只需检测具有重要贡献的 特征化学成分指标的含量,并将其数值代入模型中进行计算,计算结果数值最大值所在组 别即为该未知分组烟叶样品所属组别,则分组完成。
[0015] 进一步,优选的是步骤(1)的具体方法为:对n个待分组的烟叶的内在化学指标成 分进行检测后,根据检测结果,对运些化学成分指标采用SPSS软件进行相关性计算,相关性 计算巧^/T、
[0016] 式(I );
[0017] 式(I)中,r为相关系数;私F分别为化学成分指标X,Y的均值;Xi, Yi分别为化学 成分指标X,Y的第i个烟叶的检测值,i = 1~n;
[0018] 然后将极显著相关的化学成分指标采用代表性化学成分指标进行替换,即从极显 著相关的m个化学成分指标中选出一个最具有代表性的化学成分指标作为运m个极显著相 关化学成分指标的特征化学成分指标,其中,2;按照此方法从待分组烟叶所有检测出的 内在化学成分指标中,选出P个特征化学成分指标,其中,P>2。
[0019] 进一步,优选的是步骤(2)的具体方法为:对步骤(1)得到的P个特征化学成分指标 采用SPSS统计软件,选取卡方度量和平均欧几里德化UCidean)距离,阔值为10进行聚类分 析,得到q种类型,从而得到q个烟叶分组组别,即第1组,第2组……第q组。
[0020] 进一步,优选的是步骤(3)的具体方法为:
[0021] W步骤(1)筛选出的特征化学成分指标的含量为自变量X,W聚类分组烟叶的组别 赋值为因变量Y,采用化S-DA分析方法进行特征化学成分指标分析,并利用变量重要性投影 算法对不同组别烟叶的特征化学成分指标进行筛选,按VIP〉1的原则对特征化学成分指标 进行筛选,最终筛选出对表征不同组别烟叶具有重要贡献的特征化学成分指标S个。
[0022] 进一步,优选的是化S-DA分析方法具体如下:
[0023] 偏最小二乘判别分析法(PLS-DA) W矩阵Xo为自变量矩阵,分组烟叶的组别赋值Yo 为因变量矩阵,构成如下的变量矩阵:
[0024]
[002引矩阵中:Xo为特征化学成分指标矩阵,Yo为分类组别;
[0026] Xi康示第1类指标的第1个成分值,沿康示第1类指标的第2个成分值,……Xqi表示 第q类指标的第i个成分值,i = 1~P;
[0027] Yi为分类为第1组,Y2为分类为第2组,……Yq为分类为第q组;
[0028] 通过对自变量矩阵Xo提取主成分,使得主成分既能代表Xo的变量信息,又能使Xo与 Yo的相关程度达到最大,最终筛选出Xo矩阵中的特征指标,用于有效判别不同的Yo组别。
[0029] 进一步,优选的是按VIP〉1的原则对特征化学成分指标进行筛选的次数次,筛 选至具有重要贡献的特征化学成分指标的个数s《10。
[0030] 进一步,优选的是步骤(4)的具体方法为:W不同组别烟叶及对其表征具有重要贡 献的化学指标为基础,采用费歇尔逐步判别法构建不同组别烟叶判别模型;然后对于未知 分组烟叶样品,只需检测具有重要贡献的特征化学成分指标的含量,并将其数值代入模型 中进行计算,计算结果数值最大值所在组别即为该未知分组烟叶样品所属组别,则分组完 成;
[0031 ]采用费歇尔逐步判别法构建的判别模型通式如下:
[0032] yi=mi+aiXi+bi拉+CiXs+. . .+niXs;
[0033] y2=ni2+a巧i+b2拉+C2X3+. . .+n巧S;
[0034] Y3=邮+asXi+bs拉+C3X3+. . .+mXs;
[0035] ……
[0036] yq = mq+aqXl+bqX2+CqX3+. . .+nqXs;
[0037] 式中:yi、y2、y3……y。为第1、2、3……q组判别函数的得分值;
[003引已知项曰1、曰2、曰3……aq分别为具有重要贡献的特征化学成分指标Xi在第1、2、3…… q组中的截距;
[0039] 已知项bi、b2、b3……bq分别为具有重要贡献的特征化学成分指标X2在第1、2、3…… q组中的截距;
[0040] 已知项C1、C2、C3……Cq分别为具有重要贡献的特征化学成分指标X3在第1、2、3…… q组中的截距;
[0041] 已知项m、n2、n3……n。分别为具有重要贡献的特征化学成分指标Xs在第1、2、3…… q组中的截距;
[0042] 已知项mi、m2、m3……m。分别为采用费歇尔逐步判别法计算得到的在第1、2、3……q 组中的常量;
[0043] Xi.X2.X3……Xs分别为运S个具有重要贡献的特征化学成分指标值;
[0044] 对未知分类组别进行判别时,通过输入Xi、X2、X3……Xs指标值进行计算函数值yi、 72.73……yq,选取函数值最大值所在的组即判别烟叶样品属于该组。
[0045] 本发明通过分析不同品种、等级烟叶原料内在化学成分,对不同化学成分进行相 关性替代,采用聚类分析建立初始判别分类。在此基础上,利用偏最小二乘判别分析(PLS- DA)方法结合变量重要投影算法(Variable Importance in the projection,VIP)提取重 要的烟叶化学成分指标,筛选出对配方烟叶具有重要影响的特征化学成分指标,并采用费 歇尔(Fisher)逐步判别分析方法构建配方烟叶分类模型。同时对分类模型进行验证,最终 构建稳健的配方烟叶分类模型。
[0046] 本发明与现有技术相比,其有益效果为:
[0047] 1.本发明提供一种基于内在化学成分的烟叶系统聚类分组方法,较传统的外观及 感官分级更具科学性和合理性。
[004引2.本发明采用相关性替代及化S-DA重要性判别筛选的二级指标筛选方法,更大程 度上减少了分析指标的数量,缩减了分析检测的工作量。
[0049] 3.本发明烟叶判别分组方法简单、易操作,为卷烟叶组配方设计提供了一种科学 合理的烟叶分类应用方法,较大程度上减轻了叶组配方技术员对烟叶的抽吸评价压力。
【附图说明】
[0050] 图1是烟叶样品分类的3D图;
[0051] 图2是第一次筛选出的具有重要贡献的特征化学成分指标的重要性图;
[0052] 图3是第一次筛选出的具有重要贡献的特征化学成分指标对烟叶分组的贡献载荷 图;
[0053] 图4是第二次筛选出的具有重要贡献的特征化学成分指标的重要性图;
[0054] 图5是第二次筛选出的具有重要贡献的特征化学成分指标对烟叶分组的贡献载荷 图;
[0055] 图6是筛选出的7项重要贡献化学成分指标的重要性图;
[0056] 图7是筛选出的7项重要贡献化学成分指标对烟叶分组的贡献载荷图。
[0化7] 其中,"1-15"表示表4和图1中分类组的组别。
【具体实施方式】
[0058] 下面结合实施例对本发明作进一步的详细描述。
[0059] 本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发 明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件 或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可W通过购买获得的 常规产品。
[0060] 实施例1
[0061] 1.烟叶样品
[0062] 按GB/T 19616-2004标准要求进行烟叶取样,取不同品种、等级、部位及产地的烟 叶样品共102个;按GB 2635-1992标准要求进行烟叶的储存、运输;按YC/T 31-1996中吨分 析步骤"要求制备烟叶样品。
[0063] 2.样品检测
[0064] 检测102个烟叶样品(其中78个样品作为建模集,24个样品作为验证集)常规化学 成分(总植物碱、总氮、总糖、还原糖、钟离子、氯离子、石油酸提取物总量和淀粉8项)、质体 色素(叶黄素和e-胡萝h素)、多酪(绿原酸、赏窘亭和芸香巧)、水溶性糖(果糖、葡萄糖、薦糖 和麦芽糖)、有机酸(挥发性有机酸8项,非挥发性有机酸10项,见表2)和致香成分指标(55 项),共计90项指标作为分析指标。检测方法如下:
[00化](1)总植物碱按YC/T 160-2002标准进行检测;
[0066] (2)总氮按YC/T 161-2002标准进行检测;
[0067] (3)总糖和还原糖按YC/T 159-2002标准进行检测;
[0068] (4)钟离子WK20计,按YC/T 217-2007标准进行检测;
[0069] (5)氯离子按YC/T 162-2011标准进行检测;
[0070] (6)淀粉按YC/T 216-2013标准进行检测;
[0071] (7)石油酸提取物总量按YC/T 176-2003标准进行检测;
[0072] (8)质体色素按YC/T 382-2010标准进行检测;
[0073] (9)多酪按YC/T 202-2006标准进行检测;
[0074] (10)水溶性糖按YC/T 381-2010标准进行检测;
[0075] (11)有机酸按杨式华、王保兴、许国旺等报道的"烟草中挥发性和非挥发性有机酸 的快速测定"文献方法进行检测;
[0076] (12)致香成分按王玉、王保兴、武怡等报道的"卷烟挥发性成分的聚类分析"文献 方法进行检测。
[0077] 上述内在化学成分单位有W下规定,其中常规化学成分单位为百分比,比值单位 为1,挥发性有机酸单位为yg/g,非挥发性有机酸单位为mg/g,多酪含量单位为mg/g,质体色 素单位为yg/g,水溶性糖的单位为%,致香成分含量单位为yg/g,计算时只取数值。
[0078] 3.分组及模型建立
[0079] 根据致香成分在烟叶中的功能和作用进行归类(具体见表1),最终将55项致香成 分归为13类指标。
[0080] 表1烟叶中致香成分的归类
[0081]
[0082]
[0083] 注:根据致香成分在烟叶中的功能和作用不同,其分类的化学成分物质不同,关键 致香成分突出其成分物质的重要性,另作分类。
[0084] 根据致香成分的归类,一共得到归类后的48项化学成分指标,即为常规化学成分 (总植物碱、总氮、总糖、还原糖、钟离子、氯离子、石油酸提取物总量和淀粉8项)、质体色素 (叶黄素和0-胡萝h素)、多酪(绿原酸、赏窘亭和芸香巧)、水溶性糖(果糖、葡萄糖、薦糖和麦 芽糖)、有机酸(挥发性有机酸8项,非挥发性有机酸10项,见表2)和致香成分指标(13类)。根 据上述交代的检测方法,48项化学成分指标的检测结果见表2。
[0085] 表2化学指标的描述统计分析(n = 78)
[0086]
[0087]
[0088] 通过SPSS软件,按孙逸敏"利用SPSS软件分析变量间的相关性"报道方法,对表2中 化学成分指标(共计48项)进行相关性分析,相关性计算见式(I):
[0089]
...........(I)
[0090] 式(I)中,r为相关系数;1,f分别为化学成分指标X,Y的均值;Xi, Yi分别为化学 成分指标X,Y的第i个烟叶的检测值,i = l~n;
[0091] 过多的指标在统计分类时会产生信息较大而无法收敛,难W进行有效分类,需对 指标进行降维。将极显著相关的指标采用代表性指标进行替换(即根据代表性,通常采用单 一指标替代综合指标),筛选出特征化学成分指标,结果见表3。
[0092] 表3代表性指标的相关性分析
[0093]
[0094]
[00对注:"一"表示相关性未达到极显著水平指标,未列出。"**"表示在显著性概率P< 0.0 l水平下,具有极显著相关性;表示在显著性概率P<0.05水平下,具有显著相关性。
[0096] 由相关性分析可知,筛选出特征化学成分指标分别为:还原糖、总植物碱、钟离子、 氯离子、石油酸提取物总量、淀粉、叶黄素、绿原酸、芸香巧、葡萄糖、异戊酸、戊酸、3-甲基戊 酸、苯甲酸、苹果酸、巧樣酸、栋桐酸、e-胡萝h素降解产物、挥发性醒类、挥发性酬类、直链脂 肪酸、茄酬、二氨雜猴桃内醋、巨豆=締酬和新植二締共25项指标(即p = 25)。
[0097] 对筛选出的25项特征化学成分指标,采用SPSS统计软件化erachical Cluster(选 取:卡方度量,平均Eucidean距离)进行聚类分析,当阔值为即寸,从分类结果可知,烟叶样品 可代表性地分成15组,分组如表4所示。
[0098] 表4烟叶样品分组信息
[0099]
[0101]
[0102] 注:样品信息栏中分别代表年份、产地、品种、等级和批次,均采用7"隔开,未知的 采用"0"表示;部位中ClF和C3F分别为中枯一,中枯S等级烟叶。
[0103] 基于表4的聚类分析的15组卷烟叶组,W筛选出的25项特征化学成分指标的含量 为自变量(X),W聚类分组烟叶的组别为因变量(Y),采用化S-DA法筛选出对不同烟叶分组 判别具有重要贡献的特征化学成分指标,按VIP〉1的原则对特征化学成分进行筛选,最终筛 选的7项具有重要贡献的特征化学成分指标建立的化S-DA分类结果见图1。由分类结果图1 可知,通过指标筛选,不同组别的烟叶类型在3D图中可清晰分开,表明筛选的特征指标对烟 叶类型的分类具有较大的贡献。筛选出7项具有重要贡献的特征化学成分指标(见图6、7所 示)。
[0104] PLS-DA 分析步骤:
[0105] (1)采用Excel软件将上述筛选出的自变量X(即25项指标)W样品信息为列,指标 值为行进行统计,并将Excel转换为".CSV"格式置入SIMCA P+11.5软件中;
[0106] (2)在SIMCA P+11.5软件中定义系统聚类所得到的分类指标为因变量Y,采用化S- DA方法进行分类分析;
[0107] (3)通过筛选VIP〉1的自变量X指标为分类指标,筛选结果见图2-3所示;其中VIP计 算如式(2)所示:
[0108]
(2)
[0109] 式(2)中:
[0110] VIPj-表示第j个自变量^的投影重要性指标;
[0111] P-表示自变量的个数;
[0112] m-为提取的有效成分个数;
[011引 Whj-为轴Wh的第j个分量;
[0114]
I-表示成分th对因变量Y的解释能力,;r(y;th)是因变量Y和 主成分th的相关系数;
[011引 、
-表示m个成分对Y的累计解释能力。
[0116] VIP值反映的是所有自变量X(特征化学成分指标)对于因变量Y(分类)的解释能 力,VIP值越大,对Y的解释能力越强,VIP值大于1的变量具有较大的相关性,对于Y的解释具 有重要贡献。
[0117] 采用VIP筛选分类指标时,由于指标对分类的贡献存在较大差异(即部分指标对分 类贡献较小或指标间对分类贡献较为相近),存在冗余指标,为提升分类判别的效果,采用 二次筛选的方式对指标进行筛选。第一次筛选过程中,由于分类指标较为集中,对烟叶组别 的分类效果不尽理想,表明分类指标中存在众多对分类组别贡献不显著的指标(见图2和图 3所示)。为进一步提升分类效果,采用第二次VIP筛选(见图4和图5所示),由筛选得分载荷 图5可知,通过优化筛选的指标,可有效降低冗余指标,进而提升分类效果。最终筛选出对分 类贡献较大的7项指标(见图6和图7所示)。
[0118] 最终筛选的7项重要贡献特征指标分别为:还原糖(XI)、石油酸提取物总量(X2)、芸 香巧(X3)、苹果酸(X4)、直链脂肪酸醋(Xs)、新植二締(X6)、茄酬(X7)。采用SPSS统计软件,按 王玉胜"基于Fisher判别分析的烤烟烟叶质量鉴别模型构建"报道方法,采用Wi Iks ' lambda 逐步判别分析(选择:进入F = 3.84,删除F = 2.71)对7项特征化学成分指标进行建模,建立 的费歇尔判别模型的函数系数表见表5。
[0119] 最终得到15组烟叶原料的费歇尔逐步判别模型,如下:
[0120] 第1组;
[0121] yi = -404.06+15.173X1+63.917X2-3.697X3+2.758X4-0.01X5+0.006? 巧.002X7;
[0122] 第 2组:
[0123] y2 =-381.804+14.858X1+60.806拉-3.252X3+2.788X4-0.251X5+0.06X6+3.679X7;
[0124] 第 3组:
[0125] y3 = -392.01+15.672X1+66.212拉-3.283X3+2.617X4-0.582X5+0.018X6+4.405X7;
[0126] 第 4组:
[0127] y4=-333.402+12.952X1+59.854拉-1.193X3+2.601X4+0.032X5+0.027X6+3.328X7;
[012引第5组:
[0129] y5 = -418.879+15.132X1+72.077拉-1.84X3+2.742X4-0.656X5+0.017X6+4.344X7;
[0130] 第6组:
[0131] y6 = -418.537+15.058X1巧 1.402X广2.27X3+2.642X4-0.684X5+0.055X6+4.015X7;
[0132] 第7 组:
[0133] y? = -400.67+13.273X1巧4.761X2-0.84X3+2.663X4-0.345X5+0.013X6+3.964X7;
[0134] 第8组:
[0135] ys = -4 化.361+14.84?巧 5.42拙2-1.284X3+2.589X4-0.53X5+0.012X6+4.176X7;
[0136] 第9组:
[0137] ys = -366.323+13.486X1+66.748拉-0.788X3+2.477X4-0.285X5+0.006X6+4.388X7;
[013引第10组;
[0139] yi〇 = -323.19化11.639X1+61.901X2+2.299X3+2.305X广0.256X5+0.01X6+3.292X7;
[0140] 第 11 组:
[0141 ] yn 二-374.55+13.0拙1+66.518X2-0.22X3+2.635X广0.466X5+0.043X6+3.87拙7;
[0142] 第 12 组:
[0143] Yi2 二-400.804+14.489X1+64.261X2-2.704X3+3.153X广0.512X5+0.053X6+3.65X7;
[0144] 第 13 组:
[0145] yi3 = -388.479+15.429X1+63.168X2-3.964X3+3. OOOX广0.428X5+0.014X6+4.264X7;
[0146] 第 14 组:
[0147] yu = -377.389+14.039X1+63.261X2-2.102X3+3.151X广 0.419X5+0.014X6+3.714X7; [014引第15组:
[0149] yi5 二-479.299+12.247X1+77.666X2-1.969X3巧.587X4+0.991X5+0.039X6+4.245X7。
[0150] 至此,完成对烟叶分组具有重要贡献的内在化学成分筛选及其分组模型的构建。 对于未知分组烟叶样品,只需检测其还原糖、石油酸提取物总量、芸香巧、苹果酸、直链脂肪 酸醋、新植二締和茄酬的含量,并将其数值代入进行计算y,得到yi-yi5,取最大值ymax,则该 烟叶分组从属于ymax所在组别,即{ymax},则分组完成,根据上述建立的模型,采用未参与建 模的24个烟叶样品的7项指标进行回代验证,验证正确率良好。
[0151] 表5费歇尔判别函数系数表
[01571
[0153]
[0154] 注:Fisher的线性判别式函数
[0K5]根据上述所建立的Fisher判别模型,对验证集的24个验证样品进行判别,判别结 果见表6。
[0156] 进一步随机选择2个未参与建立和验证判别模型的样品对判别模型的可靠性进行 验证,其验证参数及结果见表7和表8。由判别结果分析可知,采用筛选出的7项指标建立的 判别函数能较为准确的判别未知样品。因此,该判别模型的建立具有较好的实用性。
[0157] 表6 24个验证样品分类情况分析 [0"。1
[0159]
[
[
[
[
[0164] W上显示和描述了本发明的基本原理、主要特征和本发明的优点。
[0165] 本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明 书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有 各种变化和改进,运些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围 由所附的权利要求书及其等效物界定。
【主权项】
1. 一种基于特征化学成分的烟叶判别分组方法,其特征在于:对烟叶内在化学成分指 标进行相关性替代,获得初步筛选化学指标,采用系统聚类方法将初筛指标进行聚类分组, 再应用偏最小二乘判别分析进一步筛选对各分组具有重要贡献的化学指标,最后采用费歇 尔逐步判别法构建各分组判别模型,具体步骤如下: 步骤(1),相关性替代: 对待分组的烟叶内在化学成分,包括常规化学成分、质体色素、多酚、挥发性有机酸、非 挥发性有机酸和致香成分进行相关性分析,按具有极显著相关的同类指标可相互替代的原 贝1J,筛选出具有代表性的特征化学成分指标; 所述的常规化学成分包括总植物碱、总氮、总糖、还原糖、钾离子、氯离子、石油醚提取 物总量和淀粉; 步骤(2),聚类分组: 应用系统聚类分析对步骤(1)得到的特征化学成分指标进行聚类分析,确定烟叶分组 组别; 步骤(3),重要贡献指标筛选: 以步骤(1)筛选出的特征化学成分指标的含量为自变量,以聚类分组烟叶的组别为因 变量,采用PLS-DA分析方法进行化学成分指标分析,并利用变量重要性投影算法对不同组 别烟叶的特征化学成分指标进行筛选,按VIP>1的原则对特征化学成分指标进行筛选,最终 筛选出对表征不同组别烟叶具有重要贡献的特征化学成分指标; 步骤(4),费歇尔逐步判别模型建立: 以不同组别烟叶及对其表征具有重要贡献的化学指标为基础,采用费歇尔逐步判别法 构建不同组别烟叶判别模型;然后对于未知分组烟叶样品,只需检测具有重要贡献的特征 化学成分指标的含量,并将其数值代入模型中进行计算,计算结果数值最大值所在组别即 为该未知分组烟叶样品所属组别,则分组完成。2. 根据权利要求1所述的基于特征化学成分的烟叶判别分组方法,其特征在于,步骤 (1) 的具体方法为:对η个待分组的烟叶的内在化学指标成分进行检测后,根据检测结果,对 这些化学成分指标采用SPSS软件进行相关性计算,相关性计算见式(I):式⑴中,r为相关系数;又,P分别为化学成分指标X,Y的均值;Xuh分别为化学成分指 标X,Y的第i个烟叶的检测值,i = 1~η; 然后将极显著相关的化学成分指标采用代表性化学成分指标进行替换,即从极显著相 关的m个化学成分指标中选出一个最具有代表性的化学成分指标作为这m个极显著相关化 学成分指标的特征化学成分指标,其中,m多2;按照此方法从待分组烟叶所有检测出的内在 化学成分指标中,选出P个特征化学成分指标,其中,P>2。3. 根据权利要求2所述的基于特征化学成分的烟叶判别分组方法,其特征在于,步骤 (2) 的具体方法为:对步骤(1)得到的p个特征化学成分指标采用SPSS统计软件,选取卡方度 量和平均欧几里德距离,阈值为10进行聚类分析,得到q种类型,从而得到q个烟叶分组组 另IJ,即第1组,第2组……第q组。4. 根据权利要求3所述的基于特征化学成分的烟叶判别分组方法,其特征在于,步骤 (3) 的具体方法为: 以步骤(1)筛选出的特征化学成分指标的含量为自变量X,以聚类分组烟叶的组别赋值 为因变量Y,采用PLS-DA分析方法进行特征化学成分指标分析,并利用变量重要性投影算法 对不同组别烟叶的特征化学成分指标进行筛选,按VIP>1的原则对特征化学成分指标进行 筛选,最终筛选出对表征不同组别烟叶具有重要贡献的特征化学成分指标s个。5. 根据权利要求4所述的基于特征化学成分的烟叶判别分组方法,其特征在于,PLS-DA 分析方法具体如下: 偏最小二乘判别分析法则以矩阵Xo为自变量矩阵,分组烟叶的组别赋值Yo为因变量矩 阵,构成如下的变量矩阵:矩阵中:Χ〇为特征化学成分指标矩阵,Υ〇为分类组别; Χη表示第1类指标的第1个成分值,Χ12表示第1类指标的第2个成分值,……Xqi表示第q 类指标的第i个成分值,i = l~P; Υι为分类为第1组,Y2为分类为第2组,......Yq为分类为第q组; 通过对自变量矩阵Χο提取主成分,使得主成分既能代表Χο的变量信息,又能使Χο与Yo的 相关程度达到最大,最终筛选出Χο矩阵中的特征指标,用于有效判别不同的Υο组别。6. 根据权利要求4所述的基于特征化学成分的烟叶判别分组方法,其特征在于,按VIP> 1的原则对特征化学成分指标进行筛选的次数多1次,筛选至具有重要贡献的特征化学成分 指标的个数10。7. 根据权利要求4所述的基于特征化学成分的烟叶判别分组方法,其特征在于,步骤 (4) 的具体方法为:以不同组别烟叶及对其表征具有重要贡献的化学指标为基础,采用费歇 尔逐步判别法构建不同组别烟叶判别模型;然后对于未知分组烟叶样品,只需检测具有重 要贡献的特征化学成分指标的含量,并将其数值代入模型中进行计算,计算结果数值最大 值所在组别即为该未知分组烟叶样品所属组别,则分组完成; 采用费歇尔逐步判别法构建的判别模型通式如下: yi=mi+aiXi+biX2+ciX3+. . .+mXs; y2=m2+a2Xi+b2X2+C2X3+. . .+n2Xs; y3=m3+a3Xi+b3X2+C3X3+. . .+n3Xs; yq = mq+aqXl+bqX2+CqX3+. . ,+nqXs; 式中:y 1、y2、y 3......yq为第1、2、3......q组判别函数的得分值; 已知项ai、a2、a3……aq分别为具有重要贡献的特征化学成分指标Xi在第1、2、3……q组 中的截距; 已知项bhbhbs……bq分别为具有重要贡献的特征化学成分指标χ2在第1、2、3……q组 中的截距; 已知项C1、C2、C3……cq分别为具有重要贡献的特征化学成分指标X 3在第1、2、3……q组 中的截距; 已知项m、n2、n3……nq分别为具有重要贡献的特征化学成分指标X s在第1、2、3……q组 中的截距; 已知项nu、m2、m3……mq分别为采用费歇尔逐步判别法计算得到的在第1、2、3……q组中 的常量; Χι、Χ2、Χ3……Xs分别为这s个具有重要贡献的特征化学成分指标值; 对未知分类组别进行判别时,通过输入Χ:、Χ2、Χ3……Xs指标值进行计算函数值 yi、y2、 y3……yq,选取函数值最大值所在的组即判别烟叶样品属于该组。
【文档编号】G06F19/00GK105956364SQ201610248868
【公开日】2016年9月21日
【申请日】2016年4月20日
【发明人】陈剑明, 凌军, 胡巍耀, 冯洪涛, 杜宇, 陈兴, 向成明, 马骥, 赵蔚
【申请人】云南中烟工业有限责任公司