一种模型自适应的nmr代谢组学数据归一化方法
【技术领域】
[0001] 本发明涉及核磁共振,尤其是涉及一种模型自适应的NMR代谢组学数据归一化方 法。
【背景技术】
[0002] 代谢组学方法是上世纪90年代末期发展起来的一门新兴科学,它借助高通量、高 灵敏度与高精确度的现代分析技术,分析细胞、组织和生物体液中内源性代谢物的整体组 成,并通过代谢物复杂的、动态的变化,辨识和解析被研宄对象的生理病理状态。
[0003] 由于核磁共振(NMR)技术具有非侵入和无偏向性的特点,使其成为代谢组学主要 的分析技术。高通量、高分辨的现代NMR分析仪器在获取生物样品中更丰富、更准确的代谢 信息的同时,也给后续的数据分析带来了巨大的挑战。通常,一个生物样品的一维1HNMR谱 就有4k?32k个数据点,而且这些数据点之间存在严重的共线性。为了获知导致数据变异 的主要原因,需要结合多维统计模式识别等统计计算方法。
[0004] 目前,主要采用主成分分析(PrincipalComponentAnalysis,PCA)(Wold S:Principalcomponentanalysis.ChemometricsandIntelligentLaboratory Systems1987, 2 (1) : 37-52)、偏最小二乘分析(PartialLeastSquare,PLS)(Geladi P,KowalskiBR:Partialleast-squaresregression:atutorial.AnalyticaChimica Acta1986, 185:1-17)和正交偏最小二乘分析(OrthogonalPLS,OPLS)(TryggJ,Wold S:Orthogonalprojectionstolatentstructures(0-PLS).JournalofChemometrics 2002, 16(3) :119-128)等多变量线性投影方法降低数据维数和消除共线性,并获取感兴趣 的生物代谢信息。但是,在复杂的生物样品中,不同代谢物的浓度差别往往很大。当利用 PCA和PLS这类基于方差的多变量统计方法对这些未经处理的数据分析时,小尺度信号的 作用容易被大尺度信号所覆盖。实际上,大尺度信号的这种变化可能只是由于尺度大造成 的,并不能反映数据本身的变化情况,获取结果可能是无意义的,因此为了消除数据尺度差 异过大带来的不良影响,需要对数据进行归一化处理。
[0005] 数据归一化方法很多,NMR代谢组学中常用的归一化方法主要有单位方差归一法 (UnitVariance,UV)(VanDenBergRA,HoefslootHC,WesterhuisJA,SmildeAK,Van DerWerfMJ:Centering,scaling,andtransformations:improvingthebiological informationcontentofmetabolomicsdata.BMCGenomics2006,7 (1) : 142)、 帕莱托归一法(Patero)(OdunsiK,WollmanRM,AmbrosoneCB,HutsonA,McCann SE,TammelaJ,GeislerJP,MillerG,SellersT,ClibyW:Detectionofepithelial ovariancancerusinglH-NMR-basedmetabonomics.InternationalJournalof Cancer2005, 113(5) :782-788)和变量稳定性归一法(VariableStability,缩写 为VAST)(KeunHC,EbbelsT,AnttiH,BollardME,Beckonert0,HolmesE,Lindon JC,NicholsonJK:Improvedanalysisofmultivariatedatabyvariablestability scaling:applicationtoNMR-basedmetabolicprofiling.AnalyticaChimicaActa 2003, 490 (1) : 265-276),其一般通式可以表示为:
[0006]xtj =xiJxsj
[0007] 其中,Sj为矩阵X第j列(第j个变量)的归一化权重系数。
[0008] UV方法用各变量的标准差作为归一化的"尺度"。通过UV处理后,各变量将具有 相同的标准差,该方法对噪声比较敏感,对于低信噪比的数据点,其权重的计算受噪声影响 很大,特别是在谱图的纯噪声区中的变量,由于它们的标准差较小,因此通过UV处理后这 些变量将获得较大的权重,不利于特征代谢物的识别。Pareto方法(Paretoscaling)介 于不做归一化处理与UV归一化方法之间的一种方法,它将变量的标准差的开方作为尺度 进行归一化,这种方法可以在降低大信号的过重影响的情况下,同时一定程度地保持了原 始数据的结构,相对于UV方法,得到的结果与原始数据更为相近。VAST是在UV方法的基 础上,利用各变量在不同类别样本中的平均稳定性,进一步微调变量的尺度因子,由于噪声 点的稳定性一般比较差,因此VAST方法可以有效降低噪声点的权重,改善UV方法的处理效 果。
[0009] 归一化的目的是为了改善多元统计分析效果,提高多元统计分析模型的可解释 性。现有的这些归一化方法只是从数据本身出发,并未考虑对后续多变统计分析的影响,多 变量统计分析(如:PCA、PLS)的结果往往并不理想。到目前为止,还没有结合多元统计分 析模型的NMR代谢组学数据的归一化方法公开,本发明将NMR代谢组学数据的归一化与后 续的多元统计分析模型相结合,并取得很好的效果。
【发明内容】
[0010] 本发明的目的在克服现有技术的不足,提供一种模型自适应的NMR代谢组学数据 归一化方法。
[0011] 本发明包括以下步骤:
[0012] 1)数据获取:待检测的代谢组学生物样本,通过核磁共振波谱仪采获屯NMR谱; 对1HNMR谱进行谱图编辑,得到待处理的NMR代谢组学数据。
[0013] 在步骤1)中,所述谱图编辑包括相位与基线矫正、谱峰对齐、积分等。
[0014] 2)数据中心化和归一化系数初始化:待归一化的NMR代谢组学数据表示为X,其每 一行表示一个样本谱,样本类别矢量表示为Y,分别对X和Y做中心化处理;归一化系数矢 量记为s= [Si,s2,. . .,sd]T,初始化s为全1列矢量;
[0015] 3)归一化处理:
[0016] Xs=X*diag(s)
[0017] 在步骤3)中,diag( ?)为对角矩阵变换符,即diag(s)表示生成一个以矢量s为 对角元素,其它元素为〇的对角矩阵;\为归一化后数据矩阵。
[0018] 4)多元统计分析:对归一化后的数据矩阵做多元统计分析,其负载矢量记为u;
[0019] 5)模型自适应归一化系数:最大化\在11上投影与类别矢量Y相关系数,即:
【主权项】
1. 一种模型自适应的NMR代谢组学数据归一化方法,其特征在于包括以下步骤: 1) 数据获取:待检测的代谢组学生物样本,通过核磁共振波谱仪采获屯NMR谱;对1H NMR谱进行谱图编辑,得到待处理的NMR代谢组学数据; 2) 数据中心化和归一化系数初始化:待归一化的NMR代谢组学数据表示为X,其每一行 表示一个样本谱,样本类别矢量表示为Y,分别对X和Y做中心化处理;归一化系数矢量记 为S= [Si,s2,? ??,sd]T,初始化S为全1列矢量; 3) 归一化处理: Xs=X*diag(s) 4) 多元统计分析:对归一化后的数据矩阵做多元统计分析,其负载矢量记为u; 5) 模型自适应归一化系数:最大化XjEu上投影与类别矢量Y相关系数,即:
利用梯度下降法更新s,
^ 2 6) 循环迭代:重复步骤3)?5),直至满足^ < 6'循环结束。 OS
2. 如权利要求1所述一种模型自适应的NMR代谢组学数据归一化方法,其特征在于在 步骤1)中,所述谱图编辑包括相位与基线矫正、谱峰对齐、积分。
3. 如权利要求1所述一种模型自适应的NMR代谢组学数据归一化方法,其特征在于在 步骤3)中,diag( ?)为对角矩阵变换符,即diag(s)表示生成一个以矢量s为对角元素, 其它元素为0的对角矩阵;\为归一化后数据矩阵。
4. 如权利要求1所述一种模型自适应的NMR代谢组学数据归一化方法,其特征在于在 步骤5)中,r表示相关系数;cov( ?)和std( ?)分别为协方差和标准差计算符;为梯度 (7 运算符;n为常数,其取值范围为(〇, 1)。
5. 如权利要求1所述一种模型自适应的NMR代谢组学数据归一化方法,其特征在于在 步骤6)中,N? | |为矢量模运算符;e为自定义常数。
【专利摘要】一种模型自适应的NMR代谢组学数据归一化方法,涉及核磁共振。1)数据获取;2)数据中心化和归一化系数初始化;3)归一化处理;4)多元统计分析;5)模型自适应归一化系数;6)循环迭代:重复步骤3)~5),直至满足循环结束。通过在多元统计分析模型和最大化投影矢量与类别矢量相关系数之间进行循环迭代,不断调整归一化系数矢量,使得归一化后数据建立的多元统计分析模型能准确提取组间特征信息。模型自适应归一化方法能针对所选取的多元统计分析模型采用合适的归一化系数矢量,是一种自适应的归一化方法。相对于以往基于数据的归一化方法,该方法更灵活、有效,能有效保持谱数据的结构信息。
【IPC分类】G06F19-00
【公开号】CN104615903
【申请号】CN201510084309
【发明人】董继扬, 邓伶莉
【申请人】厦门大学
【公开日】2015年5月13日
【申请日】2015年2月16日