专利名称:用多变量分类基于体液中核苷诊断癌症的方法
技术领域:
本发明涉及一种关于诊断癌症的方法。
恶性肿瘤(癌)是常见的恶性疾病之一,全世界每年大约有600万新诊断的病例,占各种疾病死亡率的第二位。在我国1990-1992年间每10万人中有108.26人死于恶性肿瘤,占总死亡人数的17.94%。至1994年,这一数字已上升到22.05%,同时这种趋势并未得到有效的抑制。现在,我国每年大约有160万人新生肿瘤。根据现代的医学水平,恶性肿瘤不是治不了,而是很难早期发现。如果能够实现早期诊断,60-90%以上的病人可以被治愈。
目前癌症诊断技术主要包括图像技术(CT和核磁共振)、细胞学和组织学诊断以及化学诊断三种,其中后两种技术均以肿瘤标记物作为观察指标。
肿瘤标记物是肿瘤组织和细胞由于癌基因及其产物的异常表达所产生的生物物质,它存在于癌症病人的组织、体液和排泄物中,能够用生化或免疫化学的方法定量的检出,目前的肿瘤标记物包括肿瘤抗原、酶、激素、特异性蛋白、癌基因以及癌基因产物等。
关于肿瘤标记物的研究已有超过一个世纪的历史,随着现代科技的进步特别是分子生物学的发展,使得我们对肿瘤的发生、癌细胞的生长、侵袭、转移有了更深的理解,与之相对应,发现了许多新的有临床价值或临床应用前景的肿瘤标记物,例如血清前列腺特异性抗原(PSA)已被广泛接受作为临床上前列腺癌的早期诊断以及监测治疗效果和病情变化的指标;癌抗原125(CA 125)在卵巢癌的早期诊断和临床管理上起着非常关键的作用。检测血清中的甲胎蛋白(AFP)是临床上诊断肝癌的重要指标,其灵敏度、特异性超过了CT、B超和同位素扫描等方法。随着现代医学的进步、治疗水平的提高,肿瘤标记物在恶性肿瘤的临床管理上将会起越来越重要的作用。
虽然肿瘤标记物在临床上已发挥了非常重要的作用,但目前没有一种已临床应用的肿瘤标记物完全满足对“理想肿瘤标记物”的要求,大多数肿瘤标记物的浓度仅在肿瘤扩散时才发生明显变化,肿瘤标记物的肿瘤特异性有待解决。
核糖核酸(RNA〕,特别是转运核糖核酸(tRNA)中除含有四种正常核苷腺嘌呤核苷、鸟嘌呤核苷、胞嘧啶核苷、尿嘧啶核苷外,还有大量的修饰核苷。现已发现有90多种修饰核苷,其中tRNA中已发现79种,其它来源于mRNA和rRNA中。所有修饰核苷是在大量高度特异性的修饰酶的作用下,尤其是甲基转移酶和连接酶的作用下,RNA链上特定位置的核苷被修饰,如甲基化、碳氮键发生重排、尿苷移位形成假尿苷等,转录修饰完成之后,RNA分子在核酸酶作用下断裂释放出核苷,正常的未被修饰的核苷可以在酶的作用下,被磷酸酯化再利用形成新的RNA,或降解为尿酸和β-丙胺酸(
图1),而修饰核苷十分稳定,既不易代谢也不能被磷酸酯化再利用,因此在尿中被定量排放,所以,在尿中,修饰核苷的含量相对来说比正常核苷的含量稍高。但对正常的成年人来说,个体间核苷的排放浓度差异较小,分布在一个较窄的范围,当人体的某一部分发生癌变时,核糖核酸周转加快,导致尿液或血液中修饰核苷的含量急剧增加。根据以上的机理,人们可以通过尿液或血液中的修饰核苷的增加程度,对癌症的发病进行诊断。
通常尿液或血液中修饰核苷的检测方法有反相高效液相色谱法(RP-HPLC)、毛细管电泳法(CE)、免疫化学法、气相色谱-质谱联用法(GC/MS)、以及核磁共振法等,由于RP-HPLC能够方便的一次分离分析多个核苷组分,且灵敏度高,重复性好,因此大多数文献报道的核苷分析方法采用RP-HPLC法,随着分析技术的不断提高,目前RP-HPLC方法已能够一次分离出尿中三十几种核苷。
文献报导的以修饰核苷为肿瘤标记物的研究方法是采用健康人尿中或血中的修饰核苷为基准,分布范围表达为平均值加上两倍标准偏差,若修饰核苷的排放量超过平均值加上两倍标准偏差则视为异常排放,以此为基础来对癌症病人和正常人进行区分,辅助癌症的诊断,数据处理方法多采用孤立的对每个修饰核苷进行单独检验,找出排放水平超出平均值加两倍标准偏差的修饰核苷的个数,以此作为最后的结果对正常人和癌症病人进行分类。
由于肿瘤机理的复杂性,单用一种肿瘤标记物很难满足临床诊断灵敏性和特异性的要求。高效液相色谱法(HPLC)给利用多个修饰核苷作为肿瘤标记物提供了必要条件,但目前的数据处理方法仍停留在传统的统计方法上,常常遇到的一个问题是,对同样的一种恶性肿瘤,由于病人的不同,各种修饰核苷的增加程度不同,有时还会发生在同一个病人的尿中修饰核苷浓度有高有低的现象,给医生的判断增加了很大的难度。传统的方法一方面没有科学的综合考虑多个标记物的变化,浪费了大量的宝贵信息,另一方面无法将多个标记物的综合判断结果直观地图形化。
本发明的方法,将数学、统计学、计算机技术与分析技术相结合---即用多元数据分析技术(因子分析、模式识别、人工神经元网络技术)处理高效液相色谱法等的分析结果,以尿中或血液中多个修饰核苷肿瘤标记物的含量为原始数据,进行科学的分类,给出综合多个变量后的分类结果,并以图形的形式将分类结果清楚的表达出来。
本发明的目的是提供一种用一次HPLC方法分离分析出的尿或血液中的多个修饰核苷作为肿瘤标记物,用多元统计分析数据处理技术(因子分析、模式识别、人工神经元网络技术)处理由HPLC得到的分析结果来进行癌症辅助诊断的方法。
具体是首先收集正常健康人和病人的随机尿或血样,用苯基硼酸亲和色谱柱对尿样或血样中的核苷进行浓缩除去干扰组分。处理后的样品用高效液相色谱法等进行分析,得到尿中或血液中多个修饰核苷的含量(图2)。由于尿液体积受饮食等影响,为免除采集24小时尿的麻烦,尿中或血液中核苷的含量转换成与肌氨酸酐(creatinine)的相对值nmol/μmolcreatinine。肌氨酸酐浓度可用毛细管区带电泳法、高效液相色谱法或Jaffe法测定。
为辅助诊断恶性肿瘤,首先要建立正常人体液中核苷的排放范围,然后找出医生已确诊的恶性肿瘤病人,研究他们与正常人的区别。为此,要测量两批典型人群的核苷浓度,获得与肌氨酸酐相对值。以上述相对值为原始数据,运用多元统计分析技术(如因子分析、模式识别或人工神经元网络技术等),将正常人与已知癌症病人进行分类建立“模式识别基图”。在“模式识别基图”基础上,可疑病人可根据高效液相色谱法等测量的核苷数据进行“归类”判断,看可疑病人落在那一区域,达到辅助诊断癌症的目的(图3)。
多元统计分析技术是本发明的重要内容之一,现以最常用的因子分析为例,将其原理叙述如下,因子分析计算程序结构图见图4。
因子分析是研究相关矩阵的内部依赖关系,它将多个变量综合为少数几个“因子”,以再现原始变量与“因子”之间的相关关系。因子分析的主要应用有两个方面,一是寻求基本结构、简化观测系统;二是用于分类,将变量或者样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。
因子分析的结果不仅是要给出因子模型,而且还要得出变量和因子间的相关系数,这些相关系数构成“因子结构”,一个完全的因子解包括因子模型和因子结构两个方面,因子结构反映变量与因子间的相关关系,而因子模型则是以回归方程的形式将变量变为因子的线性组合,因子分析的基本问题是用变量之间的相关系数来决定因子载荷。
因子模型的求解过程如下设原始矩阵为X=x11x21Λx1nx21x22Λx2nKKxp1xp2Kxpnpxn----(1)]]>式中p表示变量数,n表示样本数。
将原始数据进行标准化变换,然后利用标准化值计算变量χ1,χ2,…,χj,…χp两两之间的相关系数,建立p阶相关矩阵R=X·X′ (2)求解R矩阵的特征方程|R-λ1|=0,计特征值为λ1>λ2>Λ>λp≥0,特征向量矩阵为U=u11u12Ku1pu21u22Ku2pΛΛup1up2Λupp----(3)]]>这样有关系R=Uλ10λ2Λ0λpU′----(4)]]>令F=U′X于是FF′=λ10λ2Λ0λp----(5)]]>F为主因子阵,并且Fα=U′Xα(α=1,2Λn),即每一个Fα为第α个样品主因子观测值。
在因子分析中,通常只选其中m个(m<p)主因子。首先根据变量的相关选出第一主因子F1,使其在各变量的公共因子方差中所占的方差贡献为最大,然后消去这个因子的影响,从剩余的相关中选出与F1不相关的因子F2,使其在各个变量的剩余因子方差贡献中为最大,……这样直到各个变量公共因子方差被分解完毕为止。通常我们选取的主因子的信息量的和占总体信息量的80%-90%。对于确定选取的m个主因子,R矩阵的因子模型为 F1,F2…Fm为公因子,aij为因子载荷,εi为特殊因子,仅与变量χi有关,ai为特殊因子的载荷。
因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义。但是上述方法所求出的主因子解,初始因子载荷矩阵并不满足“简单结构准则”,各因子的典型代表变量不很突出,因而容易使因子的意义含糊不清,不便于对因子进行解释。为此必须对因子载荷矩阵施行旋转,使得因子载荷的平方按列向0和1两极转化,达到其结构转化的目的。
采用方差最大旋转,使因子载荷矩阵中,各因子载荷值的总方差达到最大作为因子载荷矩阵简化的准则。方差极大旋转是使载荷按列向0、1两极分化,同时也包含着按行向两极分化。
在方差极大旋转过程中,因子轴相互正交,始终保持初始解中因子间不相关的特点。然而在科学领域内,斜交因子是普遍规律,原因是各种事物变化的各内在因素之间始终存在着错综复杂的关系。因此需要将变量用相关因子进行线性描述,使得到的新因子模型最大程度地模拟自然模型。
Promax斜旋转是旋转方法的一种,它是从正交因子解出发,经过斜旋转后,使其结构简化。其旋转步骤为设正交因子矩阵为A=(aij)pxm将A按行规格化处理得矩阵A*,将A*的各元素取绝对值的K次幂,并保留原来符号,得矩阵H;建立A*对H的最小二乘估计,即令A(pxm)*·C(mxm)=H(pxm)----(7)]]>将A*左乘式两边,然后用(A*′A*)-1左乘方程两边,得C=(A*′A*)-1A*′H----(8)]]>将C列规格化,得斜交参考矩阵∧;将∧-1按行规格化,得斜交因子变换矩阵T′分别计算出斜因子解的相关阵L,结构阵S和模型阵B,即L=T′TS=AT (9)B=A(T′)-1因子分析将变量表示为公共因子的线性组合。由于公因子能充分反映原始变量的相关关系,用公因子代表原始变量时,更有利于描述研究对象的特征。因而,反过来将公因子表示为变量的线性组合,即用Fj=βj1χ1+βj2χ2+Λ+βjpχp(10)(j=1,2,Λ,m)来计算各个样品的公因子得分。根据因子得分表,以F1和F2为因子轴作因子得分图,由因子得分图可提供一个样本分类的参考模型。此模型即是我们所要的模式识别图。
本发明新颖性在于基于体液中核苷浓度,采用高级数据分析技术如因子分析、模式识别或人工神经元网络技术等来同时考虑癌症病人体液中多个修饰核苷类肿瘤标记物的浓度变化,据此来判断恶性肿瘤。
与以往的方法相比,本发明优点1.科学地综合考虑了多个变量的贡献,将高级数据分析技术如因子分析、模式识别或人工神经元网络技术等与高效分离分析技术紧密地结合起来。传统的现在正在临床应用的肿瘤标记物如CEA,CA 153,CA 125等都是单个地在使用,不但难以较早地发现肿瘤,而且一般只能适合于那么几种,广普性有问题。
2.与常规的使用核苷做肿瘤标记物的候选研究相比,本发明的结果可清楚的以图形的形式表示出来,给出可视化的诊断结果。避免了用“平均值加两倍标准偏差”法时,发生同一病人与正常人相比,尿中修饰核苷浓度有高有低的现象、医生不易判断的现象。
3.由于上述两点,使得本专利可适合于各种恶性肿瘤的诊断,尤其适于急发性、高毒性的恶性肿瘤,如白血病、小细胞肺癌、胃癌、食道癌、子宫癌、咽喉癌、膀胱癌、卵巢癌、支气管癌、乳腺癌、直肠癌、前列腺癌等。对高危病人的普查尤其有用,与本发明的多变量数据分析技术相结合,体液中核苷可作为普适性肿瘤标记物来使用。
4.病人的标本不必象传统的肿瘤标记物检测,非得用血不可。本发明的办法用尿也可取得同样的结果。对中国人来讲,无疑更为方便。
图1为细胞中正常和修饰核苷的形成机理。
图2为体液中核苷的分析流程。
图3为病人是否有恶性肿瘤的判断流程。
图4为因子分析计算程序结构图。
图5尿中核苷的高效液相色谱分离谱图。柱子250×4mm,5μmC18,流动相以100% 25mM KH2PO4pH 4.67,开始,在40min内梯度变到60% methanol-water(3∶2,v/v)。UV检测,A260nm;B280nm.(Dhu,二氢尿嘧啶核苷;Pseu,假尿嘧啶核苷;C,胞啶;U,尿嘧啶核苷;m1A,1-甲基腺苷;I,肌苷;m5U,5-甲基尿嘧啶核苷;G,鸟苷;X,黄嘌核苷;m3U 3甲基尿嘧啶核苷,m1I,1-甲基肌苷;m1G,1-甲基鸟苷;m2G,2-甲基鸟苷;A,腺苷;M6A,N6-甲基腺苷;MTA,5’-脱氧-5’-甲硫基腺苷)。
图6因子分析法基于尿中修饰核苷用于分类正常人(+,18个)和癌症病人(×,51个癌症病人,15种癌).11种修饰核苷为Dhu,Pseu,m1A,I,m5U,X,m3U,m1I,m1G,M6A,MTA。
图7因子分析法基于血中11种修饰核苷用于分类正常人(+,23个)和癌症病人(×,19个)。11种修饰核苷为Dhu,Pseu,m1A,I,m5U,X,m3U,m1I,m1G,M6A,MTA。
图8四个典型的病人尿中重要修饰核苷的浓度与正常人的比较。图中纵坐标单位为nmol/μmol creatinine,Normal为正常人尿中核苷排放浓度的平均值,Normal+2SD为正常人平均值+两倍标准偏差。9752,9758,9748和9756为病人编号。除9752为喉咽癌外,其他均为乳腺癌。
图9三个典型的病人尿中重要修饰核苷的浓度与正常人的比较。(图中9727a,9731a和9717a为三个典型的病人(均为乳腺癌)。纵坐标单位为nmol/μmol creatinine,其他同图8。
图10利用本发明的模式识别方法判断三个未知病人(乳腺癌模式识别基图)。正常人(+,18个),乳腺癌病人(×,23个)。11种修饰核苷为Dhu,Pseu,m1A,I,m5U,X,m3U,m1I,m1G,M6A,MTA。
实施例由于体液中有成千上万种化学物质,核苷含量又较低,因此,作为分析的第一步,首先要用亲和色谱法预处理尿样或血样,将核苷从体液中分离、浓缩出来。在此基础上,即可利用高效液相色谱法等高效分离分析方法来分析尿或血中核苷含量。图5给出了典型的尿液分析谱图。从中可知,高效液相色谱一次分析可获得近40个峰。使用标准样品可根据上述谱图用内标法对尿中核苷进行定量。
由于本发明的方法是基于病人体液中核苷增加的程度来判断是否是恶性肿瘤,因此,第二步是要研究正常人和已知癌症病人的核苷浓度范围。以18各正常人和51个病人作为样本,用它们尿中11种核苷和修饰核苷的浓度(nmol/μmol creatinine)为原始数据,按图4进行因子分析。原始数据经标准化处理,计算相关矩阵,求解相关矩阵的特征方程,得到特征向量矩阵和相应的特征值。选择两个主因子,设他们反映的信息已占总体信息量的90%,得到因子载荷矩阵。对上述因子载荷矩阵进行方差极大正交旋转,正交旋转后的结果进一步进行Promax斜旋转,用相关因子进行线性描述,得到斜交因子相关矩阵和斜交因子得分值。用第一和第二斜交因子得分值做斜交因子得分图(图6)。这个第一、二斜交因子得分图即是基于18个正常人和51个已知癌症病人用尿中11种修饰核苷作为原始数据所得的“模式识别基图”。由图6可知,正常人的位置在图中落到一个很窄的区域,而癌症病人的点则较分散,两区域的重叠非常少,与图1中的核苷代谢机理相吻合。
图7是以23个正常人和19个癌症病人为样本,以他们血清中11种核苷的含量为原始数据,经因子分析根据所得的第一和第二斜交因子得分做斜交因子得分图,即得到基于血清中核苷分析的“模式识别基图”。与图6非常类如,只有两个癌症病人的点落到正常人的区域。
有了上面两个基图后,我们即可对未知病人是否有癌症进行判断。首先,我们采集待诊断的病人尿样,按图2方法测其中的核苷含量。图8给出了通常的处理方法,病人尿中5种最重要修饰核苷的浓度与正常人的浓度及其分布范围进行比较。9758和9756号病人,五种修饰核苷的浓度与正常人比均显著增高(指超过正常人平均值+两倍标准偏差),用常规方法也可以判断他们可能有癌症。但9752和9748号病人,尿中Dhu,Pseu的含量比正常人低,而m1A,m1I和m1G的含量又明显增高。如果仅用两倍标准偏差的办法来判,根本无法知道病人是否有恶性肿瘤。但用了本发明的模式识别技术后,根据样本尿中核苷和修饰核苷的含量,算出该样本的因子得分,根据因子得分,即可找到该样本在基图中的位置,即可对样本的类别进行判断。图6中用圆圈圈出了上述四个样本(病人)在图中对应的位置。
作为本发明的另一应用实例,我们又采集了手术前一天病人的尿样。图9给出了三个典型乳腺肿瘤病人和正常人尿中重要核苷的测定结果。9717a与正常人相比,尽管m1I,m1G增高不是太明显,但Pseu,Dhu,m1A显著增高。表明此病人很可能已是恶性肿瘤。
9731a与正常人相比,Pseu明显增高,但Dhu,m1A,m1I,m1G反而降低。5个最重要的修饰核苷只有一个增高。这个病人的数据就出现了修饰核苷有高有低的现象。用传统的两倍标准偏差法很难知道病人是否是恶性肿瘤。从模式识别基图可见(图10),此点离正常人很近,但又没有进入正常人的区域,此病人应为癌症初期。事实证明也如此(表1)。
病人9727a与正常人相比,Dhu,m1A,m1I,m1G显著增高,但Pseu明显降低。从图10可知,9727a偏离正常人很远,很可能为癌症病人。
表1肿瘤病人的背景(乳腺癌)样品号 性别癌症阶段 CEA(μg/l) CA 153(unit/l)9727a 女T1N1(IIA期) 5.6 409731a 女T2N1(IIB期) 1.169717a 女in situ(0期) 0.7 16上述三个病人的尿样是在手术前一天取来的。在病人手术后发现三个病人都是恶性肿瘤,且处于早期阶段(表1)。用传统的目前在临床上应用的肿瘤标记物CEA、CA 153检验,浓度增加不明显。相比之下,9727a在CEA,CA 153上稍有异常的反映,癌症应该更严重一些。这点与本发明所取得的结果一致(图10)。在本发明的模式识别基图中,上述三个病人可非常明显地与正常人区别开。
我们也对良性肿瘤与恶性肿瘤的区别作了初步研究,发现其体液中核苷浓度与正常人相比,基本类如。
癌症的发生发展受多步骤、多因子的影响。单靠一、二种肿瘤标记物来判断,不但误检率高,而且发现得迟。修饰核苷类肿瘤标记物是非常有前途的一类肿瘤标记物,但只用简单的数理统计方法(如两倍标准偏差法)不适合于临床的应用,也不利于医生的判断。
本发明的结果表明尿或血液中的修饰核苷可作为肿瘤标记物,且HPLC等高效分析技术也给方便的利用多个修饰核苷类肿瘤标记物进行癌症诊断提供了机会,问题是如何更好的利用由HPLC方法等提供的修饰核苷肿瘤标记物信息,将这些信息科学地综合利用?对这个问题的解决正是本专利的创新点,它将对癌症的尽早诊断有非常大的影响。
本发明的方法将多元统计数据分析处理技术与HPLC分析方法相结合,利用多种技术的优势,以体液中多种修饰核苷类肿瘤标记物作数据矢量,通过研究和建立正常人和已知癌症病人的“模式识别基图”,找出未知病人在其中的位置,据此判断病人是否有恶性肿瘤。
由于本专利同时考虑了多个肿瘤标记物,将高效高分辨的分析方法和先进的多变量分类算法有机地结合起来,结果又可以以图的形式表示出来,一方面诊断率得以提高,另一方面,既简单又直观。在临床应用中有积极的现实意义。
本专利可适合于各种恶性肿瘤的诊断,尤其适于急发性、高毒性的恶性肿瘤,如白血病、小细胞肺癌、胃癌、食道癌、子宫癌、咽喉癌、膀胱癌、卵巢癌、支气管癌、乳腺癌、直肠癌、前列腺癌等诊断。对高危病人的普查特别有用。诊断的可靠性大干80%。
权利要求
1.一种用多变量分类基于体液中核苷诊断癌症的方法,其特征在于利用高分辨技术获得尿、血或组织中重要的标记物数据,然后用多变量分类技术如因子分析、模式识别或人工神经元网络技术等来分类不同属性的人群,并进一步对未知个体进行归类的方法,具体涉及到癌症诊断,高效分析技术与各种多变量分类技术相结合,基于体液中多种核苷,尤其是修饰核苷浓度,来判断是否有恶性肿瘤的方法。
2.按照权利要求1所述用多变量分类基于体液中核苷诊断癌症的方法,其特征在于采用多个修饰核苷来自于尿液、血液等体液或肿瘤组织中,用苯硼酸亲和色谱法预浓缩。
3.按照权利要求1所述用多变量分类基于体液中核苷诊断癌症的方法,其特征在于多变量分类技术包括广义的模式识别技术和数据分类技术,如因子分析、模式识别或人工神经元网络技术等。结果用可视性非常好的图或数据的形式表示。数据分类时所用的矢量特征并不是基于所有的流出峰上,而是基于修饰核苷的重要性(特征指纹)上,这些特征矢量的选择方法可以是逐步判别法等较高级的算法,也可基于经验,矢量的个数可以是3-50个,视需要也可包括正常核苷。
全文摘要
一种用多变量分类基于体液中核苷诊断癌症的方法,其特征在于:利用高分辨技术获得尿、血或组织中重要的标记物数据,然后用多变量分类技术如因子分析、模式识别或人工神经元网络技术等来分类不同属性的人群,并进一步对未知个体进行归类的方法,具体涉及到癌症诊断,高效分析技术与各种多变量分类技术相结合,基于体液中多种核苷,尤其是修饰核苷浓度,来判断是否有恶性肿瘤的方法。
文档编号G01N33/50GK1357763SQ0013431
公开日2002年7月10日 申请日期2000年12月15日 优先权日2000年12月15日
发明者许国旺, 路鑫, 郑育芳, 洪群发, 孔宏伟 申请人:中国科学院大连化学物理研究所