专利名称:用于从光谱仪产生的数据提取光谱的系统和方法
技术领域:
本发明总体涉及光谱学。
背景技术:
尽管设计了多种装置用于化学分析,更广泛使用的系统中的一个包括使用色谱仪然后使用质谱仪进行物理分离。已知各种质谱仪,其使用质量分析器,并引入还称为离子到达计数器的时间数字转换器。时间数字转换器用于例如飞行时间质量分析器中,其中离子团射到基本具有相同动能的无场漂移区。在漂移区中,每个离子团中的质荷比不同的离子以不同的速度移动,从而在不同的时间到达位于漂移区出口的离子检测器。测量离子传输时间,从而确定特定离子的质荷比。
目前,时间飞行质谱仪中最通常使用的离子检测器的一种是单离子计数检测器,其中离子撞击检测表面通过例如电子倍增器产生电子脉冲。通常通过放大器放大电子脉冲,并产生结果电信号。通过放大器产生的电信号用于通过时间数字转换器确定离子撞击检测器的传输时间,所述时间数字转换器在离子团第一次加速进入漂移区时启动。离子检测器和关联的电路从而可以检测撞击到检测器的单个离子。
尽管多种质谱仪可以用于分析化合物,所有这些装置产生表示利用质谱仪测量的质谱的大数据矩阵。这些大数据矩阵然后可以被分析以确定在特定数据矩阵输出中表示哪种化合物。
利用多种技术解决了将大组连续发展的光谱约化为单独构成的光谱。一些基于优良实验室操作原则,另一些遵从机器学习方法。
已经提出很多,并开发多种算法来处理该将由质谱仪输出的光谱转换成可识别化合物的问题。其中最广泛接受的算法已经提供为称为AMDIS的完成的程序。该程序可从http://chemdata.nist.gov/mass-spc/amdis/overview.html免费获得。AMDIS基于对优良实验室操作技术的自动化,以及将图形与大的化合物图形库匹配。然而,AMDIS需要很多计算,因此较耗时。其它利用机器学习解决该问题的算法具有类似的缺点。
发明内容
提供一种用于从通过光谱仪的在时间上标记的光谱扫描产生的数据提取光谱的系统和方法。该方法包括从光谱仪接收数据矩阵的操作。然后可以从数据矩阵移除噪音。进一步的操作为基于信息内容识别数据矩阵的关注光谱。另外,可以基于denizen变换对数据矩阵施加约化变换,以从数据矩阵提取关注光谱。
通过下面结合附图的详细描述,本发明的其它特征和优点将更加显而易见,所述附图以示例的方式一起示出本发明的特征。
图1a示出本发明实施例中通过光谱仪产生的示例数据矩阵;图1b示出本发明实施例中如同图1a的其中移除化合物的示例数据矩阵;图1c示出本发明实施例中从初始数据矩阵移除化合物数据的示例数据矩阵;图2是图1c所示数据的二维数据矩阵;图3是示出用于从光谱仪产生的数据提取光谱的方法实施例的流程图;以及图4是示出用于光谱分析的系统的实施例框图。
具体实施例方式
现在参考附图所示的示例实施例,并对其进行具体说明。然而,可以理解,本发明的范围并不因此受到限制。本领域技术人员可以想到的、并属于本公开的对这里所示的本发明特征的变化和其它修改、以及对本发明特征的其它应用将认为处于本发明的范围中。
基于这里称为denizen变换的变换提供一种系统和方法,其可以从多个光谱扫描提取信息光谱组。denizen变换类似于Householder变换并继承其优秀的数值特性。提取的光谱有利地用于化合物库匹配,因为提取的光谱直接基于光谱数据而不是某个正交投影。结果为一种数学上合理、数值上稳定和化学上灵敏的方法。该方法相比于当前通用的技术在速度和分析结果方面都较好。
在本发明的实施例中,Y可以表示M×N矩阵,表示每个具有M个质荷比的N个质谱的可观察强度。这些数据可以从任何在时间或空间上重复扫描或采样质谱的装置收集。在该情况下,N个光谱的每个可以表示为在时间点的扫描。假设N个光谱将出现为使得可以将Y表示为Y=XB+∈ (1)其中X,其为M×K矩阵,表示浓度为B的K个单独化合物的光谱。B为K×N矩阵,其中每行的值表示在对与该行相关的化合物的N次扫描下的浓度。浓度不需符合已知分布或任何类型的计算函数。∈表示不相关的噪音。用 和 分别表示X和B的估计值。
如果已知样品中的化合物(以及从而已知其光谱),则X已知,且可以将问题约化到约束最小二乘计算以求解B。同样,如果已知浓度分布,则可以使用约束最小二乘过程来求解 然而,因为化合物或浓度已知,使用数据求解K个备选光谱作为 的初始方程。同样显然的是,用于选择 的算法还给出 的合理估计值。
QR算法经常使用Householder变换来在线性最小二乘操作中调节因子矩阵。这通过选择具有最多信息的列、并从矩阵的其它部分有效地提取所述列来实现。这确保了随后的选择是线性无关的。使用修改的Householder变换是本发明方法的一个实施,因为其容易操作,并具有优秀的数值特性。Householder变换和其在最小二乘操作中的使用以及QR因子分解算法对于本领域技术人员是熟知的。
建立 需要类似类型的处理。可以以数值上稳定和化学上灵敏的方法从Y选择和提取线性无关的光谱。Householder变换从而有助于开发用于该情况的分析方法将denizen变换矩阵P,其为M×M矩阵,定义为P=1-2vv′1+v′v---(2)]]>其中M长向量v定义为v=xx′x---(3)]]>其中x表示选自于Y的一列的列向量。当将denizen变换施加到矩阵时,其具有从矩阵提取x的效果。含x的列将为零,而矩阵的其它部分“无x”。为了将Y的值保持在实空间,将在变换后小于零的值截到零。这表示为符号。denizen变换可以定义为Den(Y)=PY(n1...n2) (4)通常希望只针对特定列。例如,在特定时间窗口洗脱的化合物将减少考虑的列数。在该情况下只有列(n1...n2)将暴露于所述变换,而Y的其它列将保持不变。
注意,公式(3)中的v的第一项不同于Householder向量。实际上,如果零的行被预先考虑在矩阵Y的顶部,则两个计算将相同。这使denizen变换位于立体数值群(solid numerical ground)上,并确保与计算相关的舍入特性非常有利。
从Y提取 该解析需要如下解释的参数。
设备噪音这假设与在全部Y中均匀出现的寄生信号不相关。这是(1)中的∈。因为该噪音不可移除,因此其基本被忽略。然而,重要的是计算噪音水平。将从Y连续提取光谱直到到达噪音水平。大部分光谱分析器如果低于某个设置的噪音阈值,则将信号水平截到零。通过求出Y中的最小非零信号水平可以容易地测量该阈值。
化学噪音Y通常包含一些与将要分析的化合物不相关的持续信号。这可能由于仅仅翻转装置或其它物理或电子误操作引起。因为该信号是持续的,使用将解释的denizen变换容易将其移除峰值宽度允许该方法进行的一个假设是,每个化合物将出现在数据的局部区域。该区域被参数化为峰值宽度,并可以相关于信号强度缩放。所述用于估计这些噪音参数和洗脱分布的方法超出了该讨论范围但为本领域技术人员所知。
通过下面的伪码可以描述本方法的一个实施例移除化学噪音给定Y返回X计算化学噪音的光谱表示设置x=化学噪音将x附加到X上使用(3)计算v且使用(2)计算P以使用(4)的Den(Y)替换Y,其中n1=1和n2=N提取光谱循环计算ssn=Y′.,nY.,n,n=1...N设置x=Y{.j},其中j表示max(ss)将x附加到X上计算x的峰值宽度使用(3)计算v且使用(2)计算P以使用(4)的Den(Y)替换Y,其中n1=j-峰值宽度/2和n2=j+峰值宽度/2
直到max(ss)<噪音该算法的实施实例在下面的“C”代码中示出。下面是用于计算v的示例代码。
void eleX_vec(double*x,double*v,int N){int n;double norm;norm=0;for(n=0;n<N;n++){norm+=pow(x[n],2);v[n]=x[n];}norm=sqrt(norm);if(norm>0){for(n=0;n<N;n++){v[n]/=norm;}}}下面是可以用于实施denizen变换的实施例的示例代码。注意,在函数执行时还计算了对应浓度的估计值。
int eleX_row(double*X,double*w,double*c,double*v,int M,int N){int m,n,cnt;double beta,dtmp1,dtmp2;dtmp1=1;for(m=0;m<M;m++){dtmp1+=pow(v[m],2);}
beta=2/dtmp1;for(n=0;n<N;n++){w[n]=0;for(m=0;m<M;m++){w[n]+=X[n*M+m]*v[m];}w[n]*=beta;}cnt=0;for(n=0;n<N;n++){c[n]=0;dtmp1=0;for(m=0;m<M;m++){dtmp2=v[m]*w[n];if(dtmp2>X[n*M+m]){c[n]+=X[n*M+m];X[n*M+m]=0;}else{c[n]+=dtmp2;X[n*M+m]-=dtmp2;dtmp1+=pow(X[n*M+m],2);}}w[n]=dtmp1;if(c[n]>0)cnt++;}return(cnt);}
该方法可以提供数值上稳定和化学上灵敏的算法,其可以提取和提纯从检测装置获得的光谱。提纯光谱然后可以匹配库用于有效识别。该类型处理在物理分离不完全和各个化合物的光谱混淆时较重要。denizen变换作为有助于实现该方法目的的方法实施例引入。denizen变换的发展受到Householder变换的启发,其为最线性最小二乘操作的核心,并具有优秀的数值特性。该方法直接处理数据以形成光谱正交组,从而避免与一些机器学习算法相关的共线性和可识别问题。提取的光谱可用于库匹配。
图3示出从通过光谱仪在时间或空间上标记的光谱扫描产生的数据提取光谱的方法。该表述是对本发明系统和方法操作的高度概述。该方法可以包括如方框302从光谱仪接收数据矩阵的操作。光谱仪可以是质谱仪、红外光谱仪、光学光谱仪、离子迁移光谱仪等。
该数据矩阵可以包含行的值,且每行的值可以表示在对与该行相关的化合物的N次扫描下的化合物浓度。更具体地是,数据矩阵包括与质荷比相关的强度值。图1a示出通过光谱仪产生的数据矩阵实例,示出了氯苯和4-羟基-4-甲基-2-戊酮。还可以看到代表化合物的结合峰值。
数据还包含来自环境和光谱仪自身的特定量的噪音。该噪音可测量,并允许如方框304执行从数据矩阵移除噪音的操作。
然后,如方框306,基于信息内容识别数据矩阵中的关注光谱。用作选择关注光谱过程的基的信息内容可以为平方和。换句话说,该方法将移动通过数据矩阵直到平方和的操作到达预定阈值。当到达阈值时,则完成选择过程。这允许所述方法提取相信与数据分析相关的光谱。
然后如方框308,可以基于denizen变换对数据矩阵施加约化变换,以从数据矩阵提取关注光谱。约化变换可以是denizen变换、修改的Householder变换或其它约化变换。当移除关注光谱时,则可以从剩余的数据验证移除了适当的识别光谱。
图1b示出移除关注光谱的数据矩阵的实例。剩余峰值(以减小比例显示)示出剩余化合物数据。关注光谱是氯苯,其为具有最大平方和或最多信息的列,且该化合物数据已经被移除。图1c示出氯苯的估计浓度值。换句话说,图1c是被移除的氯苯光谱的实例。图2是移除的氯苯光谱的二维实例。
当关注光谱被移除时,可以将在不同步骤移除的相同化合物的光谱结合入对光谱和浓度值的集合估计。换句话说,相信来自同一种化合物的光谱可以结合在一起以形成集合化合物标记。化合物标记可以与已知化合物的光谱标记库比较。库可以使用一个或多个以多变量统计分析结合的代表化合物物理特性的值,以用于检测和识别。另外,可以使用分级加权以通过结合以前的数据和当前关注光谱的多变量统计分析来识别可能的化合物。
因为识别的标记已经压缩或结合,匹配标记可以用比之前的库匹配系统显著更少的时间完成。该操作允许所述系统识别从数据矩阵移除的关注光谱中的至少一种化合物和其浓度。
该方法实际中还是迭代的。约化变换可以重复施加到矩阵步骤,以便从数据矩阵提取更多的关注光谱。施加约化直到到达噪音基底,并在该点希望从矩阵移除基本全部有用的光谱。
本发明还可以分离在分析多种组成光谱成分中结合的两个或更多化合物的光谱。这通过如下执行,首先依次移除在结合光谱中的剩余的主要峰值。这些提取的光谱可以用作构成向量,以使用约束最小二乘法因子分解结合的光谱。约束最小二乘过程的估计系数可以用于确定浓度。
图4示出用于使用质谱仪404进行光谱分析以提供与质荷比相关的强度值的系统。在分隔过程402之后使用质谱仪,所述分隔过程帮助在时间和空间上散布离子。例如,分隔过程可以是气体色谱法、质谱法、电泳或类似过程。
数据获取模块406用于从质谱仪和分隔过程接收数据矩阵。数据获取模块与质谱仪的检测电路电子通信。例如,在两个装置之间可以设置高速数据连接。
噪音减少模块408用于从数据矩阵移除噪音。如前所述,由于质谱仪中的电子部件中的噪音和其它环境噪音,目前的系统中总是存在一些噪音。可以使用已知技术用于移除希望量的噪音。
变换模块410用于对数据矩阵施加约化变换。该过程使用上述操作施加,以从数据矩阵提取光谱数据。另外,识别模块412可以用于识别数据矩阵中的关注光谱。该识别可以使用图形识别和化合物标记库进行。
应该理解,上述参考配置只是为了说明本发明原理。在不偏离本发明范围和精神的情况下,可以设计多种修改和变化配置。尽管在图中示出、并结合本发明优选实施例详细描述了本发明,但是本领域技术人员可以想到,在不偏离本发明原理和构思的情况下,可以进行多种修改。
权利要求
1.一种从由光谱仪在时间上标记的光谱扫描产生的数据提取光谱的方法,包括以下步骤从所述光谱仪接收数据矩阵;从所述数据矩阵移除噪音;基于信息内容识别所述数据矩阵中的关注光谱;以及基于denizen变换对所述数据矩阵施加约化变换,以从所述数据矩阵提取关注光谱。
2.如权利要求1所述的方法,还包括以下步骤,测试所述关注光谱,以确定是否移除所述识别的光谱。
3.如权利要求1所述的方法,其中基于信息内容识别所述数据矩阵中的关注光谱还包括以下步骤,基于平方和识别所述数据矩阵中的关注光谱。
4.如权利要求2所述的方法,还包括以下步骤,识别从数据矩阵移除的关注光谱中的至少一种化合物。
5.如权利要求3所述的方法,还包括以下步骤,基于从所述数据矩阵移除的关注光谱,识别关注光谱中的相应量的至少一种化合物。
6.如权利要求5所述的方法,还包括以下步骤,比较质谱库与所述关注光谱,以识别所述关注光谱的化合物类型。
7.如权利要求5所述的方法,还包括以下步骤,使用通过多变量统计分析结合的表示化合物物理特性的一个或多个值的库,以用于检测和识别。
8.如权利要求3所述的方法,通过结合以前的数据和当前对关注光谱的多变量统计分析,使用分级加权来识别可能的化合物。
9.如权利要求2所述的方法,还包括以下步骤,重复施加所述约化变换,以便从所述数据矩阵提取更多的关注光谱。
10.如权利要求1所述的方法,其中所述接收数据矩阵的步骤还包括接收与质荷比相关的强度值的步骤。
11.如权利要求1所述的方法,还包括以下步骤,从与分隔过程通信的质谱仪接收数据矩阵。
12.如权利要求1所述的方法,还包括以下步骤,将在不同的步骤中移除的相同化合物的光谱结合用于对光谱和浓度值的集合估计。
13.如权利要求1所述的方法,还包括以下步骤,分离在分析多组成光谱成分中结合的两种或更多种化合物的光谱。
14.一种用于使用质谱仪进行光谱分析以提供与质荷比相关的强度值的系统,包括数据获取模块,其被配置以从所述质谱仪接收数据矩阵;噪音减少模块,其被配置以从所述数据矩阵移除噪音;变换模块,其被配置以基于denizen变换对所述数据矩阵施加约化变换;以及识别模块,其被配置以识别所述数据矩阵中的关注光谱。
15.如权利要求14所述的系统,其中所述识别模块被配置以基于从所述数据矩阵移除的质谱数据识别所述关注光谱中的化合物。
16.如权利要求14所述的系统,其中所述识别模块被配置以基于从所述数据矩阵移除的质谱数据识别所述关注光谱中的化合物的量。
17.如权利要求14所述的系统,其中所述变换模块被配置以重复施加所述约化变换,以确定由所述关注光谱表示的多种化合物。
18.如权利要求14所述的系统,其中所述变换模块被配置以施加约化变换,还包括对所述关注光谱施加denizen变换的步骤。
19.如权利要求14所述的系统,其中所述数据获取模块被配置以接收质荷比数据。
20.一种在提供与质荷比相关的强度值的系统中进行光谱分析的方法,包括以下步骤从质谱仪接收数据矩阵;从所述数据矩阵移除噪音;基于denizen变换对关注光谱施加约化变换;识别所述数据矩阵中的关注光谱;存储随所述关注光谱约化的图形信息;以及比较所述图形信息与质谱图形库,以便识别通过所述约化变换获得的至少一种化合物。
21.如权利要求20所述的方法,还包括以下步骤,重复施加所述约化变换,以便从所述数据矩阵提取至少一个关注光谱。
22.如权利要求20所述的方法,还包括以下步骤,基于从所述数据矩阵移除的光谱,识别所述关注光谱中的至少一种化合物。
23.一种对来自质谱仪的质谱数据进行光谱分析的方法,包括以下步骤从所述质谱数据移除噪音;识别所述质谱数据中的关注光谱;以及对所述关注光谱施加denizen变换。
全文摘要
提供一种用于从由光谱仪在时间上标记的光谱扫描产生的数据提取光谱的系统和方法。该方法包括从光谱仪接收数据矩阵的操作302。然后可以从数据矩阵移除噪音304。进一步的操作为基于信息内容识别数据矩阵的关注光谱306。另外,可以基于denizen变换对数据矩阵施加约化变换,以从数据矩阵提取关注光谱308。
文档编号G06F11/34GK1997970SQ200580016873
公开日2007年7月11日 申请日期2005年5月23日 优先权日2004年5月24日
发明者J·R·奥利芬特, H·D·托利, A·L·罗克伍德, E·D·李, M·L·李 申请人:杨百翰大学