为选择治疗方案而分析基因信息的方法和仪器的制造方法

文档序号:6500398阅读:330来源:国知局
为选择治疗方案而分析基因信息的方法和仪器的制造方法
【专利摘要】本发明涉及为了选择治疗方案进行基因信息分析的方法和仪器。获取关于基因网络的信息,其中基因网络中个体基因组所含基因根据基因之间的功能相关性被划分为复数个子群;并将对至少一种所用药物有反应的子群可视化。
【专利说明】为选择治疗方案而分析基因信息的方法和仪器
[0001]相关申请的交叉引用
[0002]本申请要求2012年7月13日提交至韩国知识产权局的韩国专利申请10-2012-076803的权益,该申请的公开内容通过引用全部并入本文。
发明领域
[0003]本文涉及为了选择治疗方案进行基因信息(比如个体的基因组)分析的方法和仪器。
【背景技术】
[0004]基因组代表生物体的全部遗传信息。已经开发了给特定个体的基因组测序的多种技术,比如脱氧核糖核酸(DNA)芯片和第二代测序(Next Generation Sequencing, NGS)技术、第三代测序(NNGS)技术等等。基因信息(比如核酸序列和蛋白质)的分析被广泛用于发现指示疾病(比如糖尿病或癌症)的基因,或者理解基因多样性和个体表达特点之间的相关性。具体来说,从个体采集的基因信息对于找出个体中与不同症状或疾病进展相关的遗传特性非常重要。因此,诸如核酸序列和蛋白的个体基因信息是获知当前和将来的疾病相关信息,以便预防疾病或者在疾病初始阶段选择最佳疗法的核心数据。利用基因组检测仪器,比如用于检测单核苷酸多态性(SNP)、拷贝数变化(CNV)等的DNA芯片和微阵列,正确分析个体基因信息的技术已有研究。
[0005]发明概述
[0006]本发明提供了为了选择治疗方案进行基因信息(比如个体的基因组)分析的方法和仪器。
[0007]本发明提供了计算机可读的记录介质,用于保存执行所述方法的计算机可读程序。
[0008]本发明其他方面将在后文中描述一部分,其它部分则是根据描述显而易见的,或者通过实施本文的实施方案可以了解。
[0009]根据本发明的一个方面,为了选择治疗方案进行基因信息分析的方法包括:获取关于基因网络的信息,其中个体基因组所含基因根据基因之间的功能相关性被划分为复数个子群;从基因网络所含复数个子群中提取含有对至少一种所用药物有反应的基因的子群;和根据提取子群所含基因信息生成至少一个索引以便显现被提取的子群。
[0010]根据本发明的另一方面,提供了计算机可读的记录介质,用于保存计算机可读的执行所述基因信息分析方法的程序。
[0011]根据本发明的另一方面,为了选择治疗方案对基因信息进行分析的仪器包括:数据获取单元,用于获取关于基因网络的信息,其中个体基因组所含基因根据基因之间的功能相关性被划分为复数个子群;子群提取器,用于从基因网络所含复数个子群中提取子群,所述子群含有对至少一种所用药物有反应的基因;和索引生成器,用于根据提取子群所含基因信息生成至少一个索引以便将提取子群可视化。[0012]附图简述
[0013]由以下对实施方案的描述,结合附图可以清楚看到并且更容易理解这些和/或其他方面,附图中:
[0014]图1是根据本发明的实施方案,为了选择治疗方案对基因信息进行分析的仪器的方块图;
[0015]图2是通常已知的基因网络;
[0016]图3A显示了根据本发明的实施方案,由使用人员输入图1的仪器中的药物列表;
[0017]图3B显示了根据本发明的实施方案,子群提取器所提取的子群表;
[0018]图4显示了根据本发明的实施方案,由索引生成器生成的提取子群的遗传变异索引;
[0019]图5A描述了根据本发明的实施方案,在索引生成器中计算距离的过程;
[0020]图5B描述了根据本发明的另一个实施方案,在索引生成器中计算距离的过程;
[0021]图6显示了根据本发明的实施方案,由可视化处理器处理过的结果;
[0022]图7显示了根据本发明的实施方案,对西妥昔单抗(Cetuximab)有反应者的结肠癌样品和无反应者结肠癌样品的可视化结果;以及
[0023]图8的流程图举例说明了根据本发明的实施方案,为了决定治疗方案对基因信息进行分析的方法。
[0024]发明详述
[0025]以下详述实施方案以供参考,其实例如附图所示。
[0026]图1是根据本发明的实施方案,为了选择治疗方案对基因信息进行分析的仪器10的方块图。参考图1,仪器10包含数据获取单元110、子群提取器120、索引生成器130和可视化处理器140。为了清楚,图1中仅描述了与本实施方案有关的硬件成分。但是本领域普通技术人员理解仪器10中还可以包含其他普遍使用的硬件成分。
[0027]具体来说,仪器10可以是处理器。该处理器可以通过含有复数个逻辑门的阵列,或者微处理器和可以在微处理器中执行的记忆存储程序的组合来实施。此外,本领域技术人员理解仪器10也可以由另一种类型的硬件实施。
[0028]仪器10通过从与药物(比如抗癌药物)使用有关的个体基因组数据中,将与导致疾病(比如癌症或肿瘤)的基因相关的基因信息可视化,可以作为帮助医务人员进行患者诊断和选择治疗方案的装置。此外,仪器10提供的信息可以用于研究,比如新药和诊断标记物等的开发。
[0029]通常,个体的基因组表示个体含有的所有基因信息,近年,随着测序技术的发展,人类和其他生物体的完整基因组已被表达。基因组所含基因信息对于找出生物作用机制,比如核酸序列、蛋白解析等是必需的。基因组分析被广泛用于理解各种生物现象,比如找出特定疾病(糖尿病或癌症)的成因、遗传多样性、个体表达特性等。
[0030]近年,基因组研究中逐渐发现了基因组所含基因之间的功能相关性,从而有可能分析众多基因之间的基因网络,因为具体生物体中几乎所有生理症状都归因于多个基因的相互作用,而不是单一基因产生的。
[0031]图2是通常已知的基因网络。图2只显示了整个基因网络的一部分以助于对本实施方案的理解。但本领域技术人员也可以容易地获得关于整个基因网络其他部分的信息。[0032]参见图2,基因网络表现为其中的基因以复杂的方式相互关联的网络。具体来说,基因网络包含根据基因间的功能相关性被划分为复数个子群或子网的基因。如图2所示,这些子群或子网用基因网络中的结点表示。例如,虽然图2的基因网络中没有显示,当用符号ALK、EPHA1和JAK3标记对应子群或子网的结点时,这些结点可以分别表示恶性淋巴瘤受体酪氨酸激酶、EPH受体Al和Janus激酶3。以上描述的基因网络对本领域技术人员是显而易见的,因此这里省略了对它的详细描述。
[0033]虽然关于基因网络的信息是已知的,对与治疗(比如药物)相关的基因网络进行分析的方法还鲜有研究。具体来说,只考虑过测量个体癌症患者的单个基因或一组基因中的改变(对于被给予某些类型的抗癌药物处方的情况,癌症患者的细胞相对正常细胞的改变)的技术。
[0034]但是,通过考虑这些抗癌药物之间的相关性而测量个体癌症患者的单个基因或一组基因的改变的技术还没有引申到被给予两类或更多类抗癌药物的情况。
[0035]当考虑给予两类或更多类抗癌药物时,通过给每类抗癌药物单独测量一组基因的改变来确定抗癌药物可能是没有意义的,因为当两类抗癌药物具有相同或类似的机制时,很难预测两类抗癌药物的全部效能。因此,当考虑用两类或更多类抗癌药物进行个性化疗法时,可以首先测量患者的遗传改变是否与每种抗癌药物的效能有关,同时可以测量两类或更多类抗癌药物的机制是否相似。换句话说,当使用多种抗癌药物时,可以测量数种癌基因是否与多种抗癌药物的途径相关,如果测量到数种癌基因与多种抗癌药物的途径相关,所述多种抗癌药物之间的相关性可以首先用于找出抗癌药物的最佳联用。
[0036]与现有的分析基因信息的仪器不同,仪器10可以索引基因网络中与多种抗癌药物相关的数个癌基因之间的相关性、对索引进行数值分析、并提供数值结果。这就是说,仪器10可以数值化分析并提供多组基因(子群或子网)之间的关联性,而不是象现有仪器那样数值化分析单个基因或单组基因中的改变。
[0037]现更详细地描述仪器10的操作和功能。
[0038]参见图1,数据获取单元110获取关于基因网络的信息,其中基因网络中个体基因组所含基因根据基因之间的功能相关性被划分为复数个子群(或子网)。获取的关于基因网络的信息可以包括,个体基因组所含多个基因之间的相互关联的信息;关于根据功能相关性划分的复数个子群(或子网)的信息等等。获取的基因网络可以是从现有技术已知的数据库(DB)中获取的。
[0039]子群提取器120从数据获取单元110获取的基因网络所含复数个子群中提取含有对至少一种所用药物有反应的基因的子群。
[0040]仪器10的使用者,例如医务人员,可以通过使用仪器10输入给予某个癌症患者的抗癌药物列表。替代地,仪器10的使用者可以输入药物列表以便研究对某些药物有反应的子群之间的相关性。虽然图1中没有显示,可以利用与仪器10连接的一般使用者界面装置来输入列表。
[0041]图3A显示了根据本发明的实施方案,由使用者输入图1的仪器10中的药物列表20。参见图3A,药物列表20中给出了 18种不同抗癌药物的名称,比如克唑替尼(crizotinib)、舒尼替尼(sunitinib)、帕唑帕尼(pazopanib)、西妥昔单抗(cetuximab)、帕尼单抗(panitumumab)、吉非替尼(gefitinib)、埃罗替尼(erlotinib)、达沙替尼(dasatinib)、曲妥单抗(trastuzumab)、拉帕替尼(Iapatinib)、帕利夫明(palifermin)、坦度替尼(tandutinib)、索拉非尼(sorafenib)、舒尼替尼(sunitinib)、凡德他尼(vandetanib)、西妥木单抗(cixutumumab)、盖尼塔单抗(ganitumab)和地特胰岛素(insulin detemir)。
[0042]图3B显示了根据本发明的实施方案,子群提取器120所提取的子群的列表。参见图3B,显示了图3A中描述的药物被作图到基因网络的某些子群中的结果。例如,给克唑替尼作图到ALK子网,因为克唑替尼的作用机制对应的基因包含在ALK子网中。此外,给舒尼替尼和帕唑帕尼作图到CSFIR子网,因为舒尼替尼和帕唑帕尼的作用机制对应的基因包含在CSFIR子网中。这样,关于含有与药物作用对应的基因的子群的信息可以基于现有技术中已知的内容。因此,根据本领域已知的信息,子群提取器120通过给含有与至少一种所用药物的作用对应的基因的子群作图来提取子群。
[0043]回到图1,索引生成器130根据子群提取器120提取的子群所含基因信息生成至少一个索引,以便使提取的子群可视化。
[0044]索引生成器130所 生成的至少一个索引包括用于判断选自下述的至少一项的索引:每个提取子群的遗传改变水平、提取子群之间的相关性,和提取子群所含基因数量。
[0045]用于判断每个提取子群的遗传改变水平的索引,由索引生成器130在提取子群所含基因的遗传改变水平的基础上进行计算。
[0046]用于判断每个提取子群的遗传改变水平的索引,可以与根据每个提取子群的遗传改变水平用不同颜色表示提取子群的索引对应。
[0047]每个提取子群的遗传改变水平可以根据以下统计概率来计算,所述统计概率是在个体基因组所含众多基因中有遗传改变的那些基因被包括在每个提取子群中的统计概率。这可以通过使用公知的方法,比如Geneset Analysis、Geneset Enrichment Analysis和Fisher Exact Test 来计算。
[0048]例如,索引生成器130可以用公式I生成每个提取子群遗传改变水平的索引。
YiV-M"
,v"i j
[0049]P = 1^ -TlA-
U J(I)
[0050]在公式I中,P表示提取子群的遗传改变水平的概率,N表示基因总数,k表示在癌症中发生改变的基因的数量,M表示提取子群所含基因的数量,X表示从癌症中发生改变的基因中得到的提取子集所包含的基因的数量。
[0051]公式I表示,当从N个基因中选择了 k个发生遗传改变的基因时,提取子群中包含X个或更多个发生遗传改变的基因的概率值P。公式I被称为Fisher Exact Test。
[0052]但是,本领域技术人员可以理解,索引生成器130可以用与上述类似的其他算法,比如Geneset Analysis和Geneset Enrichment Analysis,而不是公式I,来计算用于判断每个提取子群的遗传改变水平的索引。
[0053]图4的示意图显示了根据本发明的实施方案,由索引生成器130生成的提取子群的遗传改变水平的索引。参见图4,提取子群的遗传改变水平可以用表示颜色水平的索引来代表。
[0054]回到图1,索引生成器130基于距离(该距离表示提取子群所含基因之间的功能紧密程度)计算了用于判断提取子群之间相关性的索引。在本实施方案中,术语“距离”不代表子群之间的实际距离,而是作为一个抽象概念表示提取子群所含基因之间的功能紧密程度。因此,术语“距离”可以用另外的术语,比如“厚度”代替。但在本实施方案中,使用了术语“距离”来描述。
[0055]可以利用提取子群之间功能上相互关联的基因的数量来计算所述距离。更具体地说,可以通过对提取子群之间功能相互联系的基因的数量和从基因网络中随机取样的子群之间功能相互联系的基因的数量进行比较,在所得结果的基础上计算所述距离。
[0056]图5A的示意图描述了根据本发明的实施方案,在索引生成器130中计算所述距离的过程。当提取了两个子群时,可以计算这两个子群之间的相关性。
[0057]参见图5A,当存在两个提取子群时,两个子群间的距离的倒数与直接关联的基因的数量和通过共有两个子群所含基因中的单个基因而相互关联的基因的数量成比例,并且与两个子群所含基因的总数成反比。这里可以采用权重来区分直接关联的基因的数量的重要性和通过共享单个基因而相互关联的基因的数量的重要性。
[0058]最后,可以利用公式2计算两个子群之间的距离。
[0059]
【权利要求】
1.为了选择治疗方案进行基因信息分析的方法,所述方法包括: 获取关于基因网络的信息,所述基因网络中,个体的基因组所含基因根据这些基因之间的功能相关性被划分为复数个子群; 从基因网络所含复数个子群中提取具有对至少一种所用药物有反应的基因的子群;和 根据提取子群所含基因信息生成至少一个索引,以便将提取子群可视化。
2.权利要求1所述的方法,其中所述至少一个生成的索引包括用于判断选自下述的至少一项的索引:每个提取子群的遗传改变水平、提取子群之间的相关性,和提取子群所含基因数量。
3.权利要求1所述的方法,其中所述的生成包括,根据提取子群所含基因的改变水平,计算每个提取子群的遗传改变水平。
4.权利要求3所述的方法,其中每个提取子群的遗传改变水平是根据以下统计概率来计算,所述统计概率是在个体基因组所含众多基因中有遗传改变的那些基因被包括在每个提取子群中的统计概率。
5.权利要求3所述的方法,其中每个提取子群的遗传改变水平是利用选自GenesetAnalysis、Geneset Enrichment Analysis 和 Fisher Exact Test 中的至少一种计算的。
6.权利要求3所述的方法,其中至少一个生成的索引是根据每个提取子群的遗传改变水平,用不同颜色表示每个提取子群的索引。
7.权利要求1所述的方 法,其中的生成包括,根据距离计算用于判断提取子群之间的相关性的索引,其中所述距离表示提取子群中所含基因之间的功能关联紧密程度。
8.权利要求7所述的方法,其中所述距离是利用提取子群之间功能上相互关联的基因的数量计算的。
9.权利要求7所述的方法,其中所述距离是基于这样的结果计算的,所述结果是通过对提取子群之间功能相互关联的基因的数量和从所述基因网络中随机取样的子群之间功能相互关联的基因的数量进行比较得到的。
10.权利要求1所述的方法,其中的生成包括,计算用于判断提取子群所含基因的数量的索引。
11.权利要求10所述的方法,其中所述至少一个生成的索引是根据提取子群所含基因数量用不同大小表示每个提取子群的索引。
12.权利要求1所述的方法,还包含通过给提取子群视觉上应用至少一个生成的索引使提取子群可视化。
13.权利要求12所述的方法,其中的可视化包括以相互连接的结点代表提取子群而使提取子群可视化。
14.权利要求12所述的方法,其中的可视化包括,通过只激活屏幕上显示的基因网络中呈现至少一个生成的索引的提取子群而使提取子群可视化。
15.计算机可读记录介质,用于存储执行权利要求1-14中任一项所述方法的计算机可读程序。
16.为了选择治疗方案进行基因信息分析的仪器,所述仪器包括: 数据获取单元,用于获取关于基因网络的信息,所述基因网络中个体基因组所含基因根据基因之间的功能相关性被划分为复数个子群;子群提取器,用于从基因网络所含复数个子群中提取具有对至少一种所用药物有反应的基因的子群;和 索引生成器,用于根据提取子群所含基因信息生成至少一个索引以便将提取子群可视化。
17.权利要求16所述的仪器,其中所述至少一个生成的索引包括用于判断选自下述的至少一项的索引:每个提取子群的遗传改变水平、提取子群之间的相关性,和提取子群所含基因数量。
18.权利要求16所述的仪器,其中索引生成器根据提取子群所含基因的改变水平,计算每个提取子群的遗传改变水平。
19.权利要求18所述的仪器,其中每个提取子群的遗传改变水平是根据以下统计概率来计算,所述统计概率是在个体基因组所含众多基因中有遗传改变的那些基因被包括在每个提取子群中的统计概率。
20.权利要求18所述的仪器,其中至少一个生成的索引是根据每个提取子群的遗传改变水平而用不同颜色表示每个提取子群的索引。
21.权利要求16所述的仪器,其中索引生成器根据距离计算用于判断提取子群之间的相关性的索引,其中所述距离表示提取子群中所含基因之间的功能关联紧密程度。
22.权利要求21所述的仪器,其中所述距离是利用提取子群之间功能上相互关联的基因的数量计算的。
23.权利要求16所述的仪器,其中索引生成器计算用于判断提取子群所含基因的数量的索引。
24.权利要求23所述的仪器,其中所述至少一个生成的索引是根据提取子群所含基因数量用不同大小表示每个提取子群的索引。
25.权利要求16所述的仪器,还包含通过给提取子群视觉上应用至少一个生成的索引使提取子群可视化的可视化过程 。
【文档编号】G06F19/18GK103544405SQ201310071524
【公开日】2014年1月29日 申请日期:2013年3月6日 优先权日:2012年7月13日
【发明者】安兑臻, S.穆科尔杰, 洪锡瑱, R.S.马拉瓦瑞普, 孙大淳, 李天熙, S.A.博帕蒂卡尔 申请人:三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1