本发明属于疾病康复评价领域,尤其涉及一种基于细胞因子的疾病康复评价方法及系统。
背景技术:
脑卒中是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病。细胞因子是免疫原、丝裂原或其他刺激剂诱导多种细胞产生的低分子量可溶性蛋白质,具有调节固有免疫和适应性免疫、血细胞生成、细胞生长、APSC多能细胞以及损伤组织修复等多种功能;可分为白细胞介素、干扰素、肿瘤坏死因子超家族、集落刺激因子、趋化因子、生长因子等类别。研究表明脑卒中的发生、发展及康复过程均与免疫反应密切相关,故通过细胞因子分析脑卒中是新兴的热点及难点问题。既往的脑卒中相关量表主要集中在临床的表型层面,如美国国立卫生研究院卒中量表NIHSS(the National Institute of Health Stroke Study)、Barthel指数BI(Barthel Index)、改良的Rankin量表MRs(the Modified Rankin)等。缺乏从分子层面进行预后预测及评价的量表。
申请号为“CN201480028768.8”的发明专利公开了预后分类与治疗腺体癌症的方法,此项发明鉴定了包含SPM、ATP9A、ACOX3、CDC45L、SLC40A1、AGR2等与胰脏癌的分化和临床预后相关的分子标记。并且从基因组的表达量层面,区别较低程度分化的胰脏癌细胞与较高程度分化的胰脏癌。这些标记可用于评估胰脏癌的临床预后,包括宿主的疾病进展、复发或死亡。并且,提供治疗腺体癌症的方法与用于测定腺体癌症的试剂盒。然而此发明的方法仅从基因组的表达量层面进行分类,而且完全依赖临床表型从而导致分析结果过于粗略、笼统。
技术实现要素:
一方面,本发明的目的在于提供了一种新的、更深入的分子层面的基于细胞因子的疾病康复评价方法,该方法不仅适用于脑卒中,还适用于癌症等其他疾病,有效克服了现有技术中完全依赖临床表型而导致分析结果过于粗略、笼统的不足。
一种非疾病的诊断和治疗目的的疾病康复评价方法,其包括以下步骤:
针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子,获取每个所述细胞因子在该疾病发病期的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本的和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此获取所述细胞因子在该疾病发病期的每个发病阶段的平均表达值和差异表达情况,构建成预后量表;
获取待测疾病样本对应的每个所述细胞因子在至少一个所述发病阶段的表达值,所述表达值包括待测疾病样本的和正常样本的表达值,根据所述表达值计算每个所述细胞因子的差异表达情况;
将所述待测疾病样本的细胞因子的差异表达情况与所述预后量表中对应的细胞因子在同一发病阶段的的差异表达情况按照预设评分规则进行比较评分,分别获取每类预后结果对应的细胞因子的总得分,根据不同预后结果总得分的高低确定预后结果。
作为对上述技术方案的进一步改进,所述针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子,具体包括:
获取与疾病相关的生物学数据集,所述生物学数据集中至少包含多个该疾病发病期实测的基因表达谱数据、预后期实测的基因表达谱数据和对应的预后结果;当所述生物学数据集中包含多种生物学数据时,将不同种类的生物学数据之间彼此关联;
获取与疾病相关的细胞因子集,将所述细胞因子集中的每个细胞因子映射至所述生物数据集中;
处理所述生物学数据集,并从所述细胞因子集中分别筛选与每类预后结果相关度较高的多个细胞因子作为对相应预后结果产生影响的细胞因子。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含以下生物学数据中的至少一种:多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果,该疾病相关的蛋白质互作网络数据,该疾病相关的转录调控网络数据。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含以下生物学数据:多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果,该疾病相关的蛋白质互作网络数据,该疾病相关的转录调控网络数据。
作为对上述技术方案的进一步改进,所述处理所述生物学数据集中的生物学数据具体包括:
根据不同的预后结果,将所述生物学数据集分为若干类数据集组;
根据每类数据集组中发病期实测的基因表达谱数据和预后期实测的基因表达谱数据计算细胞因子集中的细胞因子在发病期和预后期的表达值,根据所述表达值筛选差异表达的细胞因子,对发病期和预后期的差异表达的细胞因子分别进行排秩,得两套排秩结果,将所述两套排秩结果进行集成决策处理,得一套排秩终结果,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。
作为对上述技术方案的进一步改进,当所述生物学数据集中包含多种生物学数据时,所述处理所述生物学数据集,还包括:
处理除所述基因表达谱数据之外的其他种类的生物学数据,分别根据每种生物学数据的处理结果筛选与每类预后结果相关的细胞因子,按照与每类预后结果的相关性由高到低的顺序对相关的细胞因子排秩,将包括根据基因表达谱数据获取的细胞因子排秩终结果在内的多个从不同角度进行细胞因子排秩的结果利用集成决策进行总体排秩,选取多个排列靠前多个相关性较高的的细胞因子作为对相应预后结果产生影响的细胞因子。
作为对上述技术方案的进一步改进,所述差异表达的细胞因子的筛选通过以下方法中的至少一种进行:统计学检验、FoldChange、SAM、机器学习。
作为对上述技术方案的进一步改进,所述集成决策是指对多个从不同角度进行细胞因子排秩的结果利用几何平均值或算数平均值计算进行总体排秩。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果;
在所述处理所述生物学数据集的步骤中,处理所述miRNA表达谱数据通过以下步骤实施:
根据与不同的预后结果相对应的每类数据集组中发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据,分别筛选每类预后结果对应的发病期和预后期的差异表达的miRNA发病期和预后期的,利用所述生物学数据集中miRNA与所述细胞因子集中细胞因子间的关联,筛选与差异表达的miRNA相关的细胞因子,并根据差异表达的miRNA的排秩结果对相关的细胞因子分别进行排秩,将每类预后结果对应的发病期和预后期的两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。
作为对上述技术方案的进一步改进,利用皮尔森相关系数筛选出与每类预后结果对应的差异表达miRNA相关度高的细胞因子。
作为对上述技术方案的进一步改进,所述差异表达的miRNA的计算通过以下方法中的至少一种进行:统计学检验、FoldChange、SAM、机器学习。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含该疾病相关的蛋白质互作网络数据;
在所述处理所述生物学数据集的步骤中,处理所述蛋白质互作网络数据通过以下步骤实施:
计算所述细胞因子集中的细胞因子在所述蛋白质互作网络中的多个拓扑属性信息,分别予以排秩,将多个拓扑属性信息对应的多套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个在蛋白质互作网络中较为重要的节点对应的细胞因子作为所述相关的细胞因子。
作为对上述技术方案的进一步改进,所述拓扑属性信息包括连通度、介数、PageRank分数。
作为对上述技术方案的进一步改进,所述生物学数据集中包含该疾病相关的转录调控网络数据;
在所述处理所述生物学数据集的步骤中,处理所述转录调控网络数据通过以下步骤实施:
根据所述基因表达谱数据,利用所述生物数据集中转录调控网络数据中的所有转录因子及靶点关联到所述基因表达谱的结果,计算每类预后结果对应的发病期和预后期的差异表达的转录因子,利用转录因子与所述细胞因子集中的细胞因子之间的关联,分别计算调控每个细胞因子的差异表达的转录因子的个数,根据对应的差异表达的转录因子的个数对发病期和预后期的细胞因子排秩,将两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。
作为对上述技术方案的进一步改进,通过以下关联方式中的至少一种将所述不同种类的生物学数据之间彼此关联:基因与其编码蛋白的对应关系、miRNA与基因间的调控关系、皮尔森相关系数、转录因子与其靶点间的调控关系。
作为对上述技术方案的进一步改进,所述疾病选自脑卒中、癌症。
作为对上述技术方案的进一步改进,所述疾病阶段包括24小时以内和24小时以外。
作为对上述技术方案的进一步改进,所述预后结果包括预后良好和预后不好。
另一方面,本发明还提供了一种疾病康复评价系统,其包括:
预后量表建立模块,用于针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子,获取每个所述细胞因子在该疾病发病期的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本的和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此获取所述细胞因子在每个发病阶段的平均表达值和差异表达情况,构建成预后量表;
获取模块,用于获取待测疾病样本对应的每个所述细胞因子在至少一个所述发病阶段的表达值,所述表达值包括待测疾病样本的和正常样本的表达值,根据所述表达值计算每个所述细胞因子的差异表达情况;
预后结果评价模块,将所述待测疾病样本的细胞因子的差异表达情况与所述预后量表中对应的细胞因子在同一发病阶段的的差异表达情况按照预设评分规则进行比较评分,分别获取每类预后结果对应的细胞因子的总得分,根据不同预后结果总得分的高低确定预后结果。
作为对上述技术方案的进一步改进,所述预后量表建立模块包括细胞因子筛选单元和数据获取单元;
所述细胞因子筛选单元,用于针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子;
所述数据获取单元,用于获取每个所述细胞因子在该疾病的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本的和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此获取所述细胞因子在每个发病阶段的平均表达值和差异表达情况,构建成预后量表。
作为对上述技术方案的进一步改进,所述细胞因子筛选单元包括生物学数据获取子单元、细胞因子获取子单元和生物学数据处理子单元;
所述生物学数据获取子单元,用于获取疾病相关的生物学数据集,所述生物学数据集中至少包含多个该疾病发病期实测的基因表达谱数据、预后实测的基因表达谱数据和对应的预后结果;当所述生物学数据集中包含多种生物学数据时,将不同种类的生物学数据之间彼此关联;
所述细胞因子获取子单元,用于获取与该疾病相关的细胞因子集,并将所述细胞因子集中的的每个细胞因子映射至所述生物数据集中;
所述生物学数据处理子单元,用于处理所述生物学数据集,并从所述细胞因子集中分别筛选与每类预后结果相关度较高的多个细胞因子作为对相应预后结果产生影响的细胞因子。
作为对上述技术方案的进一步改进,所述预后量表建立模块还包括数据关联单元,用于将不同种类的生物学数据彼此关联。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含以下生物学数据中的至少一种:多个该疾病发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据、该疾病相关的蛋白质互作网络数据、该疾病相关的转录调控网络数据。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含以下生物学数据:多个该疾病发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据、该疾病相关的蛋白质互作网络数据、该疾病相关的转录调控网络数据。
作为对上述技术方案的进一步改进,所述生物学数据处理子单元具体用于根据不同的预后结果,将所述生物学数据集分为若干类数据集组;以及根据每类数据集组中发病期实测的基因表达谱数据和预后期实测的基因表达谱数据计算细胞因子集中的细胞因子在发病期和预后期的表达值,根据所述表达值筛选差异表达的细胞因子,对发病期和预后期的差异表达的细胞因子分别进行排秩,得两套排秩结果,将所述两套排秩结果进行集成决策处理,得一套排秩终结果,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。
作为对上述技术方案的进一步改进,所述生物学数据集中包含多种生物学数据,所述生物学数据处理子单元还用于处理除所述基因表达谱数据之外的其他种类的生物学数据,分别根据每种生物学数据的处理结果筛选与每类预后结果相关的细胞因子,按照与每类预后结果的相关性由高到低的顺序对相关的细胞因子排秩,将包括根据基因表达谱数据获取的细胞因子排秩终结果在内的多个从不同角度进行细胞因子排秩的结果利用集成决策进行总体排秩,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果;
当所述生物学数据处理子单元用于处理所述miRNA表达谱数据时,具体用于根据与不同的预后结果相对应的每类数据集组中发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据,分别筛选每类预后结果对应的发病期和预后期的差异表达的miRNA并排秩,利用所述生物学数据集中miRNA与所述细胞因子集中细胞因子间的关联,筛选与差异表达的miRNA相关的细胞因子,并根据差异表达的miRNA的排秩结果对相关的细胞因子分别进行排秩,将每类预后结果对应的发病期和预后期的两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。
作为对上述技术方案的进一步改进,所述生物学数据集中还包含该疾病相关的蛋白质互作网络数据;
当所述生物学数据处理子单元用于处理所述蛋白质互作网络数据时,具体用于计算所述细胞因子集中的细胞因子在所述蛋白质互作网络中的多个拓扑属性信息,分别予以排秩,将多个拓扑属性信息对应的多套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个在蛋白质互作网络中较为重要的节点对应的细胞因子作为所述相关的细胞因子。
作为对上述技术方案的进一步改进,所述生物学数据集中包含该疾病相关的转录调控网络数据;
当所述生物学数据处理子单元用于处理所述转录调控网络数据时,具体用于根据所述基因表达谱数据,利用所述生物数据集中转录调控网络数据中的所有转录因子及靶点关联到所述基因表达谱的结果,计算每类预后结果对应的发病期和预后期的差异表达的转录因子,利用转录因子与所述细胞因子集中的细胞因子之间的关联,分别计算调控每个细胞因子的差异表达的转录因子的个数,根据对应的差异表达的转录因子的个数对发病期和预后期的细胞因子排秩,将两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。
作为对上述技术方案的进一步改进,数据关联单元具体用于通过以下关联方式中的至少一种将所述不同种类的生物学数据之间彼此关联:基因与其编码蛋白的对应关系、miRNA与基因间的调控关系、皮尔森相关系数、转录因子与其靶点间的调控关系。
作为对上述技术方案的进一步改进,所述疾病选自脑卒中、癌症。
作为对上述技术方案的进一步改进,所述预后结果包括预后良好和预后不好。
相对于现有技术,本发明的有益效果为:
本发明提供了一种基于细胞因子的疾病康复评价方法及系统,通过筛选多个对疾病的不同预后结果产生影响的细胞因子,构建预后量表,来评价待测疾病样本的预后情况,具有应用性较强的优点。本发明的主要特色在于根据生物数据特点,融合多层次信息,选取特定的细胞因子作为量表的因素,并采用集成决策的方式对结果进行评价。本发明的基于细胞因子的疾病康复评价方法及系统可以应用于分子层面的疾病预后预测分析的相关理论研究,本发明的系统还又可以应用于临床的疾病预后分子层面的康复评价,对生物学及医学相关领域的分析具有重要意义。
附图说明
图1为本发明的非疾病的诊断和治疗目的的疾病康复评价方法的基本流程示意图;
图2为本发明的非疾病的诊断和治疗目的的疾病康复评价方法的一个实施例的流程示意图;
图3为本发明的非疾病的诊断和治疗目的的疾病康复评价方法应用于脑卒中的康复评价的一个实施例的流程示意图;
图4为本发明的疾病康复评价系统的一个实施例的结构框图。
具体实施方式
如图1所示,其为根据本发明的非疾病的诊断和治疗目的的疾病康复评价方法的基本流程示意图,该方法包括以下步骤:
预后量表构建步骤S100:针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子,获取每个所述细胞因子在该疾病发病期的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本的和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此获取所述细胞因子在该疾病发病期的每个发病阶段的平均表达值和差异表达情况,构建成预后量表。
其中,所述预后结果通常包括预后良好和预后不好两种情况,当然也可根据情况对预后结果进一步细分。在一个优选的实施例中,所述预后结果包括预后良好和预后不好,其中,所述预后良好是指病情轻,可以治愈,能恢复健康,或已恢复健康;所述预后不好是指病情重或再次复发(即二次卒中)。
所述发病期包括至少一个发病阶段,例如可以将整个发病期作为一个发病阶段,这样发病期仅包括一个发病阶段;也可将发病期划分为多个发病阶段(指两个以上的发病阶段),这样发病期就包括多个发病阶段。优选地,所述发病期包括多个发病阶段;更优选地,所述发病期包括两个发病阶段,分别为24小时以内和24小时以外。
通常,同一发病阶段的数据包括多个发病时间点的数据,因而所述同一发病阶段的平均表达值是指在此发病阶段内的多个发病时间点的表达值的平均值。当发病阶段的数据仅包括一个发病时间点的数据时,所述同一发病阶段的平均表达值即指此发病时间点的表达值。
所述差异表达情况是指表达上调或表达下调。根据所述平均表达值计算每个所述细胞因子的差异表达情况可通过以下方法进行:统计学检验(如t检验、卡方检验等)、生物信息学方法(如FoldChange、SAM)、机器学习等方法。利用这些方法来获取差异表达情况对本领域技术人员来说,是可以实现的。
待测疾病样本的细胞因子差异表达情况的获取步骤S200:获取待测疾病样本对应的每个所述细胞因子在至少一个所述发病阶段的表达值,所述表达值包括待测疾病样本和正常样本的表达值,根据所述表达值计算每个所述细胞因子的差异表达情况。
量表的评分及结果的分类步骤S300:将所述待测疾病样本的细胞因子的差异表达情况与所述预后量表中对应的细胞因子在同一发病阶段的差异表达情况按照预设评分规则进行比较评分,分别获取不同预后结果对应的细胞因子的总得分,根据不同预后结果总得分的高低确定预后结果。
其中,比较评分具体是指:比较预后量表中细胞因子的差异表达情况与待测疾病样本的细胞因子自身的差异表达情况一致性,如相同(例如均为表达上调或下调)则计1分,如不同(例如自身表达下调,而量表中表达上调;或自身非差异表达,量表中差异表达)则计-1分。统计总体得分,分数越高,表示越符合相应量表所对应的预后状态。
作为对本发明实施例的进一步改进,如图2所示,步骤S100具体包括:
生物数据集的构建步骤S110:获取与疾病相关的生物学数据集,所述生物学数据集中至少包含多个该疾病发病期实测的基因表达谱数据、预后期实测的基因表达谱数据和对应的预后结果;当所述生物学数据集中包含多种生物学数据时,将不同种类的生物学数据之间彼此关联。
其中,该疾病发病期实测的基因表达谱数据通常包括每个发病阶段的基因表达谱数据,同一发病阶段基因表达谱数据可包括多个不同时间点的数据。例如,当发病阶段包括24小时以内和24小时以外时,24小时以内的发病阶段的基因表达谱数据可包括3小时以内、12小时、24小时的基因表达谱数据,24小时以外的发病阶段的基因表达谱数据可包括48小时、72小时的基因表达谱数据。在通过已知疾病样本获取所述基因表达谱数据时,针对每类预后结果均需要有多个已知疾病样本,然后获取每个已知疾病样本发病期、预后期的基因表达谱数据。
为了更为全面的反应疾病预后的特征,所述生物学数据集中还可包含以下生物学数据中的至少一种:多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果,该疾病相关的蛋白质互作网络数据,该疾病相关的转录调控网络数据。在一个优选的实施例中,所述生物学数据集还包含多个该疾病发病期实测的miRNA表达谱数据、预后实测的miRNA表达谱数据和对应的预后结果,该疾病相关的蛋白质互作数据以及该疾病相关的转录调控网络数据这三种生物学数据,这样的数据集由于数据层次丰富,可提高评价结果的准确性;其中,该疾病发病期实测的miRNA表达谱数据通常包括每个发病阶段的miRNA表达谱数据,同一发病阶段的miRNA表达谱数据可包括多个不同时间点的数据。例如,当发病阶段包括24小时以内和24小时以外时,24小时以内的发病阶段的miRNA表达谱数据可包括3小时以内、12小时、24小时的miRNA表达谱数据,24小时以外的发病阶段的miRNA表达谱数据可包括48小时、72小时的miRNA表达谱数据。在通过已知疾病样本获取所述miRNA表达谱数据时,针对每类预后结果均需要有多个已知疾病样本,然后获取每个已知疾病样本发病期、预后期的miRNA表达谱数据。
通常,根据生物学意义将不同种类的生物学数据之间彼此关联,比如基因与其编码蛋白的对应关系,miRNA与基因间的调控关系,皮尔森相关系数,转录因子与其靶点间的调控关系等。
当所述生物学数据集中同时包含所述基因表达谱数据、miRNA表达谱数据、蛋白质互作网络数据,转录调控网络数据时,通过以下方式将这四种生物学数据彼此关联,得多源异构的生物数据集:
(1)通过miRNA与基因间的调控关系数据(来源为:实验证实、算法预测),或皮尔森相关系数等方式,将miRNA表达谱与基因表达谱相关联;
(2)通过基因与其编码蛋白质的对应关系,将基因表达谱数据与蛋白质互作网络数据相关联;
(3)通过转录因子与其靶点间的调控关系数据(来源为:实验证实、算法预测)、及基因与其编码蛋白质的对应关系,将基因表达谱数据、蛋白质互作网络数据、转录调控网络数据相关联;
(4)通过转录因子与miRNA之间的复杂调控关系(可单向、可双向),将miRNA表达谱数据、转录调控网络数据相关联。
细胞因子集信息整合步骤S120:获取与该疾病相关的细胞因子集,并将其中的每个细胞因子映射至所述生物数据集中;
其中,可通过文本挖掘、数据库检索等方式,筛选所有与疾病相关的基本的细胞因子集,并将其中的每个细胞因子映射至所述生物数据集中,为每个细胞因子获取多层次生物学功能信息。由于细胞因子与基因间存在对应关系,根据基因名称即可将细胞因子映射至所述生物数据集中。
细胞因子筛选步骤S130:处理所述生物学数据集,从所述细胞因子集中分别筛选与每类预后结果相关度较高的多个细胞因子作为对相应预后结果产生影响的细胞因子。
细胞因子差异表达情况的获取步骤S140:获取每个所述细胞因子在该疾病发病期的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本的和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此获取所述细胞因子在该疾病发病期的每个发病阶段的平均表达值和差异表达情况。
预后量表构建步骤S150:以筛选的所述细胞因子及获取的所述细胞因子在该疾病发病期的每个发病阶段的平均表达值和差异表达情况为组成元素,构建预后量表。
预后量表可以根据每类预后结果分别构建,例如当预后结果包括预后良好和预后不好时,分别构建预后良好量表和预后不好量表。
作为对本发明实施例的进一步改进,步骤S130具体包括:
根据不同的预后结果,将所述生物学数据集分为若干类数据集组;根据每类数据集组中发病期实测的基因表达谱数据和预后期实测的基因表达谱数据计算细胞因子集中的细胞因子在发病期和预后期的表达值,根据所述表达值筛选差异表达的细胞因子,对发病期和预后期的差异表达的细胞因子分别进行排秩,得两套排秩结果,将所述两套排秩结果进行集成决策处理,得一套排秩终结果,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。
其中,差异表达的细胞因子可通过统计学检验(如t检验、卡方检验等)、生物信息学方法(如FoldChange、SAM)、机器学习等方法来进行计算。在利用这些方法获取差异的细胞因子时,通常需要设定差异表达的阈值,比如利用t检验时,可设定p值不大于0.05或0.01;使用FoldChange检验时,设定FoldChange大于2。排秩时,如果是FoldChange那么降序排列,得到秩次;如果是统计学检验,则根据p值、q值等降序排列,得到秩次。
所述集成决策可用的方法很多,比如计算两个排秩结果的算术平均值,作为最终的结果;计算几何平均值作为最终结果;选择最大的秩次作为结果;选择最小的秩次作为结果;如果有3个以上的排秩结果,如两个结果为1,另一个结果为4,则选择出现次数多的秩次作为结果等。以下涉及的集成决策均可从这些方法中选择。在一个优选的实施例中,所述集成决策是指计算两次排秩结果的算术平均值或几何平均值作为排秩终结果。
所述发病期的表达值是指发病期中各个发病阶段的表达值的平均值,所述表达值包括已知疾病样本的和正常样本的表达值;当所述发病阶段包括多个时间点的表达值时,计算各个时间点的表达值的平均值作为此发病阶段的表达值;在计算之前,通常需要先将细胞因子在每个时间点的表达值进行归一化处理(或标准化处理)。归一化处理方式有多种,在一个优选的实施例中,所述归一化处理是指将每个样本中的每个基因表达值除以这个样本中的最大的表达值,这样得到的新的表达值范围为[0,1]。
通常所述预后期仅包括一个预后阶段,当所述预后期的表达值包括多个不同时间点的表达值时,计算各个时间点的表达值的平均值作为预后期的表达值。
当所述生物学数据集中包含多种生物学数据时,步骤S130还包括:处理除所述基因表达谱数据之外的其他种类的生物学数据,分别根据每种生物学数据的处理结果筛选与每类预后结果相关的细胞因子,按照与每类预后结果的相关性由高到低的顺序对细胞因子排秩,将包括根据基因表达谱数据获取的细胞因子排秩终结果在内的多个从不同角度进行细胞因子排秩的结果利用集成决策进行总体排秩,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。其中,将多个从不同角度进行细胞因子排秩的结果利用集成决策的方式进行总体排秩,比如利用几何平均值或算数平均值计算总体排秩。
进一步地,当所述生物学数据集中还包含多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果时,步骤S130还包括:根据与不同的预后结果相对应的每类数据集组中发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据,分别筛选每类预后结果对应的发病期和预后期的差异表达的miRNA并排秩,利用所述生物学数据集中miRNA与所述细胞因子集中细胞因子间的关联,筛选与差异表达的miRNA相关的细胞因子,并根据差异表达的miRNA的排秩结果对相关的细胞因子分别进行排秩,将每类预后结果对应的发病期和预后期的两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。其中,所述筛选每类预后结果对应的差异表达的miRNA,具体包括:分别筛选每类预后结果对应的发病期和预后期的差异表达的miRNA,并对发病期和预后期的差异表达的miRNA分别进行排秩,得两套排秩结果,将所述两套排秩结果进行集成决策处理,得一套排秩终结果。所述发病期和预后期的差异表达的miRNA分别根据发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据获取。差异表达的miRNA的计算可参见以上所述的差异表达的细胞因子的计算方法。
进一步地,当所述生物学数据集中还包含该疾病相关的蛋白质互作网络数据时,步骤S130还包括;计算所述细胞因子集中的细胞因子在所述蛋白质互作网络中的多个拓扑属性信息,分别予以排秩,将多个拓扑属性信息对应的多套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个在蛋白质互作网络中较为重要的节点对应的细胞因子作为相关的细胞因子。其中,所述集成决策可通过计算多套排秩结果的均值作为排秩终结果。所述拓扑属性信息包括连通度、介数、PageRank分数。在一个优选的实施方式中,对连通度、介数、PageRank分数对应的数值分别进行降序排列得三套排秩结果,将多套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列前20%的细胞因子作为相关的细胞因子。
进一步地,当所述生物学数据集中包含该疾病相关的转录调控网络数据时,步骤S130还包括:根据所述基因表达谱数据,利用所述生物数据集中转录调控网络数据中的所有转录因子及靶点关联到所述基因表达谱的结果,计算每类预后结果对应的发病期和预后期的差异表达的转录因子,利用转录因子与所述细胞因子集中的细胞因子之间的关联,分别计算调控每个细胞因子的差异表达的转录因子的个数,根据对应的差异表达的转录因子的个数对发病期和预后期的细胞因子排秩,将两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。其中,所述利用所述生物数据集中转录调控网络数据中的所有转录因子及靶点关联到所述基因表达谱的结果,计算每类预后结果对应的差异表达的转录因子,具体包括:通过名称将所有转录因子及靶点对应到所述基因表达谱,根据对应的所述基因表达谱,计算每类预后结果对应的差异表达的转录因子。在计算差异表达的转录因子时,通过统计学检验(如t检验、卡方检验等)、生物信息学方法(如FoldChange、SAM)、机器学习等方法计算。
进一步地,所述疾病选自脑卒中、癌症。
如图4所示,本发明的实施例还提供了一种基于细胞因子的疾病康复评价系统,其包括预后量表建立模块100、获取模块200、和预后情况评价模块300。
所述预后量表建立模块100,用于针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子,获取每个所述细胞因子在该疾病发病期的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本的和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此获取所述细胞因子在每个发病阶段的平均表达值和差异表达情况,构建预后量表;
获取模块200,用于获取待测疾病样本对应的每个所述细胞因子在至少一个所述发病阶段的表达值,所述表达值包括待测疾病样本的和正常样本的表达值,根据所述表达值计算每个所述细胞因子的差异表达情况;
预后情况评价模块300,将所述待测疾病样本的细胞因子的差异表达情况与所述预后量表中对应的细胞因子在同一发病阶段的的差异表达情况按照预设评分规则进行比较评分,分别获取每类预后结果对应的细胞因子的总得分,根据不同预后结果总得分的高低确定预后结果。
进步一地,所述预后量表建立模块100包括细胞因子筛选单元110和数据获取单元120;其中,
所述细胞因子筛选单元110,用于针对疾病的不同预后结果,分别筛选对每类预后结果产生影响的细胞因子;
所述数据获取单元120,用于将该疾病的发病期划分为至少一个发病阶段,获取每个所述细胞因子在该疾病的同一发病阶段的平均表达值,所述平均表达值包括已知疾病样本和正常样本的平均表达值,根据所述平均表达值计算每个所述细胞因子的差异表达情况,以此构建预后量表。
进一步地,所述细胞因子筛选单元包括生物学数据获取子单元111、细胞因子获取子单元112和生物学数据处理子单元113;
所述生物学数据获取子单元111,用于获取疾病相关的生物学数据集,所述生物学数据集中至少包含多个该疾病发病期实测的基因表达谱数据、预后期实测的基因表达谱数据和对应的预后结果;当所述生物学数据集中包含多种生物学数据时,将不同种类的生物学数据之间彼此关联;
所述细胞因子获取子单元112,用于获取与该疾病相关的细胞因子集,并将所述细胞因子集中的的每个细胞因子映射至所述生物数据集中;
所述生物学数据处理子单元113,从所述细胞因子集中分别筛选与每类预后结果相关度较高的多个细胞因子作为对相应预后结果产生影响的细胞因子。
更进一步地,所述预后量表建立模块100还包括数据关联单元114,用于将不同种类的生物学数据彼此关联。
进一步地,所述生物学数据处理子单元113具体用于根据不同的预后结果,将所述生物学数据集分为若干类数据集组;以及根据每类数据集组中发病期实测的基因表达谱数据和预后期实测的基因表达谱数据计算细胞因子集中的细胞因子在发病期和预后期的表达值,根据所述表达值筛选差异表达的细胞因子,对发病期和预后期的差异表达的细胞因子分别进行排秩,得两套排秩结果,将所述两套排秩结果进行集成决策处理,得一套排秩终结果,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。
进一步地,所述生物学数据集中包含多种生物学数据,所述生物学数据处理子单元113还用于处理除所述基因表达谱数据之外的其他种类的生物学数据,分别根据每种生物学数据的处理结果筛选与每类预后结果相关的细胞因子,按照与每类预后结果的相关性由高到低的顺序对相关的细胞因子排秩,将包括根据基因表达谱数据获取的细胞因子排秩终结果在内的多个从不同角度进行细胞因子排秩的结果利用集成决策进行总体排秩,选取排列靠前的多个相关性较高的细胞因子作为对相应预后结果产生影响的细胞因子。
进一步地,所述生物学数据集中还包含多个该疾病发病期实测的miRNA表达谱数据、预后期实测的miRNA表达谱数据和对应的预后结果;
当所述生物学数据处理子单元113用于处理所述miRNA表达谱数据时,具体用于根据与不同的预后结果相对应的每类数据集组中发病期实测的miRNA表达谱数据和预后期实测的miRNA表达谱数据,分别筛选每类预后结果对应的发病期和预后期的差异表达的miRNA并排秩,利用所述生物学数据集中miRNA与所述细胞因子集中细胞因子间的关联,筛选与差异表达的miRNA相关的细胞因子,并根据差异表达的miRNA的排秩结果对相关的细胞因子分别进行排秩,将每类预后结果对应的发病期和预后期的两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子
进一步地,所述生物学数据集中还包含该疾病相关的蛋白质互作网络数据;
当所述生物学数据处理子单元113用于处理所述蛋白质互作网络数据时,具体用于计算所述细胞因子集中的细胞因子在所述蛋白质互作网络中的多个拓扑属性信息,分别予以排秩,将多个拓扑属性信息对应的多套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个在蛋白质互作网络中较为重要的节点对应的细胞因子作为所述相关的细胞因子。
进一步地,所述生物学数据集中包含该疾病相关的转录调控网络数据;
当所述生物学数据处理子单元113用于处理所述转录调控网络数据时,具体用于根据所述基因表达谱数据,利用所述生物数据集中转录调控网络数据中的所有转录因子及靶点关联到所述基因表达谱的结果,计算每类预后结果对应的发病期和预后期的差异表达的转录因子,利用转录因子与所述细胞因子集中的细胞因子之间的关联,分别计算调控每个细胞因子的差异表达的转录因子的个数,根据对应的差异表达的转录因子的个数对发病期和预后期的细胞因子排秩,将两套排秩结果进行集成决策处理,得一套排秩终结果,选取所述排秩终结果中排列靠前的多个相关度较高的细胞因子作为此预后结果对应的所述相关的细胞因子。
进一步地,数据关联单元114具体用于通过以下关联方式中的至少一种将所述不同种类的生物学数据之间彼此关联:基因与其编码蛋白的对应关系、miRNA与基因间的调控关系、皮尔森相关系数、转录因子与其靶点间的调控关系
进一步地,所述疾病选自脑卒中、癌症。
进一步地,所述预后结果包括预后良好和预后不好。
本发明的基于细胞因子的疾病康复评价方法及系统,筛选多个对疾病的不同预后结果产生影响的细胞因子,构建预量量表,来评价待测疾病样本的预后情况,具有应用性较强的优点。本发明通过融合多层面信息,预测准确性较高。
为更好的说明本发明的目的、技术方案和优点,下面将结合具体实施例对本发明作进一步说明。
实施例1
如图3所示,其为本发明的非疾病的诊断和治疗目的的疾病康复评价方法应用于脑卒中的康复评价的一个实施例的流程示意图,选取公开的数据为测试数据,采用所述方法评价脑卒中患者的康复情况,具体包括以下步骤:
1、多源异构背景数据集的构建:输入多套不同时间点(发病3个小时、5个小时、24小时、48小时)及不同预后情况(二次卒中、六个月内无复发)的缺血性脑卒中相关的基因表达谱数据;来自HPRD的蛋白质-蛋白质互作数据、来自TarBase及多种计算方法(miRanda,TargetScan,PITA,PicTar等)预测而得结果的miRNA与基因间的靶向关系数据。
脑卒中相关细胞因子集合信息整合:结合NCBI PubMed数据库,对脑卒中相关的细胞因子进行文本挖掘,供获取162个细胞因子。
脑卒中相关的细胞因子初步候选特征集构建:根据数据特点,获取基于基因表达谱差异表达情况、蛋白质互作网络、miRNA共调控的3类列表。对每类列表进行排秩。
基于细胞因子特征集的脑卒中量表的构建:计算总体排秩后,构建的预后良好的量表包含8个细胞因子(TLR7、TLR9、LTB、EBI3、CD276、MAST2、GHRL、IL12B);预后不好的量表包含10个细胞因子(IL12A、IFNB1、IFNA1、IL2、NOD1、SPN、CARD11、HIF1A、PYDC1、BCL3)。构建得到的预后良好的量表和预后不好的量表分别如表1和表2所示。
表1预后良好的量表
表2预后不好的量表
量表评分及结果的分类:对于新输入的样本(某病患的细胞因子表达检测结果),对应两个预后量表,得到的预后良好的计算分数为5,预后不好的计算分数为2,故预测该病患的预后良好。
选取100个已知疾病样本对构建的预后量表的准确性进行评价,比较已知疾病样本采用预后量表预测的结果与实际的预后结果,发现预后量表预测的结果的准确性高达90%以上。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。