基于拓扑网络的大数据分析方法
【技术领域】
:
[0001]本发明涉及网络技术领域,具体地说是一种能够有效提高检索准确度和全面性、降低漏检率的基于拓扑网络的大数据分析方法。
【背景技术】
:
[0002]随着信息技术的高度发展,人们积累的数据量日益增长,如何从海量数据中快速的获得有效数据成为当务之急。大数据是指无法再当前条件下使用常规的工具对数据内容进行检索和管理的数据集,其具有数据量大、数据类型繁多、价值密度低、处理速度快等特点。目前检索时,用户通常希望能快速的从已有资料中获得自己需要的东西,这就涉及一个准确率和速度的问题,现阶段的数据检索方法例如KD-tree,M-tree等在数据维度小于10维时能够取得良好的效果,但对于大数据系统不适用。另外,网络检索过程中,用户越来越多的追求快速获得相同或相似的结果,现有的检索方法在近似检索中受到局限。
【发明内容】
:
[0003]本发明针对现有技术中存在的缺点和不足,提出了一种能够有效提尚检索准确度和全面性、降低漏检率的基于拓扑网络的大数据分析方法。
[0004]本发明通过以下措施达到:
[0005]一种基于拓扑网络的大数据分析方法,其特征在于包括以下步骤:
[0006]步骤1:从数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类;
[0007]步骤2:设定检索顺序,即获取所述样本数据的id编号以及检索类型;
[0008]步骤3:建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型中;
[0009]步骤4:检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则调用该外部参数后执行当前检索子模型,其中当具有外部参数时,首先对外部参数进行一致化处理,然后提取处理后的外部参数,将其与预先存储的购买词进行相关性匹配,获得预先存储的相关词与检索需求数据之间至少一个相关性数据源,对所获的相关性数据构建网络拓扑图,并通过检索子模型在数据库中基于网络拓扑图进行挖掘;
[0010]步骤5:输出检索结果。
[0011]本发明步骤4中每一个检索需求数据域预先存储的相关词之间形成的相关性数据源作为网络拓扑图的一条边,并对每条边根据相关性大小分配权值,从而完成网络拓扑图的构建。
[0012]本发明步骤4中检索子模型可以采用加权平均法处理模型、卡尔曼滤波处理模型、统计决策处理模型以及神经网络处理模型。
[0013]本发明可以对数据进行多次重复分析处理,通过数据融合的方法融合多次输出结果,获得准确率更高的分析结果。
[0014]本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有漏检率低、检索全面等显著的优点。
[0015]具体的实施方式:
[0016]下面对本发明作进一步的说明。
[0017]本发明提出了一种基于拓扑网络的大数据分析方法,其特征在于包括以下步骤:
[0018]步骤1:从数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类;
[0019]步骤2:设定检索顺序,即获取所述样本数据的id编号以及检索类型;
[0020]步骤3:建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型中;
[0021]步骤4:检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则调用该外部参数后执行当前检索子模型,其中当具有外部参数时,首先对外部参数进行一致化处理,然后提取处理后的外部参数,将其与预先存储的购买词进行相关性匹配,获得预先存储的相关词与检索需求数据之间至少一个相关性数据源,对所获的相关性数据构建网络拓扑图,并通过检索子模型在数据库中基于网络拓扑图进行挖掘;
[0022]步骤5:输出检索结果。
[0023]本发明步骤4中每一个检索需求数据域预先存储的相关词之间形成的相关性数据源作为网络拓扑图的一条边,并对每条边根据相关性大小分配权值,从而完成网络拓扑图的构建。
[0024]本发明步骤4中检索子模型可以采用加权平均法处理模型、卡尔曼滤波处理模型、统计决策处理模型以及神经网络处理模型。
[0025]本发明可以对数据进行多次重复分析处理,通过数据融合的方法融合多次输出结果,获得准确率更高的分析结果。
[0026]本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有漏检率低、检索全面等显著的优点。
【主权项】
1.一种基于拓扑网络的大数据分析方法,其特征在于包括以下步骤: 步骤1:从数据库中抽取样本数据进行预处理,先对每个样本数据赋唯一的id编号,并设定对该样本数据的检索类型Ti,然后根据样本数据归属的数据检索类型对样本数据进行初步分类; 步骤2:设定检索顺序,即获取所述样本数据的id编号以及检索类型; 步骤3:建立检索子模型,按照不同的检索顺序依次将样本数据送入多个检索子模型中; 步骤4:检索子模型对输入的样本数据进行运算,同时判断本次输入的样本数据是否有外部参数,外部参数指用于向该样本数据的变量传递数据的参数,如果具有外部参数,则调用该外部参数后执行当前检索子模型,其中当具有外部参数时,首先对外部参数进行一致化处理,然后提取处理后的外部参数,将其与预先存储的购买词进行相关性匹配,获得预先存储的相关词与检索需求数据之间至少一个相关性数据源,对所获的相关性数据构建网络拓扑图,并通过检索子模型在数据库中基于网络拓扑图进行挖掘; 步骤5:输出检索结果。
2.根据权利要求1所述的一种基于拓扑网络的大数据分析方法,其特征在于步骤4中每一个检索需求数据域预先存储的相关词之间形成的相关性数据源作为网络拓扑图的一条边,并对每条边根据相关性大小分配权值,从而完成网络拓扑图的构建。
3.根据权利要求1所述的一种基于拓扑网络的大数据分析方法,其特征在于步骤4中检索子模型可以采用加权平均法处理模型、卡尔曼滤波处理模型、统计决策处理模型以及神经网络处理模型。
4.根据权利要求1所述的一种基于拓扑网络的大数据分析方法,其特征在于还包括对数据进行多次重复分析处理,通过数据融合的方法融合多次输出结果,获得准确率更高的分析结果。
【专利摘要】本发明涉及网络技术领域,具体地说是一种能够有效提高检索准确度和全面性、降低漏检率的基于拓扑网络的大数据分析方法,其特征在于包括从数据库中抽取样本数据进行预处理,设定检索顺序,建立检索子模型,索子模型对输入的样本数据进行运算,当具有外部参数时,构建网络拓扑图并通过检索子模型在数据库中基于网络拓扑图进行挖掘,本发明与现有技术相比,采用高效的优化方法和抽样方法,使得大数据集合在存储和运算挖掘过程中更高效,具有漏检率低、检索全面等显著的优点。
【IPC分类】G06F17-30
【公开号】CN104731851
【申请号】CN201410783095
【发明人】刘焰龙, 殷晋
【申请人】芜湖乐锐思信息咨询有限公司
【公开日】2015年6月24日
【申请日】2014年12月16日