一种数据处理准确的内容搜集与数据挖掘平台及其实现方法

文档序号:9235529阅读:449来源:国知局
一种数据处理准确的内容搜集与数据挖掘平台及其实现方法
【技术领域】
[0001]本发明涉及一种数据处理准确的内容搜集与数据挖掘平台及其实现方法。
【背景技术】
[0002]数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge_Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
[0003]然而现有的数据挖掘平台的数据库安全性得不到保障,很容易遭受攻击和篡改,一旦破坏会引起数据挖掘的不可靠性。并且,在出现新兴词汇的时候,数据挖掘平台往往会误认为非重要的字,即非关键字,这会使得出现错误的数据的分析与判断的情况。

【发明内容】

[0004]本发明的目的在于克服现有技术的不足,提供一种数据处理准确的内容搜集与数据挖掘平台及其实现方法。
[0005]本发明的目的是通过以下技术方案来实现的:一种数据处理准确的内容搜集与数据挖掘平台,它包括云服务器和多个与云服务器连接的数据接收终端;所述的云服务器包括信息提取模块、信息过滤模块、信息分类模块和数据库模块,所述的数据库模块包括关键字数据库单元和基础数据库单元,所述的信息分类模块包括相似度计算单元和结果分类单元;所述的数据接收终端的输出端与信息提取模块连接,信息提取模块的输出端与信息过滤模块连接,信息过滤模块的输出端与相似度计算单元连接,相似度计算单元的输出端与结果分类单元连接;所述的关键字数据库单元与信息过滤模块连接,所述的基础数据库单元与相似度计算单元连接。
[0006]所述的信息提取模块、信息过滤模块和信息分类模块采用流水线的方式进行数据处理。
[0007]一种数据处理准确的内容搜集与数据挖掘平台还包括一个数据发送终端,所述的数据发送终端将信息分类模块输出的数据发送至外部。
[0008]所述的数据接收终端包括多个用于接收来自无线终端发送数据的第一类数据接收终端和多个用于来自有线终端发送数据的第二类数据接收终端。
[0009]所述的无线终端包括手机、平板电脑;所述的有线终端包括PC机。
[0010]一种数据处理准确的内容搜集与数据挖掘平台的实现方法包括以下步骤:
S1:数据接收终端接收发送过来的信息,包括通过无线终端发送过来的信息和有线终端发送过来的信息;
S2:信息提取模块对数据接收终端的信息进行关键字提取,所述的关键字提取的数量根据预设的条件决定;
53:信息过滤模块对关键字进行过滤处理:通过与关键字数据库单元的数据作比较,将含有非法关键字的信息进行剔除;
54:将完成过滤处理的信息与基础数据库单元进行相似度比对,包括以下子步骤:
541:将提取出的关键字合并成一个集合,计算基础数据库单元中的数据对于所述的集合中的词语的词频;
542:生成所述信息以及基础数据库单元中的数据的词频向量;
543:计算所述信息的词频向量与基础数据库单元中的数据的词频向量的余弦相似度;
55:结果分类单元判断余弦相似度最大的一项是否大于阈值:
(1)若大于阈值,则选择余弦相似度大于阈值的且最大的一项或者多项,作为结果分类的结果输出;
(2)若小于阈值,则进行人工判断,是否作为结果分类的结果:如果判断为是,则将结果输出并且将该信息送入基础数据库单元进行存储。
[0011]所述的步骤S2包括以下子步骤:
521:对信息进行分词处理,计算各个词语相对于所述信息的词频;
522:计算各个词语相对于基础数据库单元中的数据的逆向文件频率,log (A/B);式中,A为基础数据库单元中数据的总数,B为各个词语在基础数据库单元中出现的次数;
523:将词频与逆向文件频率相乘,得到关键词频率;
524:根据预设的关键字提取的数量,选择多个关键词。
[0012]所述的步骤S2在计算关键词频率的子步骤中,不计算应删除词的频率。
[0013]所述的基础数据库单元包括新增子单元和通用子单元,所述的方法还包括一个数据库存储步骤S6:在完成过滤与分类之后,将收集到的信息存储至基础数据库单元的新增子单元中存储,根据需求选择之后信息的是否关键字提取与相似度比对是否包含新增子单元中的数据:若选择包含,则将新增子单元中的数据放入基础数据库单元的通用子单元中进行保存;否则选择删除或者保留。
[0014]本发明的有益效果是:本发明将采集到的数据送入云服务器进行处理,根据云服务器中已经存在的关键字黑名单对信息进行提取,根据云服务器中现有的基础信息即大数据进行关键字提取和分类操作,保证数据处理准确以及数据处理高安全性;并且采用人工分析的方法对机器无法判断的数据进行补充判断,具有判断高可靠性;同时,本发明还可以将新的数据存入现有数据库中,当有新的词汇出现,避免误判;通过流水线处理的并行化方式,提高处理速度;本发明适用于新媒体发布平台中的数据收集分析与发布模块。
【附图说明】
[0015]图1为本发明结构方框图;
图2为本发明方法流程图。
【具体实施方式】
[0016]下面结合附图进一步详细描述本发明的技术方案:如图1所示,一种数据处理准确的内容搜集与数据挖掘平台,它包括云服务器和多个与云服务器连接的数据接收终端;所述的云服务器包括信息提取模块、信息过滤模块、信息分类模块和数据库模块,所述的数据库模块包括关键字数据库单元和基础数据库单元,所述的信息分类模块包括相似度计算单元和结果分类单元;所述的数据接收终端的输出端与信息提取模块连接,信息提取模块的输出端与信息过滤模块连接,信息过滤模块的输出端与相似度计算单元连接,相似度计算单元的输出端与结果分类单元连接;所述的关键字数据库单元与信息过滤模块连接,所述的基础数据库单元与相似度计算单元连接。
[0017]所述的信息提取模块、信息过滤模块和信息分类模块采用流水线的方式进行数据处理。
[0018]一种数据处理准确的内容搜集与数据挖掘平台还包括一个数据发送终端,所述的数据发送终端将信息分类模块输出的数据发送至外部。
[0019]所述的数据接收终端包括多个用于接收来自无线终端发送数据的第一类数据接收终端和多个用于来自有线终端发送数据的第二类数据接收终端。
[0020]所述的无线终端包括手机、平板电脑;所述的有线终端包括PC机。
[0021]如图2所示,一种数据处理准确的内容搜集与数据挖掘平台的实现方法包括以下步骤:
S1:数据接收终端接收发送过来的信息,包括通过无线终端发送过来的信息和有线终端发送过来的信息;
52:信息提取模块对数据接收终端的信息进行关键字提取,所述的关键字提取的数量根据预设的条件决定;<
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1