一种基于语义的大数据分析系统的利记博彩app

文档序号:6630257阅读:530来源:国知局
一种基于语义的大数据分析系统的利记博彩app
【专利摘要】本发明公开了一种基于语义的大数据分析系统,包括:数据采集入库部件,用于数据源头侦测、互联网数据采集和HTML预处理,并将第三方数据资源接入;实时数据流处理部件,用于数据流的实时处理;存储体系部件,用于存储Hadoop集群和mysql集群;底层支持部件,用于从文本中抽取语义信息,支持其他需要语义抽取、语义分析块,处理与文本检索、文本处理与语义搜索、文本处理相关的事务;业务层部件,用于具体业务执行、调度、展现的,与具体应用密切相关的应用集合。本发明实现基于web的大数据分析,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化。
【专利说明】一种基于语义的大数据分析系统

【技术领域】
[0001]本发明涉及数据网络【技术领域】,尤其涉及一种基于语义的大数据分析系统。

【背景技术】
[0002]在2012年早些时候,包括软件、硬件以及服务在内的大数据市场规模约为50亿美元。随着时间的推移,大数据的能量将逐步引起更多的关注,企业需要相关的分析能力以取得竞争优势进而改善运营效率,而相关的技术以及服务会相继部署,大数据市场规模将大幅壮大。目前市场上类似产品提供的系统的重心在于对企业的内部数据得分析,对于海量的来自web —些文本等非结构数据由于获取难度相对较大、单位价值相对较低等难点,其价值目前尚未被业充分开发和利用。


【发明内容】

[0003]为了解决【背景技术】中存在的技术问题,本发明提出了一种基于语义的大数据分析系统,实现基于web的大数据分析,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化。
[0004]本发明提出的一种基于语义的大数据分析系统,包括:
[0005]数据采集入库部件,用于数据源头侦测、互联网数据采集和HTML预处理,并将第三方数据资源接入;
[0006]实时数据流处理部件,用于数据流的实时处理;
[0007]存储体系部件,用于存储Hadoop集群和mysql集群;
[0008]底层支持部件,用于从文本中抽取语义信息,支持其他需要语义抽取、语义分析块,处理与文本检索、文本处理与语义搜索、文本处理相关的事务;
[0009]业务层部件,用于具体业务执行、调度、展现的,与具体应用密切相关的应用集合。
[0010]优选地,所述数据采集入库部件包括:
[0011]分布式爬虫模块,用于数据源头侦测、互联网数据采集和HTML预处理;
[0012]数据源适配器,用于将第三方数据资源接入。
[0013]优选地,所述实时数据流处理部件包括:
[0014]临时存储模块,以集群的内存作为缓存环境,将实时采集到的数据临时存储起来,供有实时性要求的模块读取;
[0015]流数据钩子模块,提供实时数据处理模块挂载的钩子,基本机制为订阅-消费模型,当有数据到达,将数据的基本描述挂载起来,以便挂载到钩子系统的模块取阅。
[0016]优选地,所述实时数据流处理模块不保证数据的永久可读,超过一定时限后,数据将被清空,较老数据将不再可读,只能在永久存储体系中取阅。
[0017]优选地,
[0018]所述Hadoop集群用于大量网页数据的永久性存储和没有随机读写需求的分析结果;
[0019]所述mysql集群,用于存储运营数据、数据挖掘结果、语义分析结果。
[0020]优选地,所述底层支持部件包括:
[0021]语义信息提取模块,用于从文本中抽取语义信息,支持其他需要语义抽取、语义分析块;
[0022]语义搜索引擎,用于处理与文本检索、语义搜索引擎文本处理与语义搜索、文本处理相关的事务;
[0023]优选地,所述业务层部件具体用于报告生成、商业情报分析、舆情分析和数据业务。
[0024]本发明中,基于组合理论的类自然语言规则的文本语义处理系统,有效的解决了基于web的大数据分析问题,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化等特点,因此市场前景非常广阔。本发明,通过研究中小型企业的特点及信息需求,从互联网大数据中提取、分析满足其需求的个性化的商机信息和情报分析服务,帮助其实现精准营销、洞察行业内及上下游产业的动态趋势、把握商机和规避风险、迅速做出科学的决策等方面的商业智能服务,产业化应用前景广阔。

【专利附图】

【附图说明】
[0025]图1为本发明实施例提出的一种基于语义的大数据分析系统结构图。

【具体实施方式】
[0026]如图1所示,本发明实施例提出了一种基于语义的大数据分析系统,包括:数据采集入库部件10、实时数据流处理部件20、存储体系部件30、底层支持部件40和业务输出部件50。
[0027]数据采集入库部件10,包括:分布式爬虫模块11,用于数据源头侦测、互联网数据采集和HTML (HyperText Mark-up Language,超文本标记语言)预处理等方面的工作;数据源适配器12,用于将第三方数据资源的接入工作,例如客户指定的需要分析的数据,可通过数据源适配器介入到系统的处理流程。
[0028]实时数据流处理部件20,用于数据流的实时处理;包括临时存储模块21,以集群的内存作为缓存环境,将实时采集到的数据临时存储起来,供有实时性要求的模块读取;流数据钩子模块22,提供实时数据处理模块挂载的钩子,基本机制为订阅-消费模型,当有数据到达,钩子系统将数据的基本描述挂载起来,以便挂载到钩子系统的模块取阅。挂载到钩子系统的基本要求是数据处理速度够快,以免数据堵塞。另外,实时数据流处理模块不保证数据的永久可读,超过一定时限后(例如5分钟),数据将被清空,较老数据将不再可读,只能在永久存储体系中取阅。
[0029]存储体系部件30,包括Hadoop集群和mysql集群;其中,Hadoop集群负责大量网页数据的永久性存储,某些没有随机读写需求的分析结果也被存储于Hadoop ;而mysql集群则存储运营数据、数据挖掘结果、语义分析结果等体积较小、需要经常随机读写的数据。
[0030]底层支持部件40,由语义信息提取模块41和42构成。其中,语义信息提取模块41,用于从文本中抽取语义信息,支持其他需要语义抽取、语义分析;语义搜索引擎42,用于处理与文本检索、文本处理等各类与语义搜索、文本处理等相关的事务;并且API模块均被集成至语义搜索引擎模块下,所以语义搜索引擎也被架构在此层。
[0031]业务层部件50,用于具体业务执行、调度、展现的,与具体应用密切相关的应用集合。其中,基本功能包括报告生成、商业情报分析、舆情分析和数据业务等。其中,精准营销是为精准营销所提供的数据搜集、分析和营销手段的技术支持等业务;数据业务,是为满足客户特定数据需求而开展的数据搜集和语义分析等方面业务;报告生成,是为客户生成简短的、概要性的、图文结合的概要的模块,支持定期自动生成和报告汇总和撰写;商业情报分析,包括招投标等商机信息、竞争对手分析,产业上下游动态和数据分析等具体业务。舆情分析主要包括话题跟踪、事件和人物的相关跟踪分析,也包括网评等网络舆情类数据搜集和集成分析。
[0032]本发明中,基于组合理论的类自然语言规则的文本语义处理系统,有效的解决了基于web的大数据分析问题,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化等特点,因此市场前景非常广阔。本发明,通过研究中小型企业的特点及信息需求,从互联网大数据中提取、分析满足其需求的个性化的商机信息和情报分析服务,帮助其实现精准营销、洞察行业内及上下游产业的动态趋势、把握商机和规避风险、迅速做出科学的决策等方面的商业智能服务,产业化应用前景广阔。
[0033]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种基于语义的大数据分析系统,其特征在于,包括: 数据采集入库部件,用于数据源头侦测、互联网数据采集和HTML预处理,并将第三方数据资源接入; 实时数据流处理部件,用于数据流的实时处理; 存储体系部件,用于存储Hadoop集群和mysql集群; 底层支持部件,用于从文本中抽取语义信息,支持其他需要语义抽取、语义分析块,处理与文本检索、文本处理与语义搜索、文本处理相关的事务; 业务层部件,用于具体业务执行、调度、展现的,与具体应用密切相关的应用集合。
2.根据权利要求1所述的基于语义的大数据分析系统,其特征在于,所述数据采集入库部件包括: 分布式爬虫模块,用于数据源头侦测、互联网数据采集和HTML预处理; 数据源适配器,用于将第三方数据资源接入。
3.根据权利要求1所述的基于语义的大数据分析系统,其特征在于,所述实时数据流处理部件包括: 临时存储模块,以集群的内存作为缓存环境,将实时采集到的数据临时存储起来,供有实时性要求的模块读取; 流数据钩子模块,提供实时数据处理模块挂载的钩子,基本机制为订阅-消费模型,当有数据到达,将数据的基本描述挂载起来,以便挂载到钩子系统的模块取阅。
4.根据权利要求1或3所述的基于语义的大数据分析系统,其特征在于,所述实时数据流处理模块不保证数据的永久可读,超过一定时限后,数据将被清空,较老数据将不再可读,只能在永久存储体系中取阅。
5.根据权利要求1所述的基于语义的大数据分析系统,其特征在于, 所述Hadoop集群用于大量网页数据的永久性存储和没有随机读写需求的分析结果; 所述mysql集群,用于存储运营数据、数据挖掘结果、语义分析结果。
6.根据权利要求1所述的基于语义的大数据分析系统,其特征在于,所述底层支持部件包括: 语义信息提取模块,用于从文本中抽取语义信息,支持其他需要语义抽取、语义分析块; 语义搜索引擎,用于处理与文本检索、语义搜索引擎文本处理与语义搜索、文本处理相关的事务。
7.根据权利要求1所述的基于语义的大数据分析系统,其特征在于,所述业务层部件具体用于报告生成、商业情报分析、舆情分析和数据业务。
【文档编号】G06F17/30GK104281697SQ201410545306
【公开日】2015年1月14日 申请日期:2014年10月15日 优先权日:2014年10月15日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1