一种数据去重方法及系统的利记博彩app

文档序号:8487921阅读:370来源:国知局
一种数据去重方法及系统的利记博彩app
【技术领域】
[0001]本发明涉及数据分析领域,特别是涉及一种数据去重方法及系统。
【背景技术】
[0002]本发明主要针对数据平台中的数据进行数据去重。数据平台,是指承载了海量数据的系统,比如数据共享和交易平台。数据去重,是指识别出因不同名称、作者、来源、格式而存在的同一份数据的多份拷贝,避免同一份数据被以不同形式保存在数据平台中。
[0003]由于数据平台中的数据可以被共享和交易,因此当数据平台中存在重复数据时,将会对数据使用者造成困扰,也会对数据提供者造成损失。例如,当一份数据被数据提供者A上传至数据平台后,又被数据提供者B上传至该数据平台。如果未进行数据去重,则对于数据使用者来说,可能会因为下载两份内容相同的数据,而导致金钱、时间和精力的浪费;对于数据提供者来说,假设数据提供者A为数据版权的和合法所有者,则数据提供者A会由于数据使用者采用了数据提供者B提供的相同数据,而损失掉将该数据提供给该数据使用者时可获得的收益。可见,数据去重对于数据平台来说是十分重要的。
[0004]现有技术中的数据去重方法,主要是对待存储的数据建立摘要或指纹。通常采用计算数据的哈希值(包括md5,crc32,sha256等算法)的方式建立摘要或指纹。然后将待存储数据的哈希值与已存储数据的哈希值进行比对,如果相同,即判定待存储数据与某个已存储数据相同。之后,再采取进一步措施删除重复数据。
[0005]但是,上述方法不适用于于数据平台。一方面由于数据平台中存储的数据很多,对于大量数据进行哈希值计算的代价过高,并且对于哈希值的存储也会占用较大存储空间。通常PB级别的数据会生成TB级别的哈希表,不仅占用大量存储空间,还会导致对于哈希值的检索效率降低,从而降低数据去重效率。另一方面,由于数据平台存储的数据量很大,哈希值发生计算碰撞的可能性也较高,这又会导致把原本不同的数据误判为重复数据。
[0006]基于上述原因,导致现有技术中,对于数据平台中的数据去重工作,只能交由人工完成。但是,由于数据平台中的数据量过多,导致人工进行数据去重的效率十分低下。
[0007]因此,亟需一种可以有效缩小数据去重范围的数据去重方法,以便将人工进行数据去重的工作量控制在可接受的范围内。

【发明内容】

[0008]本发明的目的是提供一种数据去重方法及系统,可以有效缩小数据去重范围的数据去重方法,以便将人工进行数据去重的工作量控制在可接受的范围内。
[0009]为实现上述目的,本发明提供了如下方案:
[0010]一种数据去重方法,包括:
[0011]获取上传至数据平台的待处理数据;
[0012]确定所述待处理数据的元数据信息;
[0013]将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;
[0014]获取所述待处理数据的第一数据描述信息;
[0015]获取所述已存储数据的第二数据描述信息;
[0016]比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;
[0017]对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;
[0018]按照所述总相似度对所述已存储数据进行排序;
[0019]将排序后的所述已存储数据中的前η个数据标记为疑似重复数据。
[0020]可选的,所述将所述待处理数据标记为疑似重复数据之后,还包括:
[0021]将包含有所述疑似重复数据的信息的数据列表发送至人工审核客户端,以便对所述疑似重复数据与所述已存储数据进行人工审核;所述数据列表由排序后的所述已存储数据的信息构成。
[0022]可选的,所述将包含有所述疑似重复数据的信息的数据列表发送至人工审核客户端之后,还包括:
[0023]当所述疑似重复数据与所述待处理数据不同时,将所述待处理数据保存至所述数据平台。
[0024]可选的,所述比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度,具体包括:
[0025]采用SimHash算法计算所述第一数据描述信息与所述第二数据描述信息之间的海明距离,根据所述海明距离确定所述第一数据描述信息与所述第二数据描述信息之间的的数据描述相似度。
[0026]一种数据去重系统,包括:
[0027]待处理数据获取单元,用于获取上传至数据平台的待处理数据;
[0028]元数据信息确定单元,用于确定所述待处理数据的元数据信息;
[0029]元数据信息比对单元,用于将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;
[0030]第一数据描述信息获取单元,用于获取所述待处理数据的第一数据描述信息;
[0031]第二数据描述信息获取单元,用于获取所述已存储数据的第二数据描述信息;
[0032]数据描述信息比对单元,用于比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;
[0033]总相似度计算单元,用于对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;
[0034]排序单元,用于按照所述总相似度对所述已存储数据进行排序;
[0035]疑似重复数据标记单元,用于将排序后的所述已存储数据中的前η个数据标记为疑似重复数据。
[0036]可选的,还包括:
[0037]疑似重复数据发送单元,用于将所述待处理数据标记为疑似重复数据之后,将包含有所述疑似重复数据的信息的数据列表发送至人工审核客户端,以便对所述疑似重复数据与所述已存储数据进行人工审核;所述数据列表由排序后的所述已存储数据的信息构成。
[0038]可选的,还包括:
[0039]待处理数据保存单元,用于将包含有所述疑似重复数据的信息的数据列表发送至人工审核客户端之后,当所述疑似重复数据与所述待处理数据不同时,将所述待处理数据保存至所述数据平台。
[0040]可选的,所述数据描述信息比对单元,具体包括:
[0041]海明距离计算子单元,用于采用SimHash算法计算所述第一数据描述信息与所述第二数据描述信息之间的海明距离,根据所述海明距离确定所述第一数据描述信息与所述第二数据描述信息之间的的数据描述相似度。
[0042]根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0043]本发明实施例中的数据去重方法及系统,通过将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;按照所述总相似度对所述已存储数据进行排序;将排序后的所述已存储数据中的前η个数据标记为疑似重复数据;可以缩小数据去重范围,从而有效降低人工进行数据去重的工作量,使人工进行数据去重的工作量被控制在可接受的范围内。
【附图说明】
[0044]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本发明的数据去重方法实施例的流程图;
[0046]图2为本发明的数据去重系统实施例的结构图。
【具体实施方式】
[0047]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0049]图1为本发明的数据去重方法实施例的流程图。如图1所示,该方法可以包括:
[0050]步骤101:获取上传至数据平台的待处理数据;
[0051 ] 所述待处理数据可以是各种类型的数据。例如,可以是文本类型的数据、图片类型的数据等等。
[0052]步骤102:确定所述待处理数据的元数据信息;
[0053]所述元数据信息可以是对于所述待处理数据的具有摘要性质的关键词。
[0054]例如,所述元数据信息可以包括数据ID、标题、分类、格式、关键词和来源等信息。
[0055]步骤103:将所述待处理数据的元数据信息与所述数据平台的已存储数据的元数据信息进行比对,得到元数据信息相似度;
[0056]所述数据平台的已存储数据也具有对应的元数据信息。可以将待处理数据的元数据信息与已存储数据的元数据信息进行比对。
[0057]所述元数据信息相似度,可以根据待处理数据与已存储数据之间相同的元数据信息的个数进行确定。例如,可以采用相同的元数据信息的个数除以待处理数据所具有的元数据信息的总个数,得到相同的元数据信息在总体元数据信息中所占比例,将该比例作为元数据信息相似度。假设所述元数据信息包括数据ID、标题、分类、格式、关键词和来源共6项,其中待处理数据的元数据信息中有4项信息与已存储数据的元数据信息相同,则相似度可以确定为66.7%。
[0058]步骤104:获取所述待处理数据的第一数据描述信息;
[0059]所述数据描述信息,是指用于对数据内容进行描述的信息。所述数据描述信息通常可以由人工编辑生成。
[0060]假设有一份待存储数据为随机采样的40个亚洲人的人脸图像信息数据。则相应的第一数据描述信息就可以为“亚洲随机40人人脸图像信息”。
[0061]步骤105:获取所述已存储数据的第二数据描述信息;
[0062]步骤106:比对所述第一数据描述信息与所述第二数据描述信息,得到数据描述相似度;
[0063]具体的,可以采用SimHash算法计算所述第一数据描述信息与所述第二数据描述信息之间的海明距离,根据所述海明距离确定所述第一数据描述信息与所述第二数据描述信息之间的的数据描述相似度。
[0064]步骤107:对所述元数据信息相似度和所述数据描述相似度进行加权平均,得到总相似度;
[0065]具体的,对于所述元数据信息相似度和所述
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1