文本复制检测装置的利记博彩app

文档序号:6589998阅读:277来源:国知局
专利名称:文本复制检测装置的利记博彩app
技术领域
本实用新型所涉及的是一种文本复制检测装置,属于智能信息处理和计算机技术 领域。
背景技术
文本复制检测是指判断一篇文档是否抄袭、剽窃或者拷贝了其他一篇或多篇文档 的内容。剽窃不完全等同于抄袭,而是通过一定的词位变换、同义词替换等多种手段来抄袭 其他文档的内容。抄袭检测是知识产权保护的重要手段之一。目前,文本复制检测技术主要有两种方法一种是指纹检测法,一种是词频检测 法。所谓指纹检测法是指从文本内容中提取一些称为指纹的特征串,根据指纹雷同率来判 断一篇文档对哪些文档进行了抄袭或剽窃。所谓词频检测法是指通过统计文本中各个词的 出现频率,对每篇文档得到一个特征向量,然后利用在两篇文档的特征向量上计算某种度 量,对两篇文档的相似度得出一个量化指标,依据此指标判断是否进行了抄袭或剽窃。传统的指纹检测法可以精确的定位到被复制内容。但是,由于需要读取大量的指 纹数据,不可避免的将发生大量磁盘1/0,使得检测效率比较低。词频检测法由于需要读取 的数据量较小,因此效率相对较高。但是,由于词频检测法对整个内容提取特征,当复制内 容只占整篇文本很小的一部分时,词频检测法很难检测出来。

实用新型内容为了解决现有技术存在的问题,本实用新型目的在于提供一种文本复制检测装 置,能够在计算机缓存中对指纹索引进行B+树结构存储,节省了磁盘1/0,提高了检测效率。本实用新型所述文本复制检测装置的技术方案如下—种文本复制检测装置,包括B+树指纹索引单元、管理单元以及文本检测单元, 其中所述文本检测单元与B+树指纹索引单元相连接,用于从待测文本中抽取指纹,并从B+ 树指纹索引单元中获取与所述指纹对应的索引信息,进行检测;并且所述管理单元分别与 B+树指纹索引单元以及文本检测单元相连接,用于对输入的信息进行判断,如果是建立索 引,则通过所述B+树指纹索引单元建立索引;如果是进行检测,则通过所述文本检测单元 对待测文本进行检测。最好是,所述管理单元包括输入判断子单元以及数据库子单元,所述输入判断子 单元对输入信息进行判断,如果是建立索引,将文件存储到所述数据库子单元,并通过B+ 树指纹索引单元建立索引。最好是,所述B+树指纹索引单元包括指纹索引建立子单元和缓存存储子单元,所 述指纹索引建立子单元对数据库文件抽取指纹,建立索引,并通过缓存存储子单元进行存 储。最好是,所述文本检测单元包括指纹提取存储子单元、查找子单元以及检测子单元,所述指纹提取存储子单元从待测文本中提取指纹,所述查找子单元从B+树指纹索引单 元中查找所述指纹对应的索引,所述检测子单元对待测文本进行检测。 进一步,所述检测子单元包括并行计算模块、匹配模块和相关度模块,所述并行计 算模块进行多节点并行检索,通过匹配模块对待测文本的指纹与B+树指纹索引单元中对 应的指纹以及索引进行匹配,并通过相关度模块进行相关度计算和排序。所述指纹索引包括一级索引和/或二级索引,其内容包括指纹、记录号以及位置 编码。所述B+树采用指纹_位置+记录号编码,其中指纹和位置一起编码作为B+树的 关键字,记录号作为数据指针。或者是,所述B+树采用指纹+位置_记录号编码,其中指纹作为B+树的关键字, 位置和记录号一起编码作为数据指针。本实用新型所述文本复制检测装置,采用B+树结构建立并存储指纹索引,对数据 库文件进行检索,节省了磁盘1/0,提高了检索效率。

图1是本实用新型所述文本复制检测装置的结构示意图;图2是本实用新型所述文本复制检测装置的另一种结构示意图;图3是本实用新型所述文本复制检测装置的详细结构示意图;图4是本实用新型所述文本复制检测装置中检测子单元的结构示意图;图5是本实用新型所述文本复制检测装置的应用结构图。
具体实施方式
本实用新型提供了一种文本复制检测装置,基于指纹检测法,为在海量文本数据 上进行文本复制检测提供高效的检索服务。本装置的指纹检测原理与传统指纹检测不同, 采用B+树建立并存储指纹索引,节约了磁盘1/0,提高了检索效率。通过使用本装置,可在 0. 1秒以内,快速的从4000万篇文献中快速的找到与待检测的文本最有可能有复制关系的 100篇文献。再通过对这些少量文献采用一定的比对,就可以精确判断其复制关系。下面通过具体实施例对所述文本复制检测装置进行说明。如图1所示,本实用新型所述的文本复制检测装置,包括B+树指纹索引单元以及 文本检测单元,所述文本检测单元从待测文本中抽取指纹,从B+树指纹索引单元中查找所 述指纹对应的索引信息,进行检测。其中,B+树指纹索引单元具体来说用于抽取数据库文件的指纹,采用B+树结构建 立指纹索引,并通过计算机内存缓存索引策略。文本检测单元用于抽取待测文本的指纹,基 于指纹检测法对待测文本进行检测。进一步,如图2所示,本实用新型所述的文本复制检测装置还包括管理单元,所述 管理单元对输入信息进行判断,如果是建立索引,则通过所述B+树指纹索引单元建立索 引;如果是进行检测,则通过所述文本检测单元对待测文本进行检测。具体来说,如图3所示,所述管理单元包括输入判断子单元以及数据库子单元,所 述输入判断子单元对输入信息进行判断,如果是建立索引,将文件存储到所述数据库子单
4元,并通过B+树指纹索引单元建立索引。所述输入判断子单元用于输入文件的相关信息,并判断该信息表示建立指纹索引 还是文本检测;数据库子单元用于存储和管理数据库文件。本实用新型所述文本复制检测装置通过B+树指纹索引单元,建立指纹索引并通 过计算机缓存该索引的索引策略,节约了磁盘1/0,提高了检测效率。下面对所述B+树指纹索引单元进行详细说明。如图3所示,所述B+树指纹索引单元包括指纹索引建立子单元和存储子单元,所 述指纹索引建立子单元对数据库文件抽取指纹,建立索引,并通过缓存存储子单元进行存 储。其中,指纹索引建立子单元对数据库中的记录进行指纹抽取,并采用B+树结构建 立索引。每条记录代表一篇文献。B+树索引结构可以采用指纹-位置+记录号编码方式, 也可以采用指纹+位置_记录号编码。在指纹_位置+记录号编码结构中,记录号作为数据 指针。这种方式一棵B+树能够管理2G条记录,能够很好的满足大数据量的实际应用。在 指纹+位置_记录号的编码结构中,每一部分对应一个B+树,要支持较大规模的表将需要 多棵B+树,每棵管理一定范围的记录。存储子单元用于对指纹索引策略进行存储。采用B+树结构进行存储时,相关指纹 及索引信息存储在B+树叶节点中,利用具有大量物理内存的计算机缓存。例如2000万篇 期刊文献的数据,文本数据量约是150G,其指纹索引量约是25G,指纹索引可以完全加载到 具有32G物理内存的服务器中。本实用新型所述文本复制检测装置中,当进行文本复制检测时,文件检测单元提 取待测文本的指纹,遍历接口,查询每一个指纹的记录号和位置信息,并在指纹、记录ID和 位置之间进行匹配,满足匹配条件的结果根据一定的策略得出相关度,根据相关度的排序 获取具有复制可能的数据库文件。下面对文件检测单元进行具体说明。如图3所示,本实用新型所述文本复制检测装置中,所述文本检测单元包括指纹 提取存储子单元、查找子单元以及检测子单元,所述指纹提取存储子单元从待测文本中提 取指纹,所述查找子单元从B+树指纹索引单元中查找所述指纹对应的索引,所述检测子单 元对待测文本进行检测。具体来讲,指纹提取存储子单元将待测文本转换为一组指纹,并进行存储。指纹提 取可以采用一级指纹提取方式,即每句话提取一个指纹;为了提高检测速度,也可以采用二 级指纹提取方式,即多句话提取一个指纹。查找子单元用于从指纹索引中获取指纹的记录 ID以及位置列表;检测子单元用于通过并行计算,对指纹和查询到的记录、位置进行匹配, 满足匹配条件的结果根据一定的策略得出相关度。其中,如图4所示,所述检测子单元包括并行计算模块、匹配模块和相关度模块, 所述并行计算模块进行多节点并行检索,通过匹配模块对待测文本的指纹与B+树指纹索 引单元中对应的指纹以及索引进行匹配,并通过相关度模块进行相关度计算和排序。并行计算模块进行并行计算,多节点并行执行检测,支持待比对的数据库文件的 规模达到TB级;匹配模块用于对指纹和查询到的记录、位置分别进行匹配。可以采用的匹 配方式是当检索条件中的指纹中,有一定比例的指纹数都在某条记录中出现时,并不要求
5每个记录都包含所有指纹,则该记录满足匹配条件。相关度模块用于计算待测文本与数据 库文件的相关度,并对相关度进行排序。相关度可以采用如下的计算方式记指纹i和指纹i+1之间的最小距离为mindist[i],待测文本第一个指纹和最后 一个指纹的距离用maxdist表示。计算2*(1+maxdist-mindist[i])并求和。对符合匹配条件的每个记录计算相关度,并进行排序,相关度值越大,说明待测文 本与数据库中该记录越具有复制可能。通过使用本文本复制装置,可在0. 1秒以内,快速的 从4000万篇文献中快速的找到与待测文本最有可能有复制关系的100篇文献。再通过对 这些少量文献采用一定的比对,就可以精确判断其复制关系。本实用新型所述文本复制检测装置,在实际应用中,以KBASE全文数据库管理系 统为例,可以采用如下的应用结构。硬件部分包括工作站、便携电脑、复制检测服务器以及文本比对服务器。如图5所示,工作站、便携电脑,可以是多台,提供用户人机交互功能,以及提供待 测文本;复制检测服务器,配备32G内存。2000万篇期刊文献的数据,文本数据量约是150G, 其指纹索引量约是25G,指纹索引可以完全加载到具有32G物理内存的服务器中,复制检测 服务器支持并行计算,根据KBASE数据库文献数量可以选用2台;文本比对服务器,对相关 度较大的一定数量的文献,进行比对,可以精确判断复制关系。软件部分可以采用具有本实用新型所述文本复制检测装置设置的KBASE全文数 据库管理系统。综上所述,本实用新型所述文本复制检测装置,通过建立B+树指纹索引,并通过 具有大量物理内存的计算机缓存指纹索引策略,采用并行计算体系,实现几秒内完成从TB 级文本中查找出文本复制片段,提高了检测效率。虽然上面针对文本复制检测装置描述了本实用新型的原理以及具体实施方式
,但 是,在本实用新型的上述引导下,本领域技术人员可以在上述实施例的基础上进行各种改 进和变形,而这些改进或者变形落在本实用新型的保护范围内。本领域技术人员应该明白, 上面的具体描述只是为了解释本实用新型的目的,并非用于限制本实用新型。因此,本实用 新型的思想并不限定于以上说明的实施例,本实用新型的思想范畴不仅包括权利要求书记 载的范围,还包括与权利要求等同或者等价的变形。
权利要求一种文本复制检测装置,其特征在于所述文本复制检测装置包括B+树指纹索引单元、管理单元以及文本检测单元,其中所述文本检测单元与B+树指纹索引单元相连接,用于从待测文本中抽取指纹,并从B+树指纹索引单元中获取与所述指纹对应的索引信息,进行检测;并且所述管理单元分别与B+树指纹索引单元以及文本检测单元相连接,用于对输入的信息进行判断,如果是建立索引,则通过所述B+树指纹索引单元建立索引;如果是进行检测,则通过所述文本检测单元对待测文本进行检测。
2.根据权利要求1所述的文本复制检测装置,其特征在于所述管理单元包括输入判断子单元以及数据库子单元,所述输入判断子单元对输入信 息进行判断,如果是建立索引,将文件存储到所述数据库子单元,并通过B+树指纹索引单 元建立索引。
3.根据权利要求2所述的文本复制检测装置,其特征在于所述B+树指纹索引单元包括指纹索引建立子单元和缓存存储子单元,所述指纹索引 建立子单元对数据库文件抽取指纹,建立索引,并通过缓存存储子单元进行存储。
4.根据权利要求3所述的文本复制检测装置,其特征在于所述文本检测单元包括指纹提取存储子单元、查找子单元以及检测子单元,所述指纹 提取存储子单元从待测文本中提取指纹,所述查找子单元从B+树指纹索引单元中查找所 述指纹对应的索引,所述检测子单元对待测文本进行检测。
5.根据权利要求4所述的文本复制检测装置,其特征在于所述检测子单元包括并行计算模块、匹配模块和相关度模块,所述并行计算模块进行 多节点并行检索,通过匹配模块对待测文本的指纹与B+树指纹索引单元中对应的指纹以 及索引进行匹配,并通过相关度模块进行相关度计算和排序。
6.根据权利要求5所述的文本复制检测装置,其特征在于所述指纹索引包括一级索引和/或二级索引,其内容包括指纹、记录号以及位置编码。
7.根据权利要求6所述的文本复制检测装置,其特征在于所述B+树采用指纹_位置+记录号编码,其中指纹和位置一起编码作为B+树的关键 字,记录号作为数据指针。
8.根据权利要求6所述的文本复制检测装置,其特征在于所述B+树采用指纹+位置_记录号编码,其中指纹作为B+树的关键字,位置和记录号 一起编码作为数据指针。
专利摘要本实用新型公开了一种文本复制检测装置,属于智能信息处理和计算机技术领域。所述文本复制检测装置包括B+树指纹索引单元、管理单元以及文本检测单元。其中,所述文本检测单元与B+树指纹索引单元相连接,用于从待测文本中抽取指纹,并从B+树指纹索引单元中获取与所述指纹对应的索引信息,进行检测;并且所述管理单元分别与B+树指纹索引单元以及文本检测单元相连接,用于对输入的信息进行判断,如果是建立索引,则通过所述B+树指纹索引单元建立索引;如果是进行检测,则通过所述文本检测单元对待测文本进行检测。本实用新型所述文本复制检测装置,能够在计算机缓存中对指纹索引进行B+树结构存储,节省了磁盘I/O,提高了检测效率。
文档编号G06F17/30GK201654778SQ200920151678
公开日2010年11月24日 申请日期2009年4月22日 优先权日2009年4月22日
发明者张振海, 陈琳 申请人:同方知网(北京)技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1