利用搜索引擎鉴定文档抄袭的装置的制造方法

文档序号:10534823阅读:433来源:国知局
利用搜索引擎鉴定文档抄袭的装置的制造方法
【专利摘要】本发明涉及网络技术领域,特别是一种利用搜索引擎鉴定文档抄袭的装置,包括具有网络连接的操作主机,操作主机上设有段落提取模块和文档抄袭鉴定模块,操作主机按如下步骤执行文档是否抄袭的鉴定:1)打开一篇文档;2)提取文档内段落并转换成字符串;3)调用文档抄袭鉴定模块,通过搜索引擎对段落内容进行查询,如果有抄袭部分,则返回一个记录抄袭内容和网址的数组;4)如果有返回数组,则按返回数组对提取的段落进行标记,如果文档还有其他段落,则返回步骤(2)继续提取下一个段落;5)处理完最后一个段落,则文档处理完毕,保存并显示处理结果。该装置可以自动对文档内容是否抄袭进行检索并标识,从而帮助使用者鉴别涉嫌抄袭的文章。
【专利说明】
利用搜索引擎鉴定文档抄袭的装置
技术领域
[0001]本发明涉及网络技术领域,特别是一种利用搜索引擎鉴定文档抄袭的装置。
【背景技术】
[0002]飞速发展的互联网已经渗透到每个人的日常生活中,人们的生活已经离不开网络。每天都有数以千万的新网页生成以及大量的文档上传到网络上,同时,各种博客BBS系统也会产生大量的资源,为了能够在海量的信息中很快找到自己需要的资源,搜索引擎逐渐发展起来,并且快速形成产业。目前,搜索技术的研究和进步,使得搜索的效率非常高,人们几乎可以在网络里找到任何他需要的内容。但是,技术是把双刃剑,给人们带来效率的同时,也带来了很多的弊端,比如,人们不再积极思考,遇到问题,第一个想法总是查找,到网络里搜索,这样,技术助长了人的惰性。更为严重的是,对网络资源的滥用有时甚至会导致版权等问题。面对一篇文档,如何初步鉴别一下它不是抄袭自网络呢,比如老师需要知道学生提交的论文有没有抄袭网络里的内容,编辑需要确定一篇稿件是不是来自网络里的某个博客等等。针对这些问题,本发明综合各种网络技术,给出一种方法,可以实现对文稿抄袭的初步鉴定。

【发明内容】

[0003]本发明的目的在于提供一种利用搜索引擎鉴定文档抄袭的装置,该装置可以自动对文档内容是否抄袭进行检索并标识,从而帮助使用者鉴别涉嫌抄袭的文章。
[0004]本发明采用的技术方案是:这种利用搜索引擎鉴定文档抄袭的装置,包括具有网络连接的操作主机,所述操作主机上设有段落提取模块和文档抄袭鉴定模块,所述操作主机按如下步骤执行文档是否抄袭的鉴定:
[0005](I)打开一篇文档;
[0006](2)调用段落提取模块,以提取文档内地一个段落,并将所述段落的内容转换成字符串;
[0007](3)调用文档抄袭鉴定模块,通过搜索引擎对段落内容进行查询处理,如果字符串的内容有抄袭部分,则返回一个数组,数组里记录下抄袭的内容和网址;
[0008](4)如果有返回数组,则在打开的文档内按返回数组对提取的段落进行修改:把段落中涉及抄袭的内容进行标记,并把抄袭的网址插入段落的末尾;如果文档还有其他段落,则返回步骤(2)继续提取下一个段落;
[0009](5)处理完最后一个段落,则文档处理完毕,保存并显示处理结果。
[0010]上述文档抄袭鉴定模块按如下步骤执行段落内容的查询处理:
[0011 ] (I)利用标点符号作为分割符,将字符串的内容拆分成若干独立的句子,然后依次处理每个句子;
[0012](2)取出第i个句子,以所述第i个句子作为关键字形成搜索引擎的URL地址;
[0013](3)以形成的URL地址为入口参数,利用搜索引擎得到搜索页面,并提取搜索页面中目标网页的超级链接数组;
[0014](4)利用超级链接数组H[k]得到相对应的网页内容,返回一个所述网页内容的字符串S ;
[0015](5)查看第i句与第I句的内容是否同时出现在S内,第i句与第2句的内容是否同时出现在S内,……,第i句与最后一个句子的内容是否同时出现在S内,如果在,则进行计数,并记下总的计数值count ;
[0016](6)如果count大于实现规定的认定抄袭的值,则记录下数组(i, count, H[k]);
[0017](7)将得到的数组(i,count, H[k])进行合并:如果得到两段内容有包含关系,则舍弃长度小的,保存长度较大的结果;
[0018](8)将合并后的结果返回。
[0019]本发明的显著特点是可以检索出文档中从网络上抄袭的文字,并对抄袭内容进行标识,从而可以对文档与网络上内容出现雷同的情况进行直观的观察,并根据程序处理的结果,辅助人们做出判断,此文档是否涉嫌抄袭。在当前网络飞速发展的背景下,在网络资源爆炸增长的今天,本发明具有非常广泛的应用领域和广阔的市场前景。
[0020]下面结合附图及具体实施例对本发明作进一步的详细说明。
【附图说明】
[0021]图1是本发明的工作原理图。
【具体实施方式】
[0022]本发明的利用搜索引擎鉴定文档抄袭的装置,包括具有网络连接的操作主机,其特征在于:所述操作主机上设有段落提取模块和文档抄袭鉴定模块,所述操作主机按如下步骤执行文档是否抄袭的鉴定:
[0023](I)打开一篇文档;
[0024](2)调用段落提取模块,以提取文档内的一个段落,并将所述段落的内容转换成字符串;
[0025](3)调用文档抄袭鉴定模块,通过搜索引擎对段落内容进行查询处理,如果字符串的内容有抄袭部分,则返回一个数组,数组里记录下抄袭的内容和网址:
[0026](4)如果有返回数组,则在打开的文档内按返回数组对提取的段落进行修改:把段落中涉及抄袭的内容进行标记,并把抄袭的网址插入段落的末尾:如果文档还有其他段落,则返回步骤(2)继续提取下一个段落:
[0027](5)处理完最后一个段落,则文档处理完毕,保存并显示处理结果。
[0028]上述文档抄袭鉴定模块按如下步骤执行段落内容的查询处理:
[0029](I)利用标点符号作为分割符,将字符串的内容拆分成若干独立的句子,然后依次处理每个句子;
[0030](2)取出第i个句子,以所述第i个句子作为关键字形成搜索引擎的URL地址;
[0031](3)以形成的URL地址为入口参数,利用搜索引擎得到搜索页面,并提取搜索页面中目标网页的超级链接数组;
[0032](4)利用超级链接数组H[k]得到相对应的网页内容,返回一个所述网页内容的字符串S ;
[0033](5)查看第i句与第I句的内容是否同时出现在S内,第i句与第2句的内容是否同时出现在S内,……,第i句与最后一个句子的内容是否同时出现在S内,如果在,则进行计数,并记下总的计数值count ;
[0034](6)如果count大于实现规定的认定抄袭的值,则记录下数组(i, count, H[k]);
[0035](7)将得到的数组(i,count, H[k])进行合并:如果得到两段内容有包含关系,则舍弃长度小的,保存长度较大的结果;
[0036](8)将合并后的结果返回。
[0037]涉及的相关技术:
[0038]I)本发明处理的文档包括各种常用文档,如word,pdf,excel等,为了通过程序来处理这些文档,段落提取模块通过第三方数据包或程序接口来完成这一任务,如Jacob数据包或COM技术,从而使本发明的段落提取模块具备如下功能:1、可以提取文档内容,并把内容转换为字符串;2、能识别文档中插入的图片;3、能够对文档进行排版。
[0039]2)为了实现搜索查询模块的功能,本发明通过面向对象编程的编程平台,如最常用的Java,实现了以下几个工具类,供程序其他部分调用:
[0040]工具1:把字符串拆分成句子的分析器。把字符串拆分成独立的句子,用标点符号作为分割符来实现。
[0041]工具2:根据关键字进行搜索的类。依据关键字形成搜索引擎的URL,然后可以得到相应的搜索结果,网页内容或者是超级链接。
[0042]工具3:从网页中提取超链接的类。在网页中包含的超级链接要通过程序提取出来,所用的搜索引擎不同,提取方法也不同,但都是可以准确定位提取的。
[0043]工具4:获取网页内容的类。入口参数为一 URL地址,返回值为网页内容的字符串。
[0044]工具5保存结果的数组类。用于保存中间结果的数组类,用于返回值的传递。
[0045]以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
【主权项】
1.一种利用搜索引擎鉴定文档抄袭的装置,包括具有网络连接的操作主机,其特征在于:所述操作主机上设有段落提取模块和文档抄袭鉴定模块,所述操作主机按如下步骤执行文档是否抄袭的鉴定: (1)打开一篇文档; (2)调用段落提取模块,以提取文档内的一个段落,并将所述段落的内容转换成字符串; (3)调用文档抄袭鉴定模块,通过搜索引擎对段落内容进行查询处理,如果字符串的内容有抄袭部分,则返回一个数组,数组里记录下抄袭的内容和网址; (4)如果有返回数组,则在打开的文档内按返回数组对提取的段落进行修改:把段落中涉及抄袭的内容进行标记,并把抄袭的网址插入段落的末尾;如果文档还有其他段落,则返回步骤(2)继续提取下一个段落; (5)处理完最后一个段落,则文档处理完毕,保存并显示处理结果。2.根据权利要求1所述的利用搜索引擎鉴定文档抄袭的装置,其特征在于:所述文档抄袭鉴定模块按如下步骤执行段落内容的查询处理: (1)利用标点符号作为分割符,将字符串的内容拆分成若干独立的句子,然后依次处理每个句子; (2)取出第i个句子,以所述第i个句子作为关键字形成搜索引擎的URL地址; (3)以形成的URL地址为入口参数,利用搜索引擎得到搜索页面,并提取搜索页面中目标网页的超级链接数组; (4)利用超级链接数组H[k]得到相对应的网页内容,返回一个所述网页内容的字符串S ; (5)查看第i句与第I句的内容是否同时出现在S内,第i句与第2句的内容是否同时出现在S内,……,第i句与最后一个句子的内容是否同时出现在S内,如果在,则进行计数,并记下总的计数值count ; (6)如果count大于实现规定的认定抄袭的值,则记录下数组(i,count, H[k]); (7)将得到的数组(i,count,H[k])进行合并:如果得到两段内容有包含关系,则舍弃长度小的,保存长度较大的结果; (8)将合并后的结果返回。
【文档编号】G06F17/30GK105893365SQ201410589378
【公开日】2016年8月24日
【申请日】2014年10月18日
【发明人】郑强, 柳素梅
【申请人】重庆普石科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1