一种论文自检方法及系统的利记博彩app
【技术领域】
[0001 ]本发明属于文本检测领域,尤其涉及一种论文自检方法及系统。
【背景技术】
[0002] 论文抄袭检测是指判断某一篇论文是否涉嫌抄袭其他一篇或多篇文档的文本内 容。但由于抄袭并不完全等同于复制,而是有可能通过一定的语义变换、同义词替换或翻译 外文文档等多种手段来涉嫌抄袭其他文档的文本内容。
[0003] 目前,论文抄袭检测技术主要有两种方法:一种是通过指纹识别检测法,一种是通 过基于文本里段落词频统计检测法。所谓指纹识别是指从提交的原文文本内容中提取一些 称为指纹的数据特征串,根据指纹的相同率来判断某一篇文档是否对其他文档进行了抄 袭。所谓段落词频统计检测法是指对提交的文本进行分词,通过统计文本中各个段落的出 现频率,设定一个阈值后将待查文本的每个数组与查询文本的每个数组进行比较,最后依 据此指标来判断是否进行了抄袭。现有技术中的上述方法存在一定程度的识别率率低、效 率不高等问题。
【发明内容】
[0004] 为克服上述现有技术的不足,本发明提供了一种论文自检方法及系统。
[0005] 本发明提供了一种论文自检方法及系统。用户写作风格相似度计算模块用于计算 当前用户写作风格相似度,用户写作风格相似度判断模块将当前用户写作风格相似度Sim T (USER)与系统预设的自我审核门限进行比较;当用户写作风格相似度SimT(USER)高于所述 自我审核门限时,即可认为当前用户提交的待审核文档与用户写作风格不一致;当用户写 作风格相似度Sim T(USER)低于所述自我审核门限时,即可认为当前用户提交的待审核文档 与用户写作风格一致。
[0006]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
【附图说明】
[0007] 图1示出了根据本发明的一个实施例的论文自检系统的框图;
[0008] 图2示出了根据本发明的一个实施例的滑动窗口检测法。
【具体实施方式】
[0009] 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合 附图及较佳实施例,对依据本发明提出的系统及方法【具体实施方式】、特征及其功效,详细说 明如后。在下述说明中,不同的"一实施方式"或"实施方式"指的不一定是同一实施方式。此 外,一或多个实施方式中的特定特征、结构、或特点可由任何合适形式组合。
[0010]如图1所示,本发明的论文自检系统(下称系统)中包含素材子系统;用户子系统; 疑似素材提取子系统;对比子系统,其中所述素材子系统,用于准备供抄袭检测对比使用的 素材;用户子系统,用户管理用户登录信息,以及确定用户写作风格;疑似素材提取子系统, 用于从对比库中提取与待鉴定文档的疑似素材;对比子系统,用于将疑似素材与待鉴定文 档进行对比,生成对比报告。
[0011] 根据本发明的一个【具体实施方式】,素材子系统可以进一步包括:对比库;分词库, 分词库中包含同义近义词库以及中外文同义词库;分词模块;分词组模块;中外文分词组模 块;分词词性分类模块;分词组词性分类模块;中外文分词组词性分类模块;分词特征值生 成模块;分词组特征值生成模块;中外文分词组特征值生成模块;分词紧密系数生成模块; 分词组紧密系数生成模块;中外文分词组紧密系数生成模块;分词紧密系数特征向量生成 模块;分词组紧密系数特征向量生成模块;中外文分词组紧密系数特征向量生成模块;分词 自由向量维数确定模块;分词组自由向量维数确定模块;中外文分词组自由向量维数确定 模块;分词精简向量维数生成模块;分词组精简向量维数生成模块;中外文分词组精简向量 维数生成模块;分词特征向量生成模块;分词组特征向量生成模块;以及中外文分词组特征 向量生成模块中的一个或多个。
[0012] 根据本发明的一个【具体实施方式】,用户子系统可以进一步包括:用户访问方式检 测模块;用户检测模式确定模块;用户写作风格测试模块;测试图片文字描述特征值生成模 块;测试文章文字描述特征值生成模块;测试图片文字描述特征向量生成模块;测试文章文 字描述特征向量生成模块;测试图片基准特征向量生成模块;测试文章基准特征向量生成 模块;用户测试图片文字描述特征值生成模块;用户测试图片文字描述特征向量生成模块; 用户图片写作风格特征向量生成模块;用户测试文章文字描述特征值生成模块;用户测试 文章文字描述特征向量生成模块;用户文章写作风格特征向量生成模块;用户写作风格特 征向量生成模块;待审核文档特征值生成模块;待审核文档特征值特征向量生成模块;用户 写作风格相似度计算模块;用户写作风格判断模块;用户写作风格结构助词判断模块中的 一个或多个。
[0013] 根据本发明的一个【具体实施方式】,疑似素材提取子系统可以进一步包括:待鉴定 文档分词模块;待鉴定文档分词组模块;待鉴定文档中外文分词组模块;待鉴定文档分词词 性分类模块;待鉴定文档分词组词性分类模块;待鉴定文档中外文分词组词性分类模块;待 鉴定文档分词特征值生成模块;待鉴定文档分词组特征值生成模块;待鉴定文档中外文分 词组特征值生成模块;待鉴定文档分词紧密系数生成模块;待鉴定文档分词组紧密系数生 成模块;待鉴定文档中外文分词组紧密系数生成模块;待鉴定文档分词紧密系数特征向量 生成模块;待鉴定文档分词组紧密系数特征向量生成模块;待鉴定文档中外文分词组紧密 系数特征向量生成模块;待鉴定文档分词自由向量维数确定模块;待鉴定文档分词组自由 向量维数确定模块;待鉴定文档中外文分词组自由向量维数确定模块;待鉴定文档分词精 简向量维数生成模块;待鉴定文档分词组精简向量维数生成模块;待鉴定文档中外文分词 组精简向量维数生成模块;待鉴定文档分词特征向量生成模块;待鉴定文档分词组特征向 量生成模块;待鉴定文档中外文分词组特征向量生成模块;待鉴定文档特征向量调整模块; 素材特征向量调整模块;普通抄袭鉴定相似度计算模块,扩展抄袭鉴定相似度计算模块;多 语种抄袭鉴定相似度计算模块;待鉴定文档紧密系数统计模块;素材紧密系数统计模块;公 式提取模块;公式分解模块;紧密系数疑似素材提取模块中的一个或多个。
[0014] 根据本发明的一个【具体实施方式】,对比子系统可以进一步包括:滑动窗口设置模 块;滑动窗口对比模块以及对比报告生成模块。
[0015] 根据本发明的一个具体实施方中,所述系统包括对比库,用于收录用作对比对象 的素材。所述对比库进一步包括书籍库、论文库、专利库、公式库、谤语俗语库、谤语库、名人 名言库、诗词库等子库。其中,书籍库用于收录公开出版的书籍;论文库用于收录期刊论文、 会议论文、学位论文等;专利库用于收录专利公开文档等。收录素材时,需要进一步保存所 述素材的来源,例如书籍的出版日期、出版社、作者、书号等;期刊论文的发表日期,对应期 刊的刊名、期号、作者等;会议论文的会议名称、会议召开地点,会议召开日期,作者等;学位 论文的学校、毕业年份、学位等级、作者等;根据所收录的素材来源信息,本领域技术人员可 以唯一获得所述素材。优选地,对比库收录的素材不限于中文素材,还进一步包含外文素 材。对比库建立后还需要定期或不定期地进行维护,补充新增的书籍、期刊论文、会议论文、 学位论文以及专利公开文档等。谤语俗语库用于收录在网络或大众之间广为流传的句子、 短语等素材。名人名言库用于收录名人名言素材,诗词库用于收录诗、词、歌、赋等素材。在 对比库中进一步建立谤语俗语库、名人名言库、诗词库等的目的是将作为对比对象的素材 范围从传统的书籍、论文、专利文档等进一步扩展,提高抄袭检测的全面性。本领域技术人 员知晓,对比库还可以进一步收录其他类型的素材,在此不再赘述。
[0016] 优选地,对比库在收录素材时,按照素材所属领域进行分类。根据本发明的一个具 体实施方式,领域标识可以采用中国图书馆分类法中的类目,所述中国图书馆分类法共5个 基本部类,22个大类,采用汉语拼音字母与阿拉伯数字结合的混合号码,用一个字母代表一 个大类,以字母顺序反映大类的次序,在字母后用数字作标记。例如,A1表示马克思、恩格斯 著作,K6表示大洋洲史,TN表示电子技术、通信技术。为适用工业技术发展,对工业技术的二 级类目采用双字母。本领域技术人员知晓,还可以采用其他的分类体系对素材进行领域标 识。
[0017] 优选地,对比库在收录素材时,对所收录的素材按照标题、作者、摘要以及正文的 方式进行分别标引。对于每个素材的标题、作者、摘要以及正文各部分之间建立关联关系, 即通过其中的任一部分可以获得同一素材的其余部分。
[0018] 优选地,对比库在收录素材时,对所收录的素材中存在的公式进行提取复制,并建 立公式库进行单独保存。所述公式库中的每个公式都与其被提取的素材建立有关联关系, 通过公式库中的公式即可获取其对应的素材全文。根据本发明的一个【具体实施方式】,在收 录公式时,将公式的各自变量参数以及因变量参数以及运算符号分别进行提取保存。根据 本发明的一个【具体实施方式】,提取出公式的各自变量参数以及应变量参数后进一步提取各 参数的具体含义、量纲以及取值范围,并分别进行保存。根据本发明的一个【具体实施方式】, 提取出公式的运算符号后,进一步对运算符加以中外文文字注释。在公式库中,所收录的每 一个公式均保存有各自对应的自变量参数以及因变量参数的符号表示,各自变量、因变量 具体含义的中外文表述,量纲以及取值范围以及运算符与运算符的中外文文字注释。在对 比库中进一步建立公式库的目的是将作为对比对象的素材范围进一步扩展到公式对比,提 高抄袭检测的全面性。本领域技术人员知晓,对比库还可以对素材中的其他内容进一步进 行提取,例如化学式、基因序列等,在此不再赘述。
[0019] 根据本发明的一个【具体实施方式】,所述对比库采用分布式方式存储于不同的站点 位置;访问对比库时可根据不同站点的负载情况选取特定站点进行访问。各站点统计当前 单位时间段内从对比库中被提取的素材数量,所述素材数量可以为素材的个数或者素材的 字节数;得到本站点的平均负载量;各站点周期性地将本站点的平均负载量上报疑似素材 提取子系统;当所述疑似素材提取子系统需要从对比库中提取素材用于选取疑似素材时, 根据最近上报的各站点的平均负载量选取平均负载量最低的一个站点进行访问;其中的单 位时间段由系统进行设置;可以根据实际需要选取为5分钟、10分钟、30分钟或者60分钟。根 据本发明的一个【具体实施方式】,所述对比库中不同子库可采用分布式方式存储于不同的站 点位置;访问对比库时根据不同子库所存放的站点位置分别进行访问。疑似素材提取子系 统需要从对比库中提取素材用于选取疑似素材时,根据所要提取素材的所属领域或者所属 类型,选择不同的对比子库进行访问。
[0020]根据本发明的一个【具体实施方式】,系统中包含分词库,用于收录分词及对应词性。 所述分词库由系统事先设置,并定期维护,补增新词等。优选地,分词库中针对每一分词进 行唯一编号,可以使用W_ID表不某一分词在分词库中的唯一编号。所述分词库保存有分词 的词性,诸如名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词。 根据本发明的一个【具体实施方式】,根据词性将分词结果划分为实词与虚词,其中实词包括 名词、动词、形容词、数词、量词和代词;虚词包括副词、介词、连词、助词、叹词、拟声词。优选 地,分词库中进一步收录有同义近义词库,其中将含义相同或相近的分词构成一组,以组为 单位进行编号。多个意思相同或相近的分词对应于一个分词组编号,可以使用WG_ID表示某 一分词在分词库中的唯一编号。优选地,分词库中进一步收录有中外文同义近义词库,其中 将含义相同或相近的中外文分词构成一组,以组为单位进行编号。多个意思相同或相近的 中外文分词对应于一个中外文分词组编号,可以使用WFG_ID表不某一中外文分词组在分词 库中的唯一编号。
[0021 ]根据本发明的一个【具体实施方式】,系统中包含分词模块,用于对各素材进行分词, 并将分词结果保存至对比库中。优选地,分词模块将分词结果与分词库保存的词性进行比 对,确定分词结果的词性。优选地,分词词性分类模块根据分词结果对应的词性对分词结果 进行分类处理。
[0022] 根据本发明的一个【具体实施方式】,系统中包含分词组模块,用于对各素材进行分 词,并将分词组结果保存至对比库中。优选地,分词组模块将分词结果与分词库保存的词性 进行比对,确定分词组结果的词性。优选地,分词组词性分类模块根据分词组结果对应的词 性对分词组结果进行分类处理。
[0023] 根据本发明的一个【具体实施方式】,系统中包含中外文分词组模块,用于对各素材 进行分词,并将中外文分词组结果保存至对比库中。优选地,中外文分词组模块将中外文分 词结果与分词库保存的词性进行比对,确定中外文分词组结果的词性。优选地,中外文分词 组词性分类模块根据中外文分词组结果对应的词性对中外文分词组结果进行分类处理。
[0024] 根据本发明的一个【具体实施方式】,分词词性分类模块、分词组词性分类模块以及 中外文分词组词性分类模块分别根据词性将分词结果、分词组结果以及中外文分词组划分 为A类实词、B类实词、C类实词、D类实词以及V类虚词,其中A类实词包括名词;B类实词包括 动词、形容词;C类实词包括数词、量词;D类实词包括代词;V类虚词包括副词、介词、连词、助 词、叹词、拟声词。优选地,分词库中进一步将名词划分为专业术语以及普通名词。根据本发 明的一个【具体实施方式】,根据词性将分词结果划分为A1类实词、A2类实词、B类实词、C类实 词、D类实词以及V类虚词,其中A1类实词包括专业术语名词;A2类实词包括普通名词;B类实 词包括动词、形容词;C类实词包括数词、量词;D类实词包括代词;V类虚词包括副词、介词、 连词、助词、叹词、拟声词。本领域技术人员可以根据实际需要选取不同的分类处理方案。
[0025] 根据本发明的一个【具体实施方式】,分词特征值生成模块统计每一个分词在对应素 材中出现的数量,生成每一个分词对应的分词特征值WCV= [W_ID,W_N],其中W_ID表示该分 词在分词库中的唯一编号,W_N表不该分词在该素材中出现的总次数。优选地,考虑到每一 个分词的词性,分词特征值生成模块生成分词词性特征值WCCV= [W_ID,W_N,W_CHAR],其中 W_CHAR表示该分词的词性。
[0026] 根据本发明的一个【具体实施方式】,分词组特征值生成模块统计每一个分词组在对 应素材中出现的数量,生成每一个分词组对应的分词组特征值WGCV= [WG_ID,WG_N],其中 WG_ID表不该分词组在分词库中的唯一编号,WG_N表不该分词组在该素材中出现的总次数。 优选地,考虑到每一个分词组的词性,分词组特征值生成模块生成分词组词性特征值WGCCV =[WG_ID,WG_N,WG_CHAR],其中WG_CHAR表示该分词组的词性。
[0027] 根据本发明的一个【具体实施方式】,中外文分词组特征值生成模块统计每一个中外 文分词组在对应素材中出现的数量,生成每一个中外文分词组对应的分词组特征值WFGCV = [WFG_ID,WFG_N],其中WFG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该 中外文分词组在该素材中出现的总次数。优选地,考虑到每一个中外文分词组的词性,分词 组特征值生成模块生成中外文分词组词性特征值WFGCCV=[WFG_ID,WFG_N,WFG_CHAR],其 中WFG_CHAR表示该中外文分词组的词性。
[0028] 根据本发明的一个【具体实施方式】,分词紧密系数生成模块用于生成分词紧密系 数。所述分词紧密系数是指同一分词在整个素材中相邻两次出现所间隔的分词数量。根据 本发明的一个【具体实施方式】,每一个分词对应的分词紧密系数表不为WGC= [G_W_ID_1,G_ W_ID_2,…,G_W_ID_(W_N-1)],其中,G_W_ID_1表示该分词在该素材中第一次出现与第二次 出现之间所间隔的分词数量,G_W_ID_2表示该分词在该素材中第二次出现与第三次出现之 间所间隔的分词数量,G_W_ID_(W_N-1)表示该分词在该素材中第W_N-1次出现与第W_N次出 现之间所间隔的分词数量;G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)即为该分词对应的分 词紧密系数。根据本发明的一个【具体实施方式】,分词紧密系数特征向量生成模块生成分词 紧密系数特征向量WGCVE= [W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)], 其中W_ID表不该分词在分词库中的唯一编号,W_N表不该特定分词在该素材中的分词总次 数,W_CHAR表示该分词的词性。通过分词紧密系数,可以获知特定分词在对应素材中的整体 分布情况。
[0029] 根据本发明的一个【具体实施方式】,分词组紧密系数生成模块用于生成分词组紧密 系数。所述分词组紧密系数是指同一分词组在整个素材中相邻两次出现所间隔的分词数 量。根据本发明的一个【具体实施方式】,每一个分词组对应的分词组紧密系数表示为WGGC = [G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)],其中,G_WG_ID_1 表示该分词组在该素材 中第一次出现与第二次出现之间所间隔的分词数量,G_WG_ID_2表示该分词组在该素材中 第二次出现与第三次出现之间所间隔的分词数量,G_WG_ID_(WG_N-1)表示该分词组在该素 材中第WG_N-1次出现与第WG_P0:出现之间所间隔的分词数量;G_WG_ID_ 1,G_WG_ID_2,…, G_WG_ID_(WG_N-1)即为该分词组对应的分词组紧密系数。根据本发明的一个具体实施方 式,分词组紧密系数特征向量生成模块生成分词组紧密系数特征向量WGGCVE = [ WG_ID,WG_ N,WG_CHAR,G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)],其中WG_ID表示该分词组在分 词库中的唯一编号,WG_N表不该特定分词组在该素材中的分词总次数,WG_CHAR表不该分词 组的词性。通过分词组紧密系数,可以获知特定分词组在对应素材中的整体分布情况。
[0030] 根据本发明的一个【具体实施方式】,中外文分词组紧密系数生成模块用于生成中外 文分词组紧密系数。所述中外文分词组紧密系数是指同一中外文分词组在整个素材中相邻 两次出现所间隔的分词数量。根据本发明的一个【具体实施方式】,每一个中外文分词组对应 的中外文分词组紧密系数表示为WFGGC= [G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)],其中,G_WFG_ID_1表示该中外文分词组在该素材中第一次出现与第二次出现之间所间 隔的分词数量,G_WFG_ID_2表示该中外文分词组在该素材中第二次出现与第三次出现之间 所间隔的分词数量,G_WFG_ID_(WFG_N-1)表示该中外文分词组在该素材中第WFG_N-1次出 现与第WFG_P0:出现之间所间隔的分词数量;G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_ N-1)即为该中外文分词组对应的分词组紧密系数。根据本发明的一个【具体实施方式】,中外 文分词组紧密系数特征向量生成模块生成中外文分词组紧密系数特征向量WFGGCVE = [WFG_ID,WFG_N,WFG_CHAR,G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)],其中WFG_ ID表不该中外文分词组在分词库中的唯一编号,WFG_N表不该特定中外文分词组在该素材 中的分词总次数,WFG_CHAR表示该中外文分词组的词性。通过中外文分词组紧密系数,可以 获知特定中外文分词组在对应素材中的整体分布情况。
[0031] 根据本发明的一个【具体实施方式】,分词自由向量维数确定模块根据素材的分词结 果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到 的不同分词的数量。当素材的篇幅较短或者其中的分词结果较少时,所得到的分词自由向 量维数WFV较少;当素材的篇幅较长或者其中的分词结果较多时,所得到的分词自由向量维 数WFV较多。
[0032] 根据本发明的一个【具体实施方式】,分词组自由向量维数确定模块根据素材的分词 结果确定分词组自由向量维数WGFV;所述分词组自由向量维数WGFV等于对特定素材进行分 词后得到的不同分词组的数量。当素材的篇幅较短或者其中的分词组结果较少时,所得到 的分词组自由向量维数WGFV较少;当素材的篇幅较长或者其中的分词组结果较多时,所得 到的分词组自由向量维数WGFV较多。
[0033] 根据本发明的一个【具体实施方式】,中外文分词组自由向量维数确定模块根据素材 的分词结果确定中外文分词组自由向量维数WFGFV;所述中外文分词组自由向量维数WFGFV 等于对特定素材进行分词后得到的不同中外文分词组的数量。当素材的篇幅较短或者其中 的中外文分词组结果较少时,所得到的中外文分词组自由向量维数WFGFV较少;当素材的篇 幅较长或者其中的分词组结果较多时,所得到的中外文分词组自由向量维数WFGFV较多。
[0034] 根据本发明的一个【具体实施方式】,分词精简向量维数生成模块用于对每个素材的 分词自由向量维数WFV进行精简,生成分词精简向量维数RWV。所述分词精简向量维数RWV由 系统指定。优选地,系统指定分词精简向量维数RWV为500。优选地,系统指定分词精简向量 维数RWV为800。优选地,系统指定分词精简向量维数RWV为1000。
[0035] 根据本发明的一个【具体实施方式】,分词精简向量维数生成模块采用等间隔抽取法 对分词自由向量维数WFV进行精简。精简过程如下:判断分词自由向量维数WFV是否大于分 词精简向量维数RWV,如果是,则将分词自由向量维数WFV除以系统指定的分词精简向量维 数RWV,并对所得到的商值进行上取整运算,进一步得到精简系数REDU;则在分词自由向量 维数WFV所对应的特征值中每间隔REDU-1个提取一个特征值;当所有特征值提取完毕后,判 断所提取的特征值的数量是否等于分词精简向量维数RWV;当所提取的特征值的数量等于 分词精简向量维数RWV时,则完成分词自由向量维数WFV精简;当所提取的特征值的数量小 于分词精简向量维数RWV时,则计算分词精简向量维数RWV与特征值数量的差值;在未被提 取的特征值中随机提取与分词精简向量维数RWV与特征值的差值数量相等的特征值,完成 分词自由向量维数WFV的精简。
[0036] 根据本发明的一个【具体实施方式】,分词精简向量维数生成模块采用词性筛选法对 分词自由向量维