一种违禁品别名在线自动获取方法及系统的利记博彩app

文档序号:6603416阅读:259来源:国知局
专利名称:一种违禁品别名在线自动获取方法及系统的利记博彩app
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。
背景技术
随着互联网的普及,越来越多的网上贸易市场平台出现在互联网上,在带来便利 的同时也出现了在市场平台上出售违禁物品的现象。平台的管理者要防止这一现象的发 生,通常的做法是建立一张违禁物品的名称列表,当商品出售者发布的商品名称和列表中 的名称相同时,判断该商品为违禁品。违禁品的出售者为了逃避管理者的审查,常用的方法是修改发布的违禁物品名 称,将其改为管理者的列表中所没有的违禁物品别名,从而逃避审查。所以管理者要有效的 对违禁物品进行管理,就需要获得违禁物品名称的别名。但是违禁物品的别名多种多样,一 方面每一种违禁物品都有许多现存的别名,另一方面随着时间的推移会有新的别名出现, 用人工的方法收集违禁物品别名费时费力。

发明内容
为了克服上述人工收集违禁物品别名费时费力的不足,本发明的目的是提供一种 违禁品别名在线自动获取方法及系统,利用搜索引擎自动获取违禁物品别名。为达到上述目的,本发明采用如下的技术方案一种违禁品别名在线自动获取方法,包括语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该步 骤进一步包括以下子步骤①人为提供违禁品名称pi和p2,将“pl”、“p2”分别提交给百度搜索,分别抓取前 100条返回结果的网页标题,同时将“pl’x‘p2”一起提交给百度,抓取前100条返回结果的网 页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z ;②对集合Z使用下述正则表达式 抽取其中所含的特殊格式,然后再次使用下述正则表达式 从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起 构成集合S ;③对S中的每一个元素q分别计算q和pl,p2的Google距离,选取两个距离中较 小的一个做为q的分值,其中Google距离计算公式如下 其中f(x)为利用Baidu搜索χ所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x, y)为利用BaidU搜索χ和y所找到的网页篇数,N为Baidu索引的 页面篇数,在我们这里近似的取N等于10的10次方;④从S中选出具有代表性并且和(pl,p2)的相关程度比较高的别名作为种子集合 E ;⑤将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题, 将这些标题放在 一起构成语料C ;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽 取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该步骤进一 步包括以下子步骤①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K,从 K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的 交集组成集合R,作为(pl,p2)的概念代表;②使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T ;③计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的 分值,公式如下 分值越低代表该别名和(pl,p2)所表示的违禁品相关程度越高,分值越高则相关 程度越低,将T中的元素按照分值排序后输出。
所述语料创建步骤的子步骤④中,按照以下条件从集合S中挑选种子s s的分值小于0. 4 ;s在Z中出现的频次大于1次;在以上两个限制条件下按语料创建步骤的子步骤③中计算出的分值排序,分值最 小的前20个候选别名做为种子集合E。所述违禁品别名抽取步骤的子步骤②中,过滤的具体子步骤包括将K中的每一个元素a表示为η维向量(abin)的形式,其中η为K中元素的个 数;从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种 子集合E的交集组成集合R,作为(pl,p2)的概念代表;如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。一种违禁品别名在线自动获取系统,包括语料创建模块,用于利用搜索引擎创建语料,该语料含有指定违禁品的多种别名, 该模块进一步包括以下子模块第一子模块人为提供违禁品名称pl和ρ2,将“pl”、“p2”分别提交给百度搜索, 分别抓取前100条返回结果的网页标题,同时将“pl” “p2”一起提交给百度,抓取前100条 返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构 成为集合Z ;第二子模块对集合Z使用下述正则表达式
抽取其中所含的特殊格式,然后再次使用下述正则表达式 从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起 构成集合S ;第三子模块对S中的每一个元素q分别计算q和pl,p2的Google距离,选取两 个距离中较小的一个做为q的分值,其中Google距离计算公式如下 其中f (χ)为利用Baidu搜索χ所找到的网页篇数,f(y)为利用Baidu搜索y所 找到的网页篇数,f(x, y)为利用BaidU搜索χ和y所找到的网页篇数,N为Baidu索引的 页面篇数,在我们这里近似的取N等于10的10次方;第四子模块从S中选出具有代表性并且和(pl,p2)的相关程度比较高的别名作 为种子集合E ;第五子模块将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前 200条标题,将这些标题放在一起构成语料C ;违禁品别名抽取模块,用于从创建的语料中抽取出别名,并利用Google距离对每 个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该模块 进一步包括以下子模块第一子模块使用语料创建模块中使用的正则表达式从C中抽取出候选别名,构 成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种 子集合E的交集组成集合R,作为(pl,p2)的概念代表;第二子模块使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集 合记为T ;第三子模块计算T中每一个元素和R中所有元素的Google平均距离,将该值作 为该元素的分值,公式如下 分值越低代表该别名和(pl,p2)所表示的违禁品相关程度越高,分值越高则相关 程度越低,将T中的元素按照分值排序后输出。所述语料创建模块的第四子模块中,按照以下条件从集合S中挑选种子s s的分值小于0. 4 ;s在Z中出现的频次大于1次;在以上两个限制条件下,按照语料创建模块的第三子模块中计算出的分值排序, 分值最小的前20个候选别名做为种子集合E。所述违禁品别名抽取模块的第二子模块中,过滤的具体子模块包括子模块A 将K中的每一个元素a表示为η维向量(al··· an)的形式,其中η为K 中元素的个数;子模块B 从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(pl,p2)的概念代表;子模块C 如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则 将该元素过滤掉。本发明具有以下优点和积极效果只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的 各种别名,获取的别名召回率高,节约了大量的时间和人力。


图1是本发明提供的违禁品别名在线自动获取方法的整体流程图。图2是本发明提供的违禁品别名在线自动获取方法中语料创建的流程图。图3是本发明提供的违禁品别名在线自动获取方法中违禁品别名抽取的流程图。
具体实施例方式违禁品的出售者为了提高被搜索引擎检索到的机会,会在出售违禁品的网页标题 中放入一定数目的违禁品别名,此现象就给我们提供了一种解决问题的方法。本发明提供的违禁品别名在线自动获取方法,包括语料创建、违禁品别名抽取两 个步骤,其中语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名。向搜 索引擎提交人为提供的两个违禁品别名的组合,在搜索引擎的返回结果中存在一些出售该 违禁品的网站,此类网站的标题一般具有一定的特殊格式,利用这种特殊格式可以从中抽 取出一定量的候选违禁品别名。为了过滤掉候选违禁品别名中与违禁品不相关的词条,选 出具有代表性的违禁品别名,我们使用Google距离和频次信息作为衡量候选违禁品别名 和违禁品相关程度的标准,使用该标准选出一些具有代表性的违禁品别名作为种子集合。 种子集合中的元素两两组合后提交给搜索引擎,搜索引擎的返回结果放在一起构成语料。违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽 取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。利用商品出 售网站标题的特殊格式从上一步创建的语料中抽取出候选别名,从中选出和违禁品最相关 的一些别名作为该违禁品的概念代表集合。为了减少计算量,使用向量法利用概念代表集 合对候选违禁品别名进行过滤,过滤掉和违禁品不相关的候选别名。对余下的候选别名计 算其和违禁品概念代表集合的平均Google距离,将最后的结果按计算的平均Google距离 排序后输出。其中,语料创建步骤,包括以下子步骤1、人为提供违禁品名称pi和p2,将“pl”、“p2”分别提交给百度搜索,分别抓取前 100条返回结果的网页标题,同时将“pl’x‘p2”一起提交给百度,抓取前100条返回结果的网 页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z ;2、对集合Z使用下述正则表达式 抽取其中所含的特殊格式,然后再次使用下述正则表达式 从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起 构成集合S ;3、对S中的每一个元素q分别计算q和pl,p2的Google距离,选取两个距离中较 小的一个做为q的分值,其中Google距离计算公式如下Google Dist^ce^y) = ^ax(log/(X),l0g/(y))-iog/(x,y) L 」 log^-mindog/WJog/W)其中f (χ)为利用Baidu搜索χ所找到的网页篇数,f(y)为利用Baidu搜索y所 找到的网页篇数,f(x, y)为利用BaidU搜索χ和y所找到的网页篇数,N为Baidu索引的 页面篇数,在我们这里近似的取N等于10的10次方。4、从S中选出具有代表性并且和(pl,p2)的相关程度比较高的别名作为种子集合 E05、将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题, 将这些标题放在一起构成语料C。其中,违禁品别名抽取步骤,包括以下子步骤1、使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K。2、从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中 种子集合E的交集组成集合R,作为(pl,p2)的概念代表。使用向量法将集合K中的一部 分非违禁品别名过滤掉,过滤后的集合记为T。3、计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的 分值,公式如下 分值越低代表该别名和(pl,p2)所表示的违禁品相关程度越高,分值越高则相关 程度越低,将T中的元素按照分值排序后输出。参见图1所示的违禁品别名在线自动获取方法的整体流程图,下面结合具体实施 例来描述先将人为提供的同一违禁品的两个名称(pl,p2)提交给搜索引擎,比如pl = “铁 拳套”,p2 = “手扣”;在搜索引擎返回的结果中会存在一些出售该类违禁品的网站,比如“特 价合金手扣/铁四指/铁拳套-8mm金色版拳套-Xiangl233-…”;其标题会含有一定数目 的违禁品别名,比如上例中就出现了 “铁四指”这个违禁品别名;而且这类网站的标题格式 通常比较特别,比如上例中的格式为“别名1/别名2/别名3”,类似的特殊格式还有许多, 为了抽取出他们,我们使用了一个正则表达式
来概括这类格式。只要把这些别名抽取出来,并使用一些方法对 其是否为违禁品别名的可能性作出判断即可,但是这样获得的违禁品别名数目相对而言还 比较少,不利于保障违禁品别名的召回率和进行数据分析,所以需要对pl,P2的搜索结果 进行扩充,构建一个包含更多违禁品别名的语料C。首先利用正则表达式将搜索(pl,p2)返回结果中可能的违禁品别名抽取出来,然 后根据频次信息和Google距离从中选取有代表性的违禁品别名,将这些有代表性的违禁 品别名放在一起构成种子集合E,最后将种子集合E中的别名两两组合后提交给搜索引擎,搜索引擎的返回结果全部放在一起构建成最终的语料C,在C中包含许多指定违禁品的别名。违禁品别名抽取步骤用于从语料创建步骤创建的语料C中抽取违禁品别名并对每一个别名给予一定的分值,该分值表示此别名和(pl,p2)所表示的违禁品的相关程度。因为C是围绕(pl,p2)构建的,所以C中出现次数最多的几个候选别名可以很好 的描述(pl,p2)所代表的违禁品概念,选出在C中出现频次最高的10个别名中同时出现在 种子集合E中的元素构成集合R。首先利用正则表达式从C中抽取候选违禁品别名,然后使 用候选违禁品别名的向量特征和集合R过滤掉其中一部分非违禁品别名以减少计算量,最 后计算过滤后余下的每一个候选别名和R中元素的平均Google距离,将这一数值作为该候 选别名的分值。分值越低代表该别名和(Pl,P2)所表示的违禁品的相关程度越高,分值越 高则该别名和(pl,p2)所表示的违禁品的相关程度越低。参见图2所示的语料创建模块的流程图,具体实施步骤如下1、人为提供违禁品名称pl和p2,比如pl = “铁拳刺”,p2 = “铁四指”;将“pl”提 交给百度,抓取前100条返回结果的网页标题。将“P2”提交给百度,抓取前100条返回结 果的网页标题。将“pl” “p2” 一起提交给百度,抓取前100条返回结果的网页标题及标题 下方百度提供的网页内容摘要,将以上所有的抓取内容放在一起构成为集合Z。2、对集合Z使用正则表达式 抽取其中所含的特殊格式,比如“铁拳刺\骷髅铁拳套\铁拳头\铁四指”;然后再次使用正则表达式 从上一步的结果中抽取候选的违禁品别名,比如从“铁拳刺\骷髅铁拳套\铁拳头 \铁四指”中抽取出““铁拳刺”,“骷髅铁拳套”,“铁拳头”,“铁四指”,将抽取的候选违禁物品 别名放在一起构成集合S。3、对S中的每一个元素q分别计算q和pl,p2的Google距离,选取两个距离中较 小的一个做为q的分值。2007年RL Cilibrasi等人提出的Google距离计算公式如下 其中f (χ)为利用Baidu搜索χ所找到的网页篇数,f(y)为利用Baidu搜索y所 找到的网页篇数,f(x, y)为利用BaidU搜索χ和y所找到的网页篇数,N为Baidu索引的 页面篇数,在我们这里近似的取N等于10的10次方。4、从S中挑选种子s,用于在下一步中构建语料C,所以s应该具备有代表性并且 和(pl,p2)的相关程度比较高这两个条件,在这里我们按照以下条件从S中挑选种子s:①s的分值小于0. 4,之所以使用这个条件是因为Google距离从某种程度上能够 反映两个词之间的相关程度,这样有助于提高种子集合中元素和(pl,p2)的相关度;②s在Z中出现的频次大于1次,之所以使用这个条件是因为种子集合的元素应 该具备一定的代表性,仅仅出现一次很可能过于特殊,这样可以保证由S构造的语料C中违 禁物品别名的召回率比较高;
③在以上两个限制条件下按步骤3中计算出的分值排序,分值最小的前20个候选 别名做为种子集合E。5、将E中的元素两两组合后分别提交给百度,比如E = {al, a2, a3},那么将al, a2放在一起,向搜索引擎提交“al a2”,同样将al,a3放在一起,向搜索引擎提交“al a3”, 将a2,a3放在一起,向搜索引擎提交“a2 a3” ;抓取每次返回结果的前200条标题,将这些 标题放在一起构成语料C。参见图3所示的违禁品别名抽取模块的流程图,具体实施步骤如下1、对集合C使用正则表达式 抽取其中所含的特殊格式,比如“指虎\铁手扣\铁拳头\铁四指”;然后再次使用正则表达式 从上一步的结果中抽取候选的违禁品别名,比如从“指虎\铁手扣\铁拳头\铁四 指”中抽取出““指虎”,“铁手扣”,“铁拳头”,“铁四指””,将抽取的候选违禁物品别名放在一 起构成集合K。2、集合K中的元素数目一般比较大,直接进行接下来步骤代价过高。为了提高效 率,有必要先将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T,过滤的具体 步骤如下①将K中的每一个元素a表示为η维向量(aPin)的形式,其中η为K中元素的 个数。预先对K中的元素制定一个顺序,ai为a和第i个元素在C中的所有标题内的同 现次数之和。比如假设C = { “出售手扣,拳套”,“铁四指/手扣专卖”},κ = { “手扣”,“铁 四指”,“拳套”},预先制定的顺序为“手扣拳套铁四指”,那么手扣的向量表示为(2,1,1),铁 四指的向量表示为(1,0,1),拳套的向量表示为(1,1,0)。②因为C是围绕(pl,p2)构建的,所以C中出现次数最多的几个候选别名可以很 好的描述(pi,p2)所代表的违禁品概念。从K中选出最高频的10个候选违禁品别名组成 集合F,取F和语料创建模块中种子集合E的交集组成集合R,作为(pl,p2)的概念代表。③如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素 过滤掉。3、计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的 分值,公式如下 分值越低代表该别名和(pl,p2)所表示的违禁品相关程度越高,分值越高则相关 程度越低,将T中的元素按照分值排序后输出。本发明同时提供一种违禁品别名在线自动获取系统,包括语料创建模块,用于利用搜索引擎创建语料,该语料含有指定违禁品的多种别名, 该模块进一步包括以下子模块
第一子模块人为提供违禁品名称pi和p2,将“pl”、“p2”分别提交给百度搜索, 分别抓取前100条返回结果的网页标题,同时将“pi” “ρ2”一起提交给百度,抓取前100条 返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构 成为集合Z ;第二子模块对集合Z使用下述正则表达式 抽取其中所含的特殊格式,然后再次使用下述正则表达式 从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起 构成集合S ;第三子模块对S中的每一个元素q分别计算q和pl,p2的Google距离,选取两 个距离中较小的一个做为q的分值,其中Google距离计算公式如下 其中f(x)为利用Baidu搜索χ所找到的网页篇数,f(y)为利用Baidu搜索y所 找到的网页篇数,f(x, y)为利用BaidU搜索χ和y所找到的网页篇数,N为Baidu索引的 页面篇数,在我们这里近似的取N等于10的10次方;第四子模块从S中选出具有代表性并且和(pl,p2)的相关程度比较高的别名作 为种子集合E ;第五子模块将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前 200条标题,将这些标题放在一起构成语料C ;违禁品别名抽取模块,用于从创建的语料中抽取出别名,并利用Google距离对每 个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该模块 进一步包括以下子模块第一子模块使用语料创建模块中使用的正则表达式从C中抽取出候选别名,构 成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种 子集合E的交集组成集合R,作为(pl,p2)的概念代表。第二子模块使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集 合记为T ;第三子模块计算T中每一个元素和R中所有元素的Google平均距离,将该值作
为该元素的分值,公式如下 分值越低代表该别名和(pl,p2)所表示的违禁品相关程度越高,分值越高则相关 程度越低,将T中的元素按照分值排序后输出。所述语料创建模块的第四子模块中,按照以下条件从集合S中挑选种子s s的分值小于0.4;s在Z中出现的频次大于1次;在以上两个限制条件下,按照语料创建模块的第三子模块中计算出的分值排序,分值最小的前20个候选别名做为种子集合E。所述违禁品别名抽取模块的第二子模块中,过滤的具体子模块包括 子模块A 将K中的每一个元素a表示为η维向量(al··· an)的形式,其中η为K 中元素的个数;子模块B 从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建 模块中种子集合E的交集组成集合R,作为(pl,p2)的概念代表;子模块C 如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则 将该元素过滤掉。本发明提供的方法中所采用的正则表达式,属于本领域公知的技术手段,为了便 于理解本发明,下面对正则表达式予以简要介绍在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串 的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换 那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操 作。正则表达式由一些普通字符和一些元字符组成,普通字符包括大小写的字母和数字,而 元字符则具有特殊的含义,我们下面会给予解释。在最简单的情况下,一个正则表达式看上去就是一个普通的查找串。正确的理解
元字符是最重要的事情,下表列出了所有的元字符和对它们的一个简短的描述。
权利要求
一种违禁品别名在线自动获取方法,其特征在于,包括以下步骤语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该步骤进一步包括以下子步骤①人为提供违禁品名称p1和p2,将“p1”、“p2”分别提交给百度搜索,分别抓取前100条返回结果的网页标题,同时将“p1”“p2”一起提交给百度,抓取前100条返回结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为集合Z;②对集合Z使用下述正则表达式″[\\,、-/|,\-\s](([\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]){2,})″抽取其中所含的特殊格式,然后再次使用下述正则表达式″[\u4e00-\u9fa5]{2,5}[\\,、-/|,\-\s]″从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成集合S;③对S中的每一个元素q分别计算q和p1,p2的Google距离,选取两个距离中较小的一个做为q的分值,其中Google距离计算公式如下 GoogleDis tan ce ( x , y ) = max ( log f ( x ) , log f ( y ) ) - log f ( x , y ) log N - min ( log f ( x ) , log f ( y ) ) 其中f(x)为利用Baidu搜索x所找到的网页篇数,f(y)为利用Baidu搜索y所找到的网页篇数,f(x,y)为利用Baidu搜索x和y所找到的网页篇数,N为Baidu索引的页面篇数,在我们这里近似的取N等于10的10次方;④从S中选出具有代表性并且和(p1,p2)的相关程度比较高的别名作为种子集合E;⑤将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条标题,将这些标题放在一起构成语料C;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该步骤进一步包括以下子步骤①使用语料创建步骤中使用的正则表达式从C中抽取出候选别名,构成集合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集合E的交集组成集合R,作为(p1,p2)的概念代表;②使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记为T;③计算T中每一个元素和R中所有元素的Google平均距离,将该值作为该元素的分值,公式如下 score ( t ) = Σ r ∈ R GoogleDis tan ce ( t , r ) | R | 分值越低代表该别名和(p1,p2)所表示的违禁品相关程度越高,分值越高则相关程度越低,将T中的元素按照分值排序后输出。
2.根据权利要求1所述的违禁品别名在线自动获取方法,其特征在于所述语料创建步骤的子步骤④中,按照以下条件从集合S中挑选种子s s的分值小于0. 4 ;s在Z中出现的频次大于1次;在以上两个限制条件下按语料创建步骤的子步骤③中计算出的分值排序,分值最小的 前20个候选别名做为种子集合E。
3.根据权利要求1或2所述的违禁品别名在线自动获取方法,其特征在于 所述违禁品别名抽取步骤的子步骤②中,过滤的具体子步骤包括将K中的每一个元素a表示为η维向量(&1···&η)的形式,其中η为K中元素的个数; 从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建步骤中种子集 合E的交集组成集合R,作为(pl,p2)的概念代表;如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该元素过滤掉。
4.一种违禁品别名在线自动获取系统,其特征在于,包括语料创建模块,用于利用搜索引擎创建语料,该语料含有指定违禁品的多种别名,该模 块进一步包括以下子模块第一子模块人为提供违禁品名称Pl和Ρ2,将“pl”、“p2”分别提交给百度搜索,分别 抓取前100条返回结果的网页标题,同时将“pi” “ρ2”一起提交给百度,抓取前100条返回 结果的网页标题及标题下方百度提供的网页内容摘要,将以上所有的抓取内容一起构成为 集合Ζ;第二子模块对集合Z使用下述正则表达式 抽取其中所含的特殊格式,然后再次使用下述正则表达式 从上一步的结果中抽取候选的违禁品别名,将抽取的候选违禁物品别名放在一起构成 集合S;第三子模块对S中的每一个元素q分别计算q和pl,p2的Google距离,选取两个距 离中较小的一个做为q的分值,其中Google距离计算公式如下 其中f (χ)为利用Baidu搜索χ所找到的网页篇数,f(y)为利用Baidu搜索y所找到 的网页篇数,f(x,y)为利用Baidu搜索χ和y所找到的网页篇数,N为Baidu索引的页面 篇数,在我们这里近似的取N等于10的10次方;第四子模块从S中选出具有代表性并且和(pl,p2)的相关程度比较高的别名作为种 子集合E;第五子模块将E中的元素两两组合后分别提交给百度,抓取每次返回结果的前200条 标题,将这些标题放在一起构成语料C ;违禁品别名抽取模块,用于从创建的语料中抽取出别名,并利用Google距离对每个抽 取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度,该模块进一 步包括以下子模块第一子模块使用语料创建模块中使用的正则表达式从C中抽取出候选别名,构成集 合K,从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块中种子集 合E的交集组成集合R,作为(pl,p2)的概念代表;第二子模块使用向量法将集合K中的一部分非违禁品别名过滤掉,过滤后的集合记 为T;第三子模块计算τ中每一个元素和R中所有元素的Google平均距离,将该值作为该 元素的分值,公式如下 分值越低代表该别名和(pi,p2)所表示的违禁品相关程度越高,分值越高则相关程度 越低,将T中的元素按照分值排序后输出。
5.根据权利要求4所述的违禁品别名在线自动获取系统,其特征在于所述语料创建模块的第四子模块中,按照以下条件从集合S中挑选种子s s的分值小于0. 4 ;s在Z中出现的频次大于1次;在以上两个限制条件下,按照语料创建模块的第三子模块中计算出的分值排序,分值 最小的前20个候选别名做为种子集合E。
6.根据权利要求4或5所述的违禁品别名在线自动获取系统,其特征在于所述违禁品别名抽取模块的第二子模块中,过滤的具体子模块包括子模块A 将K中的每一个元素a表示为η维向量(&1···&η)的形式,其中η为K中元 素的个数;子模块B 从K中选出最高频的10个候选违禁品别名组成集合F,取F和语料创建模块 中种子集合E的交集组成集合R,作为(pl,p2)的概念代表;子模块C 如果K中某一元素的向量和R中每一个元素的向量内积结果都为0,则将该 元素过滤掉。
全文摘要
本发明涉及信息抽取技术领域,尤其涉及一种违禁品别名在线自动获取方法及系统。本发明包括语料创建步骤,利用搜索引擎创建语料,该语料含有指定违禁品的多种别名;违禁品别名抽取步骤,从创建的语料中抽取出别名,并利用Google距离对每个抽取的别名给予一定的分值,该分值表示此别名和指定违禁品之间的相关程度。本发明只要人为提供同一个违禁品的两个名称,就可以利用互联网自动获得该违禁品的各种别名,获取的别名召回率高,节约了大量的时间和人力。
文档编号G06F17/30GK101847242SQ20101018899
公开日2010年9月29日 申请日期2010年5月27日 优先权日2010年5月27日
发明者何涛, 刘娟, 李凯 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1