一种基于相似度的网页标题抽取方法

文档序号:10570105阅读:588来源:国知局
一种基于相似度的网页标题抽取方法
【专利摘要】本发明公开了一种基于相似度的网页标题抽取方法,利用网页标题与正文信息之间的关系,通过计算语言“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力,时长前景广阔。
【专利说明】
一种基于相似度的网页标题抽取方法
技术领域
[0001]本发明属于网页方法领域,更具体地说,本发明涉及一种基于相似度的网页标题抽取方法。
【背景技术】
[0002]网页文档作为互联网信息的一种载体,人们通过网页文档可以发布和获取各种各样的信息。随着网络信息量的与日倶增,互联网上的海量信息在丰富了人们信息来源的同时,也给人们获取感兴趣的信息带来了困难。面对海量的信息,如何有效地抽取网页文档中的数据,是关系到如何有效快捷地获取目标信息的关键技术之一。

【发明内容】

[0003]本发明所要解决的问题是提供一种基于相似度的网页标题抽取方法。
[0004]为了实现上述目的,本发明采取的技术方案为:
一种基于相似度的网页标题抽取方法,包括如下步骤:
(1)网页文档预处理
计算句子之间的相似度,首先将网页文档中含有的信息转换为文本文档表示,将经过划分后的段落或句子等同定义为一个语言“单位;
(2)相似度计算
利用正向迭代最细粒度切分算法分词后的公共子词语方式计算单位间的相似度;
(3)权值计算
根据相似度,得到权值计算公式:Weight (unit-1 ) = ESim(unit-1,unit_j)(i# j),其中unit-1为需要计算权值的单位,Sim(unit-1,1111;[1:-」)为1111;[1:-;[与1111;[1:-」的相似度;
(4)文档标题的选取的预处理
将整篇文本文档以“\ η”划分成多个语言单位,通过计算后,表示成Collect1rK <unit i,weight i> > sortList;
(5)标题的选取
①首先对sortList按照文档中的单位unit的权值Weighi/(unit)进行升序排序;
②计算所有顶点的度数和TTCT以及权值大于等于A的顶点总个数PCT;
③计算平均度的阈值aveCT;
④选取sortList中序号idx较小的两个语言单位作为候选标题;
⑤比较两个候选单位的权值,选取权值较大的单位作为抽取“真实标题”的结果。
[0005]优选的,所述步骤(2)中相似度计算的公式为 SimCunit-1?unit-2)
=Sim(set-1,set -2)
=(sameCT* sameCT)/log( size (set-1)+(set-2)),其中 set_l,set -2 分别为需要计算的两个单位unit-1和unit-2经过迭代分词后的词语集合,sameCT为set-1和set _2两个集合的共同词语的次数之和,size (set)表示set集合的长度。
[0006]优选的,所述sameCT的计算公式为sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi eset-1或Wordi eset_2。
[0007]优选的,所述步骤(3)中权值计算后通过HITS算法模型进行权值的加权调整。
[0008]优选的,所述步骤(5)选取后对标题抽取进行评测。
[0009]优选的,所述评测的公式为准确率=(标题抽取正确的HTML文档数目/总的HTML文档数目)*100%。
[0010]有益效果:本发明提供了一种基于相似度的网页标题抽取方法,利用网页标题与正文信息之间的关系,通过计算语言“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力,时长前景广阔。
【具体实施方式】
[0011]—种基于相似度的网页标题抽取方法,包括如下步骤:
(1)网页文档预处理
计算句子之间的相似度,首先将网页文档中含有的信息转换为文本文档表示,将经过划分后的段落或句子等同定义为一个语言“单位;
(2)相似度计算
利用正向迭代最细粒度切分算法分词后的公共子词语方式计算单位间的相似度,所述相似度计算的公式为
SimCunit-1,unit-2)
=SimCset-1,set -2)
=CsameCT* sameCT)/log(size(set~l)+(set-2)),其中set_l,set -2分别为需要计算的两个单位unit-1和unit-2经过迭代分词后的词语集合,sameCT为set-1和set _2两个集合的共同词语的次数之和,size (set)表示set集合的长度,所述sameCT的计算公式为sameCT= Σ CTl(ffordi)+ Σ CT2(ffordi),ffordieset_l或Wordi eset-2;
(3)权值计算
根据相似度,得到权值计算公式:Weight (unit-1 ) = ESim(unit-1,unit_j)(i# j),其中unit-1为需要计算权值的单位,Sim(unit-1,unit-j)为unit-1与unit-j的相似度,权值计算后通过HITS算法模型进行权值的加权调整;
(4)文档标题的选取的预处理
将整篇文本文档以“\ η”划分成多个语言单位,通过计算后,表示成Collect1rK <unit i,weight i> > sortList;
(5)标题的选取
①首先对sortList按照文档中的单位unit的权值Weighi/(unit)进行升序排序;
②计算所有顶点的度数和TTCT以及权值大于等于A的顶点总个数PCT;
③计算平均度的阈值aveCT;
④选取sortList中序号idx较小的两个语言单位作为候选标题;
⑤比较两个候选单位的权值,选取权值较大的单位作为抽取“真实标题”的结果; (6)标题抽取后评测
评测的公式为准确率=(标题抽取正确的HTML文档数目/总的HTML文档数目)*100%。
[0012]本发明提供了一种基于相似度的网页标题抽取方法,利用网页标题与正文信息之间的关系,通过计算语言“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力,时长前景广阔。
[0013]以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1.一种基于相似度的网页标题抽取方法,其特征在于,包括如下步骤: (1)网页文档预处理 计算句子之间的相似度,首先将网页文档中含有的信息转换为文本文档表示,将经过划分后的段落或句子等同定义为一个语言“单位; (2)相似度计算 利用正向迭代最细粒度切分算法分词后的公共子词语方式计算单位间的相似度; (3)权值计算 根据相似度,得到权值计算公式:Weight(unit-1)=ΣSim(unit-1,unit-j)(i#j),其中unit-1为需要计算权值的单位,Sim(unit-1,1111;[1:-」)为1111;[1:-;[与1111;[1:-」的相似度; (4)文档标题的选取的预处理 将整篇文本文档以“\ η”划分成多个语言单位,通过计算后,表示成Collect1rK <unit i,weight i> > sortList; (5)标题的选取 ①首先对sortList按照文档中的单位unit的权值Weighi/(unit)进行升序排序; ②计算所有顶点的度数和TTCT以及权值大于等于A的顶点总个数PCT; ③计算平均度的阈值aveCT; ④选取sortList中序号idx较小的两个语言单位作为候选标题; ⑤比较两个候选单位的权值,选取权值较大的单位作为抽取“真实标题”的结果。2.按照权利要求1所述的一种基于相似度的网页标题抽取方法,其特征在于:所述步骤(2)中相似度计算的公式为 SimCunit-1,unit-2) =SimCset-1,set _2) =CsameCT* sameCT)/log( size (set-1)+(set-2)),其中 set_l, set -2 分别为需要计算的两个单位unit-1和unit-2经过迭代分词后的词语集合,sameCT为set-1和set _2两个集合的共同词语的次数之和,size (set)表示set集合的长度。3.按照权利要求2所述的一种基于相似度的网页标题抽取方法,其特征在于:所述sameCT的计算公式为sameCT=ECTl(Wordi)+ECT2(Wordi) ,ffordi e set_l或Wordi e set-2。4.按照权利要求1所述的一种基于复杂网络的灰度图像识别方法,其特征在于:所述步骤(3)中权值计算后通过HITS算法模型进行权值的加权调整。5.按照权利要求1所述的一种基于相似度的网页标题抽取方法,其特征在于:所述步骤(5)选取后对标题抽取进行评测。6.按照权利要求5所述的一种基于相似度的网页标题抽取方法,其特征在于:所述评测的公式为准确率=(标题抽取正确的HTML文档数目/总的HTML文档数目)*100%。
【文档编号】G06F17/22GK105930541SQ201610484263
【公开日】2016年9月7日
【申请日】2016年6月28日
【发明人】董雄飞
【申请人】合肥酷睿网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1