命名实体的消歧的利记博彩app

文档序号:6357112阅读:229来源:国知局
专利名称:命名实体的消歧的利记博彩app
技术领域
本发明一般涉及信息检索系统,更具体地涉及在文档和查询内的命名实体(named entity)的消歧(disambiguation)。
背景技术
对命名实体的搜索是Web上最常见的搜索之一。这些类型的搜索包括对人、地点 (包括地理位置以及城市、州、国家等)、企业和其它组织、产品、书籍、电影等等的搜索。通常,命名实体是具有与其相关联的专有名词(或名词短语)或专有名称的任何事物。对命名实体的搜索典型地返回具有关于拥有与查询相同的名称(或甚至其一部分)的任何实体的相关信息的搜索结果集。因此,对“Long Beach(长滩)”的查询很可能返回关于在纽约州长岛的沿海城市的文档、关于在南加州的沿海城市的文档以及与词语“long(长)”和 “beach(海滩)”相关的文档。类似地,对“John Williams (约翰 威廉姆斯)”的查询将返回关于作曲家的文档、关于摔跤运动员的文档以及风险资本家,他们都共享该名称;对 “Python(巨蟒)”的查询将返回与编程语言有关的文档、与蛇有关的文档以及电影。于是潜在的问题是对命名实体的查询典型地有歧义,并且可以指相同种类的不同实例(例如,具有相同名称的不同人)、或指在不同种类中的事物(例如蛇的种类、编程语言或电影)。用于命名实体的搜索结果典型地根据查询词语的频率、页面排名或其它因素来排序,而不考虑查询的不同意义(例如名称所指的不同实体)。与不同实体有关的搜索结果易于被混合在一起。此外,还是因为搜索系统不识别名称的不同意义,所以即使用户正典型地搜索最佳描述命名实体(或相同名称的不同实体)的文档(页面),搜索结果也可能不一定包括这样的文档或不将这样的文档排名非常高。

发明内容
在本发明的一个方面中,在搜索期间使用命名实体文章的知识库来对实体名称消歧。知识库是根据文档(文章)的数据库构建的。文章包括与具有诸如“John Williams"(人),"Long Beach"(地点)、“Python” (电影、编程语言以及致命的蛇)的专有名称的命名实体、实体有关的文章。知识库包括提供对另外的歧义实体名称消歧的能力的某些特征。文章的文本提供与名称的特定意义相关联的上下文。文章还包含在实体名称的实例和链接到该名称的文章之间的链接。文章还包括将名称的替选或别名关联到特定命名实体文章的重定向文章。文章还包括对歧义名称的不同意义消歧的消歧文章。部分地使用在实体名称的每个实例和名称被链接到的相关联的文章之间的链接信息来获悉在上下文和名称的特定意义之间的关系。在评分模型中维护所获悉的关系。通过识别查询内的实体名称,并且使用评分模型来识别与该实体名称最密切关联的文章,于是可以对包括实体名称和附加关键词的搜索查询消歧。然后使用已消歧的名称和所识别的文章来扩增搜索结果,例如根据所识别的实体分组或组织相关文档。在本发明的另一个方面中,将在知识库中的文章(因此也将命名实体)与类别相关联。获悉在命名实体和类别之间的关系的力度并且将其并入评分模型,并且也使用其来对包含实体名称的查询消歧。在本发明的又一个方面中,评分模型可以用来识别未包括在知识库中的实体。本发明具有各种实施例,其包括作为计算机实现的过程、作为计算机设备、作为集成电路以及作为在通用或专用处理器上执行的计算机程序产品。


图1示出了用于本发明的一个实施例的系统架构。图2示出了从命名实体字典选择实体和相关信息。图3示出了在文章的主体中的链接和管道链接(piped link)的示例。图4示出了消歧数据集的一部分。图5示出了在内容词语和类别之间的相互关系的示例。图6示出了用于生成消歧评分模型的概括方法。仅用于说明的目的,附图描述了本发明的各种实施例。本领域技术人员从下面的论述中将容易认识到,在不背离在此描述的本发明的原理的情况下可以使用在此示出的结构和方法的替代实施例。
具体实施例方式现参考图1,示出了根据本发明的一个实施例的信息检索系统的系统架构。在该实施例中,系统100包括索引系统110、搜索系统120、展示系统130、前端服务器140、命名实体知识库150、字典模块155、命名实体字典160、消歧模块170以及数据准备模块180。系统100与文章的知识库200接口连接,所述文章包括关于命名实体的文章。系统100耦接到网络,并且通过这样的网络可以被任何类型的客户端装置访问。该系统具有两个基本的操作阶段生成已消歧的命名实体的集合以及表示特征和命名实体之间的关系的消歧排名模型230 ;以及第二,在查询处理期间使用消歧排名模型 230来识别并对包含实体名称的查询消歧。在生成阶段期间的全部操作如下。字典模块155从知识库200提取命名实体的字典(数据集)来形成命名实体字典160。从知识库200提取与包括在命名实体字典160中的命名实体相关联的文章来形成命名实体知识库150。数据准备模块180使用命名实体字典160以及在命名实体知识库150中的文章和命名实体文章的上下文(更普遍的特征)之间的超链接结构来创建消歧数据集220。消歧数据集220也可以包括用于识别与每个命名实体相关联的类别的类别信息。消歧模块170使用消歧数据集220来获悉在来自查询上下文的单词和来自类别分类的类别之间的关系的力度。消歧排名模型230用来对包含名称的 (任何类型的)查询消歧,以便帮助检索与查询相关的文档。第二阶段的全部操作如下。作为处理查询的先驱,通过访问各种网站190和其它文档集合,索引系统110负责根据文档内容(例如单词、词语、媒体)来对文档进行索引;索引系统110创建索引和内容数据库115以供在检索中使用。前端服务器140从客户端175 的用户接收查询,并且将这些查询提供给搜索系统120。查询可以是为了任何类型的信息, 但是在此感兴趣的是包括(或潜在包括)实体的名称的查询,对于所述实体的名称在命名实体知识库150中存在命名实体文章。搜索系统120负责搜索与搜索查询相关的文档(搜索结果),包括识别搜索查询中的任何实体名称,以及从内容数据库115检索与搜索查询相关的文档。搜索系统120还识别搜索结果中的实体名称,并且使用消歧排名模型230来对搜索结果中的命名实体消歧, 并且使用已消歧的名称来扩增搜索结果。扩增搜索结果包括例如根据已消歧的名称的各种意义来组织(或分组)搜索结果,基于已消歧的名称添加进一步(单独地或以组)识别或描述搜索结果的注释、摘录或其它内容,或前述的组合。例如,响应于对“John Williams" 的搜索,对于名称的任何数量的不同意义,搜索系统120可以将搜索结果分组成与作曲家 John Williams有关的一组文档,与摔跤运动员有关的第二组文档,与风险资本家有关的第三组文档等等。搜索系统120也可以选择性地包括(或排除)文档,例如,包括用于实体名称的每一个意义的一个文档(例如关于该实体的来自命名实体知识库150的文档)以及按相关性排名的剩余搜索结果。也可以容易地设计扩增的其它形式。搜索系统120将扩增的搜索结果提供给展示系统130 ;展示系统130将结果返回给客户端175。现进一步详细描述各种实施例的细节。信息检索系统100使用知识库200,其可以是信息检索系统100的一部分或独立于信息检索系统100(例如,由相同或不同的运营商或所有者维护)。知识库200包括关于各种主题的文章(或更一般地是文档)的大型(优选)集合,其提供某种类型的在线百科全书。示例性知识库200是Wikipedia (可在www, wikipedia. com获得)。在本发明的情况下,将使用术语“文章”,并且其被理解为包括可以被搜索引擎索引及检索的任何类型的媒体,包括web文档、图像、多媒体文件、文本文档、PDF或其它图像格式化文件等等。术语“文章”也可以与术语“文档”互换使用。文档可以具有一个或多个页面、分区、节段或其它组件,以适合于其内容和类型。等价地,文档可以被称为“页面”,如通常用来指因特网上的文档。通用术语“文档”或“文章”的使用不暗示对关于本发明的范围的限制。系统100在诸如因特网和万维网的大型文章库上操作,但是其也可以在更为有限的集合中被使用,诸如用于图书馆或私企的文档集合。在任一种情况中,应当理解,文章典型地分布在多个不同的计算机系统和站点上。于是不丧失一般性,不考虑格式或位置 (例如哪个网站或数据库),文章通常将被统称为库或文档集合。每一个文章具有唯一识别该文章的相关联的标识符;标识符优选是URL,但是也可以使用其它类型的标识符(例如文档号)。在本公开中,假定使用URL来识别文章。知识库200具有下述结构。知识库200包括已超链接的文章集合。每一个文章通过其标题来识别,所述标题典型地是单词序列,且第一个单词总是大写字母开头。典型地,标题是在文章中描述的实体的最常见的名称。当标题(或“名称”)有歧义时,其进一步通过括号中的表达来限定。例如,关于作曲家“John Williams”的文章具有标题 “JohnWilliams (composer)”。当然,可以使用区别其他的歧义名称的其它方式。根据知识库200的模式和格式,可以使用特定格式化约定来格式化标题。例如,可以在文章标题中使用下划线“_”来替代空格。因为每一个文章描述特定的实体或概念,所以术语“实体”或“命名实体”也将被用来指文章描述的实体;术语“命名实体文章”将被用来指关于特定命名实体的文章。术语 “实体名称”将被用来指命名实体的专有名称,其也可以是命名实体文章的标题(或标题可以得自于实体名称,或反之亦然)。在评价查询的情况中,应当理解,识别查询(或文章)中的命名实体是确定命名实体的名称是否在查询(或文章)中出现的过程。现介绍下面的符号E =在知识库200中的所有命名实体的集。e e E =任意命名实体。e. title =关于e的文章的标题名称。e. text =关于e的文章的文本(也可以被表示为e. T,其中T是与e相关联的所有文章的文本集)。通常,在名称和实体之间存在多对多对应。这些关系通过两个附加的结构即重定向文章和消歧文章被捕捉在知识库200中。重定向文章为可被用来指知识库200中的实体的每个替选名称而存在。替选名称被用作为文章的标题,并且该文章包含指向关于实体的实际命名实体文章的重定向链接。 替选名称也可以被理解为实体的名称的别名。替选名称可以包括同义词、拼写错误、或替选拼写、首字母缩写词、常见名称、全名、俚语名称、译文、或指明特定实体的任何其它方式。例如,名称“John Towner Williams (约翰 陶纳 威廉姆斯)”是作曲家John Williams的全名,因此用作作曲家的替选名称。因此,具有标题“John Towner Williams”的重定向文章被包括在知识库200中,并且其包含指向“John Williams (composer),,的命名实体文章的重定向链接(或其它指针)。可以具有多个直接页面的实体的另一个示例是命名实体“United Mates (美国)”。重定向页面也可以被用于标题的错误拼写(例如,“Untied Mates”)、首字母缩写词(例如,“USA,,、“U. S. ”、“U.S.A. ”)、以及译文(例如,“LosEstados Unidos,,)、 同义词(例如,“America(美国)”)。与给定命名实体e相关联的并且重定向到该实体的命名实体文章的所有替选名称的集用符号表示为e. R.例如,对于实体“United Mates”,以下适用e = United Statese. title=" United States"e. R = { “ USA “, “ U. S. A 〃, “ U. S. “, “ US “, “ Estados Unidos" , “ America" , “ Untied States" ,...}如上所述,一些实体名称有歧义,因为其可以指相同种类的事物的不同实例,或甚至不同种类的事物。在知识库200的情况中,歧义名称可以指两个或多个不同文章。因此, 对于每一个歧义名称,知识库200进一步包括歧义名称可以具有的不同意义的枚举。在一个实施例中,在消歧页面中拥有名称的不同意义的枚举。替选地,其可以被表达为消歧页面列出可以由特定的歧义实体名称表示的所有命名实体文章。对于歧义名称的每一个不同意义,存在具有该意义的名称的相关联的描述。例如,对于命名实体“John Williams”,消歧页面可以列出具有该相同名称的多个不同实体。作为另一个示例,考虑实体Venus(金星),以及名称“Morning Mar (晨星)”和“Evening Mar (晚星)”。这些名称每一个都有歧义,但是两者都指实体金星;因此这些名称的每一个都具有相关联的歧义页面,所述歧义页面包括作为引用的“Venus” (以及指向关于“Venus”的命名实体文章的链接)。因此,对于给定的命名实体,将存在如通过重定向页面的标题所指示的与该实体相关联的非歧义名称集,以及将该特定实体列出为歧义名称的意义中的一个的附加歧义名称集。对于给定实体e,e. D是其消歧页面包含指向e的链接(或替选地,至少列出e)的名称集。知识库200的另外特征是类别的使用。在知识库200中的每一个文章都与一个或多个类别相关联。以主题-副主题层级(也称为类别分类),优选地以有向非循环图来组织类别。可以通过将类别标志(标签)关联到每一个文章,或通过维护包括在每一个类别中的文章的单独列表来进行关联,所述列表包含在该类别中的实体的名称、或指向其各自的文章的URL(或其它类型的引用,例如文档ID)。例如,可以将作曲家John Williams与类别“Star Wars music (星球大战音乐)”、“20th century classical composers (20 世纪古典作曲家)”、“Film scorecomposer(电影配乐作曲家)”、“Music(音乐)”等等相关联。 类别也可以具有与命名实体相同的名称。因此,“Venus”既可以是类别,也可以是对于其存在命名实体文章的命名实体;可以将命名实体文章“Venus”与更一般的类别“Planets (行星)”和“Solar SyStem(太阳系)”相关联。对于给定的命名实体e,e.C是e所属于的类别的集。实体被认为属于其直接类别、以及在类别层级中所有其上级(ancestor)类别。图 2示出了多个命名实体e(在“标题”列中列出)、以及其相关联的重定向名称(在“重定向” 列中列出)、列出实体的消歧页面的标题(在“消歧”列中列出)和其相关联的类别(在“类别”列中列出)的示例。在知识库200中的文章通常将包含对于其存在相应的命名实体文章的命名实体的提述(或“实例”)。当提及这类的命名实体时,经由超链接将该命名实体的名称链接到相应的命名实体文章。优选地使用两种类型的链接链接和管道链接。图3示出了来自知识库200中的文章的代码摘录300和其相应的显示文本302的示例。在链接306中的字符串“Rome”表示命名实体文章的标题,因此该字符串也作为超文本链接的锚点(anchor) 文本(示出为加下划线)出现在显示文本302中。在管道链接304中,命名实体文章的标题“Vatican City (梵蒂冈)”被示出在管道符号“ | ”之前;在管道符号之后的字符串 “Vatican”是在显示文本302中作为链接名称出现的字符串。管道链接的使用允许知识库 200中的文章的作者使用各种不同的名称来引用或链接到给定的命名实体文章。链接也提供对训练消歧模块有用的消歧示例。字典模块155是用于从知识库200生成命名实体的字典(数据集)以形成命名实体字典160的装置的一个示例。命名实体字典160包含多个名称(其自身是字符串),其中将每一个名称映射(与之相关联)到来自知识库200的实体e的某个集;与给定名称相关联的实体集被表示为d.E。字典模块155基于文章的标题、包括在重定向页面上的名称、以及包括在消歧页面中的名称从知识库200确定待被包括的名称d。在一个实施例中,字典模块155如下从知识库200生成名称d。图6示出了该过程。字典模块155使用用于检测命名实体的一组名称识别规则来处理600知识库200中的每一个文章的标题。在一个实施例中,名称识别规则如下 如果e. title是多单词标题,则仅当所有的实义词均为大写字母开头时e为命名实体;·如果e. title是包含至少两个大写字母的一个单词标题,则e是命名实体;·如果在文章内出现的标题至少75%为大写字母开头,则e为命名实体。第一规则识别诸如“United States”或“Name ofthe Rose (玫瑰之名)”的命名实体。在此应注意,不考虑无用词(例如,前置词、冠词等等)。第二规则识别诸如“NATO” 或“LAGQ”的首字母缩写词。第三规则识别在其它情况中的实体的名称,其中标题不满足前两个规则,但是在文章中标题的用法指示作者认为标题是专有名称短语(因此其是以大写字母开头);当然可以使用除75%外的阈值量。可以使用其它的或附加的规则来更自由地或更保守地识别命名实体,并且可以对其它语言使用其它的规则,其使用不同的约定(语法上的和句法上的)来表示专有名称。优选地,该识别过程自动发生;不需要操作者人工地评审结果(特别在其中可能超过500,000个命名实体的大型知识库中)。另外,每一次向知识库200添加新的文章时可以调用字典模块1 来确定其是否关于命名实体,以及识别包含在文章的主体内的命名实体的附加的提述。字典模块155如下使用602重定向页面和消歧页面来构建命名实体字典160。对于由规则识别的每一个名称d,字典模块155将以下内容包括在命名实体字典160中·命名实体文章的标题d. title, 名称集d.R,其是d的重定向名称,以及·名称集d. D,其是d的消歧名称。因此,对于给定的名称d,存在d可以在知识库200中表示的实体集d. E ;当且仅当 d = e. title、或d是e的重定向名称之一(d e e. R)、或d是对e消歧的名称之一(d e e. D)时,将特定命名实体e包括在该集d. E中。从命名实体字典160和知识库200、命名实体文章集(即其名称被包括在命名实体字典160中的文章),字典模块155创建604(例如,提取、复制、索引等等)命名实体知识库165。因此,该知识库165包括所有命名实体文章(包括其超链接)、重定向到任何命名实体文章的所有重定向文章、以及包含命名实体文章的名称(或指向其的链接)的所有消歧文章。对于每一个命名实体,对于用于名称的正确意义的特定文章,在文章、其重定向名称以及其消歧名称之间进行关联。因此,对该阶段进行考虑的一种方式是,已将知识库200 分割(或镜像)成仅包含关于命名实体的文章的子数据库(150)。其已经通过对文章的标题以及这样的标题的上下文的基于探试法的分析被程序地完成。在生成阶段的下一个方面,数据准备模块180创建606消歧数据集220,其被用作为消歧模块170的训练数据。数据准备模块180是用于生成消歧数据集的装置的一个示例。 数据准备模块180的一个实施例操作如下。如上所述,对于给定的名称(“John Williams”),将存在在各种上下文中包括该名称的实例的文章。在论述作曲家时文章中的一些可以包括名称“John Williams”;在论述摔跤运动员时其它的文章可以包括相同的名称。在每一种情况中,根据在上面参考图3论述的命名实体知识库150(或替选地,也在知识库200中)的结构,这些实例被链接(经由链接或管道链接)到适当的命名实体文章,即关于正论述的实体的文章。此外,实体名称在其中出现的上下文(例如,包含该名称的句子、段落等等)提供具有用于名称的特定实例的正确意义的数据源。因此,数据准备模块180使用命名实体知识库150的这些方面来构建消歧数据集200。该数据集具有以下的结构。为了说明的目的,并且不丧失任何一般性,术语“查询”在此用来表示实体名称在文章内的出现。如果在查询q中存在实体名称,使得所表示的实体集q. E包含至少两个实体,其中的一个是被链接到名称的出现的正确实体q.e,则将查询q包括在数据集中。更确切地,如果q. E包含η个命名实体e2,..., 的名称,则利用η个对{q,ek}来扩增数据集200,表示如下{q, ek} = [ δ (ek, q. e) | q. text | ek. title]域q. text包含在以专有名称为中心的有限长度窗口中出现的单词。在一个实施例中,窗口尺寸被设置为55,其是可以在跨文档互引用的相关任务中提供最佳性能的一个值,尽管无疑地可以使用其它值。当%与链接中引用的实体q.e相同时,克罗内克尔(Kronecker) δ函数δ (ek, q.e)为1。换言之,当存在具有相同名称(例如“John Williams")的多个不同实体时,则对于包括该名称的链接实例的给定文章,比如说描述古典音乐的文章,将对于命名实体文章“John Wi lliams (composer)”的克罗内克尔δ函数设置为1,其中与名称实例相关联的链接实际上链接到该命名实体文章。对于与名称“John Williams”相关联的所有其它命名实体文章,将δ函数设置为0。因此,从可以由名称实例表示的所有实体中,该标记指示正确的实体。因此,消歧数据集220提供对命名实体知识库 150内的实体名称的每一个实例消歧的数据的集。在一个实施例中,数据准备模块180使用以下的方法来构建消歧数据集220。对于命名实体知识库150中的每一个命名实体文章,数据准备模块180遍历文章的文本以识别其中的超链接。处理文本在此包括处理源代码、文档对象模型、索引或文章的其它表示。例如,通过包括<href>和其它的已知标志可以在HTML中识别超链接。在每一个所识别的超链接内,将存在用作链接的锚点文本的实体的名称。对于每一个所识别的实体名称,数据准备模块180经由在命名实体字典160中的查找来确定与该实体名称相关联的一组文章。这些命名实体中的一个将是通过超链接链接到的文章的名称的命名实体;其余将是其它的文章(例如,具有非匹配的标题)。被链接的文章是实体名称(例如“John Williams")的实例、实例的上下文(例如,“BostonPops conductor John Williams led the symphony in the debut of TreeSong, Concerto for Violin and Orchestra.(波士顿管弦乐团指挥家约翰 威廉姆斯在小提琴和管弦乐的协奏曲树之歌的首次演出中指挥交响乐。)”)和命名实体文章其自身(“John Wi lliams (composer)")的积极示例。对于该元组,δ函数标记被设置为“1”。对于每一个剩余元组,其为实体名称、相同上下文和文章中的另一个的组合,标记被设置为“0”。图4示出了消歧数据集220的一小部分400,仅用于说明的目的。在此,所选择的数据400包括数据的三个不同的元组(行),由名称“John Williams”的实例与匹配该实体名称的三个不同文章(由在列406中的三个不同的命名实体文章标题示出)的三个不同组合产生。包含当前实例的查询文本(q.text)404在中间列中示出。以上述描述的方式,"John Williams”的实例将是链接,并且该链接将包含到命名实体文章的引用。对于第一元组,超链接包括其标题“John Williams (composer)”与超链接中引用的文章相匹配的命名实体文章。对于该元组,δ函数标记402被设置为“1”。两个其它的条目用于具有实体名称“John Williams"的其它文章,例如,条目用于“John Williams (wrestler),,和“John Williams (VC),,的命名实体文章。因为这些文章的标题与包含在超链接中的标题不相匹配,所以标记402被设置为“0”。虽然这是消歧数据集220的内容的基本示例,但是期望的是,也可以包括附加的上下文数据、元数据或其它信息。消歧模块170使用消歧数据集220 (或其一部分)来获悉608消歧评分模型230。 消歧模块170是用于获悉上下文信息(例如,q. text或其它特征)与实体名称之间的关联的装置的一个示例。消歧模块170以两个阶段来构建消歧评分模型230。首先,将消歧数据集220的某个部分选择为训练部分(可以将另一个部分选择为模型确认)。为了简单的目的,仍将该部分称为消歧数据集220。对于数据集220中的每一个元组,消歧模块170将评分函数应用于查询(例如,文章中的实体名称的实例)和命名文章自身的组合,即sCOre(q,ek)。评分函数是确定查询与文章的相关性(或相似性)的函数,因此提供上下文-文章相似性分值。可以使用任何相关性或相似性评分函数,并且在本发明的范围内的不同消歧方法可以使用不同的评分函数,因为所使用的特定函数不是关键的。可以使用的一个评分函数是基于查询的上下文和文章的文本之间的余弦相似性
权利要求
1.一种用于对专有名称消歧的方法,包括接收包括专有名称的查询,所述专有名称在所述查询的上下文中出现;确定与所述专有名称相对应的命名实体;对于每一个相对应的命名实体,识别关于所述命名实体的命名实体文章,其中关于命名实体的每个命名实体文章不同于关于其他命名实体的命名实体文章;对于每个相应的命名实体,确定对在关于所述命名实体的命名实体文章与在包含所述专有名称的所述查询中的上下文之间的相似性进行测量的相似性分值;通过将所述专有名称与具有最高相似性分值的所述命名实体文章相关联来对所述专有名称消歧。
2.如权利要求1所述的方法,其中所述相似性分值基于在所述上下文的向量表示和所述命名实体文章的向量表示之间的余弦相似性函数。
3.如权利要求1所述的方法,进一步包括对于每一个命名实体文章,将所述文章与重定向到所述命名实体文章的文章的名称集相关联;或对于每一个命名实体文章,将所述文章与包括指向所述命名实体文章的链接的消歧文章的名称集相关联。
4.如权利要求1所述的方法,进一步包括在所述数据库中识别是命名实体文章的文章并从所识别的命名实体文章构建专有名称集;或从命名实体文章的标题、重定向文章以及消歧文章构建所述专有名称集。
5.如权利要求1所述的方法,其中所述命名实体是文章标题,并且其中如果满足下列条件中的一个或多个则从文章的文章标题识别每个命名实体所述文章标题是其中所有单词是以大写字母开头的标题;所述文章标题是其中单词的至少两个字母是大写字母的单个单词;以及所述文章标题是其中在所述文章的所述文本中出现的文章标题的实例的至少大多数是以大写字母开头的标题。
6.如权利要求1所述的方法,进一步包括从所述命名实体文章构建链接到其它命名实体文章的专有名称的数据集,对于每一个专有名称包括所述专有名称的上下文、与所述专有名称相对应的命名实体文章、以及所述命名实体文章是否是所述专有名称被链接到的所述命名实体文章的指示。
7.如权利要求1所述的方法,进一步包括对于每一个命名实体文章确定被分配给所述命名实体文章的类别;以及其中,确定在关于所述命名实体的所述命名实体文章与在包含所述专有名称的所述查询中的上下文之间的相似性分值包括确定在所述查询中的上下文单词与分配给所述命名实体文章的类别之间的关联。
8.如权利要求1所述的方法,进一步包括将专有名称和所述专有名称在其中出现的命名实体文章的每一个组合与特征向量相关联,所述特征向量包括被分配给所述命名实体文章的所述类别的指示。
9.如权利要求8所述的方法,其中对专有名称消歧包括对于所述专有名称识别具有将在所述上下文的单词和被分配给所述命名实体文章的类别之间的相似性最大化的特征向量的命名实体文章。
10.如权利要求8所述的方法,其中所述特征向量进一步包括与在所述数据库中不具有相关联的命名实体文章的命名实体相关联的特征,其中所述特征向量进一步包括在所述命名实体文章中的所述专有名称的实例的上下文与所述命名实体文章的文本之间的相似性分值。
11.一种用于对专有名称消歧的系统,包括数据集生成模块,所述数据集生成模块访问关于具有专有名称的实体的命名实体文章的数据库;访问重定向文章集,每一个重定向文章具有专有名称的实例和指向命名实体文章的链接;访问消歧文章集,每一个消歧文章包括多个歧义专有名称的实例,每一个专有名称的实例链接到命名实体文章;生成链接到其它命名实体文章的专有名称的消歧数据集,对于每一个专有名称包括 所述专有名称的上下文、与所述专有名称相对应的命名实体文章、以及所述命名实体文章是否是所述专有名称被链接到的所述命名实体文章的指示;以及评分模块,所述评分模块通过从所述消歧数据集识别在查询中的所述专有名称的上下文和所述命名实体文章的文本之间具有最高相似性分值的所述命名实体文章来对专有名称消歧。
12.如权利要求11所述的系统,其中所述评分模块进一步适于通过对于所述专有名称识别在所述专有名称的上下文的单词和被分配给所述命名实体文章的类别之间具有最大相似性的所述命名实体文章来对所述专有名称消歧。
13.如权利要求11所述的系统,其中所述命名实体是文章标题,并且其中如果满足下列条件中的一个或多个则所述数据集生成模块从文章的文章标题识别每个命名实体所述文章标题是其中所有单词是以大写字母开头的标题;所述文章标题是其中单词的至少两个字母是大写字母的单个单词;以及所述文章标题是其中在所述文章的所述文本中出现的文章标题的实例的至少大多数是以大写字母开头的标题。
14.如权利要求11所述的系统,其中所述评分模块确定对在链接到所述专有名词的所述命名实体文章和包含所述专有名词的所述查询中的所述上下文之间的相似性进行测量的相似性分值。
全文摘要
使用消歧评分模型来在搜索查询和其它上下文中对命名实体消歧。使用包括关于命名实体的文章的文章知识库来开发评分模型。使用包括文章标题、重定向页面、消歧页面、超链接以及类别的知识库的各个方面来开发该评分模型。
文档编号G06F17/27GK102236640SQ201110078748
公开日2011年11月9日 申请日期2007年4月2日 优先权日2006年3月31日
发明者亚历山德鲁·马里乌斯·帕斯卡, 拉兹万·康斯坦丁·布内斯库 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1