自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法

文档序号:6501602阅读:258来源:国知局
自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法
【专利摘要】提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。把包括自动实体检测的自然语言处理信息提取流水线施加到数据源。通过分析自然语言处理流水线的产物来识别有关检测的实体的信息。把识别的信息分组到包含等价信息的等价类。创建等价类的至少一个可显示表示。计算至少一个可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合显示。
【专利说明】自动检测和交互显示来自多模态自然语言源的关于实体、活动和事件的信息的系统和方法
[0001 ] 关于联邦赞助研发的声明
[0002]利用政府资助做出了本发明,其受到(由国防部高级研究计划局(DARPA)授予的)第HR0011-08-C-0110号合同的约束。政府在此发明中有一定权利。
【技术领域】
[0003]本公开涉及信息技术,尤其涉及自然语言处理(NLP)系统。
【背景技术】
[0004]新闻机构、博客、twitter、科学期刊和会议全都产生文本、音频和视频形式的极大量的非结构化数据。可以从多种语言的多种模态(例如互联网文本、音频和视频源)收集大量的这种非结构化数据和信息。需要分析信息并生成以下各项的简洁表示:1)诸如特定实体(比如人,组织,国家)的行动的信息;2)活动(例如总统选举运动);以及3)事件(例如名人的去世)。目前,可以手动生成这些表示,但是此解决方法不经济,并且尤其是从多种语言收集信息时它需要有技能的工作人员。这些手动生成的表示一般也不是可伸缩的。

【发明内容】

[0005]本公开的示范性实施例提供了自动提取和组织数据的方法,使用户能够交互查看有关实体、活动和事件的信息。
[0006]根据示范性实施例,信息可以从多种模态和多种语言实时地自动提取,并显示为检索到的信息的可导航且简洁的表示形式。
[0007]示范性实施例可采用自然语言处理技术来自动分析来自多种模态和多种语言的多个源的信息,这些源包括但不限于网页、博客、新闻组、无线电馈送、视频和电视。
[0008]示范性实施例可使用把外语源翻译成用户的语言的自动机器翻译系统的输出,以及可使用来自把视频和音频馈送转换成文本的自动语音转录系统的输出。
[0009]示范性实施例可采用包括信息提取工具、问答工具和提炼(distillation)工具的自然语言处理技术来自动分析如上所述生成的文本,并提取可搜索且可概括的信息。系统可执行名称实体检测、跨文档共指消解(co-reference resolution)、关系检测以及事件检测和跟踪。
[0010]示范性实施例可采用自动相关性检测技术和冗余减少方法来向用户提供相关且非冗余的信息。
[0011]示范性实施例可通过为用户提供用来指定感兴趣的实体、活动或事件(例如:通过键入自然语言查询,通过从自动生成的满足用户指定要求的实体(例如,用户指定的时间段内在数据源中突出记载的实体)的列表中选择实体,通过浏览文章来选择文本段,或者通过从在指定的时间段内自动检测的事件/话题的表示来选择事件或话题)的装置来把期望的信息显示为简洁且可导航的表示形式。[0012]示范性实施例可通过适应性地构建与推断的用户意图最佳匹配的模板来响应于用户查询而自动生成页面(例如,如果用户选择作为政治家的人,则系统会检测此事实,搜索关于该人的选举运动、公开露面、声明和公共服务历史的信息;如果用户选择公司,则系统会搜索有关该公司的近期新闻,有关该公司的高级官员的信息,新闻发布稿,等等)。
[0013]根据示范性实施例,如果用户选择事件,则系统可以搜索有关该事件的新闻项目、对事件的反应、事件的结果以及相关事件。系统可自动检测事件中牵涉的实体,例如人、国家、地方政府、公司和组织,并检索与这些实体有关的相关信息。
[0014]示范性实施例可允许用户跟踪在生成的页面上出现的实体,包括根据可获得的数据自动生成人的简历,以及列出从可获得的数据自动提取的组织的近期行动。
[0015]示范性实施例可允许使用户查看出现在页面上的事件或活动,包括自动建立正在进行的事件中的重要时刻的时间表。
[0016]示范性实施例可允许用户查看实体和事件之间的联系(例如,提供关于公司在事件中的角色的信息,列出个人关于话题的语录,描述两个公司间的关系,总结两人之间的会面或接触以及可选地检索所需实体的图像)。
[0017]根据示范性实施例,提供了一种用于由处理装置从多个数据源自动提取和组织信息的方法。包括实体的自动检测的自然语言处理信息提取流水线被施加到数据源。通过分析自然语言处理流水线的产物来识别关于所检测的实体的信息。识别的信息分组成包含等价信息的等价类。创建等价类的至少一种可显示表示。计算至少一种可显示表示被显示的顺序。生成考虑了可显示表示被显示的顺序的等价类组合表示。
[0018]每个等价类都可包括项的集合。每项都可包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范(specification)。
[0019]计算可显示表示被显示的顺序可以包括随机计算顺序。
[0020]把识别的信息分组成等价类可以包括把各识别的信息分配到单独的等价类。
[0021]把识别的信息分组成等价类可以包括计算每个等价类的代表性实例,确保不同类的代表性实例相互不是冗余的,以及确保每个等价类的实例相对于该等价类的代表性实例是冗余的。
[0022]根据示范性实施例,提供了一种用于由处理装置处理信息的方法。接收到用户查询。根据用户查询推断出用户查询意图,以形成推断的用户意图。通过利用包括文本、音频和视频中的至少一个的多种模态的自然处理适应性地构建与推断的用户意图对应的模板,响应于用户查询而自动生成页面。
[0023]当用户查询选择具有政治身份的人时,可搜索该政治身份,可搜索关于选举运动、公开露面、声明和公共服务历史中的至少一个的信息,以及可自动生成响应于用户查询的页面。
[0024]当用户查询选择公司时,可搜索有关该公司的近期新闻、该公司的高级官员的信息和公司的新闻发布稿中的至少一个的信息,以及可自动生成响应于用户查询的页面。
[0025]当用户查询选择事件时,可以搜索有关该事件的新闻项目和对事件的反应中至少一个的信息,以及可自动生成响应于用户查询的页面。
[0026]可识别和搜索事件中的实体和关于这些实体的检索的相关信息。
[0027]根据示范性实施例,提供了一种由处理装置从具有多个语言的多种信息模态的文档语料库自动提取和组织信息以供显示给用户的方法。浏览文档语料库,以识别和增量地(incrementally)检索包含音频/视频文件的文档。来自音频/视频文件的文本被转录,以提供文本表示。外语的文本表示的文本被翻译。关于实体、活动和事件中的至少一个的所需信息被增量地提取。组织提取的信息。组织好的提取信息被转换成可展示给用户的可导航显示。
[0028]增量地提取所需信息可包括:把自然语言处理流水线施加到各文档,以遍历语料库中检测的所有实体,以及识别牵涉到选择的实体的关系表述(mention)和事件表述,其中实体是下面各项的至少一个:物理生命体、物理无生命体、具有专有名称的事物、具有可度量的物理属性的事物、法人实体和抽象概念,表述是提到实体的一段文字,关系是两个实体间的联系,关系表述是描述关系的一段文字,以及事件是牵涉一个或多个行动的两个或更多个实体之间的关系集合。
[0029]组织提取的信息可包括:遍历语料库中识别的所有实体,把提取的关于实体的信息分成包含等价信息的所选等价类,遍历所有等价类,选择每个等价类中的一项来代表该等价类中的所有项,以及记录有关该等价类和有关选择用来生成可导航显示的代表的信息,其中每个等价类都可包括项的集合,每项都具有从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。
[0030]把组织好的提取信息转换成可展示给用户的可导航显示可以包括:通过向等价类分配该类中各条信息的最高分数、它的成员的平均分数、它的成员的中值分数和它的成员的分数之和中的至少一个来给信息的各等价类评分,按分数降序排序各等价类,以安排等价类显示给用户的顺序的优先次序,对每一等价类进行遍历,构建选择的实例的可显示表示,以及把可显示表示进行组合来生成等价类的可显示表示。
[0031]可显示表示可以包括包含用可视化高亮标记的提取信息的段落。
[0032]根据示范性实施例,提供了一种包含可由处理器执行以便交互显示来自多模态自然语言源的有关实体、活动和事件的信息的指令的非暂时性计算机程序存储装置。信息提取模块包括用于从文本和音频/视频下载文档内容、用于对文档内容进行分析、用于检测表述、用于共指(co-reference )、用于跨文档共指以及用于提取关系的指令代码。信息收集模块包括用于从信息提取模块提取熟人、简历和事件介入的指令代码。信息显示模块包括用于显示来自信息收集模块的信息的指令代码。
[0033]信息提取模块还可包括用于转录来自视频源的音频和用于把非英语的转录音频翻译成英语文本的指令代码。
[0034]信息提取模块可包括用于把同一实体下的表述聚类以及用于跨文档链接实体聚类的指令代码。
[0035]信息收集模块可包括用于输入句子和实体以及从该句子提取有关该实体的特定信息的指令代码。
[0036]信息显示模块可包括用于把结果分组成非冗余的集合、排序各集合、生成每个集合的简要说明、为每个集合选择代表性片断(snippet)、高亮显示该片断的包含有关特定选项卡(tab)的信息的部分、构建到其他页面的导航超级链接以及生成用来图形化表现选项卡内容的数据的指令代码。
[0037]根据示范性实施例,提供了一种包含可由处理器执行以便自动提取和组织来自多个数据源的信息的指令的非暂时性计算机程序存储装置。提供了用于向数据源施加包括实体的自动检测的自然语言处理信息提取流水线的指令代码。提供了用于通过分析自然语言处理流水线的产物来识别有关检测的实体的信息的指令代码。提供了用于把识别的信息分组成包含等价信息的等价类的指令代码。提供了用于建立等价类的至少一个可显示表示的指令代码。提供了计算至少一个可显示表示被显示的顺序的指令代码。提供了用于生成考虑了所述可显示表示被显示的顺序的等价类组合显示的指令代码。
【专利附图】

【附图说明】
[0038]根据下面结合附图进行的详细说明,将更清楚地理解示范性实施例,其中:
[0039]图1示出了根据示范性实施例的操作步骤序列;
[0040]图2示出了根据图1的操作步骤的一部分的操作步骤序列;
[0041]图3示出了根据图2的操作步骤的一部分的操作步骤序列;
[0042]图4示出了根据图1的操作步骤的一部分的操作步骤序列;
[0043]图5示出了根据图1的操作步骤的一部分的操作步骤序列;
[0044]图6示出了根据示范性实施例的示范性实体页面;
[0045]图7(a)和7(b)示出了用于新闻广播应用的示范性实体页面;以及
[0046]图8示出了根据示范性实施例的用于执行操作步骤序列的程序存储装置和处理器。
【具体实施方式】
[0047]现在将更详细地提到示范性实施例,在附图中示出了示范性实施例的例子,其中类似的附图标记始终指代类似的元件。
[0048]示范性实施例中,术语“文档”可指不考虑格式的文本文档、包括流式音频和视频的媒体文件以及上面的混合(例如嵌有视频和音频流的网页)。
[0049]示范性实施例中,术语“语料库”指多媒体文档的正式或非正式集合,多媒体文档例如是科学期刊中发表的所有论文或者由讲阿拉伯语的国家中的新闻机构发表的所有英语网页。
[0050]示范性实施例中,术语“实体”可指物理生命体(比如人)、物理无生命体(比如建筑物)、有专有名称的事物(比如珠穆朗玛峰)、具有可度量的物理属性的事物(比如,时间点或时间段、公司、镇、国土)、法人实体(比如国家)和抽象概念(比如度量单位和物理属性的度量)。
[0051]示范性实施例中,术语“表述”表示提到实体的一段文字。给定大的结构化文档集,实体可与在该结构化文档集中出现的所有它的表述的集合相关联,因此术语实体也可用来表示此集合。
[0052]示范性实施例中,术语“关系”指两个实体间的联系(例如,巴拉克.奥巴马是美国总统;米歇尔.奥巴马和巴拉克.奥巴马结婚了)。关系表述是明确描述关系的一段文字。因此,关系表述涉及到两个实体表述。
[0053]示范性实施例中,术语“事件”指牵涉一种或多种行动的、两个或更多个实体之间的关系集合。[0054]图1示出了可应用于由新闻机构创建的网页组成的并包含多个语言的多种信息模态的新闻文档语料库的一个示范性实施例的概观。在步骤110中以有条理的自动方式浏览(即爬行)多模态语料库100,其中语料库中的多模态文档被识别和增量地检索。这种爬行可以增量的方式进行,这种情况下,它会仅检索在此前的爬行操作期间不可获得的文档。接着在步骤120,通过转录分析包含音频信息的文档,例如音频文件或带音频的视频文件。步骤120后,可获得所有多模态文档的文本表示。在翻译步骤130,外语的文本被翻译。结果是包含所需语目的文档以及其源语目中的其原始版本的多模态语料库的文本表不140。 [0055]在步骤150中增量地分析语料库的文本表示140,该步骤提取有关实体、活动和事件的所需信息(信息提取(IE))。步骤160中组织所提取的信息,并且把组织好的信息转换成呈现给用户的可导航显示形式。
[0056]图2示出了根据示范性实施例、增量地提取有关实体、活动和事件的信息的步骤150的IE过程。步骤210包括把自然语言处理流水线施加到集合的各文档。可随着新文档添加到语料库增量地施加流水线。步骤220遍历语料库中检测的所有实体。可通过随着新文档被添加到语料库遍历仅仅新文档中检测的实体来增量地应用步骤220。步骤230识别牵涉由步骤220选择的实体的由步骤210提取的关系表述。步骤240识别牵涉由步骤220选择的实体的表述的事件表述。步骤250提取关于由步骤220选择的实体的信息。
[0057]图3示出了图2中描绘的自然语言处理流水线步骤210的例子。文本清理步骤310从文本清除无关的字符,例如格式字符、超文本标记语言(HTML)标签等。分词(tokenization)步骤320分析清理过的文本并识别词和句子的边界。词性标记步骤330把每个词与描述其语法功能的标签联系起来。表述检测步骤340识别分词的文本中的实体表述和指示事件存在的词语(称为事件锚)。分析步骤350提取每个句子的层级语法结构,且通常把它表示成一颗树。语义角色标记步骤360识别由分析步骤350提取的树中每个节点如何与该句中的每个动词语义上关联。共指消解步骤370识别由表述检测340生成的表述所属的实体。关系提取步骤380检测实体表述对之间以及实体表述与事件锚之间的关系。本领域普通技术人员会理解,这些步骤可采用公知的统计方法、规则或其组合来实施。
[0058]图4示出了根据图1的步骤160的组织有关实体的信息的示范性实施例。
[0059]步骤410遍历语料库中识别的所有实体。步骤410的增量实施例包括随着新文档添加到语料库遍历新文档中识别的所有实体。
[0060]步骤420把提取的有关由遍历步骤410选择的实体的信息分成包含等价或冗余信息的等价类。在示范性实施例中,每个等价类将包括项的集合,其中每项包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。本领域普通技术人员会理解,这些等价类可以是互不相交的,或者可能是重叠的,其中同一项可属于一个或多个等价类。
[0061]步骤430遍历由步骤420生成的等价类。
[0062]步骤440将在类中选择最能代表该类中所有项的一项。选择步骤440采用的选择标准可包括但不限于:选择在等价类中出现的最常见的文本段(例如,段“美国总统巴拉克.欧巴马”比“巴拉克.欧巴马,美国总统”更常见,且根据此选择标准,会被选取为描述“巴拉克.欧巴马”与“美国”的关系的代表段),选择传达了最大量的信息的文本段(例如,“巴拉克.欧巴马是美国的第44届且在任的总统”比“美国总统巴拉克.欧巴马”传达了更多有关“巴拉克?欧巴马”与“美国”之间关系的信息,且根据此标准会被选取为代表),以及选择具有由提取步骤150生成的最高分数的文本段(如果该步骤把分数与其结果联系)。
[0063]步骤450记录有关等价类和有关由步骤440选择的代表的信息,使得该信息可被图1的后续步骤170利用。图4中示出的方法可适应于这种情形:等价类可重叠,而仍然需要例如通过优化过程来选择用于不同类的不同代表,该优化过程会组合上面列举的选择标准或者具有会有利于选择重叠等价类的不同代表的差异性度量的等价选择标准中的一个或多个。
[0064]在步骤420的一个示范性实施例中,提取的信息的各个实例可包括来自文档的段(等效于段落)以及有关从该段提取的所需实体的信息的规范。此规范可包括属性值对的集合、研究描述框架(RDF)三元组的集合、关系数据库中的关系集合等。规范可采用诸如可扩展标记语言(XML)的描述语言、采用RDF表示语言、采用数据库等来表示。
[0065]步骤420可包括识别满足两个条件的提取信息的实例组:第一个条件是每组都包含至少一个实例(主实例),在给定该实例的情况下该组中所有其他实例是冗余的;第二个条件是不同组的主实例彼此不是冗余的。可采用传统的聚类算法或增量聚类算法来实现该结果。
[0066]图5示出了用于构建关于实体的且根据图4中描绘的方法收集的信息的可显示表示的图1的步骤170的方法的一个示范性实施例。
[0067]步骤510中,例如,通过把等价类中各条信息的最高分数分配给该等价类,给步骤420生成的信息的等价类评分。或者,其他量可用作等价类的分数,例如:其成员的平均分,其成员的中值分,其成员的分数之和,等等。根据图5中描绘的方法,分数被用来安排等价类显示给用户的顺序的优先次序。
[0068]步骤520把等价类按分数降序排序。
[0069]步骤530选择每个等价类。针对选择的等价类的所有实例(步骤540),步骤550构建从等价类选择的实例的可显示表示。在一个示范性实施例中,这种可显示表示包括含有用可视化高亮适当标记的提取的信息的段落。这种可视化高亮可包括用来区分提取的信息的颜色。此外,可显示表示可能包括可视化提示,以容易地识别存在信息页的其他实体。
[0070]步骤560把步骤550生成的表示组合起来,以生成等价类的可显示表示。在一个示范性实施例中,此步骤包括显示等价类的代表实例和提供用于显示其他成员的手段(例如,通过提供至这些成员的表示的链接)。
[0071]现在参考图6,示出了描绘个人Leon Panetta的实体的一个示范性页面(即实体页(EP))。页面划分成左右部分。左部分的两个框包含从维基百科因特网百科全书或者其他可靠信息源分别自动提取的图片和简历信息。右部分包含按照其传达的信息的种类组织文本的相关小段(片断)的一组选项卡。各选项卡中的内容是下面进一步详述的一系列信息提取模块的输出。各选项卡还示出了其内容的内容图形概要。
[0072]下面示出的表I概括了由各选项卡中的文本片断传达的信息。
【权利要求】
1.一种用于由处理装置从多个数据源自动提取和组织信息的方法,包括: 把包括自动实体检测的自然语言处理信息提取流水线施加到数据源; 通过分析自然语言处理流水线的产物来识别有关所检测的实体的信息; 把识别的信息分组到包含等价信息的等价类; 创建等价类的至少ー个可显示表示; 计算至少ー个可显示表示被显示的顺序;以及 生成考虑了可显示表示被显示的顺序的等价类组合显示。
2.权利要求1的方法,其中每个等价类包括项的集合,每项包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。
3.权利要求1的方法,其中计算可显示表示被显示的顺序还包括随机计算顺序。
4.权利要求1的方法,其中把识别的信息分组到等价类还包括把每个识别的信息分配到単独的等价类。
5.权利要求1的方法,其中把识别的信息分组到等价类还包括: 计算每个等价类的代表性实例; 确保不同类的代表性实例相互不是冗余的; 确保每个等价类的实例相对于该等价类的代表性实例是冗余的。
6.一种用于由处理装置处 理信息的方法,包括: 接收用户查询; 从用户查询推断用户查询意图,以形成推+断的用户意图;以及通过利用包括文本、音频和视频中至少ー个的多种模态的自然处理来适应性地构建与推断的用户意图对应的模板,响应于用户查询而自动生成页面。
7.权利要求6的方法,还包括:当用户查询选择具有政治身份的人吋, 检测该政治身份, 捜索关于选举运动、公开露面、声明和公共服务历史中至少ー个的信息,以及 自动生成响应于用户查询的页面。
8.权利要求6的方法,还包括:当用户查询选择公司吋, 捜索有关该公司的近期新闻、该公司的高级官员的信息和该公司的新闻发布稿中至少一个的信息;以及 自动生成响应于用户查询的页面。
9.权利要求6的方法,还包括:当用户查询选择事件吋, 捜索有关该事件的新闻项目和对事件的反应中至少ー个的信息;以及 自动生成响应于用户查询的页面。
10.权利要求9的方法,其中识别事件中的实体和捜索有关这些实体的所检索的相关信息。
11.一种用于由处理装置从具有多种语言的的多种信息模态的文档语料库自动提取和组织信息以便显示给用户的方法,该方法包括: 浏览文档语料库,以识别和増量地检索包含音频/视频文件的文档; 转录来自音频/视频文件的文本,以提供文本表示; 翻译外语的文本表示的文本;增量地提取关于实体、活动和事件中至少一个的所需信息; 组织提取的信息;以及 把组织好的所提取信息转换成可展示给用户的可导航显示。
12.权利要求11的方法,其中增量地提取所需信息包括: 把自然语言处理流水线施加到各文档,以遍历所述语料库中检测的所有实体; 识别牵涉到选择的实体的关系表述和事件表述, 其中实体是下面各项的至少一个:物理生命体、物理无生命体、有专用名称的事物、具有可度量的物理属性的事物、法人实体和抽象概念, 其中表述是提到实体的一段文字, 其中关系是两个实体间的联系, 其中关系表述是描述关系的一段文字,以及 其中事件是牵涉一个或多个行动的两个或更多个实体之间的关系集合。
13.权利要求11的方法,其中组织提取的信息包括: 遍历所述语料库中识别的所有实体; 把提取的关于实体的信息分 成包含等价信息的被选等价类; 遍历所有等价类; 选择每个等价类中的一项来代表该等价类中的所有项;以及 记录有关该等价类和有关选择用来生成可导航显示的代表的信息, 其中每个等价类包括项的集合,每项具有从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。
14.权利要求11的方法,其中把组织好的所提取信息转换成可展示给用户的可导航显示包括: 通过为等价类分配该类中各条信息的最高分数、它的成员的平均分数、它的成员的中值分数和它的成员的分数之和中的至少一个来给信息的等价类评分; 按分数降序排序等价类,以安排等价类被显示给用户的顺序的优先次序; 对每一等价类进行遍历,构建选择的实例的可显示表示;以及 把可显示表示进行组合,以生成等价类的可显示表示。
15.权利要求14的方法,其中可显示表示包括包含用可视化高亮标记的提取信息的段落。
16.一种包含能够由处理器执行以便交互显示来自多模态自然语言源的有关实体、活动和事件的信息的指令的非暂时性计算机程序存储装置,所述非暂时性计算机程序存储装置包括配置成存储以下各项的存储器: 信息提取模块,具有用于从文本和音频/视频下载文档内容、用于对文档内容进行分析、用于检测表述、用于共指、用于跨文档共指以及用于提取关系的指令代码; 信息收集模块,具有用于从所述信息提取模块提取熟人、简历和事件介入的指令代码; 信息显示模块,具有用于显示来自所述信息收集模块的信息的指令代码。
17.权利要求16的非暂时性计算机程序存储装置,其中所述信息提取模块还包括用于从视频源转录音频和用于把非英语的转录音频翻译成英语文本的指令代码。
18.权利要求16的非暂时性计算机程序存储装置,其中所述信息提取模块还包括用于把同一实体下的表述聚类以及用于跨文档链接实体聚类的指令代码。
19.权利要求16的非暂时性计算机程序存储装置,其中所述信息收集模块还包括用于输入句子和实体以及从该句子提取有关该实体的特定信息的指令代码。
20.权利要求16的非暂时性计算机程序存储装置,其中所述信息显示模块还包括用于把结果分组成非冗余的集合、排序所述非冗余的集合、生成每个集合的简要说明、为每个集合选择代表性片断、高亮显示该片断的包含有关特定选项卡的信息的部分、构建到其他页面的导航超级链接以及生成用来图形化表示选项卡内容的数据的指令代码。
21.一种包含能够由处理器执行以便自动提取和组织来自多个数据源的信息的指令的非暂时性计算机程序存储装置,所述非暂时性计算机程序存储装置包括配置成存储以下各项的存储器: 用于向数据源施加包括实体自动检测的自然语言处理信息提取流水线的指令代码; 用于通过分析所述自然语言处理流水线的产物来识别有关检测的实体的信息的指令代码; 用于把识别的信息分组到包含等价信息的等价类的指令代码 用于创建等价类的至少一个可显示表示的指令代码; 用于计算至少一个可显示表示被显示的顺序的指令代码; 用于生成考虑了所述可显示表示被显示的顺序的等价类组合显示的指令代码。
22.权利要求21的非暂时性计算机程序存储装置,其中每个等价类包括项的集合,每项包括从文档提取的一段文本和有关从该段文本导出的所需实体的信息的规范。
23.权利要求21的非暂时性计算机程序存储装置,其中计算所述可显示表示被显示的顺序还包括随机计算顺序。
24.权利要求21的非暂时性计算机程序存储装置,其中把识别的信息分组到等价类还包括把各识别的信息分配到单独的等价类。
25.权利要求21的非暂时性计算机程序存储装置,其中把识别的信息分组到等价类还包括: 计算每个等价类的代表性实例; 确保不同类的代表性实例相互不是冗余的;以及 确保每个等价类的实例相对于该等价类的代表性实例是冗余的。
【文档编号】G06F17/30GK103488663SQ201310122395
【公开日】2014年1月1日 申请日期:2013年4月10日 优先权日:2012年6月11日
【发明者】V·卡斯泰利, R·弗洛利安, 罗小强, H·拉格哈万 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1