信息处理方法和装置以及机构名规范化方法和设备的利记博彩app

文档序号:6505181阅读:154来源:国知局
信息处理方法和装置以及机构名规范化方法和设备的利记博彩app
【专利摘要】公开了一种信息处理方法和装置以及机构名规范化方法和设备,该信息处理方法包括:机构名拆分步骤,用于根据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析步骤,用于分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系;等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及机构名存储步骤,用于将机构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。根据本公开的实施例,能够更高效准确地对机构名进行规范化,从而有利于文献统一管理和快速检索。
【专利说明】信息处理方法和装置以及机构名规范化方法和设备

【技术领域】
[0001] 本公开涉及信息处理和web服务领域,并且更具体地,涉及用于构建机构名知识 库的信息处理方法和装置以及使用该知识库对机构名进行规范化以便于文献统一管理和 快速检索的机构名规范化方法和设备。

【背景技术】
[0002] 在现有的文献管理领域中,由于各个期刊、会议等对文献的作者机构名的书写要 求不同,因此对同一机构可能存在多种不同的写法,从而使得机构名的书写不规范,给文献 的统一管理和文献检索带来很多不便。这些不规范可以包括但不限于由于机构名的更名和 别名、机构名的级别不同以及机构名的书写格式不同等等而引起的不规范。


【发明内容】

[0003] 在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本 理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定 本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简 化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
[0004] 鉴于以上情形,本公开的目的是提供一种用于构建机构名知识库的信息处理方法 和装置以及利用该知识库对机构名进行规范化的机构名规范化方法和设备,其通过引入机 器学习方法对机构名进行拆分,利用公开信息资源分析经拆分得到的子机构名之间的隶属 关系以及机构名之间的等同关系(即,更名、别名信息等),以语义方式(例如,基于资源描述 框架(RDF)的方式)来存储机构名和这些关系信息以构建机构名知识库,并且利用该知识库 对文献的作者机构名进行规范化,从而有利于文献的统一管理以及快速且准确的检索。
[0005] 根据本公开的一方面,提供了一种信息处理方法,包括:机构名拆分步骤,用于根 据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析步骤,用于分析多级子 机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关系;等同关系分析 步骤,用于利用公开信息资源分析机构名之间的等同关系;以及机构名存储步骤,用于将机 构名与内部组织结构关系和等同关系相关联地来存储,以构建知识库。
[0006] 根据本公开的优选实施例,在机构名存储步骤中,以语义方式来存储机构名以及 内部组织结构关系和等同关系。
[0007] 根据本公开的另一优选实施例,该语义方式可包括基于资源描述框架的方式。
[0008] 根据本公开的另一优选实施例,在隶属关系分析步骤中,利用多级子机构名中的、 根据预定规则确定的表示该机构的一级子机构名查询公开信息资源,以获得隶属关系,并 且获得机构的内部组织结构关系。
[0009] 根据本公开的另一方面,还公开了一种信息处理装置,其包括:机构名拆分单元, 被配置成根据机构名的语义特征将机构名拆分为多级子机构名;隶属关系分析单元,被配 置成分析多级子机构名之间的隶属关系,以获取关于该机构名的机构的内部组织结构关 系;等同关系分析单元,被配置成利用公开信息资源分析机构名之间的等同关系;以及机 构名存储单元,被配置成将机构名与内部组织结构关系和等同关系相关联地来存储,以构 建知识库。
[0010] 根据本公开的另一方面,还公开了一种机构名规范化方法,其包括:机构名拆分步 骤,用于根据文献的作者机构名的语义特征将作者机构名拆分为多级子机构名;以及机构 名规范化步骤,用于利用根据本公开的实施例所述的信息处理方法构建的知识库对机构名 进行规范化以符合预定规则。
[0011] 根据本公开的优选实施例,在机构名规范化步骤中,使用知识库中的内部组织结 构关系和/或文献的作者信息,对作者机构名中包含的多级子机构名的级别进行规范化。
[0012] 根据本公开的另一优选实施例,在机构名规范化步骤中,使用知识库,根据机构名 之间的文字差别信息和文献的作者信息来对作者机构名的书写形式进行规范化。
[0013] 根据本公开的另一优选实施例,该机构名规范化方法还可包括:机构名添加步骤, 用于在知识库中不包含作者机构名的信息的情况下,采用根据本公开的实施例所述的信息 处理方法来对该作者机构名进行处理,并在满足预定条件时将该作者机构名的信息添加到 知识库中。
[0014] 根据本公开的另一方面,还提供了一种机构名规范化设备,其包括:机构名拆分单 元,被配置成根据文献的作者机构名的语义特征将作者机构名拆分为多级子机构名;以及 机构名规范化单元,被配置成利用根据本公开的实施例所述的信息处理方法构建的知识库 对机构名进行规范化以符合预定规则。
[0015] 根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程 序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本 公开的信息处理方法。
[0016] 根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的 指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本公开的信息 处理方法。
[0017] 根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程 序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本 公开的机构名规范化方法。
[0018] 根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的 指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本公开的机构 名规范化方法。

【专利附图】

【附图说明】
[0019] 本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中 在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下 面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开 的优选实施例和解释本公开的原理和优点。其中:
[0020] 图1是示出根据本公开的实施例的信息处理方法的过程示例的流程图;
[0021] 图2是示出根据本公开的实施例的信息处理装置的功能配置示例的框图;
[0022] 图3是示出根据本公开的实施例的机构名规范化方法的过程示例的流程图;
[0023] 图4是示出根据本公开的另一实施例的机构名规范化方法的过程示例的流程图;
[0024] 图5是示出根据本公开的实施例的机构名规范化设备的功能配置示例的框图;
[0025] 图6是示出根据本公开的另一实施例的机构名规范化设备的功能配置示例的框 图;以及
[0026] 图7是示出作为本公开的实施例中所采用的信息处理设备的个人计算机的示例 结构的框图。

【具体实施方式】
[0027] 在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0028] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中 仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开 关系不大的其它细节。
[0029] 下面将结合图1至图7来描述根据本公开的实施例的用于构建机构名知识库的信 息处理方法和装置、以及用于利用该知识库对机构名进行规范化的机构名规范化方法和设 备。
[0030] 首先,将参照图1来描述根据本公开的实施例的信息处理方法。图1是示出根据 本公开的实施例的信息处理方法的过程示例的流程图。
[0031] 如图1所示,根据本公开的实施例的信息处理方法100可包括机构名拆分步骤 S110、隶属关系分析步骤S120、等同关系分析步骤S130以及机构名存储步骤S140。下面将 详细描述各个步骤中的处理。
[0032] 首先,在机构名拆分步骤S110中,可根据机构名的语义特征而将该机构名拆分为 多级子机构名。
[0033] 具体地,在机构名拆分步骤S110中,可首先用传统分词方法对机构名进行分词, 然后利用诸如有监督学习方法的机器学习方法、基于条件随机场(CRF)来识别组块信息,从 而根据诸如词、位置、是否属于词库、前、后等的特征来将机构名拆分为多级子机构名。以下 表1示出了在机构名拆分步骤S110中所用的特征的描述。
[0034] 表1特征描述
[0035]

【权利要求】
1. 一种信息处理方法,包括: 机构名拆分步骤,用于根据机构名的语义特征将所述机构名拆分为多级子机构名; 隶属关系分析步骤,用于分析所述多级子机构名之间的隶属关系,以获取关于所述机 构名的机构的内部组织结构关系; 等同关系分析步骤,用于利用公开信息资源分析机构名之间的等同关系;以及 机构名存储步骤,用于将所述机构名与所述内部组织结构关系和所述等同关系相关联 地来存储,以构建知识库。
2. 根据权利要求1所述的信息处理方法,其中,在所述机构名存储步骤中,以语义方式 来存储所述机构名以及所述内部组织结构关系和所述等同关系。
3. 根据权利要求2所述的信息处理方法,其中,所述语义方式包括基于资源描述框架 的方式。
4. 根据权利要求1所述的信息处理方法,其中,在所述隶属关系分析步骤中,利用所述 多级子机构名中的、根据预定规则确定的表示所述机构的一级子机构名查询所述公开信息 资源,以获得所述隶属关系,并且获得所述机构的内部组织结构关系。
5. -种信息处理装置,包括: 机构名拆分单元,被配置成根据机构名的语义特征将所述机构名拆分为多级子机构 名; 隶属关系分析单元,被配置成分析所述多级子机构名之间的隶属关系,以获取关于所 述机构名的机构的内部组织结构关系; 等同关系分析单元,被配置成利用公开信息资源分析机构名之间的等同关系;以及 机构名存储单元,被配置成将所述机构名与所述内部组织结构关系和所述等同关系相 关联地来存储,以构建知识库。
6. -种机构名规范化方法,包括: 机构名拆分步骤,用于根据文献的作者机构名的语义特征将所述作者机构名拆分为多 级子机构名;以及 机构名规范化步骤,用于利用根据权利要求1-4中任一项所述的信息处理方法构建的 知识库对所述机构名进行规范化以符合预定规则。
7. 根据权利要求6所述的方法,其中,在所述机构名规范化步骤中,使用所述知识库中 的内部组织结构关系和/或所述文献的作者信息,对所述作者机构名中包含的多级子机构 名的级别进行规范化。
8. 根据权利要求6所述的方法,其中,在所述机构名规范化步骤中,使用所述知识库, 根据机构名之间的文字差别信息和所述文献的作者信息来对所述作者机构名的书写形式 进行规范化。
9. 根据权利要求6所述的方法,还包括: 机构名添加步骤,用于在所述知识库中不包含所述作者机构名的信息的情况下,采用 根据权利要求1-4中任一项所述的信息处理方法来对所述作者机构名进行处理,并在满足 预定条件时将所述作者机构名的信息添加到所述知识库中。
10. -种机构名规范化设备,包括: 机构名拆分单元,被配置成根据文献的作者机构名的语义特征将所述作者机构名拆分 为多级子机构名;以及 机构名规范化单元,被配置成利用根据权利要求1-4中任一项所述的信息处理方法构 建的知识库对所述机构名进行规范化以符合预定规则。
【文档编号】G06F17/30GK104281570SQ201310270868
【公开日】2015年1月14日 申请日期:2013年7月1日 优先权日:2013年7月1日
【发明者】张姝, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1