学术文献自动分类系统的利记博彩app

文档序号:6589999阅读:278来源:国知局
专利名称:学术文献自动分类系统的利记博彩app
技术领域
本实用新型涉及一种计算机和图书情报领域,更具体地说,涉及一种面向中图法 的学术文献自动分类系统。
背景技术
文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类 别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与 管理、内容信息过滤等领域都有着广泛的应用。《中国图书馆分类法》简称《中图法》,英文译名为Chinese LibraryClassification,英文缩写为CLC,已普遍应用于全国各类型的图书馆,国内主要大 型书目、检索刊物、机读数据库,以及《中国国家标准书号》等都著录《中图法》分类号。目前,各图书馆及数字图书馆对于中文学术期刊的分类均按《中图法》实行。分类 号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低。大量的人 员常年从事着重复性的劳动,造成比较严重的资源浪费。而且新进人员的培训也耗时耗力。

实用新型内容为了解决上述问题,根据本实用新型的一方面,提供了一种面向中图法的学术文 献自动分类系统,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务 器分别与连接特征选择器、训练器和分类器,用于以数据库的形式存储学术文献文本,其中 包括训练文本和待分类文本;特征选择器进一步连接所述训练器,用于从所述基础数据服 务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;训练器进一步连接所 述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所述特征选择器得到的 所述特征词与分类号的概率关系,从而得到词语_分类号映射词典;并且,分类器进一步连 接所述基础数据服务器,用于从所述基础数据服务器读取所述待分类文本,利用所述特征 词词典以及所述词语_分类号映射词典计算所述待测试文本对应的中图分类号。其中,优选地,所述基础数据服务器中的所述训练文本和所述待分类文本以统一 的表的结构存储,包括文本篇名、中文摘要、全文、刊名、引文和分类号,其中,所述训练文本 的分类号是已知的,所述待分类文本的分类号初始为空。优选地,所述特征选择器进一步包括读取单元,连接计算单元,用于从所述基础数据服务器中读取所述训练文本;计算单元,进一步连接选择单元,用于计算所述训练文本中的所有词语在所述各 个分类号下的权重;选择单元,进一步连接所述训练器,用于对所述权重进行排序和筛选,得到特征词 词典。其中,优选地,所述特征选择器进一步包括统计单元,分别连接所述读取单元与所述计算单元,用于统计所述训练文本中词语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;判断单元,分别连接所述计算单元和所述选择单元,用于判断所述训练文本中的 词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如 果“否”,则将未进行计算的词语发送到所述计算单元进行计算。所述学术文献自动分类系统中,优选地,所述训练器进一步包括读取单元,连接查找单元,用于从所述基础数据服务器中读取所述训练文本;查找单元,进一步连接统计单元,用于利用所述特征词词典查找所述训练文本中 的特征词;统计单元,进一步连接计算单元,用于统计所述特征词的对应分类号并统计所述 训练文本中出现所述特征词的文档数量,即文档频度,以及在所述训练文本的篇名、中文关 键字、全文、中文摘要字段统计所述特征词对应分类号的出现数量;计算单元,进一步连接生成单元,用于根据所述特征词在不同字段位置的出现数 量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序。生成单元,进一步连接所述分类器,用于将所述词形、所述分类号、所述文档频度、 所述权重存入所述词语_分类号映射词典。优选地,所述分类器进一步包括读取单元,连接分词单元,用于从所述基础数据服务器中读取所述待分类文本;分词单元,进一步连接计算单元,用于根据所述特征词词典对所述待分类文本进 行分词,获得所述待分类文本中的特征词;计算单元,进一步连接分类单元,用于计算所述特征词的权重并根据所述词 语-分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类 文本中的所有特征词对应的每个分类号的总权重;分类单元,进一步连接所述基础数据服务器单元,用于对所述计算单元得到的所 述分类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出 所述分类号。其中,优选地,所述分类器进一步包括统计单元,分别连接所述分词单元与所述计算单元,用于统计所述特征词在所述 待分类文本中的出现频度,以及统计所述特征词的文本频度,并发送到所述计算单元。实用新型效果采用本实用新型所述的面向中图法的学术文献自动分类系统,具有以下优点1)分类体系广、层次细本分类器能够对中图分类法的37个大类,5万余子类进行 自动训练和标注,并取得了较高的准确率,覆盖范围之广、分类层次之细是开创性的,填补 了以往分类器只能对少数类别分类的空白。2)专业文献的智能分类以往多数分类器只能对篇幅较短、内容简单的文本进行 分类,例如网页等。但本分类器能够对学术期刊、博硕士论文、报纸等形式的专业文献进行 准确的分类,其中一篇期刊的数据量最多可达几十k,有5000-10000字左右,博硕士论文可 以过M,字数在3万字以上。不但如此,专业文献的词汇和类别要求比较严格,因此对其分类 需要严格的语义支持,并体现智能化。3)大大提高数据加工效率本分类器将自动分类应用于了文献加工的工作流水
5线,辅助并替换了以往的人工分类,大大提升了工作效率,降低的生产成本。
下面将参照附图详细地描述实施方式。图1是表示根据本实用新型的面向中图法的学术文献自动分类系统的总体结构 的框图。图2是表示根据本实用新型的面向中图法的学术文献自动分类系统的一个实施 方式的具体结构的框图。图3是表示根据本实用新型的面向中图法的学术文献自动分类系统的一个实施 方式的基础数据服务器中数据存储形式的示意图。图4是表示根据本实用新型的面向中图法的学术文献自动分类系统的一个实施 方式的工作流程图。
具体实施方式
下面将参照附图描述根据本实用新型一个实施方式的学术文献自动分类系统的 结构和工作原理。图1是表示根据本实用新型的面向中图法的学术文献自动分类系统的总体结构 的框图。参照图1,本实施方式的学术文献自动分类系统包括基础数据服务器、特征选择 器、训练器和分类器。其中,基础数据服务器,连接特征选择器、训练器和分类器,以数据库 的形式存储学术文献文本,其中包括训练文本和待分类文本。特征选择器,连接所述训练 器,用于从所述基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词 词典。训练器,连接所述分类器,用于从所述基础数据服务器读取所述训练文本,并计算所 述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语-分类号映射词典。 分类器,连接所述基础数据服务器,从所述基础数据服务器读取所述待分类文本,利用所述 特征词词典以及所述词语_分类号映射词典计算所述待测试文本对应的中图分类号。图2是表示根据本实用新型的面向中图法的学术文献自动分类系统200的具体结 构的框图。参照图2,面向中图法的学术文献自动分类系统200包括基础数据服务器210、 特征选择器220、训练器230和分类器240。基础数据服务器210连接特征选择器220、训练器230和分类器240,以数据库的 形式存储学术文献文本,作为系统其它部分的信息载体,其中包括训练文本和待分类文本。 训练文本和待分类文本以统一的表的结构(参见图3)进行存储,包括文本篇名、中文摘要、 中文关键字、全文、刊名、引文和分类号,其中,训练文本的分类号是已知的,待分类文本的 分类号字段初始为空。特征选择器220连接训练器230,自动选择分类所需的特征词,得到特征词词典。 特征选择器220包括读取单元221、统计单元222、计算单元223、判断单元224、选择单元 225。其中,读取单元221,连接统计单元222,从基础数据服务器210中读取训练文本。统计 单元222,连接计算单元223,统计从读取单元210中读取到的训练文本中的词语与分类号 的对应关系及数量关系。例如,训练文本中包含词语“计算机”,要统计其与分类号“TP3-4” 的关系,首先统计训练文本中包含词语“计算机”且属于分类号“TP3-4”的文档数量;然后,统计训练文本中不包含词语“计算机”但属于分类号“TP3-4”的文档数量;接着统计训练文 本中包含词语“计算机”但不属于分类号“TP3-4”的文档数量;最后统计训练文本总数。将 所有统计值发送到计算单元223。计算单元223,连接判断单元224,计算训练文本中的词语 在各个分类号下的权重。判断单元224,连接选择单元225,判断所述训练文本中的词语是 否都已计算完毕,如果“是”,则将计算单元223得到的权重发送到选择单元225,如果“否”, 则将未进行计算的词语发送到计算单元223进行计算。选择单元225,连接训练器230,对 从计算单元223得到权重进行排序和筛选,自动选择合适的特征词,得到特征词词典。训练器230连接分类器240,从基础数据服务器210读取训练文本,并计算从特征 选择器220得到的特征词与分类号的概率关系,从而得到词语_分类号映射词典。训练器 230包括读取单元231、查找单元232、统计单元233、计算单元234、生成单元235。其中, 读取单元231,连接查找单元232,从基础数据服务器210中读取训练文本,以训练文本的篇 名、中文关键字、全文、中文摘要字段作为输入。查找单元232,连接统计单元233,利用特征 词词典查找训练文本中输入字段的特征词。统计单元233,连接计算单元234,统计查找到 的特征词的对应分类号,统计训练文本中出现该特征词的文档数量,即文档频度,并且在训 练文本的篇名、中文关键字、全文、中文摘要字段统计该特征词对应分类号的出现数量。计 算单元233,连接生成单元234,根据特征词在训练文本中不同字段位置的出现数量进行加 权,计算其在对应分类号下的权重,并按照权重对分类号由高到低排序。生成单元234,连接 分类器240,将词形、分类号、文档频度和权重存入词语-分类号映射词典。下面是词语-分 类号映射词典的示例 分类器240,连接基础数据服务器210,从基础数据服务器210读取待分类文本,特 征词词典以及词语-分类号映射词典计算所述待测试文本对应的中图分类号。分类器包 括读取单元241、分词单元242、统计单元243、计算单元244、分类单元245。其中,读取单 元241,连接分词单元242,从基础数据服务器210中读取待分类文本。分词单元242,连接 统计单元243,利用特征选择器220生成的特征词词典对待分类文本进行分词,获得待分类 文本中的特征词在不同位置的出现频度,去除其中重复的词项。统计单元243,连接计算单 元244,统计特征词在待分类文本中的出现频度和特征词的文本频度,并将统计值发送到计 算单元244。计算单元244,连接分类单元245,根据接收到的统计值计算特征词的权重并根据训练器230生成的词语-分类号映射词典获得特征词在所有分类号下相应的权重,从而 计算出待分类文本中的特征词对应每个分类号的总权重;分类单元245,连接基础数据服 务器210,对计算单元244得到的分类号总权重进行排序,将排序前几位的分类号作为待分 类文本的分类号,并输出该分类号。综上所述,本实用新型所述学术文献自动分类系统能够替代现有的人工分类工 作,优化数据加工流程,并大大提升工作效率。在本说明书中所谈到的“一个实施方式”、“另一个实施方式”、“实施方式”、等,指 的是结合该实施方式描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个 实施方式中。在说明书中任何地方出现这种表述不是一定都指的是该同一个实施方式。进 一步,结合任一实施方式描述一个具体特征、结构或者特点时,所要主张的是结合其他实施 方式来实现这种特征、结构或者特点,落在本领域技术人员的范围内。尽管参照本实用新型的多个解释性实施方式对本实用新型进行了描述,但是,应 该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将 落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范 围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件 和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。
8
权利要求一种面向中图法的学术文献自动分类系统,其特征在于,该学术文献自动分类系统包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与特征选择器、训练器和分类器相连接,用于以数据库的形式存储学术文献文本,所述学术文献文本包括训练文本和待分类文本;特征选择器进一步与训练器相连接,用于从基础数据服务器读取所述训练文本,并选择分类所需的特征词,得到特征词词典;训练器进一步与分类器相连接,用于从基础数据服务器读取所述训练文本,并计算所述特征选择器得到的所述特征词与分类号的概率关系,从而得到词语 分类号映射词典;并且分类器分别与基础数据服务器和训练器相连接,用于从基础数据服务器读取待分类文本,利用所述特征词词典以及所述词语 分类号映射词典计算所述待测试文本对应的中图分类号。
2.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述特征选择器进一 步包括读取单元,与计算单元相连接,用于从所述基础数据服务器中读取所述训练文本; 计算单元,进一步与选择单元相连接,用于计算所述训练文本中的所有词语在所述各 个分类号下的权重;选择单元,进一步与所述训练器相连接,用于对所述权重进行排序和筛选从而得到特 征词词典。
3.根据权利要求2所述的学术文献自动分类系统,其特征在于,所述特征选择器进一 步包括统计单元,分别与所述读取单元与所述计算单元相连接,用于统计所述训练文本中词 语与分类号的对应关系及数量关系,并将统计值发送到所述计算单元;判断单元,分别与所述计算单元和所述选择单元相连接,用于判断所述训练文本中的 词语是否都已计算完毕,如果“是”,则将所述计算单元得到的所述权重发送到选择单元,如 果“否”,则将未进行计算的词语发送到所述计算单元进行计算。
4.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述训练器进一步包括读取单元,与查找单元相连接,用于从所述基础数据服务器中读取所述训练文本; 查找单元,进一步与统计单元相连接,用于利用所述特征词词典查找所述训练文本中 的特征词;统计单元,进一步与计算单元相连接,用于统计所述特征词的对应分类号并统计所述 训练文本中出现所述特征词的文档数量以及在所述训练文本的篇名、中文关键字、全文、中 文摘要字段统计所述特征词对应分类号的出现数量;计算单元,进一步与生成单元相连接,用于根据所述特征词在不同字段位置的出现数 量进行加权,计算其在所述分类号下的权重,并按照权重对所述分类号由高到低排序;生成单元,进一步与所述分类器相连接,用于将所述词形、所述分类号、所述训练文本 中出现所述特征词的文档数量、所述权重存入所述词语_分类号映射词典。
5.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述分类器进一步包括读取单元,与分词单元相连接,用于从所述基础数据服务器中读取所述待分类文本; 分词单元,进一步与计算单元相连接,用于根据所述特征词词典对所述待分类文本进 行分词,获得所述待分类文本中的特征词;计算单元,进一步与分类单元相连接,用于计算所述特征词的权重并根据所述词 语_分类号映射词典计算所述特征词在所有分类号下相应的权重,从而计算出所述待分类 文本中的所有特征词对应的每个分类号的总权重;分类单元,进一步与所述基础数据服务器相连接,用于对所述计算单元得到的所述分 类号总权重进行排序,将排序前几位的分类号作为所述待分类文本的分类号,并输出所述 分类号。
6.根据权利要求5所述的学术文献自动分类系统,其特征在于,所述分类器进一步包括统计单元,分别与所述分词单元与所述计算单元相连接,用于统计所述特征词在所述 待分类文本中的出现频度并统计所述特征词的文本频度,并将统计值发送到所述计算单兀。
7.根据权利要求1所述的学术文献自动分类系统,其特征在于,所述基础数据服务器 中的训练文本和待分类文本以统一的表的结构存储,包括文本篇名、中文摘要、全文、刊名、 引文和分类号,其中,训练文本的分类号是已知的,待分类文本的分类号初始为空。
专利摘要本实用新型提供了一种面向中图法的学术文献自动分类系统,包括基础数据服务器、特征选择器、训练器和分类器,其中,基础数据服务器分别与特征选择器、训练器和分类器相连,用于存储学术文献文本;特征选择器与训练器相连,用于从基础数据服务器读取训练文本,并选择分类所需的特征词,得到特征词词典;训练器与分类器相连,用于从基础数据服务器读取训练文本,并计算特征选择器得到的特征词与分类号的概率关系,从而得到词语-分类号映射词典;并且分类器从基础数据服务器读取待分类文本,利用特征词词典以及词语-分类号映射词典计算待测试文本对应的中图分类号。通过该系统,能够对学术文献实现准确、精细的智能分类,大大提升了效率。
文档编号G06F17/30GK201654779SQ20092015168
公开日2010年11月24日 申请日期2009年4月22日 优先权日2009年4月22日
发明者张振海, 罗霄 申请人:同方知网(北京)技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1