一种关于英语阅读理解测试疑问式简答题的自动化命题方法
【专利摘要】本发明公开了一种关于英语阅读理解测试疑问式简答题的自动化命题方法,包括自然语言处理、考点选取、问句生成和同义改写四个步骤。该方法首先对输入的文章进行自然语言处理;然后基于词频密度、段落长度和句义近似度选取考点句子;根据词汇功能语法理论将陈述句转化为疑问句;最后对疑问句实施同义词替换和代词替换,形成疑问式简答题。本发明自动化命题方法由于加入了考点选取和同义改写,生成的疑问句可适用于阅读理解测试;同义改写部分由于采用了限定词汇范围和义项范围的方法,可突破语义消歧精度较低的瓶颈,实现准确率较高的同义词替换;疑问句生成部分由于同时参考了句法和语义信息,能够高效地生成类型多样、质量较高的问句。
【专利说明】—种关于英语阅读理解测试疑问式简答题的自动化命题方法
【技术领域】
[0001]本发明属于语言自动化测试【技术领域】,具体涉及一种关于英语阅读理解测试疑问式简答题的自动化命题方法。
【背景技术】
[0002]计算机化是现代教育测试的重要发展方向。目前语言测试在施测环节已能够实现计算机自适应测试,在评分环节能够实现主观题机器自动评分,然而在命题环节,自动化水平依然很低,命题者基本仅在文字编辑和词典查询方面获取计算机的辅助。
[0003]语言测试命题环节的计算机化具有迫切性。在标准化阅读理解测试开发中,人工命题的成本很高,效率却比较低。命题者需接受专业培训,还要经历繁杂的命题环节,包括改编文章、寻找考点、编写和研磨题目,以及试测题目。即使是经验丰富的命题者,也无法准确预知题目质量,试测后只有部分题目得以采用,这些问题导致大规模题库难以建立,进而阻碍了计算机自适应阅读理解测试的发展。
[0004]关于阅读理解测试自动化命题的研究较少。Ruslan Mitkov和Le An Ha在标题为Computer-aided generation of multiple-choice tests(Proceedings of the2003HumanLanguage Technology Conference of the North American Chapter of the Associationfor Computational Linguistics Workshop on Building Educational ApplicationsUsing Natural Language Processing,2003,17-22)的文献中提出基于浅层句法分析识别短语,根据语料库词频和WordNet构造干扰项生成多项选择题的命题方法。其研究表明,与直接命题相比,命题者在计算机所生成题目的基础上修改时效率可提高十多倍,且最终编写出来的题目质量更高。然而,该研究中计算机产生的问题类型有限,提问对象只限于名词,疑问词只限于which和what。
[0005]Jack Mostow和Wei Che`n在标题为Generating instruction automatically forthe reading strategy of self-questioning (Proceedings of the2009Conference onArtificial Intelligence in Education:Building Learning Systems that Care:FromKnowledge Representation to Affective Modeling,2009,465-472)的文献中提出基于情境模型和题目模板产生简答题的方法,该方法只能针对具有人物情节的语篇命题,提问对象的范围限于人物心理状态。
[0006]Michael Heilman 和 Smith Noah 在标题为 Good question! Statistical rankingfor question generation (Human Language Technologies:The2010Annual Conferenceof the North American Chapter of the Association for Computational Linguistics,2010,609-617)的文献中提出基于短语结构生成问句的方法。该方法没有考虑句子成分间的语义关系,且只依据特定词语这种表层信息决定疑问词,准确度不够高。
[0007]PrashanthMannemjRashmiPrasad 和 AravindJoshi 在题目为 Questiongeneration from paragraphs at UPenn:QGSTEC system description (Proceedings ofQuestion Generation2010, 2010,84-91)的文献中提出基于语义角色生成问句的方法。该方法虽然考虑了语义关系,由于采用针对专有名词的命名实体识别方法区分词汇范畴,无法把普通名词作为提问对象。
[0008]Xuchen Yao, GosseBouma 和 Yi Zhang 在题目为 Semantics-based questiongeneration and implementation (Dialogue&Discourse, 2012,11-42)的文献中提出基于最小递归语义理论生成问句的方法,该方法利用了深层语义结构,可生成质量较高的问句,但是该方法计算量大,效率较低。
[0009]上述方法生成的问句不适用于阅读理解测试,因为这些问句未经过同义改写,而且这些方法未包含针对测试筛选题目的机制。阅读理解指对信息通过字形、语音和语义编码抽象出意义的过程。如果题目仅仅是将考点从陈述句式转为疑问句式,被试可能无需理解,仅凭字形匹配就能回答题目。另外一方面,语言测试的本质是根据被试对有限题目的答题情况推测其语言能力;阅读理解测试主要考察被试从语篇中获取信息的能力,选择语篇中哪些部分作为考点应从该部分是否具有文章信息的代表性出发。合理的考点应能够体现文章的核心信息,全面但不重复地涉及各个语义群。
【发明内容】
[0010]针对现有技术所存在的上述技术问题,本发明提供了一种关于英语阅读理解测试疑问式简答题的自动化命题方法,能够对输入的文章选出符合核心性、全面性和相互独立性的考点,通过疑问句转换和同义改写,生成事实型简答题。
[0011]一种关于英语阅读理解测试疑问式简答题的自动化命题方法,包括如下步骤:
[0012](I)自然语言处理;
[0013]1.1利用自动句法标注器对文章中的句子进行句法分析,得到句子的短语结构和词法信息;所述的词法信息包括句子中各名词的数以及各动词的时态和体态;
[0014]1.2利用自动语义角色标注器提取所述句子中述语动词指派给所在句中各句子成分的语义角色;所述的句子成分为单词、短语或从句;
[0015]1.3利用自动指代消解器提取所述句子中代词所指的句子成分;
[0016]1.4利用自动词汇范畴标注器提取所述句子中实词和固定短语的词汇范畴;
[0017]1.5利用语料库结合HAL法(Hyperspace Analogue to Language,多维空间类比分析法)与LSA法(Latent Semantic Analysis,潜在语义分析法),计算得到词典范围内所有单词的语义向量;
[0018](2)考点选取;
[0019]2.1计算文章中句子的词频密度;
[0020]2.2计算文章中每个段落应选的考点数目;
[0021]2.3取所述句子中所有单词的语义向量的几何中心作为句子的语义向量,进而计算文章中每个句子与其他句子的句义近似度;
[0022]2.4按词频密度从高到低的顺序对文章中句子进行排序,依次判断每个句子是否被选为考点;
[0023](3)问句生成;
[0024]3.1对于被选为考点的句子,根据句子的词法信息和各句子成分的语义角色建立句子基于词汇功能语法理论的功能结构;
[0025]3.2使功能结构中的独立功能体均作为提问对象;所述的独立功能体是指功能结构中以子功能结构作为明细的属性,其包括主语、宾语、间接宾语以及附加语;
[0026]3.3对于任一提问对象,确定该提问对象的中心语,进而根据中心语的词汇范畴以及提问对象的语义角色确定提问对象的疑问词;
[0027]3.4在被选为考点的句子中使该疑问词代替提问对象,进而根据所述的短语结构和功能结构对该句子中的句子成分做主谓倒装和时数一致性调整,生成以该疑问词引导的特殊疑问句;
[0028]3.5根据步骤3.3~3.4遍历每一个提问对象,生成多个特殊疑问句;
[0029](4)同义改写;
[0030]4.1对文章中的实词或固定短语进行语义消歧,以确定实词或固定短语在特殊疑问句中的语义;
[0031]4.2对于特殊疑问句中的任一实词或固定短语,判断该实词或固定短语的语义是否为词典中该实词或固定短语的高频义项,若是则进入步骤4.3,若否,则不对该实词或固定短语做同义改写;
[0032]4.3根据语义利用词典获取该实词或固定短语的同义词集合,依次对集合中的同义词进行判断:对于集合中的任一同义词,判断该实词或固定短语的语义是否也是词典中该同义词的高频义项,若是则进入步骤4.4,若否,则判断集合中的下一个同义词;
[0033]4.4判断该同义词是否超出阅读理解测试所指定的词汇范围,若否,则将该同义词替换该实词或固定短语,若是,则判断集合中的下一个同义词;
[0034]4.5根据步骤4.2~4.4遍历特殊疑问句中的所有实词或固定短语;
[0035]4.6对于特殊疑问句中的任一代词,判断该代词所指的句子成分是否也在该特殊疑问句中,若是,则不对该代词做同义改写,若否,则进一步判断该特殊疑问句中是否存在另一个代词所指的句子成分与该代词的所指相同且该另一个代词在特殊疑问句中处于该代词前面的情况,若是,则不对该代词做同义改写,若否,则用该代词所指的句子成分替换该代词。
[0036]所述的步骤1.5中结合HAL法与LSA法得到词典范围内所有单词的语义向量的具体过程为:首先,从语料库中获取单词共现关系矩阵,该矩阵中任一元素的取值为该元素所在行和列分别对应的两个单词在语料库中共同出现的次数;然后,对该共现关系矩阵进行奇异值分解,得到词典范围内所有单词的语义向量。
[0037]所述的步骤2.1中根据以下公式计算句子的词频密度:
[0038]
【权利要求】
1.一种关于英语阅读理解测试疑问式简答题的自动化命题方法,包括如下步骤: (1)自然语言处理; .1.1利用自动句法标注器对文章中的句子进行句法分析,得到句子的短语结构和词法信息;所述的词法信息包括句子中各名词的数以及各动词的时态和体态; .1.2利用自动语义角色标注器提取所述句子中述语动词指派给所在句中各句子成分的语义角色;所述的句子成分为单词、短语或从句; .1.3利用自动指代消解器提取所述句子中代词所指的句子成分; . 1.4利用自动词汇范畴标注器提取所述句子中实词和固定短语的词汇范畴; .1.5利用语料库结合HAL法与LSA法,计算得到词典范围内所有单词的语义向量; (2)考点选取; .2.1计算文章中句子的词频密度; .2.2计算文章中每个段落应选的考点数目; .2.3取所述句子中所有单词的语义向量的几何中心作为句子的语义向量,进而计算文章中每个句子与其他句子的句义近似度; . 2.4按词频密度从高 到低的顺序对文章中句子进行排序,依次判断每个句子是否被选为考点; (3)问句生成; .3.1对于被选为考点的句子,根据句子的词法信息和各句子成分的语义角色建立句子基于词汇功能语法理论的功能结构; .3.2使功能结构中的独立 功能体均作为提问对象;所述的独立功能体是指功能结构中以子功能结构作为明细的属性,其包括主语、宾语、间接宾语以及附加语; .3.3对于任一提问对象,确定该提问对象的中心语,进而根据中心语的词汇范畴以及提问对象的语义角色确定提问对象的疑问词; .3.4在被选为考点的句子中使该疑问词代替提问对象,进而根据所述的短语结构和功能结构对该句子中的句子成分做主谓倒装和时数一致性调整,生成以该疑问词引导的特殊疑问句; .3.5根据步骤3.3~3.4遍历每一个提问对象,生成多个特殊疑问句; (4)同义改写; .4.1对文章中的实词或固定短语进行语义消歧,以确定实词或固定短语在特殊疑问句中的语义; . 4.2对于特殊疑问句中的任一实词或固定短语,判断该实词或固定短语的语义是否为词典中该实词或固定短语的高频义项,若是则进入步骤4.3,若否,则不对该实词或固定短语做同义改写;.4.3根据语义利用词典获取该实词或固定短语的同义词集合,依次对集合中的同义词进行判断:对于集合中的任一同义词,判断该实词或固定短语的语义是否也是词典中该同义词的高频义项,若是则进入步骤4.4,若否,则判断集合中的下一个同义词; . 4.4判断该同义词是否超出阅读理解测试所指定的词汇范围,若否,则将该同义词替换该实词或固定短语,若是,则判断集合中的下一个同义词; .4.5根据步骤4.2~4.4遍历特殊疑问句中的所有实词或固定短语;.4.6对于特殊疑问句中的任一代词,判断该代词所指的句子成分是否也在该特殊疑问句中,若是,则不对该代词做同义改写,若否,则进一步判断该特殊疑问句中是否存在另一个代词所指的句子成分与该代词的所指相同且该另一个代词在特殊疑问句中处于该代词前面的情况,若是,则不对该代词做同义改写,若否,则用该代词所指的句子成分替换该代词。
2.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤1.5中结合HAL法与LSA法得到词典范围内所有单词的语义向量的具体过程为:首先,从语料库中获取单词共现关系矩阵,该矩阵中任一元素的取值为该元素所在行和列分别对应的两个单词在语料库中共同出现的次数;然后,对该共现关系矩阵进行奇异值分解,得到词典范围内所有单词的语义向量。
3.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤2.1中根据以下公式计算句子的词频密度:
4.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤2.2中根据以下公式计算文章中每个段落应选的考点数目:
5.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤2.3中根据以下公式计算文章中每个句子与其他句子的句义近似度:
6.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤2.4中判断每个句子是否被选为考点的评判标准如下:首先,对于待判断的句子,若其所在段落已选的考点数目已达到应选的考点数目,则不将其选为考点;若其所在段落已选的考点数目未达到应选的考点数目且其与文章中所有已被选为考点的句子的句义近似度均低于预设的近似度阈值,则将其选为考点并存储记录,否则不将其选为考点。
7.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤3.1中根据以下规则建立句子基于词汇功能语法理论的功能结构: 使句子中述语动词的原形作为功能结构或直联子功能结构中谓词的明细;所述的直联子功能结构是指包含该述语动词的最小句子成分在所述功能结构中所对应的子功能结构; 使句子中述语动词的时态和体态分别作为功能结构或直联子功能结构中时态和体态的明细;如果该述语动词的时态或体态不完整,相应的直联子功能结构中时态或体态的明细继承上一级子功能结构中时态或体态的明细; 根据Propbank的语义角色标注体系,使句子中述语动词指派的序号最低的核心语义角色所对应的句子成分作为以该述语动词作谓词的功能结构或直联子功能结构中主语的谓词的明细;进而确定该句子成分的中心语,若中心语为名词,则将中心语的数作为所述主语的数的明细,若中心语为非名词,则令所述主语的数的明细为单数; 若句子的述语动词指派了至少两个核心语义角色,则使其中序号次低的核心语义角色对应的句子成分作为以该述语动词作谓词的功能结构或直联子功能结构中宾语的谓词的明细; 若句子的述语动词指派了至少三个核心语义角色,则使其中序号第三低的核心语义角色对应的句子成分作为该述语动词作谓词的功能结构或直联子功能结构中的间接宾语的谓词的明细; 若句子的述语动词还指派了若干附属语义角色,则将该若干附属语义角色对应的句子成分作为以该述语动词作谓词的功能结构或直联子功能结构中各对应附加语的明细。
8.根据权利要求1所述的自动化命题方法,其特征在于:所述的步骤3.3中确定提问对象的疑问词的标准如下: 若提问对象的语义角色为核心语义角色,则进而判断提问对象的中心语的词汇范畴:若词汇范畴为\.person,则令提问对象的疑问词为who ;若词汇范畴为其他,则令提问对象的疑问词为what ; 若提问对象的语义角色为附属语义角色中的时间,则进而判断提问对象的中心语的词汇范畴:若词汇范畴为\.duration,贝U令提问对象的疑问词为how long ;若词汇范畴为其他,则令提问对象的疑问词为when ; 若提问对象的语义角色为附属语义角色中的场所,则进而判断提问对象的中心语的词汇范畴:若词汇范畴为 \.location、\.address、\.factory、\.geography 或\.0rganization,则令提问对象的疑问词为where ;若词汇范畴为其他,贝U令提问对象的疑问词为how ; 若提问对象的语义角色为附属语义角色中的原因或目的,则令提问对象的疑问词为why ; 若提问对象的语义角色为附属语义角色中的方式,则令提问对象的疑问词为how。
【文档编号】G06N5/00GK103823794SQ201410064433
【公开日】2014年5月28日 申请日期:2014年2月25日 优先权日:2014年2月25日
【发明者】黄妍, 何莲珍 申请人:浙江大学