智能决策支持系统及其智能决策方法

文档序号:6597916阅读:295来源:国知局
专利名称:智能决策支持系统及其智能决策方法
技术领域
本发明涉及智能决策技术领域,更具体地,涉及一种基于文本分类和知识领域本 体的智能决策支持系统及其智能决策方法。
背景技术
随着以互联网为代表的信息技术的不断发展,人类接收和处理各种信息的速度和 数量都在迅速地增加。面对来自各种渠道的信息,例如,来自互联网的网页、电子邮件、数字 图书馆等数字化文档信息,人们需要迅速地根据这些数字化文档提供的信息做出判断和决 策。对文本进行分类是有效和迅速处理这些数字文档的技术中的一个非常重要的课题。文 本分类是指在已有数据的基础上构造一个分类模型,即,分类器。分类器按照预先定义的分 类体系为测试文档集合中的每个文档确定一个类别,从而用户能够方便地浏览文档,也可 以通过限制搜索范围来使文档的查找更容易。文本自动分类就是用大量的带有类标志的文 本,对分类准则或模型参数进行训练,然后用训练得到的结果对未知类别的文本进行识别。 支持向量机(SVM,support vectormachine)是常用的一种文本分类方法,并且得到广泛使 用。SVM是一种基于统计学习理论的模式识别方法,在解决小样本、非线性及高维模式识别 问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。现在 已经在许多领域(生物信息学、文本和手写识别等)都取得了成功的应用。现在的文本分类器仅仅用于对文本进行归类,或者对文本插入标签并进行归类。 具体地,文本分类器首先通过预先定义的类别层次进行数据收集,形成大规模的训练样本。 然后,文本分类器对训练样本进行特征提取和模型训练,从而生成文本类别的模型。接下 来,文本分类器可以使用训练得到的模型对待预测的文本进行归类。具体地,文本分类器对 待预测的文本进行预处理,提取文本的特征,然后使用生成的模型对待预测的文本进行归 类。文本分类器输出每个类别的置信率,并按照置信率将待预测的文本归类到多个类别,或 者为待预测的文本添加标签并进行归类。但是,现有技术中存在的问题是,文本分类器所能归类的类别都是预先定义好的 标签,无法用于智能决策的支持。也就是说,无法通过文本分类得到与该文本相关的决策。 因此,需要一种智能决策支持系统,可以通过文本分类及其相关领域的技术从文本预测客 户的意图或兴趣所在,并给出相关的反馈意见或提示以帮助用户/客户做出决策。

发明内容
本发明提出了一种将文本分类器与知识领域本体综合在一起进行智能决策的方 法。这里所提到的“知识领域本体”可以是用于特定的技术领域的知识数据库,在该数据库 中包含了由该特定技术领域的专家制定的可供查询的数据结构。例如,在地理知识领域本 体中,与“旅游”和“北京”的属性信息对应的知识信息可以是“故宫旅游线路”、“长城旅游 指南”、“颐和园旅游指南”等等。本发明的智能决策支持系统首先利用多维分类器对文本进行语义描述。这里的每
4一维的文本分类器所对应的分类类别体现了一套语义标准,这样,该分类器所输出的置信 率就代表了在该语义标准下这个类别(包括它的各个语义属性)的信任度。把所有属性的 信任度作为问题提交系统的输入,结合推理机和知识领域本体的数据库,可以把多个类别 的各个语义属性进行信息语义融合,从而输出智能决策。这种智能决策的内容将不限于预 定义的类别,语义推导的融合可以给出更加智能的决策,满足更广意义上的用户需求。为达 到智能的语义信息融合的目的,要求多维分类器所定义的每一套标准在语义概念上互不重 叠,并与知识领域本体的内容相呼应。也就是说,用于每一维的文本分类器的每一套标准所 定义的类别和属性都包含在知识领域本体描述范围之内。根据本发明的一方面,提供了一种智能决策支持系统,所述系统包括多维分类 器,包括定义了不同的语义标准并基于所述不同的语义标准被训练的多个分类器,多维分 类器对文本进行多语义标准的分类,以输出文本的多个属性以及每个属性的置信率;问题 提交模块,接收多维分类器的输出,并基于文本的多个属性以及每个属性的置信率形成问 题;推理机,接收问题提交模块所提交的问题,并基于该问题查询领域本体知识库,将查询 得到的问题答案提供给决策答复模块;领域本体知识库模块,存储与智能决策支持系统相 关领域的领域本体知识库,所述领域本体知识库记录与多维分类器的语义标准对应的决策 推导规则的描述;决策答复模块,将推理机提供的对于问题的决策答案提供给用户。根据本发明的另一方面,还提供了一种智能决策方法,所述方法包括根据应用领 域定义多维分类器的多个分类器的语义标准和记录与多维分类器的语义标准对应的决策 推导规则的描述的领域本体知识库;根据多语义标准收集训练文本,训练多维分类器;多 维分类器对文本进行多标准的分类,输出该文本的多个属性以及每个属性的置信率;基于 文本的多个属性以及每个属性的置信率形成用于智能决策的问题;推理机基于该问题查询 领域本体知识库,以得到智能决策的答案并将答案提供给用户。


通过下面结合附图对实施例的详细描述,本发明的上述和/或其他方面将会变得 清楚和更容易理解,其中图1是示出根据本发明实施例的智能决策支持系统的结构的示意图。图2示出了应用本发明实施例的智能决策支持系统的自动广告推荐系统。图3是示出将本发明的智能决策支持系统应用于医疗诊断的方法的示意图。
具体实施例方式下面将参照附图来描述根据本发明实施例的智能决策支持系统。另外,还给出了 本发明的智能决策支持系统应用到广告推荐系统和智能诊断系统的示例。图1是示出根据本发明实施例的智能决策支持系统的结构的示意图。参照图1, 根据本发明实施例的智能决策支持系统包括多维分类器100、问题提交模块200、推理机 300、领域本体知识库400、知识库管理模块500和决策答复模块600。多维分类器100可包括多个标准分类器。图1中的多维分类器包括η个标准分类 器,即,标准1分类器到标准η分类器。这里的“标准”是指用于文本的一套包含多个属性 的语义标准,每个语义标准所覆盖的内容互不重叠又在语义描述方面互相补充。换句话说,这里的标准指的是对同一段文本从某一个语义范畴进行理解的标准。可将标准视为一类概 念的抽象,以及在这个抽象概念下的实例,代表了人类思维对这段文本从某一个角度进行 理解的标准。每套语义标准下的各个语义属性都能成为对文本进行描述的语义标签。使用 多维分类器100可获得为提供决策而待分析的文本在不同语义领域下的属性描述。多维分 类器100的分类标准可根据智能决策支持系统所应用的领域、对象和方式而不同。将在以 后的具体实施例中详细介绍多维标准的示例。在定义好多维分类器100的语义标准之后,需要对每一个标准分类器收集大量的 文本样本以训练多维分类器。训练多维分类器可采用以下方式。首先,对用于训练的文本 样本进行特征提取以获得文本的特征向量空间。可采用任意的特征提取方法。例如,可以 采用常用的TF-IDF方法,也可以采用更为复杂的基于WordNet或其他算法的方法。特征提 取方法的目的在于生成在每个语义标准下描述文本的特征空间。基于特征空间,对每个样 本文本进行特征向量描述。对多维分类器100的每个语义标准下的所有文本的特征向量进 行训练,从而获得每个标准分类器的训练模型。每个标准分类器的训练模型可用于预测文 本在该语义标准下的多个属性的各自的置信率(即,信任度),置信率通常用范围在0 1 概率数值来表示。在获得了标准分类器的训练模型之后,当待分析的文本被输入多维分类器100 时,多维分类器100的每个标准分类器使用其训练模型对该文本进行多标准的分类,以获 得该文本的多语义属性描述以及每个语义属性的信任度数值。这里,多维分类器100将分 类的多个语义属性以及每个语义属性的信任度数值输出到问题提交模块200。此后,问题提交模块200基于接收的多个语义属性的置信率对所述多个语义属性 进行预处理,从而形成知识库管理模块500所要求的问题形式。问题形式根据应用的领域 而不同。将在稍后的实施例中详细介绍形成问题的示例。在得到问题之后,问题提交模块 200启动推理机300,并将形成的问题提交给推理机300。这里,可以采用多种格式来提交问 题,例如,可采用可扩展标记语言(XML)格式描述的问题形式来提交问题。推理机300接收到来自问题提交模块200的问题之后,解析问题的属性,根据问题 的属性来查询领域本体知识库模块400中存储的知识库。知识库记录了用于根据问题的属 性来推导问题的答案的规则。这些规则可以由本领域的专家规定或定义。根据本发明的实 施例,多维分类器100所使用的语义标准(即,问题的属性)与领域本体知识库中的推导规 则存在对应的关系,即,每个语义标准都能在领域本体知识库中找到对应的描述,但是,领 域本体知识库中所定义的语义范畴远远大于多维分类器所定义的语义标准。例如,领域本 体知识库中的规则可以与至少一个属性的组合对应。将在以下参照图2和图3进行更详细 的描述。领域本体知识库模块400将查询的结果返回给推理机300,推理机300基于查询 的结果形成知识库管理模块500所定义的形式的智能决策,并将决策交付给决策答复模块 600。这里,知识库管理模块500用于对领域本体知识库模块400中所存储的知识库和问题 提交模块200的问题提交形式进行配置。也就是说,可通过知识库管理模块500来改变问题 提交模块200产生的问题的形式或更新知识库中的推导答案的规则。知识库管理模块500 的功能也可以与问题提交模块200和领域本体知识库模块400分别合并,或者被省略。决策答复模块600将决策转换为用户可识别的形式,最终向用户输出得到的决策答案。这里,输出决策的形式可以根据应用的领域而不同。将在下面参照图2和图3的实 施例进行对应的说明。应理解,在这里描述的多个模块的功能可以合并为单个模块,或者是划分为更多 的模块来执行。下面将参照图2来说明应用了本发明实施例的智能决策支持系统的自动广告推 荐系统。该广告推荐系统的目的在于针对文本的内容,自动推荐适合于该文本的广告。如图 2所示,该自动广告推荐系统也包括多维分类器、问题提交模块、推理机、广告领域的本体知 识库、知识库管理模块和决策答复模块。具体地,在此自动广告推荐系统中,多维分类器的多维标准被示例性定义为国 家、广告、敏感三类。也就是说,多维分类器包括3个标准分类器。每一类标准都包含了多 个具体的属性。例如,“国家”标准包括的属性有中国、美国、日本、德国等等。“广告”标准包 括的属性是各种产品类别,例如汽车、饮料、家用电器等。“敏感”标准包括的属性是广告中 的敏感类别,例如,车祸、淫秽等。当然,这里给出的属性类别仅仅是示意性的,本发明不限 于在此示出的属性类别。在应用本发明实施例的广告推荐系统中,基于支持向量机的多维 分类器与基于简单的关键词分类的技术的不同之处在于,每一维分类器的属性还覆盖了与 该属性相关联的扩展属性。通常,简单的关键词分类技术仅当该关键词在文本中出现的情 况下才能识别到由该关键词表示的属性。而根据本发明实施例的多维分类器在识别文本的 属性时,不仅仅依靠关键词的属性。以地域类别分类器的中国为例,不仅以显示的地域名词 (比如,北京)作为属性,还以其他所有的具有中国元素语义的词以及短语作为扩展属性, 例如饺子,紫禁城,黄金周,红色旅游等。当文本中出现了诸如饺子、紫禁城等的与关键词 关联的词语时,也可以将文本的“国家属性类别,,识别为“中国”。也就是说,当文本中出现 了与属性类别相关联的扩展属性的关键词时,根据本发明实施例的多维分类器也能识别出 文本的属性。为每一个标准分类器都收集大量的文本样本,并提取文本样本的特征向量。这里, 多维分类器去除不带有语义信息的单词,并对每个单词进行原型回归。例如,如果单词是过 去式的形式,则要回归到它的原型。然后对每个单词采用TF-IDF的方法计算词频和文档 频率,获得它们的权值,使用所有的词作为分类器的特征空间,从而获得每篇文章的特征向 量。使用特征向量就可以训练出分类模型。获得分类模型后,可对某一个未知类别的文本进 行预测,获得该文本所具有的每一个属性的置信率。由图2可见,在地域类别分类器的输出 中,中国的置信率为0.8,而美国的置信率为0.4;在广告类别分类器的输出中,汽车的置信 率为0. 8,饮料的置信率同样为0. 8 ;而在敏感类别检测器的输出中,车祸的置信率为0. 9, 淫秽的置信率为0. 1。多维分类器将所有属性的置信率作为问题提交模块的输入,由问题提 交模块形成查询问题。若设定置信率的阈值为0. 8,即,选用置信率大于或等于0. 8的属性 来形成提交的问题。在此广告推荐系统中,汽车和饮料的置信率比较高,但是,考虑到敏感 分类器的输出,由于车祸的置信率也较高,因此排除“汽车”作为用于产生问题的属性。也 就是说,问题提交模块基于“中国”和“饮料”的属性来产生问题,并将产生的问题提交给推 理机。推理机根据问题查询广告领域本体知识库,获得推理结果,交由决策答复模块进 行面向最终用户的转换,使得用户看见最后的系统决策,即推荐哪一个广告。由图2可见,
7基于广告领域本体知识库中定义的与“中国”和“饮料”属性相关的广告,最终决策给出与 中国饮料有关的广告,比如王老吉。而由于“美国”的属性的置信率较低而被排除,所以广 告推荐系统没有给出与美国饮料有关的广告。这里,决策答复模块以提供广告的形式(例 如,在网页上给出广告的链接、图片)向用户提供决策答复。此外,根据本发明实施例的广告推荐系统还可以根据多维分类器的输出推荐多个 适合的广告。可以对推理机的输出进行设置来根据用户或设计者的需求提供广告的数量。 例如,可以将推荐的广告数量设置为多于1个。图3是示出将本发明的智能决策支持系统应用于医疗诊断的方法的示意图。该智 能诊断支持系统用于基于医生的诊断记录自动的提供相应的诊断方案或开出相应的药方。如图3所示,在本实施例中,智能决策支持系统包括多维分类器、问题提交模块、 推理机、本体知识库模块和决策答复模块。多维分类器由不同诊断科室的医生所诊断的医 疗记录组成。例如,第一维分类器是消化科的诊断记录,第二维分类器是化验科的诊断记 录,第三维分类器是肺科的诊断记录,等等。当然,多维分类器所使用的多维标准由医疗专 家定义。基于大量的诊断记录来训练多维分类器,从而使得每一维分类器代表了从某一个 角度对病人病情的理解,即,得到每一维分类器的训练模型。随后,利用多维分类器的每一 维训练模型来分析提交的待分析的诊断记录。在图3中,待分析的诊断记录形式可以是医 生对病人的病情的文本描述,例如,诊断记录中记载了 “病人体温37. 5摄氏度,肺部无感 染,医保记录号为XXXXX…等等”。多维分类器对该段文本进行分析,预测出的属性包括无 肺炎,低烧,有医保。也就是说,根据多维分类器的训练模型得到置信率较高的三个属性是 “无肺炎”、“低烧”、“有医保”。然后,基于此三个属性产生提交给推理机的问题。图3中示 出了 XML格式的问题。推理机向医学领域本体知识库查询此问题的答案。在本体知识库里 有如下三条规则规则1(无肺炎+低烧)推导出感冒,规则2 (有医保)推导出所有医保类 用药,规则3(有医保+感冒)推导出三九感冒灵。于是,推理机得到了问题的答案,即,最 终给出的决策(开出的智能药方)是三九感冒灵。通过以上的实施例可以看出,本发明的智能决策支持系统将多维的文本分类器与 各个领域本体的知识库相结合,从而提出了一种可以帮助用户进行决策的智能系统。与传 统的文本分类器不同的是,本发明的智能决策支持系统不是简单地根据关键词或其他标准 对文本进行分类或简单地给出文本的标签,而是面向应用的知识领域提供符合人类思维方 式的决策。这极大地提高了人们在文本处理和基于文本的分析进行决策时的效率,从而为 人们提供了现有文本处理方法不能提供的便利。虽然已经参照本发明的若干示例性实施例示出和描述了本发明,但是本领域的技 术人员将理解,在不脱离权利要求及其等同物限定的本发明的精神和范围的情况下,可以 在形式和细节上做出各种改变。
权利要求
1.一种智能决策支持系统,包括多维分类器,包括定义了不同的语义标准并基于所述不同的语义标准被训练的多个分 类器,多维分类器对文本进行多语义标准的分类,以输出文本的多个属性以及每个属性的置信率;问题提交模块,接收多维分类器的输出,并基于文本的多个属性以及每个属性的置信 率形成问题;推理机,接收问题提交模块所提交的问题,并基于该问题查询领域本体知识库,将查询 得到的问题答案提供给决策答复模块;领域本体知识库模块,存储与智能决策支持系统相关领域的领域本体知识库,所述领 域本体知识库记录与多维分类器的语义标准对应的决策推导规则的描述; 决策答复模块,将推理机提供的对于问题的决策答案提供给用户。
2.如权利要求1所述的智能决策支持系统,其中,还包括知识库管理模块,用于对领域本体知识库模块中的领域本体知识库的推导规则和问题 提交模块的问题形式进行配置。
3.如权利要求1所述的智能决策支持系统,其中,多维分类器是支持向量机SVM。
4.如权利要求1所述的智能决策支持系统,其中,领域本体知识库中的决策推导规则 与多维分类器的语义标准的组合对应。
5.如权利要求1所述的智能决策支持系统,其中,多维分类器根据多语义标准收集训 练文本,提取训练文本的特征向量以形成特征向量空间,基于特征向量空间对每个训练文 本进行特征向量描述以形成每个分类器的训练模型,并基于每个分类器的训练模型来预测 和输出文本的多个属性以及每个属性的置信率。
6.如权利要求5所述的智能决策支持系统,多维分类器使用TF-IDF方法来提取训练文 本的特征向量。
7.一种智能决策方法,包括(a)根据应用领域定义多维分类器的多个分类器的语义标准和记录与多维分类器的语 义标准对应的决策推导规则的描述的领域本体知识库;(b)根据多语义标准收集训练文本,训练多维分类器;(c)多维分类器对文本进行多标准的分类,输出该文本的多个属性以及每个属性的置信率;(d)基于文本的多个属性以及每个属性的置信率形成用于智能决策的问题;(e)推理机基于该问题查询领域本体知识库,以得到智能决策的答案并将答案提供给 用户。
8.如权利要求7所述的智能决策方法,其中,步骤(b)包括以下步骤 (bl)多维分类器根据多语义标准收集训练文本;(b2)提取训练文本的特征向量以形成特征向量空间;(b3)基于特征向量空间对每个训练文本进行特征向量描述以形成每个分类器的训练 模型;(b4)基于每个分类器的训练模型来预测和输出文本的多个属性以及每个属性的置信率。
9.如权利要求8所述的智能决策方法,其中,使用TF-IDF方法来提取训练文本的特征向量。
10.如权利要求7所述的智能决策方法,其中,领域本体知识库中的决策推导规则与多 维分类器的语义标准的组合对应。
全文摘要
提供了一种智能决策支持系统及其智能决策方法。所述智能决策支持系统包括多维分类器,对文本进行多语义标准的分类,以输出文本的多个属性以及每个属性的置信率;问题提交模块,接收多维分类器的输出,并基于文本的多个属性以及每个属性的置信率形成问题;推理机,基于问题查询领域本体知识库,将查询得到的问题答案提供给决策答复模块;领域本体知识库模块,存储与智能决策支持系统相关领域的领域本体知识库,所述领域本体知识库记录与多维分类器的语义标准对应的决策推导规则的描述;决策答复模块,将推理机提供的对于问题的决策答案提供给用户。
文档编号G06F17/30GK102141997SQ20101010528
公开日2011年8月3日 申请日期2010年2月2日 优先权日2010年2月2日
发明者刘思培, 姜赢, 彭鸽, 王进 申请人:三星电子(中国)研发中心, 三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1