对相关申请的交叉引用
本申请主张对2014年10月21日提交的weng等人的题为“methodandsystemforautomationofresponseselectionandcompositionindialogsystems”的美国临时申请序列号62/066,508的优先权,该临时申请的公开内容特此通过引用以其整体并入本文。
本公开总地涉及通信系统,更特别地,涉及话音通信系统。
背景技术:
数目日益增加的设备正在进入人们的生活,例如在家庭中、在奔走中或在办公室中。当人们执行诸如烹调、驾驶或书写之类的主要任务时,他们可能想要从事其它任务,例如调节房间温度、打开/关断室内或室外灯、听新闻或查看谁在门前,或者控制车库门。诸如话音通信系统之类的通信系统可以在诸如当人手不能够容易地够到按钮、旋钮或触摸屏时的设置中使用。某些现有系统,诸如siri,正在增加通信技术对公众的认识。
然而,如以上描述的那些那样的这种现有系统具有若干限制。例如,现有系统未能将人类语言的丰富表达性质考虑在内,并且使用在这些系统中的表达未能将在不同的上下文中和关于不同的使用目的针对不同用户群组如何使用表达或使用哪些表达考虑在内。因此,某些现有系统可能使用一体适用方案。作为结果,大百分比的用户可能未享受这样的系统的使用。存在对于可以解决现有系统的缺陷的系统的需要。
附图说明
图1图示了根据所公开的主题的系统的示例性实施例的功能框图。
图2图示了用于构建用于根据图1的系统中的公开的数据库的知识库的示例性方法。
具体实施方式
出于促进本文所描述的实施例的原理的理解的目的,现在参照各图和以下书面说明书中的描述。这些引用不意图有对主题范围的限制。本公开还包括对所说明的实施例的任何更改和修改,并且包括所描述的实施例的原理的另外的应用,如本文档所涉及领域中的普通技术人员将正常想到的。
在以下描述中,出于解释的目的,阐述众多具体细节以便提供一个或多个方面的透彻理解。然而,可以清楚的是,这样的方面可以在没有这些具体细节的情况下实践。在其它实例中,以框图形式示出公知的结构和设备,以便促进描述一个或多个方面。另外,要理解的是,描述为由某些系统组件实施的功能可以由多个组件执行。类似地,例如,组件可以配置成执行描述为由多个组件实施的功能。
图1图示了系统100的示例性实施例的功能框图。系统100可以是具有关注不同条件之下的系统响应的细节的会话系统。可以使用典型的智能会话系统的其它组件,其例如在美国专利号7,716,056和美国公开专利申请号2014/0019522中有描述,该美国专利和美国公开专利申请的完整的公开内容通过引用并入本文。在一个示例性实施例中,系统100包括用户类别分类和检测模块101、用户情绪检测和追踪模块103、用户身体和精神状态以及能量水平检测模块105、用户相识模块107、用户个性检测和追踪模块109、对话上下文检测和管理模块111以及会话管理器模块113。系统100还包括响应生成模块115。系统100此外可以包括处理器117和数据库119。在一个实施例中,系统100中的这些模块101、103、105、107、109、111、113、115、处理器117和数据库119中的每一个可以配置成与彼此直接对接。在另一实施例中,系统100中的模块101、103、105、107、109、111、113、115、处理器117和数据库119的不同组合可以配置成与彼此直接对接。
在一个实施例中,处理器117可以包括但不限于,中央处理单元(cpu)、专用集成电路(asic)、现场可编程门阵列(fpga)设备或微控制器。系统100还可以包括存储器。存储器可以并入在数据库119中。在另一实施例中,存储器是与数据库分离的模块。处理器117配置成运行或执行存储在存储器中的经编程的指令。存储器可以是任何合适类型的存储器,仅举几个例子,包括固态存储器、磁性存储器或光学存储器,并且可以实现在单个设备中或跨多个设备分布。存储在存储器中的经编程的指令包括用于实现系统100中的各种功能的指令,所述各种功能包括本文所描述的各种模块101、103、105、107、109、111、113、115和数据库119。
在一个示例中,系统100可以在语音会话系统的响应中并入丰富的表达特性。具体地,系统100可以使用信息,诸如但不限于,年龄类别、性别和专业用户群组,以及所关注的用户群组内的关系(诸如家庭成员关系、团队组织结构)、用户情绪类别、涉及通信需要的上下文信息的类型(诸如对话上下文、环境上下文)、这些实体、群组、状态和信息的本体论关系、要选择用于不同家庭和上下文的语言流派,以及韵律标记类别等。在一个示例中,系统100可以配置成基于该信息而选择来自系统100的输出句子,并且利用对应的韵律和情感标记进行注释。此外或可替换地,系统100还可以包括配置成取决于系统的需要100而选择表达的不同过程。在一个示例中,可以覆盖数个示例应用域,诸如家庭设备控制、体育新闻选择、信息查询、移动辅助、客户支持等。在另一示例中,系统100还可以使用用户的多个方面、上下文的多个方面和语言的多个方面来构造或合成响应。在另一示例中,系统100可以从各种数据源标识和精炼关于不同条件的候选响应以用于响应构造。
在一个示例性实施例中,用户类别分类和检测模块101可以配置成分类和检测用户类别。例如,用户可以被分类到沿不同维度的不同类别中,所述维度诸如年龄、性别、职业和关系。在一个示例中,系统100可以通过诸如当用户开始使用系统100时的用户注册过程之类的过程来获取关于用户的信息。在另一示例中,系统100可以通过与用户的显式或隐式交互而动态地获取关于用户的信息。例如,系统100可以经由用户的话音或经由人员面部的视频而检测用户的年龄群组。在另一示例中,系统100还可以在其执行由用户请求的动作之后询问用户。
进一步参照图1,用户类别分类和检测模块101可以基于用户的年龄对用户分类。在一个示例中,用户类别分类和检测模块101可以标识用户是儿童、青少年、成人还是年长者。关于用户年龄的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。在另一示例中,基于语音的年龄检测还可以用于标识关于用户年龄的信息。
进一步参照图1,用户类别分类和检测模块101可以基于用户的性别对用户分类。关于用户性别的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。在另一示例中,基于语音的年龄检测还可以用于标识关于用户年龄的信息。
进一步参照图1,用户类别分类和检测模块101可以基于用户的职业而对用户分类。用户职业的分类的示例可以包括但不限于,工程师、科学家、银行家、教师、工厂工人、农民、政府职员、军人等。关于用户职业的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。
进一步参照图1,用户类别分类和检测模块101可以基于用户与系统100的其他用户、系统100使用在其中的组织的成员等的关系而对用户分类。用户关系的分类的示例可以包括但不限于,家庭、同事、管理者对比团队成员等。关于用户关系的信息可以例如在用户注册过程和系统相识过程期间基于用户的语音而从用户和从系统100收集。
进一步参照图1,用户情绪检测和追踪模块103可以配置成检测和追踪用户的情绪。在一个示例中,用户的情绪可以在每一个会话轮次中向会话管理器模块113登记。用户情绪的示例可以包括但不限于,开心、生气、悲伤、中性等。用户的情绪可以编码为情感指示符。在一个示例中,用户的情绪可以经由用户与系统100通信时用户的话音特性或用户的面部表情的视频来检测。用户的话音可以是声学信号,并且用户的视频可以是视频流。
进一步参照图1,用户身体和精神状态以及能量水平检测模块105可以检测和标识用户的身体和精神状态以及能量水平。在一个示例中,用户的身体和精神状态以及能量水平可以包括但不限于,用户是否困倦,用户是否刚刚睡醒,用户是否疲劳,用户是否精力旺盛,用户是否正在同时执行其它任务,用户是否在他/她的主要任务时与系统101交互或在与系统交谈中集中足够的注意力等。在一个示例中,用户的身体和精神状态以及能量水平可以从用户话音的能量水平、用户的交谈音调和用户语音中的声音来检测和标识。该信息可以在系统100中检测和登记。在另一示例中,用户的身体和精神状态以及能量水平还可以从来自用户的显式陈述来检测和标识。例如,如果用户说“我累了”或“我需要去睡觉”,用户的身体和精神状态以及能量水平检测模块105可以检测到用户疲倦。在又一示例中,用户身体和精神状态以及能量水平可以由用户上的可穿戴设备检测并且传输至系统100,所述可穿戴设备嵌入在身体中或附连在人员上。这样的可穿戴设备的示例包括但不限于,用于肌肉活动检测和解释的肌电描记术(emg),用于脑部活动和解释的脑电描记术(eeg)、近红外光谱法(nirs)等。在另一示例中,用户的身体和精神状态以及能量水平可以例如存储在系统100的数据库119中,并且可以由系统100用于预测用户的身体和精神状态以及能量水平、用户的情绪等。
进一步参照图1,用户的相识模块107可以用于累积用户对系统100的使用。在一个示例中,用户的相识模块107可以用于估计用户是否熟悉系统100。在另一示例中,用户的相识模块107可以用于标识用户知晓其他用户或说话者的水平,诸如用户是否正具有首次遭遇,用户已经具有短时间的相识或长时间的亲密朋友关系。在另一示例中,系统100可以记住用户是否已经首次使用系统100、用户已经使用系统100的时间长度、用户使用系统100的频率和用户使用的系统100的特征。可以在系统100中累积统计量以计算相识值。这样的统计量还可以记录用户间交互,诸如用户(例如两个用户)多常向彼此发送消息,在什么时间段内向彼此发送消息,以及他们交换什么消息。这样的统计量还可以记录两个具体用户多常在大致相同的时间使用相同的系统。这些统计量然后用于估计用户的熟悉度和亲密度。用户的相识模块107可以具有时间因子,所述时间因子可以基于用户不使用系统100的持续时间而降低用户的熟悉度得分。另外,某些统计量可以被用户在初始注册阶段期间或在与系统100的交互期间禁用。
进一步参照图1,用户的个性检测和追踪模块109可以用于检测用户的个性。在一个示例中,该信息可以基于从用户与系统100的交互收集的信息来检测。用户的个性可以被分类为沿若干方面,例如幽默对比程序化、安静对比健谈,以及快速、中等和缓慢的节奏等。在另一示例中,用户的个性检测和追踪模块109可以使用值来计算关于说话者的个性的得分。用户的个性检测和追踪模块109可以使用的值的示例包括但不限于,说话速率、言辞长度、用于任务请求的言辞数目、言辞中的有趣词语等。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算和治理数个值。在另一示例中,对话上下文检测和管理模块111可以配置成收集针对这些方面的统计量。例如,方面可以包括但不限于,诸如家庭设置、商业设置、随意设置等之类的交互设置。在一个示例中,值可以在用户的初始注册时段期间和在随后的使用期间计算。在一个示例中,关于用户的关系的信息可以在标识交互设置的值中放置较高的权重。在一个示例中,基于来自对话上下文检测和管理模块111的值,响应生成模块115可以基于例如为“正式”、“非正式”、“非常随意”等的表达流派而生成响应。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算的值的另一示例是响应紧迫性或节奏,诸如高、中、低。在一个示例中,该值可以使用用户的语音节奏来计算,或者可以在与系统100的交互期间从用户显式地请求。在另一示例中,响应紧迫性可以通过在与系统100的交互期间获取的结果来估计或传达。如果当用户查询关于针对他/她的旅行的火车调度时下一班火车在20分钟内出发,系统111将指示高紧迫性,使得用户可以快速准备好。如果需要在下10米内立即转向,响应需要抓住用户的注意力,使得他/她可以准备好移动。紧迫性的响应可以通过词汇或词语的选择来反映,诸如“马上”或“快速”,和/或通过说话音调或说话速率或甚至具体规定的声音等来反映。在一个示例中,基于来自对话上下文检测和管理模块11的值,响应生成模块115可以生成简短、中等或详尽表达以用于与用户通信。在另一示例中,由响应生成模块115生成的确切措辞还可以取决于来自不同模块101、103、105、107、109、111和113的关于用户的不同信息。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算的值的另一示例是操作时间,诸如在早上、在白天期间、进餐时间或睡前、相对于用户排定的事件而操作系统100。在一个示例中,该值可以基于系统100中的时钟或来自系统100的使用的适配而选择。在另一示例中,该值还可以由用户显式地经由会话管理器模块113来调节。在一个示例中,不同表达可以由响应生成模块115在不同时间生成,因为用户在这些时间段期间可能处于不同的注意力模式中。
进一步参照图1,对话上下文检测和管理模块111可以配置成计算的值的另一示例是对话上下文,诸如几个对话阶段,包括介绍、打招呼、继续、交换议题、结论、由于说话者或聆听者所致的误通信的修复、面对解决手头上的问题中的失败等。在一个示例中,该信息可以被追踪和利用来自会话管理器模块113的输入来更新。
进一步参照图1,会话管理器模块113可以配置成与响应生成模块115通信。在一个示例中,会话管理器模块113可以为响应生成模块115提供信息,诸如用户请求的内容信息和上下文信息。在一个示例中,基于从不同模块101、103、105、107、109、111和113获取的关于用户的信息和上下文信息,响应生成模块115通过选择具有不同韵律标记的不同措辞来决定构造什么表达。
进一步参照图1,响应生成模块115可以配置成使用人类通信的多个方面来设计系统100的响应。在一个示例中,多个方面可以包括系统100个性、用户(对话伙伴)、上下文和语言流派。在另一示例中,除了作为对响应生成模块115的输入的内容选择,来自系统100的响应可以使用示例性方法来生成。用于从系统100生成响应的示例性方法可以包括选择适当的措辞。在一个示例中,词语和表达可以按本文所描述的用户的状态和上下文为条件进行动态地或静态地选择。词汇和表达变化的示例可以包括但不限于,音节数目、具有完整或缩短形式的不同发音的长度变化、由普通人发音的困难程度、与其它词语的可混淆性、幽默或正式等。生成响应的示例性方法还可以包括选择正确的音调。在一个示例中,词语和短语可以被标记,包括强调短语、加长或缩短某个元音或辅音、在言辞结束处升高或降低。生成响应的示例性方法还可以包括选择音量水平。在一个示例中,系统100可以配置成在给定声学环境(诸如响亮嘈杂和安静)和说话者或用户的音量(诸如微弱、有力或正常)的情况下控制适当的语音输出音量。
进一步参照图1,系统100还可以包括数据库119,在其中模块101、103、105、107、109、111、113、115可以构造和维护知识库。知识库可以在系统100中使用来支持通过响应生成模块115的响应生成。数据库可以在本地位于系统100中,或者可以从外部位置与系统100接合。在一个示例中,知识库可以包括丰富的词语词典,其具有持续时间、正式性和智能性的词汇信息。丰富的词语词典可以包括信息,诸如音节数目、具有完整或缩短形式的不同发音的长度变化、由普通人发音的困难程度、与其它词语的可混淆性。知识库还可以包括丰富的表达词典。在一个示例中,丰富的表达词典可以包括以本文所公开的用户和上下文信息为条件的表达、作为来自系统的输出发生的表达频率、表达是否由语音识别器所识别的指示、用途和条件(包括表达在什么情形使用和向谁使用)。如本文所公开的条件示例包括但不限于,年龄、性别、职业、关系、相识、情感指示符、个性指示符、交互设置、响应紧迫性或节奏、操作时间、对话上下文等。条件的示例还可以包括但不限于,所有之前提到的方面之中的本体论关系,其可以是分层的、标量、按类别的和/或二元的等。多个短语或术语可以附连到这些条件,诸如对于家庭成员,人们可以使用父母、父亲、母亲、男孩、儿童等。
图2图示了用于构建用于系统100中的数据库119的知识库的示例性方法。在一个示例中,方法可以用于获取条件连同词语水平和表达水平信息。在另一示例中,方法可以使用半自动方案来利用本文所描述的条件对数据语料库加标签。这些语料库可以包括但不限于,在线tweet语料库或相关域中的讨论论坛、电话对话数据语料库(诸如来自ldc的switchboard),以及不同对话或会话的影片转录语料库。在另一示例中,说话者或用户及其通信伙伴可以利用特定用户id(诸如在twitter或switchboard中使用的特定用户id)或影片中的角色来标识。特定用户id可以用于语料库的注释。
进一步参照图2,示例性方法可以包括首先标识准则(步骤201)。这可以牵涉选择一个或多个准则集合。标识准则可以牵涉选择一个或多个系统个性连同相关联的准则集合(步骤201)。准则可以是个性准则。该标识或选择可以针对小数据集合手动执行,并且使用一个或多个机器学习算法来训练统计模型以用于将候选者分类成说话者或非说话者以供选择或标识(步骤201)。除其它之外,机器学习算法的示例包括但不限于,支持向量机(svm)、决策树、最大熵(me)、神经网络等等。方法还可以包括在满足准则的语料库中标识数个用户(步骤203),例如数个用户id或角色。示例性方法还可以包括标识对话片段和对话伙伴(步骤205)。在标识对话片段和对话伙伴之后,方法可以牵涉或接合这些所标识的人与所选个性(反映系统个性)(步骤205)。示例性方法还可以包括将诸如对话伙伴之类的用户加标签到诸如中等年龄、女性、成人、与另一家庭成员说话等以及对话伙伴有多熟悉的用户群组中(步骤207)。这还可以包括牵涉其对话与对应的上下文(例如家庭设置、中等节奏)(步骤207)。方法还可以包括为韵律标记加标签。在一个示例中,除其它事物之外,韵律标记可以利用以下来加标签:针对电话持续时间、说话速率、犹豫、重复、犹豫、修订或打断的语音识别器;针对开心、生气、悲伤或中性情绪的情感检测器;针对响亮或柔和说话者的说话者能量检测(步骤209)。方法还可以包括提取和在数据库119中存储信息,例如存储到数据库119中的丰富词语词典和丰富表达词典中(步骤211)。
在一个实施例中,所公开的主题可以使得系统100能够使用在数据库119中加标签的人类通信的多个方面来设计系统100的响应。在一些实施例中,其它外部源和其它条件可以使用在系统100中。在其它实施例中,这些外部源和其它条件与系统100中的词语水平和表达水平信息一起使用。
在另一实施例中,所公开的主题可以使得系统100能够使用真实生活中的词语选取、表达选择、句子中的韵律或情感、会话系统中的这样的响应的频率、上下文敏感和个性化来生成响应。在一个示例性实施例中,数据库119还可以来自关于不同话题的不同语料库,诸如twitter、讨论论坛、ldc对话语料库、youtube视频、影片。在一个示例性实施例中,不同用户相关方面(诸如年龄、性别、职业、情绪、关系、熟悉度)、上下文相关方面(诸如对话设置、紧迫性、时间、状态)以及流派相关方面可以集成在系统100中。所公开的主题提供检测和追踪这些状态的模块的示例。所公开的主题还提供可以由系统100使用的知识库的构造。
在一个示例性实施例中,所公开的主题可以向用户提供个性化的上下文敏感响应系统100,其具有供在家庭、办公室、企业或移动应用中使用的不同个性。
将领会到,以上描述的和其它特征和功能的变型或其可替换方案可以合期望地组合到许多其他的不同系统、应用或方法中。各种目前未预见到的或未预期到的可替换方案、修改、变型或改进可以随后由本领域技术人员做出,它们同样旨在被前述公开内容所涵盖。