预测类别的方法和装置的制造方法

文档序号:9687449阅读:305来源:国知局
预测类别的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别涉及一种预测类别的方法和装置。
【背景技术】
[0002] 预测是数据挖掘中应用领域极其广泛的重要技术之一,预测是通过对样本数据 (历史数据)的输入值和输出值关联性的学习,得到预测模型,再利用该模型对未来的输入 值进行输出值预测。预测包括分类和回归,分类是根据数据集的特点构造一个分类器,利 用该分类器对未知类别的对象赋予类别的一种技术,回归是为了了解两个或多个变量间是 否相关、相关方向与强度,并建立数学模型W便观察特定变量来预测研究者感兴趣的变量 一种技术。
[0003] 现有的预测算法中,采用一种多类预测合并算法(multiclass prediction combination algorithms),该多类预测合并算法采用通过多个预测模型对实例进行分别 预测,在结合各个预测结果给出最后的预测的一种算法。该算法中,需要采用多个预测模型 对预测的对象分别预测,计算量较大。

【发明内容】

[0004] 本发明实施例提供一种预测算法和装置,能够减小计算量。
[0005] 第一方面,提供了一种预测类别的方法,包括:确定多个第一预测模型,其中,所 述多个第一预测模型中的每个第一预测模型用于将实例分成多个组,所述多个组中的每个 组对应多个标签类别中的一个标签类别,所述标签类别包含至少一个标签;根据所述多个 第一预测模型中的标签之间的相互关系将所述多个第一预测模型合并为第二预测模型,其 中,所述第二预测模型用于对实例进行分类得到多个组,所述第二预测模型的多个组中的 每个组对应多个多标签类别中的一个多标签类别,所述多标签类别包含多个标签;根据所 述第二预测模型确定当前的实例属于所述多个多标签类别中的每个多标签类别的概率,W 预测所述当前的实例的类别。
[0006] 结合第一方面,在第一种可能的实现方式中,该方法还包括;确定所述当前的实例 的类别具有不确定性,其中所述当前的实例的类别具有不确定性表示根据所述第二预测模 型无法预测所述当前的实例的类别;获取标注的所述当前的实例的类别;根据所述标注的 所述当前的实例的类别,对所述第二预测模型进行训练,W便于根据训练后的第二预测模 型对待预测的实例的类别进行预测。
[0007] 结合第一种可能的实现方式,在第二种可能的实现方式中,所述确定所述当前的 实例的类别具有不确定性,包括:根据所述当前的实例的信息赌确定所述当前的实例的类 别具有不确定性。
[0008] 结合第二种可能的实现方式,在第Η种可能的实现方式中,所述根据所述当前的 实例的信息赌确定所述当前的实例的类别具有不确定性,包括:根据W下公式确定所述当 前的实例的信息赌:
[0009]
[0010] 其中,i表示第i个实例,Hi表示第i个实例的信息赌,1为大于或等于1且小于 或等于C的整数,表示第1个第二标签类别,峰表示第i个实例属于第1个第二标签类别的 概率,C为所述第二预模型中的第二标签类别的个数;在所述信息赌大于或等于预设的阔 值情时,确定所述当前的实例的类别具有不确定性。
[0011] 结合第一方面或第一至第Η种可能的实现方式中的任一种可能的实现方式,在第 四种可能的实现方式中,所述根据所述多个第一预测模型中的标签之间的相互关系将所述 多个第一预测模型合并为第二预测模型,包括:根据所述多个第一预测模型中的标签之间 的相斥关系和相容关系,将所述多个第一预测模型中的多个组对应的标签类别合并为所述 第二预测模型中的多个组对应的多标签类别。
[0012] 结合第一方面或第一至第四种可能的实现方式中的任一种可能的实现方式,在第 五种可能的实现方式中,还包括:确定所述第二预测模型中的标签的相关性图,其中所述相 关性图包括多个顶点,所述多个顶点分别表示所述第二预测模型中多个组对应的多标签类 另IJ,所述相关性图的多个顶点两两相连接,用W表示所述第二预测模型中的标签之间的相 关性。
[0013] 第二方面,提供了一种预测类别的装置,包括:确定单元,用于生成多个第一预测 模型,其中,所述多个第一预测模型中的每个第一预测模型用于将实例分成多个组,所述多 个组中的每个组对应多个标签类别中的一个标签类别,所述标签类别包含至少一个标签; 合并单元,用于根据所述多个第一预测模型中的标签之间的相互关系将所述多个第一预测 模型合并为第二预测模型,其中,所述第二预测模型用于对实例进行分类得到多个组,所述 第二预测模型的多个组中的每个组对应多个多标签类别中的一个多标签类别,所述多标签 类别包含多个标签;第一确定单元,用于根据所述第二预测模型确定当前的实例属于所述 多个多标签类别中的每个多标签类别的概率,W预巧IJ所述当前的实例的类别。
[0014] 结合第二方面,在第一种可能的实现方式中,还包括;第二确定单元,用于确定所 述当前的实例的类别具有不确定性,其中所述当前的实例的类别具有不确定性表示根据所 述第二预测模型无法预测所述当前的实例的类别;获取单元,用于获取标注的所述当前的 实例的类别;训练单元,用于根据所述标注的所述当前的实例的类别,对所述第二预测模型 进行训练,W便于根据训练后的第二预测模型对待预测的实例的类别进行预测。
[0015] 结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述第二 确定单元根据所述当前的实例的信息赌确定所述当前的实例的类别具有不确定性。
[0016] 结合第二方面的第二种可能的实现方式,在第Η种可能的实现方式中,所述第二 确定单元根据W下公式确定所述当前的实例的信息赌:
[0017]
[0018] 其中,i表示第i个实例,Hi表示第i个实例的信息赌,1为大于或等于1且小于 或等于C的整数,表示第1个第二标签类别,為表示第i个实例属于第1个第二标签类别的 概率,C为所述第二预模型中的第二标签类别的个数;在所述信息赌大于或等于预设的阔 值情时,确定所述当前的实例的类别具有不确定性。
[0019] 结合第二方面或第二方面的第一至第Η种可能的实现方式中的任一种可能的实 现方式,在第四种可能的实现方式中,所述合并单元根据所述多个第一预测模型中的标签 之间的相斥关系和相容关系,将所述多个第一预测模型中的多个组对应的标签类别合并为 所述第二预测模型中的多个组对应的多标签类别。
[0020] 结合第二方面或第二方面的第一至第四种可能的实现方式中的任一种可能的实 现方式,在第五种可能的实现方式中,还包括:第Η确定单元,用于确定所述第二预测模型 中的标签的相关性图,其中所述相关性图包括多个顶点,所述多个顶点分别表示所述第二 预测模型中多个组对应的多标签类别,所述相关性图的多个顶点两两相连接,用W表示所 述第二预测模型中的标签之间的相关性。
[0021] 基于上述技术方案,通过将多个第一预测模型中的标签之间的相互关系将多个第 一预测模型合并为第二预测模型,根据该第二预测模型对实例的类别进行预测,无需根据 多个第一预测模型分别对当前实例的类别进行预测,能够减小计算量。
【附图说明】
[0022] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使 用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据送些附图获得其他 的附图。
[0023] 图1是根据本发明一个实施例的预测的方法的示意性流程图。
[0024] 图2是根据本发明另一实施例的预测类别的方法的示意性流程图。
[00巧]图3是常规预测方法的示意图。
[0026] 图4是根据本发明另一实施例的预测类别的方法的示意性流程图。
[0027] 图5是根据本发明另一实施例的预测类别的方法的示意性流程图。
[002引图6是根据本发明一个实施例的预测类别的装置的示意性框图。
[0029] 图7是根据本发明另一实施例的预测类别的装置的示意性框图。
[0030] 图8是根据本发明另一实施例的预测类别的装置的示意性框图。
【具体实施方式】
[0031] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1