1.一种关键社交信息的确定方法,其特征在于,包括:
根据待确定的原始社交信息以及所述原始社交信息的转发社交信息,生成社交信息转发树;其中,所述转发社交信息为包含直接或间接转发所述原始社交信息的信息;所述社交信息转发树为树状结构,所述原始社交信息为所述树状结构的根节点,所述转发社交信息为所述树状结构的叶子节点和所述根节点和叶子节点之间的中间节点;
分别根据每一个转发社交信息的信息特征,获取所述每一个转发社交信息的特征向量;其中,所述信息特征包括文本特征和与所述社交信息转发树关联的特征;每一个转发社交信息的特征向量中包含表征该转发社交信息的文本特征的向量,以及表征该转发社交信息的与社交信息转发树关联的特征的向量;
分别将所述每一个转发社交信息的特征向量输入预设的筛选模型,获取所有转发社交信息中包含的候选关键社交信息;
分别计算每一个候选关键社交信息对应的关键性评估值;
从所有候选关键社交信息中,选取关键性评估值从高到低的预设数目个候选关键社交信息,将选取的候选关键社交信息确定为关键社交信息。
2.如权利要求1所述的方法,其特征在于,分别根据每一个转发社交信息的信息特征,获取所述每一个转发社交信息的特征向量,具体包括:
针对所述社交信息转发树中的任意一转发社交信息,执行如下操作:
从所述任意一转发社交信息的内容中,提取所述任意一转发社交信息的文本特征;采用预设算法,分别将所述任意一转发社交信息的文本特征中包含的各个特征量转换为数值形式的特征量,并根据所有数值形式的特征量,获取所述任意一转发社交信息对应的文本特征向量;
根据在所述社交信息转发树中,所述任意一转发社交信息所代表的节点的位置信息,和/或在所述社交信息转发树中,与所述任意一转发社交信息所代表的节点互为兄弟节点的节点数目,获取所述任意一转发社交信息对应的与社交 信息转发树关联的特征向量;
将所述文本特征向量和所述与社交信息转发树关联的特征向量进行合并处理,获取所述任意一个转发社交信息的特征向量;所述合并处理为将所述文本特征向量和所述与社交信息转发树关联的特征向量进行上下合并;或者,将所述文本特征向量和所述与社交信息转发树关联的特征向量进行左右合并。
3.如权利要求1或2所述的方法,其特征在于,所述筛选模型的生成方法,包括:
从历史数据中,获取任意一训练原始社交信息的训练转发社交信息;
分别根据每一个训练转发社交信息的信息特征,生成所述每一个训练转发社交信息的特征向量;其中,每一个训练转发社交信息的特征向量中包含表征该训练转发社交信息的文本特征的向量,以及表征该训练转发社交信息的与社交信息转发树关联的特征的向量;
采用预设的筛选算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数;
根据所述筛选参数,生成筛选模型。
4.如权利要求2或3所述的方法,其特征在于,采用预设的筛选算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数,具体包括:
采用支持向量机算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数;或者,
采用感知机神经网络算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数;或者,
分别根据所述每一个训练转发社交信息的特征向量,以及所述每一个训练转发社交信息之间的转发关系,生成输入序列;并根据所述已知的每一个训练 转发社交信息的筛选分类结果,生成输出序列;建立所述输入序列和所述输出序列之间的相关性函数;根据所述已知的每一个训练转发社交信息的筛选分类结果,确定所述相关性函数的参数;将所述参数确定为所述筛选参数。
5.如权利要求4所述的方法,其特征在于,建立所述输入序列和所述输出序列之间的相关性函数,具体包括:
根据所述输入序列中包含的每一个特征向量之间的转发关系,以及所述输入序列中包含的每一个特征向量和输出序列中包含的每一个筛选分类结果之间的关系,建立所述输入序列和所述输出序列之间的链路关系表;
针对所述输入序列中的任意一特征向量,执行如下操作:采用预设宽度的窗口,对所述链路关系表进行扫描;其中,当前扫描的窗口包含所述任意一向量;根据当前扫描的窗口中包含的输出序列中的筛选分类结果和所述任意一特征向量,生成第一局部相关性函数;并根据当前扫描的窗口中包含的输出序列中的筛选分类结果,生成第二局部相关性函数;
分别根据所述输入序列中包含的每一个向量对应的第一局部相关性函数和第二局部相关性函数,建立所述输入序列和所述输出序列之间的相关性函数。
6.如权利要求1-5任一项所述的方法,其特征在于,分别计算每一个候选关键社交信息对应的关键性评估值,具体包括:
根据所述候选关键社交信息,构建候选关键社交信息图;其中,所述关键社交信息图中包含所有候选关键社交信息,且每两个候选关键社交信息之间互相连接;
针对所述候选关键社交信息图中的任意一候选关键社交信息,分别获取所述任意一候选关键社交信息与其他每一个候选关键社交信息之间的相关性值;根据所述候选关键社交信息图中所述任意一候选关键社交信息与其他每一个候选关键社交信息之间的相关性值,确定所述任意一候选关键社交信息对应的关键性评估值。
7.如权利要求6所述的方法,其特征在于,所述关键性评估值满足如下公式:
其中,Rt(v)为第t次迭代后得到的关键性评估值;λ为预设系数;R0(v)为候选关键社交信息v被转发的次数;n为在所述候选关键社交信息图中,与所述候选关键社交信息v存在关联的候选关键社交信息的数目;Rt-1(v)为第t次迭代后得到的关键性评估值;p(ui→v)为与所述候选关键社交信息v存在关联的候选关键社交信息ui和所述候选关键社交信息v之间的相关性值;
8.一种关键社交信息的确定装置,其特征在于,包括:
社交信息转发树生成单元,用于根据待确定的原始社交信息以及所述原始社交信息的转发社交信息,生成社交信息转发树;其中,所述转发社交信息为包含直接或间接转发所述原始社交信息的信息;所述社交信息转发树为树状结构,所述原始社交信息为所述树状结构的根节点,所述转发社交信息为所述树状结构的叶子节点和所述根节点和叶子节点之间的中间节点;
特征向量获取单元,用于分别根据每一个转发社交信息的信息特征,获取所述每一个转发社交信息的特征向量;其中,所述信息特征包括文本特征和与所述社交信息转发树关联的特征;每一个转发社交信息的特征向量中包含表征该转发社交信息的文本特征的向量,以及表征该转发社交信息的与社交信息转发树关联的特征的向量;
候选关键社交信息获取单元,用于分别将所述特征向量获取单元获取的每一个转发社交信息的特征向量输入预设的筛选模型,获取所有转发社交信息中包含的候选关键社交信息;
关键性评估值计算单元,用于分别计算所述候选关键社交信息获取单元获 取的每一个候选关键社交信息对应的关键性评估值;
关键社交信息确定单元,用于根据所述关键性评估值计算单元计算得到的每一个候选关键社交信息对应的关键性评估值,从所有候选关键社交信息中,选取关键性评估值从高到低的预设数目个候选关键社交信息,将选取的候选关键社交信息确定为关键社交信息。
9.如权利要求8所述的装置,其特征在于,所述特征向量获取单元,用于:
针对所述社交信息转发树中的任意一转发社交信息,执行如下操作:从所述任意一转发社交信息的内容中,提取所述任意一转发社交信息的文本特征;采用预设算法,分别将所述任意一转发社交信息的文本特征中包含的各个特征量转换为数值形式的特征量,并根据所有数值形式的特征量,获取所述任意一转发社交信息对应的文本特征向量;根据在所述社交信息转发树中,所述任意一转发社交信息所代表的节点的位置信息,和/或在所述社交信息转发树中,与所述任意一转发社交信息所代表的节点互为兄弟节点的节点数目,获取所述任意一转发社交信息对应的与社交信息转发树关联的特征向量;将所述文本特征向量和所述与社交信息转发树关联的特征向量进行合并处理,获取所述任意一个转发社交信息的特征向量;所述合并处理为将所述文本特征向量和所述与社交信息转发树关联的特征向量进行上下合并;或者,将所述文本特征向量和所述与社交信息转发树关联的特征向量进行左右合并。
10.如权利要求8或9所述的装置,其特征在于,还包括筛选模型生成单元,用于:
从历史数据中,获取任意一训练原始社交信息的训练转发社交信息;分别根据每一个训练转发社交信息的信息特征,生成所述每一个训练转发社交信息的特征向量;其中,每一个训练转发社交信息的特征向量中包含表征该训练转发社交信息的文本特征的向量,以及表征该训练转发社交信息的与社交信息转发树关联的特征的向量;采用预设的筛选算法,分别根据所述每一个训练转发 社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数;根据所述筛选参数,生成筛选模型。
11.如权利要求9或10所述的装置,其特征在于,筛选模型生成单元采用预设的筛选算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数,具体包括:
采用支持向量机算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数;或者,采用感知机神经网络算法,分别根据所述每一个训练转发社交信息的特征向量以及已知的所述每一个训练转发社交信息的筛选分类结果,获取筛选参数;或者,分别根据所述每一个训练转发社交信息的特征向量,以及所述每一个训练转发社交信息之间的转发关系,生成输入序列;并根据所述已知的每一个训练转发社交信息的筛选分类结果,生成输出序列;建立所述输入序列和所述输出序列之间的相关性函数;根据所述已知的每一个训练转发社交信息的筛选分类结果,确定所述相关性函数的参数;将所述参数确定为所述筛选参数。
12.如权利要求11所述的装置,其特征在于,所述筛选模型生成单元建立所述输入序列和所述输出序列之间的相关性函数,具体包括:
根据所述输入序列中包含的每一个特征向量之间的转发关系,以及所述输入序列中包含的每一个特征向量和输出序列中包含的每一个筛选分类结果之间的关系,建立所述输入序列和所述输出序列之间的链路关系表;针对所述输入序列中的任意一特征向量,执行如下操作:采用预设宽度的窗口,对所述链路关系表进行扫描;其中,当前扫描的窗口包含所述任意一向量;根据当前扫描的窗口中包含的输出序列中的筛选分类结果和所述任意一特征向量,生成第一局部相关性函数;并根据当前扫描的窗口中包含的输出序列中的筛选分类结果,生成第二局部相关性函数;分别根据所述输入序列中包含的每一个向量对应的第一局部相关性函数和第二局部相关性函数,建立所述输入序列和所述输出序列之间的相关性函数。
13.如权利要求8-12任一项所述的装置,其特征在于,所述关键性评估值计算单元,具体用于:
根据所述候选关键社交信息,构建候选关键社交信息图;其中,所述关键社交信息图中包含所有候选关键社交信息,且每两个候选关键社交信息之间互相连接;针对所述候选关键社交信息图中的任意一候选关键社交信息,分别获取所述任意一候选关键社交信息与其他每一个候选关键社交信息之间的相关性值;根据所述候选关键社交信息图中所述任意一候选关键社交信息与其他每一个候选关键社交信息之间的相关性值,确定所述任意一候选关键社交信息对应的关键性评估值。
14.如权利要求13所述的装置,其特征在于,所述关键性评估值计算单元计算得到的关键性评估值满足如下公式:
其中,Rt(v)为第t次迭代后得到的关键性评估值;λ为预设系数;R0(v)为候选关键社交信息v被转发的次数;n为在所述候选关键社交信息图中,与所述候选关键社交信息v存在关联的候选关键社交信息的数目;Rt-1(v)为第t次迭代后得到的关键性评估值;p(ui→v)为与所述候选关键社交信息v存在关联的候选关键社交信息ui和所述候选关键社交信息v之间的相关性值;