本申请涉及应用app领域,并且更具体地,涉及一种用于预测应用(application,app)功能标签的方法和设备。
背景技术:
随着网络环境的日益完善、移动互联网技术的发展,各类移动互联网应用的需求逐渐被激发,手机app应用市场前景巨大。app不再仅仅具有单一的功能,而是能够满足用户多方面的需求。应用市场上现有的对于app的功能划分主要还是人工进行的,即由app的应用市场规定app的功能标签的类别,由app的开发者人工对app打上功能标签,提交到app的应用市场。但是,这种人工对app打上功能标签的方法存在很大的主观性,无法全面刻画app的功能,同时也很耗费时间。
因此,亟需一种对于多功能的app的更加客观的分类方法,以更全面的刻画app的功能。
技术实现要素:
本申请提供一种用于预测应用app功能标签的方法和设备,能够实现对多功能的app的更加客观的分类,更加全面的刻画app的功能。
第一方面,提供了一种用于预测应用app功能标签的方法,包括:
获取描述目标app的目标描述文本;
对该目标描述文本进行分词,获得预测数据;
根据该预测数据和目标主题模型,生成该目标app在多个功能标签下的概率分布,该多个功能标签为该目标主题模型的多个主题。
可选地,在对该目标描述文本进行分词时,可以采用nlpir汉语分词系统对目标描述文本进行分词。其中,nlpir汉语分词系统又名ictclas2013。
可选地,该目标主题模型可以是潜在狄利克雷分配(latentdirichletallocation,lda)模型。
其中,多个可以理解成至少两个或者至少三个。
本申请实施例的用于预测应用功能标签的方法,通过对app的标描述文本进行分词,获得预测数据,并通过主题模型对预测数据进行处理,可以得到app在多个功能标签下的概率分布,从而能够实现对多功能的app的更加客观的分类,更加全面的刻画app的功能。并且,由于该方法是利用计算机自动为app打上标签,告别了人工为app打标签的繁琐过程。
在一种可能的实现方式中,该对该目标描述文本进行分词,获得预测数据,包括:
对该目标描述文本进行分词,获得分词结果;
过滤该分词结果中的停用词、非法字符、在该目标描述文本中出现频次小于n次的词汇或字符长度小于一个中文字符的词汇中的至少一种,获得该预测数据,n为整数,且n≥1。
在一种可能的实现方式中,在该获取目标应用app的目标描述文本之前,该方法还可以包括:
获取至少两个app的基本信息,该至少两个app不包括该目标app,该基本信息包括描述文本;
将第一分词词库输入至分词系统中,并采用该分词系统对该至少两个app的描述文本进行分词,获得训练数据;
采用该训练数据进行主题建模,生成候选主题模型;
采用该多个功能标签替换该候选主题模型的该多个主题,生成该目标主题模型,其中,该多个功能标签是根据该候选主题模型输出的词分布确定的。
可选地,采用分词系统对该至少两个app的描述文本进行分词,获得训练数据具体可以包括:先采用分词系统对该至少两个app的描述文本进行分词,再过滤该分词结果中的停用词、非法字符、在该目标描述文本中出现频次小于n次的词汇或字符长度小于一个中文字符的词汇中的至少一种,获得该预测数据,n为整数,且n≥1。
在一种可能的实现方式中,该方法还可以包括:将根据该词分布确定的关键词添加至该第一分词词库中,获得更新后的第一分词词库。
在一种可能的实现方式中,该更新后的第一分词词库还包括所述至少两个app的名称以及所述分词系统未能分出的词。
在一种可能的实现方式中,该对该目标描述文本进行分词,获得分词结果,包括:
将该更新后的第一分词词库输入至该分词系统中,并采用该分词系统对该目标描述文本进行分词,获得该分词结果。
通过这样不断地更新分析系统,能够不断完善分词系统,提高分词系统的分词性能。
在一种可能的实现方式中,该获取至少两个app的基本信息,包括:
获取第一应用市场中至少两个第一app的基本信息;
根据该至少两个第一app的基本信息,获取至第二应用市场中的至少两个第二app的基本信息,其中,该至少两个第一app与该至少两个第二app一一对应,且该至少两个第一app中的第i个第一app与该至少两个第二app中的第i个第二app的匹配度大于或等于匹配阈值,i为整数,且i≥1。
将该至少两个第一app中的第i个第一app的基本信息和该至少两个第二app中的第i个第二app的基本信息作为该至少两个app中的第i个app的基本信息。
在一种可能的实现方式中,该基本信息还可以包括名称和/或图标。
可选地,该至少两个第一app中的第i个第一app与该至少两个第二app中的第i个第二app的匹配度大于或等于匹配阈值,具体可以是该至少两个第一app中的第i个第一app与该至少两个第二app中的第i个第二app的图标编码之间的汉明距离大于或等于匹配阈值。
例如,可以利用感知哈希算法对每一款(或称为,每一个)app的图标生成一串64位的字符串,当两款app的的图标生成的64位的字符串中不相同位数不超过6位时,则认为这两款app的匹配。
在一种可能的实现方式中,在该将第一分词词库输入至分词系统中,并采用该分词系统对该至少两个app的描述文本进行分词,获得训练数据之前,该方法还包括:
获取至少两个第三app的描述文本,该至少两个第三app不包括该目标app;
将第二分词词库输入至该分词系统中,并采用该分词系统对该至少两个第三app进行分词,其中,该第二分词词库包括该至少两个第三app中每个第三app的名称;
将该分词系统未能分出的词添加至该第二分词系统的词库中,获得该第一分词词库。
从而,能够提高分词结果的可靠性,进而提高预测应用功能标签时的可靠性。
第二方面,提供了一种用于预测应用app功能标签的设备,用于执行第一方面或第一方面的任意可能的实现方式中的方法。具体地,该设备包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的单元。
第三方面,提供了一种用于预测应用app功能标签的设备,该设备包括存储器和处理器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行上述第一方面及第一方面的任意可能的实现方式中的方法。
第四方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于执行第一方面及第一方面的任意可能的实现方式中的方法的指令。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面及第一方面的任意可能的实现方式中的方法。
本申请的用于预测应用功能标签的方法和设备,通过对app的标描述文本进行分词,获得预测数据,并通过主题模型对预测数据进行处理,可以得到app在多个功能标签下的概率分布,从而能够实现对多功能的app的更加客观的分类,更加全面的刻画app的功能。并且,由于该方法是利用计算机自动为app打上标签,告别了人工为app打标签的繁琐过程。
附图说明
图1是本申请一个实施例的用于预测应用功能标签的方法的一个示意性流程图。
图2是本申请又一实施例的用于预测应用功能标签的方法的示意性流程图。
图3是本申请实施例的用于预测应用功能标签的方法的词分布的词云示意图。
图4是本申请实施例的用于预测应用功能标签的设备的示意性框图。
图5是本申请实施例的用于预测应用功能标签的又一设备的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
图1是根据本申请实施例的用于预测应用功能标签的方法。图1所示的方法可以由计算机执行。
s110,获取描述目标应用app的描述文本。
以下,为了便于描述和区分,称目标应用app的目标描述文本为目标描述文本。
应理解,app的描述文本也可以称为描述文档。以下,为了统一,均称为描述文本。
某一款app的描述文本,例如,可以是在应用市场中的对这款app的官方描述文档。目标描述文本,可以是应用市场中对目标应用的官方描述文本。
s120,对目标描述文本进行分词,获得预测数据。
对于例如目标描述文本这种整段的文字,计算机无法处理,需要对整段的文字进行降维,即将整段的文字进行分词,将整段的文字变成一个个的词语。
本申请实施例中,可以利用nlpir汉语分词系统对目标描述文本进行分词,获取每一个单词以及所对应的词性,即分词结果。分词结果可以直接作为预测数据供续步骤所使用。
应理解,本申请实施例对分词所采用的分词系统不作具体限定,利用nlpir汉语分词系统进行分词只是分词的一种具体实现方式,本申请实施例还可以采用现有技术中的任何一种分词系统进行分词。
在中文分词完之后,分词结果中会出现对之后处理没有意义的词汇。可选地,作为本申请一个实施例,可以对分词结果进行预处理,过滤掉这些对之后处理没有意义的词汇。对分词结果进行预处理后的结果,可以作为预测数据。
例如,可以采用以下四种方式中的一种,或同时采用以下方式中的多种对分词结果进行预处理:
(1)过滤掉停用词。
所谓停用词是指出现频次高,但是没有任何意义的中文词。比如‘的’、‘他’等词。
本申请实施例中,可以利用通用的停用词汇库对分词结果进行过滤,过滤掉分词结果中的停用词。
(2)过滤掉在整个目标描述文本中出现频次小于n次的词汇。n为大于或等于1的整数。
这样可以去掉语料中拼写错误或者没有意义的词汇。比如,n为3时,则过滤掉在整个目标描述文本中出现频次小于3次的词汇。
(3)去除非法字符。
非法字符比如常见的标点符号。本申请实施例可以过滤掉分词结果中的非法字符,仅保留分词结果是中文或者英文的词汇。
(4)过滤掉字符长度小于一个中文字符的词汇。
一般地,一个中文字符的长度为3个英文字母,而一般进行中文分词时不考虑英文字符,因此,可以过滤到字符长度小于一个中文字符的词汇。
如上所述,对目标描述文本进行分词后的分词结果进行如上的(1)-(4)中的任意一种或多种操作后,可以得到测试数据。
可选地,在进行分词后,还可以利用分词结果或者预测数据更新s120步骤中更新分词时所使用的分词词库。应理解,在进行分词时,具体实施例可以将分词词库输入至分词系统中,再采用分词系统进行分词。
具体来讲,进行分词后,可以将分词结果输入分词词库中,如果分词结果中存在分词词库中没有的新词汇,那么分词词库可以将该新词汇保存下来。或者直接将分词词库中没有的新词汇添加至分析系统中。在下一次对某个文档进行分词时,可以将更新后的分词词库输入至分词系统,如果该文档中存在所述新词汇,分词系统就可以将所述新词汇识别出来。通过这样不断地更新分词词库,能够不断完善分词系统,提高分词系统的分词性能。
s130,根据预测数据和目标主题模型,生成目标app在多个功能标签下的概率分布。
该目标主题模型可以是已经训练好的模型。该目标主题模型可以将目标描述文本的主题以概率分布的形式给出。其中该目标主题模型的多个主题与该多个功能标签一一对应,或者说,该多个功能标签为该主题模型的多个主题。
通过将预测数据输入已经训练好的目标主题模型,可以获得目标描述文本中的每个主题下的概率分布,从而也就获得了目标app在每个功能标签下的概率分布。
可选地,该目标主题模型可以是lda主题模型。lda主题模型可以理解为采用lda进行主题建模生成的主题模型。
以目标主题模型为lda主题模型为例,在本申请实施例中,将预测数据输入已经训练好的lda主题模型中去,将会生成目标app在多个功能标签下面的概率分布。其中,每一个功能标签是lda主题模型中的一个主题。
表1示出了app功能标签预测结果的一个示意图。
表1
如表1所示,第一行为多个功能标签,也就是该目标主题模型的多个主题。目标app如果是酷狗音乐,那么其在影音娱乐这个功能标签下所占比重最大;目标app如果是微信,那么其在社交通讯和影音娱乐这两个功能标签下所占比重较大;目标app如果是支付宝,那么其在便捷生活和金融理财这两个功能标签下所占比重较大。
表1中所示的app不再只是具有单一的功能标签,表1描述了app在每一个功能标签下面的概率分布,更加全面的刻画该app的功能。
应理解,表1只是描述app在每一个功能标签下面的概率分布的一种具体的表现形式,是为了帮助本领域技术人员更好的理解本申请,本申请对app在每一个功能标签下面的概率分布的具体表现形式不作特殊限定。
因此,本申请实施例的用于预测应用功能标签的方法,通过对app的标描述文本进行分词,获得预测数据,并通过主题模型对预测数据进行处理,可以得到app在多个功能标签下的概率分布,从而能够实现对多功能的app的更加客观的分类,更加全面的刻画app的功能。并且,由于该方法是利用计算机自动为app打上标签,告别了人工为app打标签的繁琐过程。
上文中结合图1,主要描述了本申请实施例的用于预测应用功能标签的方法中的预测应用功能标签的相应操作。下面结合图2,描述根据本申请实施例的用于预测应用功能标签的方法中的训练主题模型的相关操作。应理解,图2中所描述相关操作或步骤可以在s110之前执行。
s210,获取至少两个app的基本信息。其中,该至少两个app不包括目标app。
具体来讲,在进行主题模型训练时,首先可以获取该至少两个app的基本信息,作为训练语料。基本信息可以包括描述文本,也就是说,可以将获取的该至少两个app的描述文本,作为训练语料。
此外,基本信息还可以包括编号、名称、图标等信息中的至少一种。换句话说,在获取该至少两个app的描述文本的同时,可以获取该至少两个app的编号、名称、图标中的一种或多种。其中,app的编号唯一地标识了该app。
作为获取该至少两个app的基本信息的一个具体实现方式,可以首先获取第一应用市场中至少两个第一app的基本信息。然后,根据该至少两个第一app的基本信息,获取第二应用市场中的至少两个第二app的基本信息。其中,该至少两个第一app与该至少两个第二app一一对应,且该至少两个第一app中的第i个第一app与该至少两个第二app中的第i个第二app的匹配度大于或等于匹配阈值,i为整数,且i≥1。比如,可以根据该至少两个第一app的名称获取至少一个第二应用市场中的多个app的基本信息。然后,再在这多个第二app中寻找与该至少两个第一app中匹配度大于或等于匹配阈值的该至少两个第二app。最后,可以将该至少两个第一app中的第i个第一app的基本信息和该至少两个第二app中的第i个第二app的基本信息作为该至少两个app中的第i个app的基本信息。
举例来说,可以首先获取华为应用市场(第一应用市场的一例)上面至少两个app的基本信息。同时,为了丰富训练的语料,对于华为应用市场上面的至少两个app,可以以每个app的名称作为关键词,在豌豆荚(第二应用市场的一例)、手机百度(第二应用市场的一例)、应用宝(第二应用市场的一例)和安智(第二应用市场的一例)四大应用市场上面进行搜索,保留搜索排名前五位的app的基本信息。可以理解的是,按照搜索排名寻找与至少两个第一app对应的app仅是一种示例性说明。在具体实现时,还可以按照下载量排名等方式寻找与至少两个第一app对应的app。此外,这里的保留搜索排名前五位的app的基本信息也仅是为了帮助本领域技术人员更好的理解本申请,本申请不对具体保留前几位的app的基本信息作限定。
由于app功能标签所需要的训练语料是各大应用市场上对同一款app的描述,而在四大应用市场中获得的app的基本信息与在华为应用市场中获得的app的基本信息可能并不是同一款app的基本信息,此时可以通过app的基本信息的匹配,获得app功能标签所需要的训练语料。
通过匹配处理,对于华为应用市场上面的至少两个app中的每个app,可以将在上述四大应用市场中的每个应用市场中搜索排名前五位的app中与该app的匹配度大于或等于匹配阈值的app视为该app的同款app,通过获取同款app在第一应用市场和每个第二应用市场中的基本信息,就可以获得该款app的基本信息。
可选地,本申请实施例中,可以采用图像匹配的方法对app进行匹配。
例如,可以利用感知哈希算法对每一款app的图标生成一串64位的字符串,然后以华为应用市场的app为基准,计算其它四个应用市场搜到的同名app和这款app图标编码之间的汉明距离。并且可以将匹配度大于或等于90%的app认为是同款app,即,将由app的图标生成的64位的字符串中不相同位数不超过6位的app认为是同款app,从而获得第二app。然后,将同款app在不同应用市场上面的描述文本拼接起来,组成这款app的训练语料。
s220,将第一分词词库输入至分词系统中,并采用该分词系统对所述至少两个app的描述文本进行分词,获得训练数据。
获得训练语料后,再对训练语料进行分词,获得主题建模所需的训练数据。本申请实施例中,可以直接将对训练语料进行分词后的结果作为训练预语料,也可以再对训练语料进行分词后的结果进行如上文s120中所述的预处理操作,比如,过滤掉停用词、去除非法字符等操作,将预处理后的结果作为训练数据。
另外,在该步骤中,分词系统可以采用nlpir汉语分词系统。在进行分词时,输入至分词系统的分词词库可以是第一分词词库。下面,介绍构建第一分词词库的一种操作方法。
首先,获取至少两个app(为了便于描述和区分,记作第三app)的描述文本,该至少两个第三app不包括该目标app;然后,将第二分词词库输入至该分词系统中,并采用该分词系统对该至少两个第三app进行分词。其中,该第二分词词库包括该至少两个第三app中每个第三app的名称;最后,将该分词系统未能分出的词添加至该第二分词系统的词库中,获得该第一分词词库。
具体来讲,可以随机选取多个或称为多款app,例如,随机选取100款app,将这100款app的名称添加至分词词库中。应理解,这里所讲的分词词库可以是现有技术中的任一种分词词库。然后,将将这100款app的描述文本,以及添加了这100款app的名称的分词词库输入至分词系统中,由分词系统进行分词处理。得到分词结果后,通过将未能分出来的词添加至该分词词库中去,对分词词库进行更新。此时,更新后的分词词库即为上述的第一分词词库。
上述构建的第一分词词库由于词汇较丰富,因此在采用第一分词词库对上述的至少两个app的描述文本进行分词时,能够提高分词结果的可靠性。
应理解,第三app可以是与第一app和第二app相同,也可以不同,本申请实施例对此不作限定。具体实施是,可以使第三app与第一app和第二app不同,这样能够提高预测性能。
s230,采用所述训练数据进行主题建模,生成候选主题模型。
主题模型是一个词袋模型,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
一篇文章中每一个词的生成过程,是先以一定的概率选择了一个主题,然后再从这个主题的词分布中以一定的概率选择了某一个词。
主题模型的任务就是从观测到的大量的文本中(例如,s220中获得的训练数据)学习出文档集(例如,s210中获得的至少两个app的描述文本)隐藏的主题分布,以及每一个主题下面的词分布。
主题分布,即在每个app的描述文本中各个主题出现的概率。
表2示出了多款app(或者说,多款app的描述文本)在每一个主题下的概率分布。
表2
词分布,即每一个主题下关键词出现的概率,基于这些关键词可以确定出所述多个功能标签。
词分布可以以词云的方式示出。如图3所示,给出了三个主题下词分布的词云。根据三个主题下词分布的词云,可以确定出功能标签。
例如,根据图3中每个主题中显示较大的词汇,即占该主题比重较大的词汇,可以总结出图3中的(a)的功能标签是医疗健康,图3中的(b)的功能标签是金融理财,图3中的(c)的功能标签是社交通讯。
应理解,本申请实施例中,仅以词分布可以以词云的方式示出为例来说明词分布,但这并不对本申请实施例的词分布的形式构成任何限定,例如,词分布还可以以表格的形式示出。
可选地,可以将多个主题或者说多个功能标签下的关键词添加至所述第一分词词库中,获得更新后的第一分词词库,从而能够丰富第一分词词库。
进一步地,还可以采用s220步骤中所采用的至少两个app的名称以及该步骤中分词系统未能分出的词更新更新后的第一分词词库。也就是说,更新后的第一分词词库还包括所述该两个app的名称以及该分词系统未能分出的词。
更进一步地,在预测阶段对目标描述文本进行分词时,可以将更新后的第一分词词库输入至分词系统中,并采用分词系统对所述目标描述文本进行分词,获得所述分词结果。从而,能够提高分词结果的可靠性,进而提高预测应用功能标签时的可靠性。
s240,采用该多个功能标签替换该候选主题模型的多个主题,生成该目标主题模型。
在根据候选主题模型输出的词分布确定出所述多个功能标签后,可以将该候选主题模型的多个主题替换为该多个功能标签,从而得到目标主题模型。
根据目标主题模型,具体来说就是采用主题模型所输出的主题分布作为app的功能标签分布,可以得到如表3所示的多款app在每一个功能标签下的概率分布。
表3
可以看出,每款app在每个功能标签下基本都占一定的比重。应理解,表2中所示出的app为s210步骤中的至少两个app。
得到目标主题模型后,在进行应用app功能标签的预测时,可以将app,例如目标app的目标描述文本输入该目标主题模型,从而能够得到app在该在多个功能标签下的概率分布。
上文中结合图1至图3,描述了根据本申请实施例的用于预测应用app功能标签的方法。下面,结合图4和图5,描述根据本申请实施例的用于预测应用app功能标签的设备。
图4是根据本申请实施例的用于预测应用app功能标签的设备400的示意性框图。如图4所示,该设备400包括:数据采集单元410,数据预处理单元420和模型输出单元430。
数据采集单元410,用于获取描述目标app的目标描述文本;
数据预处理单元420,用于对所述目标描述文本进行分词,获得预测数据;
模型输出单元430,用于根据所述预测数据和目标主题模型,生成所述目标app在多个功能标签下的概率分布,所述多个功能标签为所述目标主题模型的多个主题。
本申请实施例的用于预测应用功能标签的系统,通过对app的标描述文本进行分词,获得预测数据,并通过主题模型对预测数据进行处理,可以得到app在多个功能标签下的概率分布,从而能够实现对多功能的app的更加客观的分类,更加全面的刻画app的功能。并且,由于该方法是利用计算机自动为app打上标签,告别了人工为app打标签的繁琐过程。
可选地,该数据预处理单元420用于:
对该目标描述文本进行分词,获得分词结果;
过滤该分词结果中的停用词、非法字符、在该目标描述文本中出现频次小于n次的词汇或字符长度小于一个中文字符的词汇中的至少一种,获得该预测数据,n为整数,且n≥1。
可选地,该数据采集单元410还用于:
获取至少两个app的基本信息,该至少两个app不包括该目标app,该基本信息包括描述文本;
该数据预处理单元420还用于,将第一分词词库输入至分词系统中,并采用该分词系统对该至少两个app的描述文本进行分词,获得训练数据;
该系统400还包括:
模型构建单元,用于采用该训练数据进行主题建模,生成候选主题模型;
该模型构建单元还用于,采用该多个功能标签替换该候选主题模型的该多个主题,生成该目标主题模型,其中,该多个功能标签是根据该候选主题模型输出的词分布确定的。
可选地,该设备400还包括:
第一更新单元,用于将所述多个主题下的关键词添加至所述第一分词词库中,获得更新后的第一分词词库。
可选地,所述更新后的第一分词词库还包括所述至少两个app的名称以及所述分词系统未能分出的词。
进一步地,该数据预处理单元420用于:
将该更新后的第一分词词库输入至该分词系统中,并采用该分词系统对该目标描述文本进行分词,获得该分词结果。
可选地,该数据采集单元410用于:
获取第一应用市场中至少两个第一app的基本信息;
根据该至少两个第一app的基本信息,获取第二应用市场中的至少两个第二app的基本信息,其中,该至少两个第一app与该至少两个第二app一一对应,且该至少两个第一app中的第i个第一app与该至少两个第二app中的第i个第二app的匹配度大于或等于匹配阈值,i为整数,且i≥1。
将该至少两个第一app中的第i个第一app的基本信息和该至少两个第二app中的第i个第二app的基本信息作为该至少两个app中的第i个app的基本信息。
可选地,该数据采集单元410还用于:
获取至少两个第三app的描述文本,该至少两个第三app不包括该目标app;
该数据预处理单元420还用于,将第二分词词库输入至该分词系统中,并采用该分词系统对该至少两个第三app进行分词,其中,该第二分词词库包括该至少两个第三app中每个第三app的名称;
该设备400还包括:
第二更新单元,用于将该分词系统未能分出的词添加至该第二分词系统的词库中,获得该第一分词词库。
可选地,该基本信息还包括编号、名称和图标中的至少一种。
应理解,该设备400中各模块或单元分别用于执行上述方法中的各动作或处理过程。这里,为了避免赘述,省略其详细说明。
图5示出了根据本申请实施例的用于预测应用app功能标签的设备500的示意性结构图。如图5所示,该设备500包括:收发器510、处理器520和存储器530。其中,收发器510、处理器520和存储器530之间通过内部连接通路互相通信,传递控制和/或数据信号。
处理器520,用于获取描述目标app的目标描述文本;对所述目标描述文本进行分词,获得预测数据;根据所述预测数据和目标主题模型,生成所述目标app在多个功能标签下的概率分布,所述多个功能标签为所述目标主题模型的多个主题。
本申请实施例的用于预测应用功能标签的系统,通过对app的标描述文本进行分词,获得预测数据,并通过主题模型对预测数据进行处理,可以得到app在多个功能标签下的概率分布,从而能够实现对多功能的app的更加客观的分类,更加全面的刻画app的功能。并且,由于该方法是利用计算机自动为app打上标签,告别了人工为app打标签的繁琐过程。
可选地,该处理器520用于:
对该目标描述文本进行分词,获得分词结果;
过滤该分词结果中的停用词、非法字符、在该目标描述文本中出现频次小于n次的词汇或字符长度小于一个中文字符的词汇中的至少一种,获得该预测数据,n为整数,且n≥1。
可选地,该处理器520还用于:
获取至少两个app的基本信息,该至少两个app不包括该目标app,该基本信息包括描述文本;
该处理器520还用于,将第一分词词库输入至分词系统中,并采用该分词系统对该至少两个app的描述文本进行分词,获得训练数据;采用该训练数据进行主题建模,生成候选主题模型;采用该多个功能标签替换该候选主题模型的该多个主题,生成该目标主题模型,其中,该多个功能标签是根据该候选主题模型输出的词分布确定的。
可选地,该处理器520还用于,将所述多个主题下的关键词添加至所述第一分词词库中,获得更新后的第一分词词库。
可选地,所述更新后的第一分词词库还包括所述至少两个app的名称以及所述分词系统未能分出的词。
进一步地,该处理器520还用于,将该更新后的第一分词词库输入至该分词系统中,并采用该分词系统对该目标描述文本进行分词,获得该分词结果。
可选地,该处理器520用于:
获取第一应用市场中至少两个第一app的基本信息;
根据该至少两个第一app的基本信息,获取第二应用市场中的至少两个第二app的基本信息,其中,该至少两个第一app与该至少两个第二app一一对应,且该至少两个第一app中的第i个第一app与该至少两个第二app中的第i个第二app的匹配度大于或等于匹配阈值,i为整数,且i≥1。
将该至少两个第一app中的第i个第一app的基本信息和该至少两个第二app中的第i个第二app的基本信息作为该至少两个app中的第i个app的基本信息。
可选地,该处理器520还用于:
获取至少两个第三app的描述文本,该至少两个第三app不包括该目标app;
将第二分词词库输入至该分词系统中,并采用该分词系统对该至少两个第三app进行分词,其中,该第二分词词库包括该至少两个第三app中每个第三app的名称;
将该分词系统未能分出的词添加至该第二分词系统的词库中,获得该第一分词词库。
可选地,该基本信息还包括编号、名称和图标中的至少一种。
应理解,在该处理器520从存储器中调用并运行该计算机程序时,处理器520可用于执行用于预测应用app功能标签的方法,并实现该方法的执行主体,例如计算机的功能。
本申请实施例可以应用于处理器中,或者由处理器实现。处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是中央处理单元(centralprocessingunit,cpu)、该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件器组合执行完成。软件器可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。