标签分配方法及装置的制造方法
【专利摘要】本公开揭示了一种标签分配方法及装置,属于歌曲分类领域。该方法包括:获取样本歌曲,样本歌曲包含预先标注的歌曲标签;获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。本公开实施例达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类准确率。
【专利说明】
标签分配方法及装置
技术领域
[0001 ]本公开涉及歌曲分类领域,特别涉及一种标签分配方法及装置。
【背景技术】
[0002] 为了方便进行歌曲推荐,各大音乐平台根据歌曲的流派、风格、场景等元素,为歌 曲库中的歌曲分配了各式各样的歌曲标签。
[0003] 由于歌曲库中歌曲数量庞大,采用人工分配的方式为歌曲分配歌曲标签成本过 高,因此,各大音乐平台通常采用构建歌曲分类器的方式自动为歌曲分配歌曲标签。在构建 歌曲分类器的过程中,预先通过人工分配的方式为若干样本歌曲分配歌曲标签,并提取出 样本歌曲的音色、节奏、音高和歌词等歌曲特征,进而根据样本歌曲的歌曲标签以及歌曲特 征构建出歌曲分类器。对于未分配歌曲标签的待分配歌曲,歌曲分类器即可根据待分配歌 曲的歌曲特征为其分配相应的歌曲标签。
[0004] 对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分 配准确率较低,影响歌曲分类效果。
【发明内容】
[0005] 为了解决对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行歌 曲标签分配准确率较低,影响歌曲分类效果的问题,本公开提供一种标签分配方法及装置。 所述技术方案如下:
[0006] 根据本公开实施例的第一方面,提供一种标签分配方法,该方法包括:
[0007] 获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
[0008] 获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样本歌曲的评分,评分 根据用户对样本歌曲的操作行为计算得到;
[0009] 根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;
[0010]通过歌曲分类器为歌曲库中各个歌曲分配所述歌曲标签。
[0011] 可选地,用户对样本歌曲的操作行为包括播放、下载、收藏和分享中的至少一种;
[0012] 获取用户评分矩阵,包括:
[0013] 根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评 分;
[0014] 根据至少一个用户对各个样本歌曲的评分生成用户评分矩阵。
[0015] 可选地,获取用户评分矩阵之后,还包括:
[0016] 使用TF_IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率) 模型对用户评分矩阵进行优化。
[0017] 可选地,对于用户评分矩阵中任一评分,使用TF-IDF模型对用户评分矩阵进行优 化,包括:
[0018] 获取用户评分矩阵中的评分Cij,Cij表示用户i对歌曲j的评分;
[0019] 计算Cij对应的词频tfij,其中
,k为控制参数;
[0020] 计算歌曲j对应的逆文档频率idfj,其中:
,n为样本歌曲总数,η」指示 用户评分矩阵中对歌曲j评分不为〇的用户数;
[0021]根据tfij和idfj计算优化后的评分Wij,其中,Wij = tfij*idfj;
[0022]根据wu生成优化后的用户评分矩阵。
[0023]可选地,优化后的用户评分矩阵为x-y矩阵,使用TF-IDF模型对用户评分矩阵进行 优化之后,还包括:
[0024] 对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中, 第一矩阵为x-z矩阵,第二矩阵为ζ-y矩阵,z<x,且第一矩阵指示用户对歌曲特征的偏好, 第二矩阵指示歌曲与歌曲特征的相关度;
[0025] 根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器,包括:
[0026] 根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
[0027] 可选地,根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器,包括:
[0028]将预定比例的样本歌曲确定为训练集,预定比例大于50% ;
[0029] 根据第二矩阵以及训练集构建歌曲分类器;
[0030] 使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
[0031] 根据本公开实施例的第二方面,提供一种标签分配装置,该装置包括:
[0032] 样本获取模块,用于获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
[0033] 矩阵获取模块,用于获取用户评分矩阵,用户评分矩阵中包含至少一个用户对样 本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
[0034] 生成模块,用于根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器; [0035]分配模块,用于通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
[0036]可选地,用户对样本歌曲的操作行为包括播放、下载、收藏和分享中的至少一种; [0037]矩阵获取模块,包括:
[0038] 计算子模块,用于根据不同类型操作行为各自对应的权重值,计算至少一个用户 对样本歌曲的评分;
[0039] 矩阵生成子模块,用于根据至少一个用户对各个样本歌曲的评分生成用户评分矩 阵。
[0040] 可选地,该装置,还包括:
[0041]优化模块,用于使用TF-IDF模型对用户评分矩阵进行优化。
[0042] 可选地,对于用户评分矩阵中任一评分,优化模块,包括:
[0043] 获取子模块,用于获取用户评分矩阵中的评分Cu,(^表示用户i对歌曲j的评分;
[0044] 第一计算子模块,用于计算Cu对应的词频其中
,k为控制参数;
[0045] 第二计算子模块,用于计算歌曲j对应的逆文档频率idf」,其中
样本歌曲总数,如指示用户评分矩阵中对歌曲j评分不为〇的用户数;
[0046] 第三计算子模块,用于根据tfij和idf j计算优化后的评分Wij,其中,Wij = tfij* idfj;
[0047] 优化子模块,用于根据Wlj生成优化后的用户评分矩阵。
[0048] 可选地,优化后的用户评分矩阵为x-y矩阵,该装置,还包括:
[0049] 分解模块,用于对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及 第二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为z-y矩阵,z<x,且第一矩阵指示用户对歌 曲特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度;
[0050] 生成模块,用于:
[0051] 根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
[0052] 可选地,生成模块,包括:
[0053]确定子模块,用于将预定比例的样本歌曲确定为训练集,预定比例大于50%;
[0054]构建子模块,用于根据第二矩阵以及训练集构建歌曲分类器;
[0055] 测试子模块,用于使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
[0056] 本公开的实施例提供的技术方案可以包括以下有益效果:
[0057] 通过预先对样本歌曲进行歌曲标签标注,根据用户对样本歌曲的操作行为得到相 应的用户评分矩阵,进而根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器, 并通过该歌曲分类器为歌曲库中的所有歌曲分配歌曲标签;解决了对于歌曲特征不明显或 歌曲特征较为相似的歌曲,根据歌曲特征进行歌曲标签分配准确率较低,影响歌曲分类效 果的问题;达到了从用户收听歌曲过程中产生的用户行为数据中提取行为特征,利用该行 为特征构建歌曲分类器,并进一步根据该歌曲分类器对歌曲进行分类,从而提高歌曲分类 准确率。
[0058] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本 公开。
【附图说明】
[0059]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并于说明书一起用于解释本公开的原理。
[0060]图1是根据一示例性实施例示出的一种标签分配方法的流程图;
[0061 ]图2A是根据另一示例性实施例示出的一种标签分配方法的流程图;
[0062]图2B是图2A所示标签分配方法中获取用户评分矩阵过程的流程图;
[0063]图2C是图2A所示标签分配方法中歌曲分类器测试过程的流程图;
[0064] 图3是根据一示例性实施例示出的一种标签分配装置的框图;
[0065] 图4是根据另一示例性实施例示出的一种标签分配装置的框图。
【具体实施方式】
[0066] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0067] 本公开各个实施例提供的标签分配方法,可以由音乐平台的后台服务器来实现。 该后台服务器可以为单一服务器,也可以是是由若干台服务器组成的服务器集群或云计算 中心等等。
[0068] 图1是根据一示例性实施例示出的一种标签分配方法的流程图,本实施例以该标 签分配方法用于音乐平台的后台服务器为例进行说明,该方法可以包括以下几个步骤:
[0069] 在步骤101中,获取样本歌曲,该样本歌曲包含预先标注的歌曲标签。
[0070] 音乐平台歌曲库中的一部分样本歌曲预先标注有歌曲标签,该歌曲标签用于标识 样本歌曲的流派、风格、场景等等。在进行标签分配的过程中,后台服务器即获取歌曲库中 的样本歌曲。
[0071] 在步骤103中,获取用户评分矩阵,该用户评分矩阵中包含至少一个用户对样本歌 曲的评分,该评分根据用户对样本歌曲的操作行为计算得到。
[0072] 后台服务器收集用户对歌曲的操作行为,比如用户播放歌曲、下载歌曲或分享歌 曲等等,并根据该操作行为计算用户对该歌曲的评分,评分越高指示用户对该歌曲的偏好 程度越高。
[0073] 在步骤105中,根据该用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
[0074] 后台服务器根据用户评分矩阵以及样本歌曲的歌曲标签,能够进一步确定出用户 偏好的歌曲特征以及该歌曲特征对应的歌曲标签,并生成相应的歌曲分类器。
[0075] 在步骤107中,通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
[0076] 后台服务器根据生成的歌曲分类器以及用户对歌曲库中其余歌曲的用户评分矩 阵,为歌曲库中各个歌曲分配相应的歌曲标签。
[0077] 综上所述,本实施例提供的标签分配方法,通过预先对样本歌曲进行歌曲标签标 注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵 以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分 配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行 歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生 的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲 分类器对歌曲进行分类,从而提高歌曲分类准确率。
[0078] 图2A是根据另一示例性实施例示出的一种标签分配方法的流程图,本实施例以该 标签分配方法用于音乐平台的后台服务器为例进行说明,该方法可以包括以下几个步骤: [0079]在步骤201中,获取样本歌曲,该样本歌曲包含预先标注的歌曲标签。
[0080] 由于音乐平台歌曲库中歌曲数量庞大,通过人工标注的方式为各个歌曲标注歌曲 标签需要耗费大量时间,且成本极高。本实施例提供的标签分配方法中,在构建歌曲分类器 前,只需要将歌曲库中的一小部分歌曲确定为样本歌曲,并通过人工标注的方式为样本歌 曲标注歌曲标签,其中,该歌曲标签用于指不歌曲的流派(爵士、摇滚、流彳丁、古典等等)、风 格(伤感、愉悦、安静等等)、场景(运动、酒吧、夜店、比赛等等)等等。
[0081] 比如,音乐平台歌曲库中包含100万首歌曲,在构建歌曲分类器前,选取1万首歌曲 作为样本歌曲,并对样本歌曲进行歌曲标签的标注。需要说明的是,选取的样本歌曲需要覆 盖歌曲库中的所有流派、风格、场景,从而保证样本歌曲的全面性和代表性。
[0082] 在构建歌曲分类器阶段,后台服务器即获取该样本歌曲,示意性的,样本歌曲与歌 曲标签的对应关系可以示意性如表一所示。
[0083]表一
[0085] 在步骤202中,获取用户评分矩阵,该用户评分矩阵中包含至少一个用户对样本歌 曲的评分,该评分根据用户对样本歌曲的操作行为计算得到。
[0086] 用户在收听歌曲过程中,会对歌曲进行一些操作,而用户对歌曲的操作行为则会 产生一系列的用户行为数据。比如,用户选择收听某首歌曲时,即产生了对该歌曲的播放数 据,该播放数据可以包括播放次数;又比如,用户下载某首歌曲时,即产生对该歌曲的下载 数据;再比如,用户将某首歌曲分享给好友时,即产生了对该歌曲的分享数据。
[0087]提供歌曲播放的音乐平台能够收集这些用户行为数据,并对这些用户行为数据进 行分析,得到用户对各个歌曲的评分,并根据该评分确定用户对歌曲的喜好程度。
[0088]在一种可能的实施方式中,如图2B所示,本步骤可以包括如下步骤。
[0089]在步骤202A中,根据不同类型操作行为各自对应的权重值,计算至少一个用户对 样本歌曲的评分。
[0090] 用户在收听歌曲过程中,能够进行不同类型的操作,比如可以播放歌曲、下载歌 曲、收藏歌曲或分享歌曲等等;并且,不同类型的操作行为指示用户对歌曲的喜好程度也不 同,比如,收藏歌曲这一操作行为所指示的用户对歌曲的喜好程度大于播放歌曲这一操作 行为所指示的用户对歌曲的喜好程度,因此,在根据用户对歌曲的操作行为计算用户对歌 曲的评分时,不同类型的操作行为对应的权重值也不一样。示意性的,不同类型的操作行为 对应的权重值可以如表二所示。
[0091] 表二
[0093] 根据不同类型操作行为各自对应的权重值,计算至少一个用户对样本歌曲的评分 时,后台服务器还需要结合操作行为对应的次数进行计算。比如,对于歌曲00001来说,当用 户00001对歌曲00001进行了5次播放,并进行了 1次分享时,用户00001对歌曲00001的评分 即为 1*5+8*1 = 13。
[0094] 需要说明的是,对于某些消极的操作行为来说,比如删除歌曲、标记歌曲为不喜欢 等等,其对应的权重值也可以为负数,本实施例仅以上述操作行为进行示意性说明,并不对 本公开构成限定。
[0095]在步骤202B中,根据至少一个用户对各个样本歌曲的评分生成用户评分矩阵。
[0096] 根据至少一个用户对样本歌曲的评分,后台服务器生成相应的用户评分矩阵。比 如,后台服务器收集了 100万用户对1万首样本歌曲的评分,生成100万-10万的用户评分矩 阵,该用户评分矩阵中,行代表用户,列代表歌曲。
[0097] 在步骤203中,使用TF-IDF模型对用户评分矩阵进行优化。
[0098] 根据用户操作行为确定的评分确定用户的喜好程度存在一定的片面性和局限性, 比如,对于歌曲00001和歌曲00002来说,用户播放100次歌曲00001,对应的用户对歌曲 00001的评分为100分,而用户播放10次歌曲00002,对应的用户对歌曲00002的评分为10分, 但是并不能代表用户对歌曲00001的喜好程度是对歌曲00002的喜好程度的10倍。而在实际 情况中,用户对歌曲的评分与喜好程度之间呈幂律关系。因此,在获取到用户评分矩阵后, 后台服务器还需要使用改进的TF-IDF模型对用户评分矩阵进行优化。
[0099] 在一种可能的实施方式中,本步骤还可以包括如下步骤。
[0100]在步骤203A中,获取用户评分矩阵中的评分Ci j,Ci j表示用户i对歌曲j的评分。
[0101] 后台服务器获取该用户评分矩阵中的任一评分c"。
[0102] 在步骤203B中,计算Cij对应的词频tfij,其中
,k为控制参数。
[0103] 由于用户对歌曲的评分与喜好程度之间呈幂律关系,因此,后台服务器对Cu进行 lg运算,得到k对应的词频tf&若Cu为0,则表示用户i未对歌曲j执行过操作,也为0; 若Cu不为0,则表示用户i对歌曲j执行过操作。
[0104] 比如,当Cij为10,且k为10时,Cij对应的词频tfij即为1η2。
[0105] 在步骤203C中,计算歌曲j对应的逆文档频率idfj,其中,
,Λ为样本 歌曲总数,如指示用户评分矩阵中对歌曲j评分不为〇的用户数。
[0106] 根据IDF的定义,若包含某一词条的文档越少,则说明该词条具有越好的类别区分 能力,相应的该词条对应的IDF越大。相似的,对于某一歌曲来说,若大量用户对该歌曲进行 了评分(即评分不为〇),则说明该歌曲的类别区分能力越弱。因此,后台服务器根据样本歌 曲的总数,以及歌曲j在用户评分矩阵中评分不为〇的个数,计算歌曲j对应的逆文档频率 idfj。
[0107] 比如,对于歌曲j来说,当样本歌曲总数为10000,且用户评分矩阵中对歌曲j评分 不为〇的用户数为2000时,歌曲j对应的逆文档频率idfj即为1η6。
[0108] 需要说明的是,上述步骤203B和步骤203C之间不存在严格的先后关系,即上述步 骤203B和步骤203C可以同时执行。
[0109] 在步骤203D中,根据tfij和idfj计算优化后的评分Wij,其中,Wij = tfij*idfj。
[0110]计算得到和idt后,后台服务器即根据公式Wlj = tf^idf泔算得到优化后的 评分。
[0111]在步骤203E中,根据生成优化后的用户评分矩阵。
[0112] 后台服务器对用户评分矩阵汇中的各个评分进行优化,从而生成优化后的用户评 分矩阵,该优化后的用户评分矩阵能够体现出用户特征。
[0113] 在步骤204中,对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第 二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为ζ-y矩阵,z<x,且第一矩阵指示用户对歌曲 特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度。
[0114] 由于用户数量巨大,优化后的用户评分矩阵的维数可能搞到数千万甚至上亿(与 用户数量有关),若直接根据优化后的用户评分矩阵生成分类器,会在成严重的过拟合,导 致生成的分类器的分类效果极差。
[0115] 为了避免产生过拟合现象,后台服务器需要对优化后的用户评分矩阵映射到一个 较低维度的隐向量空间,使得该用户评分矩阵能够表示为两个矩阵的内积,其中一个矩阵 用于指示用户对歌曲特征的偏好,而另一个矩阵则用于指示歌曲与歌曲特征的相关度。
[0116] 作为一种可能的实施方式,后台服务器对优化后的用户评分矩阵进行隐式矩阵分 解,将原本的x-y矩阵分解为x-z矩阵与 z-y矩阵,其中的x-z矩阵指示用户对歌曲特征的偏 好,而ζ-y矩阵则指示歌曲与歌曲特征的相关度。
[0117] 比如,当优化后的用户评分矩阵为1000000-10000矩阵时,后台服务器可以将该矩 阵分解为1000000-300矩阵(第一矩阵)和300-10000矩阵(第二矩阵)。
[0118] 在步骤205中,根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
[0119] 由于歌曲特征以歌曲标签的形式体现在歌曲中,因此,根据第二矩阵指示的歌曲 与歌曲特征的相关度以及样本歌曲的歌曲标签,后台服务器即可生成歌曲分类器。在一种 可能的实现方式中,该歌曲分类器可以为SVM(Support Vector Machine,支持向量机)。
[0120] 在步骤206中,通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
[0121]生成歌曲分类器后,后台服务器确定歌曲库中未标注歌曲标签的歌曲,并获取用 户对这些歌曲的用户评分矩阵,进而以用户评分矩阵作为歌曲分类器的输入,为未标注的 歌曲分配歌曲标签。需要说明的是,未标注歌曲对应的用户评分矩阵也需要经过类似上述 步骤203和步骤204的处理,本实施例在此不再赘述。
[0122] 综上所述,本实施例提供的标签分配方法,通过预先对样本歌曲进行歌曲标签标 注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵 以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分 配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行 歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生 的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲 分类器对歌曲进行分类,从而提高歌曲分类准确率。
[0123] 本实施例中,通过为不同类型的操作行为设置不同的权重值,并根据该权重值计 算得到用户对歌曲的评分,生成相应的用户评分矩阵,进而根据用户评分矩阵以及样本歌 曲的歌曲标签生成歌曲分类器,实现对歌曲的分类,提高了歌曲分类的效率。
[0124] 本实施例中,通过使用TF-IDF模型对用户评分矩阵进行优化,并使用优化后的用 户评分矩阵生成歌曲分类器,提高了生成的分类器的分类效果。
[0125] 本实施例中,通过对优化后的用户评分矩阵进行隐式矩阵分解,得到指示歌曲与 歌曲特征的相关度的歌曲特征矩阵,并根据该歌曲特征矩阵和样本歌曲的歌曲标签生成歌 曲分类器,避免了因用户评分矩阵维数过高导致的过拟合现象,进一步提高了分类器的分 类效果。
[0126] 为了保证生成的歌曲分类器的分类效果,作为一种可能的实施方式,如图2C所示, 上述步骤205可以包括如下步骤。
[0127] 在步骤205A中,将预定比例的样本歌曲确定为训练集,预定比例大于50%。
[0128] 后台服务器选取预定比例的样本歌曲作为训练集,并将剩余的样本歌曲作为测试 集。需要说明的是,为了保证歌曲分类器的质量,该预定比例需大于50%,即训练集中样本 歌曲的数量需大于测试集中样本歌曲的数量。
[0129] 比如,后台服务器选取70%的样本歌曲作为训练集,并将剩余的30%的样本歌曲 作为测试集。
[0130]在步骤205B中,根据第二矩阵以及训练集构建歌曲分类器。
[0131] 后台服务器使用第二矩阵以及训练集构建歌曲分类器。
[0132] 在步骤205C中,使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
[0133] 完成歌曲分类器的构建后,后台服务器使用测试集作为歌曲分类器的输入,为测 试集中的样本歌曲分配歌曲标签,并检测分配的歌曲标签与手工标注的歌曲标签的匹配 度。若匹配度高于预设匹配度阈值,则确定该歌曲分类器的分类效果达标,并执行步骤206; 若匹配度低于预设匹配度阈值,则确定该歌曲分类器的分类效果未达标。
[0134] 本实施例中,通过将样本歌曲分为训练集和测试集,并使用训练集构建歌曲分类 器,使用测试集测试歌曲分类器的分类效果,从而保证了歌曲分类器的分类质量。
[0135] 下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实 施例中未披露的细节,请参照本公开方法实施例。
[0136] 图3是根据一示例性实施例示出的一种标签分配装置的框图,该装置可以通过软 件、硬件或软硬件结合实现成为音乐平台后台服务器的全部或一部分,该装置包括:
[0137] 样本获取模块310,用于获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
[0138] 矩阵获取模块320,用于获取用户评分矩阵,用户评分矩阵中包含至少一个用户对 样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
[0139] 生成模块330,用于根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器; [0140]分配模块340,用于通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
[0141] 综上所述,本实施例提供的标签分配装置,通过预先对样本歌曲进行歌曲标签标 注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵 以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分 配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行 歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生 的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲 分类器对歌曲进行分类,从而提高歌曲分类准确率。
[0142] 图4是根据另一示例性实施例示出的一种标签分配装置的框图,该装置可以通过 软件、硬件或软硬件结合实现成为音乐平台后台服务器的全部或一部分,该装置包括:
[0143 ]样本获取模块410,用于获取样本歌曲,样本歌曲包含预先标注的歌曲标签;
[0144] 矩阵获取模块420,用于获取用户评分矩阵,用户评分矩阵中包含至少一个用户对 样本歌曲的评分,评分根据用户对样本歌曲的操作行为计算得到;
[0145] 生成模块430,用于根据用户评分矩阵以及样本歌曲的歌曲标签生成歌曲分类器;
[0146] 分配模块440,用于通过歌曲分类器为歌曲库中各个歌曲分配歌曲标签。
[0147] 在一个可选的实施例中,用户对样本歌曲的操作行为包括播放、下载、收藏和分享 中的至少一种;
[0148] 矩阵获取模块420,包括:
[0149] 计算子模块421,用于根据不同类型操作行为各自对应的权重值,计算至少一个用 户对样本歌曲的评分;
[0150] 矩阵生成子模块422,用于根据至少一个用户对各个样本歌曲的评分生成用户评 分矩阵。
[0151] 可选地,该装置,还包括:
[0152]优化模块450,用于使用TF-IDF模型对用户评分矩阵进行优化。
[0153]可选地,对于用户评分矩阵中任一评分,优化模块450,包括:
[0154]获取子模块451,用于获取用户评分矩阵中的评分QpCu表示用户i对歌曲j的评 分;
[0155] 第一计算子模块452,用于计算Cu对应的词频其中, 冰为控制参 数;
[0156] 第二计算子模块453,用于计算歌曲j对应的逆文档频率idf」,其中: η为样本歌曲总数,如指示用户评分矩阵中对歌曲j评分不为0的用户数;
[0157]第三计算子模块454,用于根据tfij和idfj计算优化后的评分wij,其中,wij = tfij* idfj;
[0158] 优化子模块455,用于根据wy生成优化后的用户评分矩阵。
[0159] 可选地,优化后的用户评分矩阵为x-y矩阵,该装置,还包括:
[0160] 分解模块460,用于对优化后的用户评分矩阵进行隐式矩阵分解,得到第一矩阵以 及第二矩阵,其中,第一矩阵为x-z矩阵,第二矩阵为z-y矩阵,z<x,且第一矩阵指示用户对 歌曲特征的偏好,第二矩阵指示歌曲与歌曲特征的相关度;
[0161] 生成模块430,用于:
[0162] 根据第二矩阵以及样本歌曲的歌曲标签生成歌曲分类器。
[0163] 可选地,生成模块430,包括:
[0164] 确定子模块431,用于将预定比例的样本歌曲确定为训练集,预定比例大于50%;
[0165] 构建子模块432,用于根据第二矩阵以及训练集构建歌曲分类器;
[0166] 测试子模块433,用于使用除训练集外的样本歌曲测试歌曲分类器的分类效果。
[0167] 综上所述,本实施例提供的标签分配装置,通过预先对样本歌曲进行歌曲标签标 注,根据用户对样本歌曲的操作行为得到相应的用户评分矩阵,进而根据该用户评分矩阵 以及样本歌曲的歌曲标签生成歌曲分类器,并通过该歌曲分类器为歌曲库中的所有歌曲分 配歌曲标签;解决了对于歌曲特征不明显或歌曲特征较为相似的歌曲,根据歌曲特征进行 歌曲标签分配准确率较低,影响歌曲分类效果的问题;达到了从用户收听歌曲过程中产生 的用户行为数据中提取行为特征,利用该行为特征构建歌曲分类器,并进一步根据该歌曲 分类器对歌曲进行分类,从而提高歌曲分类准确率。
[0168] 本实施例中,通过为不同类型的操作行为设置不同的权重值,并根据该权重值计 算得到用户对歌曲的评分,生成相应的用户评分矩阵,进而根据用户评分矩阵以及样本歌 曲的歌曲标签生成歌曲分类器,实现对歌曲的分类,提高了歌曲分类的效率。
[0169] 本实施例中,通过使用TF-IDF模型对用户评分矩阵进行优化,并使用优化后的用 户评分矩阵生成歌曲分类器,提高了生成的分类器的分类效果。
[0170] 本实施例中,通过对优化后的用户评分矩阵进行隐式矩阵分解,得到指示歌曲与 歌曲特征的相关度的歌曲特征矩阵,并根据该歌曲特征矩阵和样本歌曲的歌曲标签生成歌 曲分类器,避免了因用户评分矩阵维数过高导致的过拟合现象,进一步提高了分类器的分 类效果。
[0171 ]本实施例中,通过将样本歌曲分为训练集和测试集,并使用训练集构建歌曲分类 器,使用测试集测试歌曲分类器的分类效果,从而保证了歌曲分类器的分类质量。
[0172] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法 的实施例中进行了详细描述,此处将不做详细阐述说明。
[0173] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其 它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或 者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识 或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的 权利要求指出。
[0174]应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并 且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【主权项】
1. 一种标签分配方法,其特征在于,所述方法包括: 获取样本歌曲,所述样本歌曲包含预先标注的歌曲标签; 获取用户评分矩阵,所述用户评分矩阵中包含至少一个用户对所述样本歌曲的评分, 所述评分根据用户对所述样本歌曲的操作行为计算得到; 根据所述用户评分矩阵以及所述样本歌曲的所述歌曲标签生成歌曲分类器; 通过所述歌曲分类器为歌曲库中各个歌曲分配所述歌曲标签。2. 根据权利要求1所述的方法,其特征在于,用户对所述样本歌曲的所述操作行为包括 播放、下载、收藏和分享中的至少一种; 所述获取用户评分矩阵,包括: 根据不同类型操作行为各自对应的权重值,计算至少一个用户对所述样本歌曲的所述 评分; 根据至少一个用户对各个样本歌曲的所述评分生成所述用户评分矩阵。3. 根据权利要求1或2所述的方法,其特征在于,所述获取用户评分矩阵之后,还包括: 使用词频-逆文档频率TF-IDF模型对所述用户评分矩阵进行优化。4. 根据权利要求3所述的方法,其特征在于,对于所述用户评分矩阵中任一评分,所述 使用TF-IDF模型对所述用户评分矩阵进行优化,包括: 获取所述用户评分矩阵中的评分C&所述Cu表示用户i对歌曲j的所述评分; 计算所述Cij对应的词频tfij,其中,诉=in(¥ + i),k为控制参数; K 计算歌曲j对应的逆文档频率idfp其中,ft费= ln(i+l),n为所述样本歌曲总数,所述 m 指示所述用户评分矩阵中对歌曲j评分不为〇的用户数; 根据所述tfij和idfj计算优化后的评分Wij,其中,Wij = tfij*idfj; 根据所述生成优化后的所述用户评分矩阵。5. 根据权利要求3所述的方法,其特征在于,优化后的所述用户评分矩阵为x-y矩阵,所 述使用TF-IDF模型对所述用户评分矩阵进行优化之后,还包括: 对优化后的所述用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及第二矩阵,其中, 所述第一矩阵为x-z矩阵,所述第二矩阵为ζ-y矩阵,z<x,且所述第一矩阵指示用户对歌曲 特征的偏好,所述第二矩阵指示歌曲与歌曲特征的相关度; 所述根据所述用户评分矩阵以及所述样本歌曲的所述歌曲标签生成歌曲分类器,包 括: 根据所述第二矩阵以及所述样本歌曲的所述歌曲标签生成所述歌曲分类器。6. 根据权利要求5所述的方法,其特征在于,所述根据所述第二矩阵以及所述样本歌曲 的所述歌曲标签生成所述歌曲分类器,包括: 将预定比例的所述样本歌曲确定为训练集,所述预定比例大于50% ; 根据所述第二矩阵以及所述训练集构建所述歌曲分类器; 使用除所述训练集外的所述样本歌曲测试所述歌曲分类器的分类效果。7. -种标签分配装置,其特征在于,所述装置包括: 样本获取模块,用于获取样本歌曲,所述样本歌曲包含预先标注的歌曲标签; 矩阵获取模块,用于获取用户评分矩阵,所述用户评分矩阵中包含至少一个用户对所 述样本歌曲的评分,所述评分根据用户对所述样本歌曲的操作行为计算得到; 生成模块,用于根据所述用户评分矩阵以及所述样本歌曲的所述歌曲标签生成歌曲分 类器; 分配模块,用于通过所述歌曲分类器为歌曲库中各个歌曲分配所述歌曲标签。8. 根据权利要求7所述的装置,其特征在于,用户对所述样本歌曲的所述操作行为包括 播放、下载、收藏和分享中的至少一种; 所述矩阵获取模块,包括: 计算子模块,用于根据不同类型操作行为各自对应的权重值,计算至少一个用户对所 述样本歌曲的所述评分; 矩阵生成子模块,用于根据至少一个用户对各个样本歌曲的所述评分生成所述用户评 分矩阵。9. 根据权利要求7或8所述的装置,其特征在于,所述装置,还包括: 优化模块,用于使用词频-逆文档频率TF-IDF模型对所述用户评分矩阵进行优化。10. 根据权利要求9所述的装置,其特征在于,对于所述用户评分矩阵中任一评分,所述 优化模块,包括: 获取子模块,用于获取所述用户评分矩阵中的评分Cu,所述Cu表示用户i对歌曲j的所 述评分; 第一计算子模块,用于计算所述Cu对应的词频tf ^,其中,#=in( +i),k为控制参数; k 第二计算子模块,用于计算歌曲j对应的逆文档频率idt,其中,W = 为所述 flj 样本歌曲总数,所述指示所述用户评分矩阵中对歌曲j评分不为0的用户数; 第三计算子模块,用于根据所述tfij和idfj计算优化后的评分Wij,其中,Wij = tfij*idfj; 优化子模块,用于根据所述生成优化后的所述用户评分矩阵。11. 根据权利要求9所述的装置,其特征在于,优化后的所述用户评分矩阵为x-y矩阵, 所述装置,还包括: 分解模块,用于对优化后的所述用户评分矩阵进行隐式矩阵分解,得到第一矩阵以及 第二矩阵,其中,所述第一矩阵为χ-ζ矩阵,所述第二矩阵为z-y矩阵,ζ<χ,且所述第一矩阵 指示用户对歌曲特征的偏好,所述第二矩阵指示歌曲与歌曲特征的相关度; 所述生成模块,用于: 根据所述第二矩阵以及所述样本歌曲的所述歌曲标签生成所述歌曲分类器。12. 根据权利要求11所述的装置,其特征在于,所述生成模块,包括: 确定子模块,用于将预定比例的所述样本歌曲确定为训练集,所述预定比例大于50%; 构建子模块,用于根据所述第二矩阵以及所述训练集构建所述歌曲分类器; 测试子模块,用于使用除所述训练集外的所述样本歌曲测试所述歌曲分类器的分类效 果。
【文档编号】G06F17/30GK105868372SQ201610194484
【公开日】2016年8月17日
【申请日】2016年3月31日
【发明人】林锡雄, 赵忠, 陈胜凯, 李祖辉
【申请人】广州酷狗计算机科技有限公司