本发明涉及机器学习领域,特别是涉及一种移动互联网广告投放方法。
背景技术:
移动互联网广告主要采用广告横幅、文本链接、多媒体等方式,通过网络广告平台在移动智能终端上投放广告。随着移动互联网技术的迅速发展,与传统媒体广告如报纸、杂志、电视、广播以及户外广告相比,移动互联网广告具有得天独厚的优势。然而,目前很多广告都是随机投放的,即每次用户来了,随机选择一个广告投放给他,投放效率很低。同时,随意投放的广告干扰了用户正常的生活,普遍引起用户的反感。面对这种情况,移动互联网广告的个性化精准投放受到了研究者的广泛关注。
在互联网广告投放平台方面,百度联盟推出了“按效果付费”的cpa(costperaction)广告平台。微软公司开发了microsoftadcenter广告销售平台,在微软的资源平台上进行广告投放。谷歌公司研发了googleadsense网络广告投放平台,页面上的广告会随着页面内容的不同而有所不同,提高了广告投放的精准度。相比谷歌的个性化广告推荐系统,facebook利用海量的用户数据和社交网络关系建立的广告投放系统,可以深入挖掘用户兴趣,通过朋友的推荐,帮助用户找到相关性更高和更准确的广告信息。除此之外,学术界和工业界在广告的个性化精准投放方面上也取得了一些研究成果,例如:在考虑内容定向和地理位置的基础上,采用贝叶斯技术进行移动广告的高效、精准投放;通过对广告日志数据的统计分析,使用hadoop平台挖掘广告特征与广告间的联系,进而改善广告的投放效果;研究表明,用户更喜欢来自朋友的推荐而不是被系统“算出来的推荐”,社会影响力被认为比历史行为的相似性更加重要,通过社会关系的分析,可以大幅度提高推荐的精确度;根据用户的喜好进行广告的推荐更有利于提高广告的浏览率,并且更加容易让用户接受广告推销的产品;同时,用户的兴趣随着时间的推移会逐渐发生变化,而用户的活动呈现出明显的本地化特征,如果推荐附近用户喜欢的广告,将有利于提高广告的转化率。
技术实现要素:
本发明所要解决的技术问题是:考虑实际的移动应用环境,针对移动互联网广告发展的现状、存在的问题,如何创新地设计一种综合考虑用户兴趣、好友关系以及时间和位置上下文影响的移动互联网广告投放方法。
为了解决上述问题,本发明公开了一种移动互联网广告投放方法,其技术方案包括以下步骤:
步骤1:获取用户发布的微博文本数据,通过中文分词和噪声内容处理,创建词汇表,得到表示用户兴趣的词向量;
步骤2:利用用户的社交网络关系计算用户之间的熟悉度,根据表示用户兴趣的词向量空间计算用户之间的兴趣相似度,通过线性组合,得到用户之间的相似度矩阵;
步骤3:获取与用户u最相似的前k个用户对广告的行为数据,得到“用户-广告”矩阵;根据用户之间的相似度矩阵,采用基于用户的协同过滤方法生成拟推荐的广告列表l1;
步骤4:获取用户u的位置信息,从与用户u最相似的前k个用户中找出与用户u在同一区域的n个用户,其中n≤k;利用“用户-广告”矩阵,根据用户之间的相似度矩阵,采用基于用户的协同过滤方法再次对用户u生成拟推荐的广告列表l2;
步骤5:对两个推荐列表l1和l2进行线性加权组合,得到拟推荐给任意用户u的广告列表l=θ×l1+(1-θ)×l2,θ∈(0,1)为线性组合系数;
步骤6:通过重复步骤1和步骤2,定期更新表示用户兴趣的词向量空间和用户相似度矩阵,以适应用户兴趣的变化。
所述的移动互联网广告投放方法,所述步骤1还包括:
步骤11:将累积一段时间的用户微博文本数据整理成一个文档;
步骤12:一个用户只对应一个文档,所有用户的文档形成一个文档集合;
步骤13:中文分词处理的具体方法可以采用基于字符串匹配的分词方法即机械分词方法、基于理解的分词方法或者基于统计的分词方法等;
步骤14:微博文本数据的噪声内容处理包括对停用词、标点字符的清理等;
步骤15:停用词包括语气介词、助词、连词、副词等虚词,在中文分词处理后需要过滤掉这些停用词;
步骤16:一些标点符号、阿拉伯数字、网页链接等文本分析时不需要的字符,需要在处理微博文本数据之前过滤清理掉;
步骤17:通过对文档集合进行中文分词和噪声内容处理可以获得词汇表,词汇表包含了文档集合中的所有单词但是不重复;
步骤18:通过对词汇表操作得到表示用户兴趣的词向量,词向量的元素表示词汇表中的词汇在文档中出现的频率与其在文档集合中出现频率的倒数的乘积。
所述的移动互联网广告投放方法,所述步骤2还包括:
步骤21:用户之间的熟悉度可以用微博上用户之间的共同好友的比例来度量;
步骤22:根据表示用户兴趣的词向量空间,采用余弦相似公式或者皮尔逊相似公式计算用户之间的兴趣相似度;
步骤23:设用户u和v之间的熟悉度为f,兴趣相似度为h,则用户u和v之间的相似度s=β×f+(1-β)×h,β∈(0,1)为线性组合系数,从而得到用户之间的相似度矩阵。
所述的移动互联网广告投放方法,所述步骤3还包括:
步骤31:用户对广告产生的行为包括浏览、点击和评论等,设用户在最近一次时间t对任意广告a产生过用户行为,表示为c=1,而c=0表示用户u从来没有对广告a产生过用户行为;
步骤32:考虑时间对用户行为的影响,即用户当前的行为应该和用户最近的行为关系更大,则用户在当前时间t0对广告a的用户行为表示为c乘以一个时间衰减函数1/(1+λ×(t0-t)),λ∈(0,1)为权重系数,从而得到“用户-广告”矩阵,其值为用户在当前时间对广告的用户行为;
步骤33:利用“用户-广告”矩阵,根据用户之间的相似度矩阵,采用基于用户的协同过滤方法对任意用户u生成拟推荐的广告列表l1。
所述的移动互联网广告投放方法,所述步骤4还包括:
步骤41:通过提取微博用户的注册信息,或者通过提取微博用户经常发布微博时的ip地址,可以得到用户的位置信息。
所述的移动互联网广告投放方法,所述步骤6还包括:
步骤61:通过及时获取用户发布的微博文本数据和社交网络关系,重新计算表示用户兴趣的词向量空间以及用户之间的兴趣相似度和熟悉度,从而更新用户相似度矩阵。
与现有技术相比,本发明具有以下优点:
(1)根据用户的喜好进行广告的推荐有利于提高广告的浏览率,并且更加容易让用户接受广告推销的产品。但是,由于用户兴趣随着时间的推移会发生变化,因此,希望尽可能通过刻画用户当前的兴趣以实现广告的精准投放。本发明通过及时获取用户发布的微博文本数据和社交网络关系,定期计算表示用户兴趣的词向量空间以及用户之间的兴趣相似度和熟悉度,更新用户相似度矩阵,从而生成能够适应用户兴趣变化的广告推荐列表;
(2)受时间效应的影响,广告具有一定的生命周期。同样,用户对广告的行为也具有时间效应,广告刚推出时可能被很多用户关注,但是,随着时间推移,很多广告逐渐被用户淡忘。因此,本发明充分考虑了时间因素对用户行为的影响,在计算“用户-广告”矩阵时,通过引入时间衰减函数对用户行为进行了惩罚,从而尽可能将新近推出的而不是已经过时的广告推荐给用户;
(3)通常,用户更加相信自己熟悉的好友的推荐。同时,根据用户的喜好进行广告的推荐有利于提高广告的浏览率。本发明综合考虑了以上两个方面的影响,首先利用用户的社交网络关系计算用户之间的熟悉度,然后根据表示用户兴趣的词向量空间计算用户之间的兴趣相似度,最后通过线性组合,得到用户之间的相似度矩阵;
(4)用户通常在附近区域活动,如果推荐附近用户喜欢的广告,则用户更有可能去消费。因此,本发明在计算最终的推荐列表时,除了考虑用户兴趣等因素,还考虑了位置的影响,强化了用户活动的本地化特征,将最有可能进行线下活动的广告推荐给用户,从而实现了线上线下的结合,提高了广告的转化率。
附图说明
图1为本发明的移动互联网广告投放方法的流程图。
具体实施方式
下面结合附图对本发明进行详细说明。
如附图1所示,本发明方法按照以下步骤进行:
步骤1:获取用户发布的微博文本数据,通过中文分词和噪声内容处理,创建词汇表,得到表示用户兴趣的词向量;
微博作为一种社交网络平台,用户可以在上面发布自己感兴趣的话题,也可以评论、转发其他用户的微博内容;一条微博一般包含了发布该微博的用户id、用户昵称、微博id以及微博的文本、图片、音频等信息;通过微博开放平台提供的应用程序编程接口以及各种编程语言的外部调用包可以获取用户的微博文本数据;将累积一段时间的用户微博文本数据整理成一个文档;一个用户只对应一个文档,所有用户的文档形成一个文档集合;
在中文微博中,用户发布的微博文本数据大多是由汉语句子构成,而汉语句子又是由多个汉语词汇构成,汉语词汇通常由两个或者两个以上的汉字组成;在对汉语句子进行分析时,需要将这些具有连续性的句子划分成若干个部分,中文分词处理就是将一个汉语句子序列切分为一个个单独的词汇的过程;中文分词处理的具体方法可以采用基于字符串匹配的分词方法即机械分词方法、基于理解的分词方法或者基于统计的分词方法等;
微博文本数据的噪声内容处理包括对停用词、标点字符的清理等;一般情况下,用户主要通过动词、名词以及形容词等实词来表达文本的中心思想和主要内容,而语气介词、助词、连词、副词等虚词虽然在文本数据中使用广泛、出现频率非常高,但是对于文本分析没有太大的意义,这类词语称之为“停用词”,因此在中文分词处理后需要过滤掉这些停用词;另外,还有一些标点符号、阿拉伯数字、网页链接等文本分析时不需要的字符,需要在处理微博文本数据之前过滤清理掉;
通过对文档集合进行中文分词和噪声内容处理可以获得词汇表,词汇表包含了文档集合中的所有单词但是不重复;通过对词汇表操作得到表示用户兴趣的词向量,词向量的元素表示词汇表中的词汇在文档中出现的频率与其在文档集合中出现频率的倒数的乘积。
步骤2:利用用户的社交网络关系计算用户之间的熟悉度,根据表示用户兴趣的词向量空间计算用户之间的兴趣相似度,通过线性组合,得到用户之间的相似度矩阵;
用户之间的熟悉度描述了用户在现实社会中的熟悉程度,通常,用户更加相信自己熟悉的好友的推荐,熟悉度可以用微博上用户之间的共同好友的比例来度量;根据表示用户兴趣的词向量空间,采用余弦相似公式或者皮尔逊相似公式计算用户之间的兴趣相似度;设用户u和v之间的熟悉度为f,兴趣相似度为h,则用户u和v之间的相似度s=β×f+(1-β)×h,β∈(0,1)为线性组合系数,从而得到用户之间的相似度矩阵。
步骤3:获取与用户u最相似的前k个用户对广告的行为数据,得到“用户-广告”矩阵;根据用户之间的相似度矩阵,采用基于用户的协同过滤方法生成拟推荐的广告列表l1;
用户对广告产生的行为包括浏览、点击和评论等,设用户在最近一次时间t对任意广告a产生过用户行为,表示为c=1,而c=0表示用户u从来没有对广告a产生过用户行为;考虑时间对用户行为的影响,即用户当前的行为应该和用户最近的行为关系更大,则用户在当前时间t0对广告a的用户行为表示为c乘以一个时间衰减函数1/(1+λ×(t0-t)),λ∈(0,1)为权重系数,从而得到“用户-广告”矩阵,其值为用户在当前时间对广告的用户行为;利用“用户-广告”矩阵,根据用户之间的相似度矩阵,采用基于用户的协同过滤方法对任意用户u生成拟推荐的广告列表l1。
步骤4:获取用户u的位置信息,从与用户u最相似的前k个用户中找出与用户u在同一区域的n个用户,其中n≤k;利用“用户-广告”矩阵,根据用户之间的相似度矩阵,采用基于用户的协同过滤方法再次对用户u生成拟推荐的广告列表l2;
通过提取微博用户的注册信息,或者通过提取微博用户经常发布微博时的ip地址,可以得到用户的位置信息。
步骤5:对两个推荐列表l1和l2进行线性加权组合,得到拟推荐给任意用户u的广告列表l=θ×l1+(1-θ)×l2,θ∈(0,1)为线性组合系数。
步骤6:通过重复步骤1和步骤2,定期更新表示用户兴趣的词向量空间和用户相似度矩阵,以适应用户兴趣的变化;
用户最近的行为最能体现用户当前的兴趣,通过及时获取用户发布的微博文本数据和社交网络关系,重新计算表示用户兴趣的词向量空间以及用户之间的兴趣相似度和熟悉度,从而更新用户相似度矩阵,生成适应用户兴趣变化的广告推荐列表。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此,本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。