基于兴趣偏好的内容主动呈现方法
【专利摘要】本发明提供了一种基于兴趣偏好的内容主动呈现方法,该方法包括:将用户的检索词提交给分布式检索系统;完成检索后,获取检索结果的所属领域表示;基于用户兴趣和检索结果所属领域的近似度,对检索结果进行排序。本发明提出了一种基于兴趣偏好的内容主动呈现方法,分布式检索系统对数据集进行统一收集管理,并基于用户的反馈和评价对检索结果进一步优化,更高效率地满足了用户个性化的需求。
【专利说明】
基于兴趣偏好的内容主动呈现方法
技术领域
[0001] 本发明设及数据推送,特别设及一种基于兴趣偏好的内容主动呈现方法。
【背景技术】
[0002] 在信息时代的今天,随着互联网技术和社会信息化技术的不断发展,信息量W爆 炸式的速度增长,互联网正不断地影响和改变着人们的日常生活方式。然而,随着网络信息 变得越来越纷繁复杂,人们如何从如此浩滿的信息海洋中高效地找到符合需求的信息就成 了一个越来越值得关注的课题。虽然有相关分布式检索系统可W帮助人们更精确的找到所 需要的信息,但在某些应用领域,如电影、音乐、社交网络捜索,用户一般不能很好的提出很 好的检索需求,通过研究用户的历史记录、用户的社会化信息W及对应领域数据的属性信 息,将用户的信息建模或者领域数据资源建模,通过可靠方式将用户潜在感兴趣的数据资 源推荐给用户。然而现有的分布式检索系统在工作效率和用户的满意度各不相同,并且缺 少通用的接口来处理异构数据的输入。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于兴趣偏好的内容主动 呈现方法,包括:
[0004] 将用户的检索词提交给分布式检索系统;
[0005] 完成检索后,获取检索结果的所属领域表示;
[0006] 基于用户兴趣和检索结果所属领域的近似度,对检索结果进行排序。
[0007] 优选地,所述将用户的检索词提交给分布式检索系统之后,还包括:
[000引获取分布式检索系统的检索结果,并提取出检索结果标题、描述和URL,并进行分 词,根据停用词表,将无用的词删除;根据逆向词频算法计算结果标题和描述的每个词的加 权值,然后合并;检查每个词所属的细分领域,如果有两个词所属的细分领域相同,则将其 加权值相加,作为该细分领域的加权值,最后可得到该检索结果的细分领域矢量;检查每个 细分领域所属的主领域,如果相同则继续合并,最后可得到该检索结果的主领域矢量;
[0009] 所述基于用户兴趣和检索结果所属领域的近似度,对检索结果进行排序,具体包 括:
[0010] 定义UF为用户的主兴趣矢量,US为用户的细分兴趣矢量,DF是检索集中某个检索 结果的主领域矢量,DS该检索结果的细分领域矢量,依次计算用户兴趣和每个结果的近似 度:
[0011] 计算用户兴趣和检索结果的细分领域集合的边界差:
[0012] 化=DS-US HDS
[0013] 计算用户兴趣和检索结果的细分领域集合的近似度:
[0014]
[0015] 其中S WsWiXUSWi)是该检索结果和用户兴趣中都存在的细分领域的权值乘 佔 USnDS 积的和,rmm (BL)和rmm (DS)分别是化和DS的数量;
[0016] 计算用户兴趣和检索结果的主领域集合的边界差:
[0017] Bu=DF-(UFnDF)
[0018] 计算用户兴趣和检索结果的主领域集合的近似度:
[0019]
[0020] 其中2^ WfWiXufWi:)是该检索结果和用户兴趣中都存在的主领域的权值乘积 i 吐 JSryDS 的和,num (BU)和num (D巧分别是Bu和DF的数量;
[0021] 最后计算该检索结果和用户兴趣的总近似度:
[0022] Sim = CXSimL化S,DS) + (l-〇 XSi皿化F,DF)
[0023] 其中C为细分领域集合近似度的加权值;
[0024] 对分布式检索系统返回的每个结果依次计算总近似度Sim,得到每个检索结果新 的权值,然后从大到小排序。
[0025] 本发明相比现有技术,具有W下优点:
[00%]本发明提出了一种基于兴趣偏好的内容主动呈现方法,分布式检索系统对数据集 进行统一收集管理,并基于用户的反馈和评价对检索结果进一步优化,更高效率地满足了 用户个性化的需求。
【附图说明】
[0027] 图1是根据本发明实施例的基于兴趣偏好的内容主动呈现方法的流程图。
【具体实施方式】
[0028] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合运样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节W 便提供对本发明的透彻理解。出于示例的目的而提供运些细节,并且无运些具体细节中的 一些或者所有细节也可W根据权利要求书实现本发明。
[0029] 本发明的一方面提供了一种基于兴趣偏好的内容主动呈现方法。图1是根据本发 明实施例的基于兴趣偏好的内容主动呈现方法流程图。
[0030] 本发明在分布式检索系统中对于检索输入数据集进行统一的管理与存储,并且对 其进行数据转换,根据获得的反馈结果进行结果评价,分布式检索系统评价单元包括数据 管理模块、检索执行模块和展现模块。
[0031] 数据管理模块用于接收数据输入、统一格式W及数据集的特征分析和采样。数据 文件输入系统后,经过数据管理模块的数据汇总子模块将其转换成系统可识别的数据资 源,经过数据整理子模块处理,成为系统可计算的数据,数据整理包括将来自文本文件,数 据库文件,W及日志文件的输入数据进行格式的统一,转换为二维矩阵或多维列表,W使后 续的数据操作继续执行。在检索执行模块请求数据的时候,检索执行模块在对应的请求参 数中包含请求数据的格式,然后数据传输子模块根据该参数来处理经过数据采样的数据。
[0032] 数据集根据各服务器的存储情况存储在不同的服务器上,检索执行模块向数据管 理模块请求数据时,数据管理模块先进行缓存查找,采用的是客户端的散列策略,如果缓存 命中,直接从缓存中将数据集取出,若不命中,则在数据库中请求相关数据。
[0033] 在数据管理模块访问缓存服务器时,首先,数据管理模块请求数据集时的key经过 预定算法映射到其中一台缓存服务器,然后从该服务器上取出相应的数据值。为使其命中 率尽量高,采取了 W下策略:使用环形散列队列,将对应查找的对象映射到32位key,从0- 的数值空间,将其链接成首尾相连的环。缓存和对象经过同一个散列算法映射到同一 个数值空间;在整个环形队列,沿顺时针方向找到对象的key值出发,直到遇到一个缓存,贝U 就将此对象存储在该缓存中。当移除缓存时,逆时针遍历此缓存至下一个缓存中的对象;当 增加缓存时,将此缓存映射的位置逆时针找到与下一个缓存区间中的对象,将它们从顺时 针的下一个缓存中删去,映射到该缓存中。
[0034] 由于用户输入的数据集形式多样,系统通过创建数据集板,每输入一种数据集时 则实例化一个数据集,配置W不同的参数,由于不同的算法所需要的数据集不同,所W不同 的算法使用到不同格式的数据集,对数据集格式整理包括:识别冗余的输入的字段或信息, 将其过滤;根据用户的配置文件,来对输入数据集的各个字段信息进行保存;设置数据集的 稀疏性阔值,如果输入数据集低于阔值,可W根据用户的输入参数将低于该阔值的用户过 滤。
[0035] 通过数据汇总将数据文件输入分布式检索系统,保存至数据库之后,运些数据可 W直接进入数据整理子模块,数据整理子模块先根据用户的需求将某些字段过滤。接下来 将处理后的数据构造成评分矩阵,构造完毕后将其保存至数据库,如果该数据整理前的数 据集非其他用户所私有,通过此整理后的数据集保存的向前引用,找到原始的数据集。
[0036] 数据管理模块中,数据采样子模块的采样时间可W选择在数据集处理的时候进行 采样,或者在算法配置完成的时候对其进行采样。前一种方式是在数据管理模块内部完成, 其具体的逻辑是当用户选择数据集采样,然后选择数据集,接着选择对应的采样方式,如果 操作能成功完成则将对应的采样后的数据集存储起来,原数据集不变,新的采样过后的数 据集有标记字段指示原数据集,而且有对应的采样方式W及其他信息。后一种方式是算法 经过配置之后请求数据,而数据收到具体的采样需求,如数据集名称,采样方式W及其他信 息后,检查检索执行模块传来的消息中是否能够完成数据采样的操作,如果是,则进行数据 采样,采样完毕后将采样后的数据集在本地数据库备份,然后将对应的采样数据集发给请 求的执行端,一次算法执行过程中可能会有多次数据传输,鉴于算法运行时间比较久,所W 算法的运行采用分布式处理,为了算法执行的高效性,数据管理模块发送给检索执行模块 中对应的不同执行端,执行模块在请求数据采样每次数据传输都会检查它要求的采样方式 是否已经在数据库中存在,如果是,则取出数据,如果不是,重新发送该请求。
[0037] 当进行数据采样的时候,首先将数据的尺寸读入数据采样子模块,系统构造一个 布尔矩阵,初始值全为化Ise,接着选择采样方式,如果只是单次采样,生成的对应训练集和 测试集都将只生成一次,如果是循环多次采样,将生成多个,根据采样方式不同,将把此矩 阵的一些值填充为化Ue,另外一些仍为false,运个布尔矩阵将它命名为训练集的模表,通 过运个模表,可W计算出对应的训练集,只需将它与对应的数据集按位相与,同理可W计算 出测试集,只需将训练集的模表按位取反即可。据此生成的训练集与测试集表即可发送给 检索执行模块执行,检索执行模块根据训练集去预测测试集表中值为True的数据项评分即 可。
[0038] 在测试集中对检索结果进行评价,该测试集中的内容是用户感兴趣的项目集合。 由于在数据采样的时候在本地保存了测试集,当算法执行执行完毕返回结果时,系统先从 通信的报文中取出所对应的序列码,根据此序列码将数据库中所对应的测试集取出,然后 将其与返回的结果进行比较,从而得出评价结果。检索执行模块保存着W算法类型为主键, 算法配置概要信息的表,待算法执行完毕后将其非主键信息发送回来。结合算法执行完毕 后传来的各个参数,进行结果的评价输出。
[0039] 检索执行模块返回数据的时候,附带双方约定的序列码,传回的算法执行结果,并 附加上算法的执行类型表中所带的配置算法所需的参数,传回本地W后对结果进行评价和 展现,W供用户反馈修改参数。
[0040] 在用户提供相关反馈后,对检索结果进行重新排序处理,具体为,结合检索结果评 分、用户反馈中相关和不相关结果的近似度距离差来进行重新排序。
[0041 ]在度量检索结果间的相关性之前,首先需要将其进行量化表示,将每个检索结果 di表示成一个矢量,矢量的维度是文本中至少出现过一次的词构成集合的大小,每一维的 值是相应的词在该结果中逆向词频指标表示的权值。然后采用W下公式评价结果和检索式 之间的相关性评分:
[0042]
[0043]
[0044]
[0045] 式中W(t|di)为词t在di中的权值;
[0046] W(t Iq)为词t在检索式Q中的权值;
[0047] Kdi)为结果di的长度;
[004引 tf (t I di)为词t在结果di中出现的频率;
[0049] tf(t Iq)为词t在检索式Q中出现的频率;
[0050] 壯(t Ic)为词t在整个结果集C中的频率;
[0051 ] kl,k2,b为预设调节参数。
[0052] 最后根据结果的最终评分,对初始的检索结果进行重新排序,即按结果的Score的 评分由高到低进行排序。
[0053] 本发明在W下实施例使用可选的结果排序方法,包括检索结果的领域表示和基于 近似度计算的检索结果排序。
[0054] 首先是将用户的检索词提交给分布式检索系统,然后获取分布式检索系统的检索 结果,并提取出检索结果标题、描述和URL,并进行分词,根据停用词表,将无用的词删除;根 据逆向词频算法计算结果标题和描述的每个词的加权值,然后合并;检查每个词所属的细 分领域,如果有两个词所属的细分领域相同,则将其加权值相加,作为该细分领域的加权 值,最后可得到该检索结果的细分领域矢量;检查每个细分领域所属的主领域,如果相同则 继续合并,最后可得到该检索结果的主领域矢量;对分布式检索系统结果集执行W上步骤, 得到分布式检索系统结果集的领域矢量表。
[0055] 设UF为用户的主兴趣矢量,US为用户的细分兴趣矢量,依次计算用户兴趣和每个 结果的近似度。设DF是检索集中某个检索结果的主领域矢量,DS该检索结果的细分领域矢 量。
[0056] 计算用户兴趣和检索结果的细分领域集合的边界差:
[0057] 化=DS-US HDS
[0058] 计算用户兴趣和检索结果的细分领域集合的近似度:
[0化9]
[0060] 其中Z ^dswiXiiswi)是该检索结果和用户兴趣中都存在的细分领域的权值乘 ieUSnDS 积的和,rmm (BL)和rmm (DS)分别是化和DS的数量。
[0061] 计算用户兴趣和检索结果的主领域集合的边界差:
[0062] Bu=DF-(UFnDF)
[0063] 计算用户兴趣和检索结果的主领域集合的近似度:
[0064]
[00化]其中I!. WfWiXufw':)是该检索结果和用户兴趣中都存在的主领域的权值乘积 缺SnDS: 的和,num (BU)和num (D巧分别是Bu和DF的数量;
[0066] 最后计算该检索结果和用户兴趣的总近似度:
[0067] Sim = CXSimL化S,DS) + (l-〇 XSi皿化F,DF)
[0068] 其中C为细分领域集合近似度的加权值。
[0069] 依据运个步骤,对分布式检索系统返回的每个结果依次计算总近似度Sim,得到每 个检索结果新的权值,然后从大到小排序,得到新的结果顺序。
[0070] 在上述用户兴趣的向量表示中,本发明采用获取本地浏览记录W进行兴趣分析的 方式。首先获取用户访问的检索结果的标题和描述,并对运些标题和描述进行分词,分词后 根据停用词表将无用的词删除;对照特征词表,检查浏览记录中所有检索结果的所有词,统 计每个细分领域出现的特征词数,得到矢量{化31,(31),化32,02),,,,,化3。,(3。)},其中1131指 第i个细分领域,Cl指第i个细分领域出现了多少个特征词;计算每个细分领域的权值,计算 公式夫
最后得到一个细分兴趣矢量HS= Khsi,hswi),化S2,hsW2),…,化Sn, hswn)};细分兴趣矢量与用户选择的兴趣领域合并后,一起生成主领域兴趣矢量。
[0071] 综上所述,本发明提出了一种基于兴趣偏好的内容主动呈现方法,分布式检索系 统对数据集进行统一收集管理,并基于用户的反馈和评价对检索结果进一步优化,更高效 率地满足了用户个性化的需求。
[0072] 显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可W用通用 的计算系统来实现,它们可W集中在单个的计算系统上,或者分布在多个计算系统所组成 的网络上,可选地,它们可W用计算系统可执行的程序代码来实现,从而,可W将它们存储 在存储系统中由计算系统来执行。运样,本发明不限制于任何特定的硬件和软件结合。
[0073]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者运种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 一种基于兴趣偏好的内容主动呈现方法,其特征在于,包括: 将用户的检索词提交给分布式检索系统; 完成检索后,获取检索结果的所属领域表示; 基于用户兴趣和检索结果所属领域的近似度,对检索结果进行排序。2. 根据权利要求1所述的方法,其特征在于,所述将用户的检索词提交给分布式检索系 统之后,还包括: 获取分布式检索系统的检索结果,并提取出检索结果标题、描述和URL,并进行分词,根 据停用词表,将无用的词删除;根据逆向词频算法计算结果标题和描述的每个词的加权值, 然后合并;检查每个词所属的细分领域,如果有两个词所属的细分领域相同,则将其加权值 相加,作为该细分领域的加权值,最后可得到该检索结果的细分领域矢量;检查每个细分领 域所属的主领域,如果相同则继续合并,最后可得到该检索结果的主领域矢量; 所述基于用户兴趣和检索结果所属领域的近似度,对检索结果进行排序,具体包括: 定义UF为用户的主兴趣矢量,US为用户的细分兴趣矢量,DF是检索集中某个检索结果 的主领域矢量,DS该检索结果的细分领域矢量,依次计算用户兴趣和每个结果的近似度: 计算用户兴趣和检索结果的细分领域集合的边界差: Bl = DS-US 门 DS 计算用户兴細(和拾索结里的细分领域隼合的沂似庶,其=是该检索结果和用户兴趣中都存在的细分领域的权值乘积的 和,num(BL)和num(DS)分别是Bl和DS的数量; 计算用户兴趣和检索结果的主领域集合的边界差: Bu = DF-(UFnDF) i十笪田户兴細和烚亲结里的Φ緬城隹合的忻M麽.其4k该检索结果和用户兴趣中都存在的主领域的权值乘积的和, num (BU)和num (DF)分别是Bu和DF的数量; 最后计算该检索结果和用户兴趣的总近似度: Sim=GXSimL(US,DS) + (l〇 XSimu(UF,DF) 其中ζ为细分领域集合近似度的加权值; 对分布式检索系统返回的每个结果依次计算总近似度Sim,得到每个检索结果新的权 值,然后从大到小排序。
【文档编号】G06F17/30GK106021513SQ201610347202
【公开日】2016年10月12日
【申请日】2016年5月23日
【发明人】董政, 吴文杰, 陈露, 李学生
【申请人】成都陌云科技有限公司