用于确定社交数据网络中的影响者的系统和方法
【专利说明】用于确定社交数据网络中的影响者的系统和方法 相关申请的交叉引用
[0001] 本申请案请求2013年10月25日提交的标题为用于确定社交数据网络中的影响者 的系统和方法"的美国临时专利申请案第61/895,539号、2013年11月22日提交的题为"用于 识别社交数据网络中的影响者及其社群的系统和方法"的美国临时专利申请案第61/907, 878号W及2014年7月3日提交的题为使用加权分析来动态确定社交数据网络中的影响 者的系统和方法"的美国临时专利申请案第62/020,833号的优先权,所述申请案的全部内 容W引用的方式并入本文中。
技术领域
[0002] W下总体上设及分析社交网络数据。
【背景技术】
[0001] 近年来,社交媒体已经成为个人和消费者在线(例如,在互联网上)交互的大众化 方式。社交媒体还影响企业目的在于和其客户、粉丝、和潜在客户在线交互的方式。
[0002] 在特定主题上具有广大关注的一些部落客被识别并用于支持或赞助特定的产品。 例如,大众化部落客的网站上的广告空间用于为相关产品及服务打广告。
[0003] 社交网络平台也用于影响成群的人。社交网络平台的实例包括那些通过商标名称 所熟知的脸谱网、推特、领英化inkedin)、汤博乐及拼趣。社交网络平台中的大众化或专家 个人可用于向其他人营销。当社交网络中的用户数量增长时,快速识别大众化或有影响力 的个人变得越来越难。此外,难W准确识别特定主题中有影响力的个人。在社交网络中的专 家或那些大众化用户在本文中可交换地称为"影响者"。 附图简要说明
[0004] 现在参考附图仅通过举例方式来描述实施例,在附图中:
[0005] 图1是展示在社交数据网络中相互联系的用户的图式。
[0006] 图2是与计算装置通信的服务器的示意图。
[0007] 图3是用于确定与主题有关的影响者的计算机可执行指令的实施例的流程图。
[0008] 图4是用于确定与主题有关的影响者的计算机可执行指令的另一实施例的流程 图。
[0009] 图5是用于获取和储存社交网络数据的计算机可执行指令的实施例的流程图。
[0010] 图6是索引存储中的示例数据组件的框图。
[0011] 图7是简档存储的示例数据组件的框图。
[0012] 图8是示例用户列表及用户列入不同用户列表中的次数的统计的示意图。
[0013] 图9是用于确定其中给定用户被视作专家的主题的计算机可执行指令的实施例的 流程图。
[0014] 图10是用于确定给定用户感兴趣的主题的计算机可执行指令的实施例的流程图。
[0015] 图11是用于捜索索引存储中被视作主题的专家的用户的计算机可执行指令的实 施例的流程图。
[0016] 图12是用于识别对主题感兴趣的用户的计算机可执行指令的实施例的流程图。
[0017] 图13是用于主题"Mc化fe"(麦咖啡)的示例主题网络图的图解。
[0018] 图14是图13中的主题网络图的图解,展示主集群和异常值集群的分解。
[0019] 图15是用于基于社群分解在主题网络中识别和过滤异常值的计算机可执行指令 的实施例的流程图。
[0020] 图16是用于自每一主题网络识别和提供社群集群的计算机可执行指令的实施例 的流程图。
[0021] 图17A至图17D展示用于与主题网络中显示影响者社群的GUI互动的示例性截屏。
[0022] 图18图示示例性社群网络图。
[0023] 图19A至图19C展示特定主题的示例性社群及特征。
[0024] 图20A至图20B展示第二选择主题的示例性社群及特征。 附图详细说明
[0025] 应当认识的是,为了说明的简化和清晰,在认为适当时,参考数字可在图中被重复 W指示相应或相似的元件。此外,陈述了许多特定细节,W提供对本文中所描述的实施例的 透彻理解。然而,本领域的普通技术人员将理解的是,没有运些特定细节也可W实践本文中 所描述的实施例。在其他情形下,没有详细描述公知方法、程序和部件,W不使本文中所描 述的实施例难理解。并且,本说明不被认为是限制本文中所描述的实施例的范围。
[0026] 社交网络平台包括(例如通过藉由与社交网络平台有关的网站通信的计算装置的 网络)产生并发布内容给其他人看、听等的用户。社交网络平台的非限制性实例为 Facebook、Twitte;r、LinkedIn、Pinterest、Tumbl;r、博客圈、网站、协作维基百科、在线新闻 组、在线论坛、电子邮件W及即时消息业务。目前已知及未来可知的社交网络平台适用于本 文中所描述的原理。社交网络平台可用于向平台的用户推广及发布广告。应认识到难W识 别给定主题的相关用户。运包括识别给定主题上有影响力的用户。
[0027] 如本文所用,术语"影响者"是指首先产生并分享与主题有关的内容并被视为对社 交数据网络中的其他用户有影响力的用户账户。如本文所用,术语"关注者",是指关注第二 用户账户(例如与第一用户账户的至少一个社交网络平台有关并通过计算装置存取的第二 用户账户),W使得公开第二用户账户发布的内容供第一用户账户阅读、消耗等的第一用户 账户(例如与一个或多个社交网络平台有关并通过计算装置存取的第一用户账户)。例如, 当第一用户关注第二用户,第一用户(即关注者)将接收第二用户发布的内容。本文中对特 定主题"感兴趣"的用户是指关注特定主题中的(例如与社交网络平台有关的)若干专家的 用户账户。在某些情况下,关注者(例如通过分析或转发内容)参与其他用户发布的内容。
[0028] 公司需要识别关键影响者W(例如)将可潜在传播及支持品牌消息的个人作为目 标。使所述个人参与可允许控制品牌的在线消息及可降低可能发生的潜在负面情绪。仔细 管理该过程可(例如)在病毒式营销活动的情况下引起在线注意力份额的指数增长。
[0029] 过去用于确定影响者的大多数方式的关注点在于易计算的度量,例如关注者或朋 友的数量、或发帖的数量。在合计的关注者或朋友计数可接近于整体社交网络时,其通过计 算度量的方式提供小数据,所述度量表明相对于公司或品牌的用户或个人的影响力。此带 来增杂影响者结果W及筛选大量潜在用户所浪费的时间。
[0030] -些社交媒体分析公司宣称提供社交网络的影响者分数。然而,本文中认识到许 多公司使用并非真实影响者度量的度量,而非关注者数量及提及的次数(例如Twitter的推 文、帖子、消息等)的代数式。例如,一些已知方式使用所述数字的对数归一,其将约80%的 权重分配至关注者计数W及提及的次数的余数。
[0031] 使用代数式的原因在于关注者和提及的计数或计算在社交网络的用户简档中是 实时更新的。因此,计算迅速并且易于报告。运通常被称为权威度量或权威分数W将其与真 实影响者分析区分开。然而,权威分数方式具有若干严重的缺点。
[0032] 本文中认识到所述权威分数为上下文非相关。其为与主题或查询无关的静态度 量。例如,且不论主题,由于具有数百万关注者,如纽约时报(New York Times)或CP^N的大众 媒体可得到最高的排名。因此,其不是上下文相关的。
[0033] 本文中还认识到所述权威度量具有高关注者计数偏差。如果某一领域中存在拥有 有限数量关注者的明确定义的专业人员,但他们不都是专家,由于其低关注者计数,他们绝 不会出现在前20至100个结果中。实际上,所有的关注者均被当做具有相同的权重,运已被 视为网络分析研究中错误的假定。
[0034] 本文中提出的系统和方法可动态计算关于查询主题的影响者,并且可对其关注者 的影响力作出解释。
[0035] 本文中还认识到影响者关系的递归性是大规模执行影响者识别时的一种挑战。通 过举例,假设存在个人A、B和C的情况下,其中A关注B和C;B关注C和A; W及C仅关注A。随后A 的影响力取决于C,C的影响力又取决于A和B,等等。运样,运样,影响者关系具有递归性。
[0036] 更一般而言,提出的系统及方法提供一种确定社交数据网络中影响者的方式。
[0037] 作为实例,考虑图1中的特定主题的简化的关注者网络。展示与其他用户有关的每 一用户(实际上为用户账户或与用户账户或用户数据地址有关的用户名)。所述用户之间的 线,也被称为边界,代表用户之间的关系。例如,从用户账户"Dave"指向用户账户"Carol"的 箭头表示化ve读取Carol发布的消息。换言之,化ve关注化roLAmy和Brian之间的双向箭头 表示,例如,Amy关注Dave,并且Dave关注Amy。除去图1中的每一用户账户,提供页面排名分 数。页面排名算法为谷歌(Google)所用的已知算法用W衡量网络中的网站的重要性,并且 还可应用于衡量社交数据网络中的用户的重要性。
[003引继续图1 ,Amy拥有大量关注者(即DaveXarol和Eddie),并且为所述网络中最具有 影响力的用户(即页面排名分数为46.1%)。然而,仅拥有一个关注者(即Amy)的化ian比拥 有两个关注者(即Eddie和化ve)的化rol更具影响力,主要是因为化ian具有很大一部分Amy 的注意力份额。换言之,使用本文提出的系统及方法,虽然Carol比Brain具有更多的关注 者,但是她不一定比Brian更具有影响力。因此,使用本文所提出的系统及方法,用户的关注 者数量并非影响力的唯一决定因素。在实施例中,识别用户的关注者是谁也可作为影响力 计算的因素。
[0039]表1表示图1中的示例性网络,并且其说明页面排名可如何显著地与关注者数量区
巧i :图i所不Wlwitter天巧苦订甄巧本FJ絕W贝旧排巧分甄。
[0040] Amy拥有最大数量的关注者W及最高的页面排名分数,因而明显为最具影响力者。 虽然Carol拥有两个关注者,但是与拥有1个关注者的Brian相比,她具有较低的页面排名度 量。然而,Brian的一个关注者是最具影响力的Amy(拥有四个关注者),而化rol的两个关注 者为低影响者(每人拥有0个关注者)。其直观表明,如果某人被少数专家认定为专家,则她/ 他也是专家。然而,与仅计数关注者数量相比,页面排名算法可更好的衡量影响力。如下所 述,页面排名算法及其他类似排名算法可与本文中所提出的系统及方法一起使用。
[0041] 提出的系统及方法可用于确定社交数据网络中给定主题的关键影响者。
[0042] 在实施例中,提出的系统及方法可用于确定主题A中的影响者也是一个或多个其 他主题(例如主题B、主题C等)中的影响者。
[0043] 转至图2,展示所提出的系统的示意图。服务器100通过网络102与计算装置101通 信。服务器100获取并分析社交网络数据并且通过网络将结果提供至计算装置101。计算装 置101可通过GUI接收用户输入W控制分析参数。