一种预测员工离职的方法
【专利摘要】本发明提供了一种预测员工离职的方法,通过采集训练样本的与预先设定的离职属性条目对应的用户行为数据,并基于获得的用户行为数据提取训练样本的特征向量,以及基于提取的特性向量训练用于预测待预测员工是否有离职意向的离职预测模型,解决了如何预测员工离职的技术问题,实现了根据待预测员工的用户行为数据就能对其是否有离职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离职率,从而大大节约了企业重新招聘所花费的人力或金钱成本以及保障了企业的正常运作或工作进展。
【专利说明】
-种预测员工离职的方法
技术领域
[0001] 本发明设及通信技术领域,具体设及一种预测员工离职的方法。
【背景技术】
[0002] 尽管员工离职现象在企业中司空见惯,但或多或少企业会由于预先不知道员工有 离职意向而处于相对被动的境况。一方面,对于一些优秀的技术或管理人员,企业不能及早 进行合理的安抚或挽留;另一方面,面对员工的突然离职,企业可能没法立马招聘到合适的 员工或安排相应岗位的人员进行工作交接。所W亟需提供一种能预测员工离职的方法。
【发明内容】
[0003] 本发明提供了一种预测员工离职的方法,W解决如何预测员工离职的技术问题。
[0004] 根据本发明的一方面,提供了一种预测员工离职的方法,包括:
[0005] 预先设定离职属性条目;
[0006] 采集训练样本的与离职属性条目对应的用户行为数据,其中,训练样本包括有离 职意向员工和无离职意向员工的训练样本;
[0007] 基于用户行为数据,提取训练样本的特征向量;
[000引根据特征向量训练分类器,获得离职预测模型;
[0009] 根据离职预测模型,确定待预测员工是否有离职意向。
[0010] 进一步地,离职属性条目包括:
[0011] 历史聊天数据、工作绩效、工作任期、收入水平、最近一次升职时间间隔、上班路 程、登录招聘求职网频率条目中的一种或多种组合。
[0012] 进一步地,采集训练样本的与历史聊天数据条目对应的用户行为数据包括:
[0013] 采集训练样本的手机短信历史记录和/或即时通讯历史记录,作为训练样本的与 历史聊天数据条目对应的用户行为数据。
[0014] 进一步地,基于用户行为数据,提取训练样本的特征向量包括:
[0015] 采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量;
[0016] 按照预先定义的标识规则,对除历史聊天数据条目外的其他离职属性条目对应的 用户行为数据进行定量标识,获得其他离职属性条目对应的用户行为数据的特征向量;
[0017] 根据与历史聊天数据条目对应的用户行为数据的特征向量W及其他离职属性条 目对应的用户行为数据的特征向量,获得训练样本的特征向量。
[0018] 进一步地,采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的 特征向量包括:
[0019] 将与历史聊天数据条目对应的用户行为数据转换成文本格式的字符串,获得历史 聊天文本;
[0020] 对历史聊天文本进行分词、语义消歧、去除停用词操作,获得分词文本;
[0021] 采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分词文本的权 重值,并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。
[0022] 进一步地,根据离职预测模型,确定待预测员工是否有离职意向包括:
[0023] 采集待预测员工的与离职属性条目对应的待预测用户行为数据;
[0024] 基于待预测用户行为数据,提取待预测用户行为数据的特征向量;
[0025] 根据待预测用户行为数据的特征向量W及离职预测模型,确定待预测员工是否有 离职意向。
[00%]进一步地,分类器包括:
[0027] 支持向量机分类器、贝叶斯分类器、最大赌分类器中的任意一种。
[0028] 本发明具有W下有益效果:
[0029] 本发明提供了一种预测员工离职的方法,通过采集训练样本的与预先设定的离职 属性条目对应的用户行为数据,并基于获得的用户行为数据提取训练样本的特征向量,W 及基于提取的特性向量训练用于预测待预测员工是否有离职意向的离职预测模型,解决了 如何预测员工离职的技术问题,实现了根据待预测员工的用户行为数据就能对其是否有离 职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离 职率,从而大大节约了企业重新招聘所花费的人力或金钱成本W及保障了企业的正常运作 或工作进展。
[0030] 除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。 下面将参照图,对本发明作进一步详细的说明。
【附图说明】
[0031] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0032] 图1是本发明优选实施例的预测员工离职的方法流程图;
[0033] 图2是本发明优选实施例针对第一个精简实施例预测员工离职的的方法流程图;
[0034] 图3是本发明优选实施例针对第二个精简实施例预测员工离职的的方法流程图;
[0035] 图4是本发明优选实施例针对第=个精简实施例预测员工离职的的方法流程图。
【具体实施方式】
[0036] W下结合附图对本发明的实施例进行详细说明,但是本发明可W由权利要求限定 和覆盖的多种不同方式实施。
[0037] 参照图1,本发明的优选实施例提供了一种预测员工离职的方法,包括:
[0038] 步骤SlOl,预先设定离职属性条目;
[0039] 步骤S102,采集训练样本的与离职属性条目对应的用户行为数据,其中,训练样本 包括有离职意向员工和无离职意向员工的训练样本;
[0040] 步骤S103,基于用户行为数据,提取训练样本的特征向量;
[0041] 步骤S104,根据特征向量训练分类器,获得离职预测模型;
[0042] 步骤S105,根据离职预测模型,确定待预测员工是否有离职意向。
[0043] 本发明提供了一种预测员工离职的方法,通过采集训练样本的与预先设定的离职 属性条目对应的用户行为数据,并基于获得的用户行为数据提取训练样本的特征向量,W 及基于提取的特性向量训练用于预测待预测员工是否有离职意向的离职预测模型,解决了 如何预测员工离职的技术问题,实现了根据待预测员工的用户行为数据就能对其是否有离 职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离 职率,从而大大节约了企业重新招聘所花费的人力或金钱成本W及保障了企业的正常运作 或工作进展。
[0044] 现有人力资源预测员工是否有离职意向,通常是通过与员工进行面谈的结果并结 合员工平常的工作表现,进行主观预测。采用运种主观预测员工是否有离职意向的准确度 不高,并且主观预测的方法没有很好的推广适用性,也即预测员工是否有离职意向没有统 一及客观的方法,从而导致针对每一个员工都需要由人力资源单独进行主观预测,工作量 较大,效率较低。
[0045] 针对该问题,本实施例将预测员工是否有离职意向的问题转换为模式识别中的分 类问题。具体地,本实施例首先训练出用于预测待预测员工是否有离职意向的离职预测模 型,离职预测模型的输出结果分为两种,分别是有离职意向和没有离职意向,然后根据训练 好的离职预测模型对待预测员工是否有离职意向进行预测。在具体的实施过程中,本实施 例可W选取已经离职的员工的训练样本作为有离职意向的员工的训练样本,而选取在职的 员工的训练样本作为没有离职意向的员工的训练样本。需要说明的是,为了保证训练得到 的离职预测模型具有相对较高的预测精度,本实施例获取的训练样本的数量应当尽可能 大,且针对有离职意向和无离职意向员工的训练样本的数量应当相当。
[0046] 本实施例较新颖地提出根据员工的用户行为数据建立用于预测员工是否有离职 意向的离职预测模型,并采用该离职预测模型预测待预测员工是否有离职意向,相对现有 采用主观预测员工是否有离职意向的方法的准确度更高,而且通过离职预测模型预测员工 是否有离职意向的预测效率高,具有较大的推广适用性。
[0047] 可选地,离职属性条目包括:历史聊天数据、工作绩效、工作任期、收入水平、最近 一次升职时间间隔、上班路程、登录招聘求职网频率条目中的一种或多种组合。
[004引现有影响员工离职的因素较多,例如工作绩效、工作任期、收入水平、最近一次升 职时间间隔、上班路程(具体还包括距离、交通时间成本、转车次数成本、费用成本等)等等 因素,故本实施例从离职因素或其他用户行为数据(例如历史聊天数据或登录招聘求职网 数据)出发,分别采集针对每一种离职属性条目对应的用户行为数据,并根据采集的用户行 为数据进行后续分析。当然,本实施例中的离职属性条目不限于上述运些,例如还可W包括 企业发展条目、行业发展条目等等。
[0049] 本实施例根据现有生活中影响员工离职的因素或其他用户行为数据(例如历史聊 天数据或登录招聘求职网数据),设置离职属性条目,从而实现了从各个维度对训练样本的 用户行为数据进行采集,为提高预测模型的准确度和预测精度提供重要的数据来源基础。
[0050] 可选地,采集训练样本的与历史聊天数据条目对应的用户行为数据包括:
[0051] 采集训练样本的手机短信历史记录和/或即时通讯历史记录,作为训练样本的与 历史聊天数据条目对应的用户行为数据。
[0052] 具体地,本实施例中将训练样本的手机短信历史记录和/或即时通讯历史记录作 为训练样本的与历史聊天数据条目对应的用户行为数据。在实际的实施过程中,本实施例 不限于只将手机短信历史记录和/或即时通讯历史记录作为训练样本的与历史聊天数据条 目对应的用户行为数据,例如还可W获取微博、论坛等平台对应的历史聊天数据作为训练 样本的与历史数据条目对应的用户行为数据。
[0053] 可选地,基于用户行为数据,提取训练样本的特征向量包括:
[0054] 采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特征向量;
[0055] 按照预先定义的标识规则,对除历史聊天数据条目外的其他离职属性条目对应的 用户行为数据进行定量标识,获得其他离职属性条目对应的用户行为数据的特征向量;
[0056] 根据与历史聊天数据条目对应的用户行为数据的特征向量W及其他离职属性条 目对应的用户行为数据的特征向量,获得训练样本的特征向量。
[0057] 由于采集的与离职属性条目对应的用户行为数据的格式不一样,特别是与历史聊 天数据条目对应的用户行为数据格式与其他离婚属性条目对应的用户行为数据格式区别 较大。故本实施例针对与历史聊天数据条目对应的用户行为数据,W及除历史聊天数据条 目外的其他离职属性条目对应的用户行为数据采取不同的特征向量提取方法。
[0058] 具体地,提取与历史聊天数据条目对应的用户行为数据的特征向量时,本实施例 采取词频逆文本算法实现。而提取与除历史聊天数据条目外的其他离职属性条目对应的用 户行为数据的特征向量时,本实施例首先设置标识规则,然后对与除历史聊天数据条目外 的其他离职属性条目对应的用户行为数据进行定量标识,从而最终获得其他离职属性条目 对应的用户行为数据的特征向量。本实施例中的标识规则由用户自定义,例如当采集到训 练样本的与工作绩效条目对应的用户行为数据为"中等",而与工作任期条目对应的用户行 为数据为年",则可W根据工作绩效的等级分别设置与其对应的定量标识值,例如将工 作绩效为"优秀"等级设置与其对应的定量标识值范围为巧0-100",而"良好"等级对应"60- 79","中等"等级对应"40-59",依次类推,从而能将获得的与工作绩效条目对应的用户行为 数据进行定量标识。同样地,当采集到与训练样本的工作任期条目对应的用户行为数据为 年",则可W根据工作任期的时间分别设置与其对应的定量标识值,例如将工作任期为 "0-5"年设置与其对应的定量标识值范围为巧0-100",将工作任期为"6-10"年设置与其对 应的定量标识值范围为"60-79",依此类推,从而能将与工作任期对应的用户行为数据进行 定量标识。需要说明的是,本实施例针对用户行为数据设置的定量标识值并非固定,具体由 用户根据需要自定义。
[0059] 本实施例在提取不同的离职属性条目对应的用户行为数据的特征向量后,将其进 行组合后获得最终的训练样本的特征向量。具体地,当获取的不同的离职属性条目对应的 用户行为数据的特征向量的维数不一样时,本实施例统一将不同维数的特征向量的维数转 换成与最大维数的特征向量的维数相同。例如,当根据与历史聊天数据条目对应的用户行 为数据提取的特征向量的维数为10,而根据其他离职属性条目对应的用户行为数据提取的 特征向量的维数均小于10时,则将根据其他离职属性条目对应的用户行为数据提取的特征 向量的维数均转换成10维,具体可W采用"0"填充的方式完成。
[0060] 在具体的实施过程中,本实施例也可W采取其他特征向量提取方式获取训练样本 的特征性向量,或者也可W采取相同的特征向量提取方法同时提取不同的离职属性条目对 应的用户行为数据的特征向量,具体由用户自定义。
[0061] 本实施例通过对与不同的离职属性条目对应的用户行为数据采取不同的特征向 量提取方式,能结合不同离职属性条目对应的用户行为数据的具体形式分别采取不同的特 征向量提取方式,从而获得与离职属性条目对应的用户行为数据的特征向量,使获得的特 征向量与离职属性条目对应的用户行为数据相匹配,W及更具有代表性。故本实施例不仅 能将采集的用户行为数据进行定量标识,从而获得标准规范的用于训练分类模型的特征向 量,而且通过将与除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行定 量标识,充分利用各种类型和多个维度获取的用户行为数据,从而为后续训练分类器奠定 规范统一的数据基础。
[0062] 可选地,采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的特 征向量包括:
[0063] 将与历史聊天数据条目对应的用户行为数据转换成文本格式的字符串,获得历史 聊天文本;
[0064] 对历史聊天文本进行分词、语义消歧、去除停用词操作,获得分词文本;
[0065] 采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分词文本的权 重值,并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。
[0066] 具体地,本实施例预先设置在聊天过程中体现有离职意向的离职特征词列表,例 如"换工作"、"求职"、"招聘"、"找工作"、"离职"、"辞职"等等,然后再采用词频逆文本算法 获得分词文本中与预设的离职特征词匹配的分词文本的权重值,并将权重值作为与历史聊 天数据条目对应的用户行为数据的特征向量。其中,本实施例的词频-逆文本算法采用TF- IDF函数计算分词文本中与预设的离职特征词匹配的分词文本的权重值的计算公式为:
[0067] w(tk,Tj) = tf (tk,Tj) Xidf(tk),
[0068] 其中w(tk,Tj)为历史聊天文本L中与预设的离职特征词tk匹配的分词文本的权重 值,tf(tk,Tj)为tk在历史聊天文本L中的词频数;
表示tk在训练集中 的逆文本频率,N为训练样本中历史聊天文本总数目,Nk为训练样本中的历史聊天文本包含 tk的历数目。
[0069] 可选地,根据离职预测模型,确定待预测员工是否有离职意向包括:
[0070] 采集待预测员工的与离职属性条目对应的待预测用户行为数据;
[0071] 基于待预测用户行为数据,提取待预测用户行为数据的特征向量;
[0072] 根据待预测用户行为数据的特征向量W及离职预测模型,确定待预测员工是否有 离职意向。
[0073] 具体地,当需要预测待预测员工是否有离职意向时,本实施例首先采集待预测员 工的与离职属性条目对应的待预测用户行为数据,然后基于待预测用户行为数据,提取待 预测用户行为数据的特征向量,且提取待预测用户行为数据的特征向量的方式和训练分类 器前提取训练样本的特征向量的方法一致,最后将提取的待预测用户行为数据的特征向量 输入离职预测模型,并根据训练好的离职预测模型的输出结果判断待预测员工是否有离职 意向。
[0074] 可选地,分类器包括:支持向量机分类器、贝叶斯分类器、最大赌分类器中的任意 一种。
[0075] 需要说明的是,本实施例预先训练的分类模型不限于包括SVM分类模型、贝叶斯分 类模型、最大赌分类模型,也即本实施例也可W采用其他预先训练好的分类模型作为预测 员工是否有离职意向的预测模型。
[0076] 下面W=个精简的实施例对本实施例预测员工离职的方法进行更进一步具体的 说明。
[0077] 精简实施例一
[0078] 参照图2,本实施例预测员工离职的方法包括:
[0079] 步骤S201,预先设定离职属性条目。
[0080] 具体地,本实施例假设设置的离职属性条目只有一个,具体为历史聊天数据条目。
[0081] 步骤S202,采集训练样本的与离职属性条目对应的用户行为数据,其中,训练样本 包括有离职意向员工和无离职意向员工的训练样本。
[0082] 具体地,本实施例分别采集已离职员工的训练样本和在职员工的训练样本的与历 史聊天数据条目对应的用户行为数据。也即采集训练样本的手机短信历史记录和/或即时 通讯历史记录,作为训练样本的与历史聊天数据条目对应的用户行为数据。在具体的实施 过程中,本实施例可W获取待训练样本在某一时间段内的手机短信历史记录和/或即时通 讯历史记录,例如最近一个月时间内的手机短信历史记录和/或即时通讯历史记录,或最近 半年内的手机短信历史记录和/或即时通讯历史记录等等,具有由用户自定义。
[0083] 步骤S203,采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的 特征向量。
[0084] 具体地,本实施例采用词频逆文本算法获取与历史聊天数据条目对应的用户行为 数据的特征向量包括:
[0085] 步骤S2031,将与历史聊天数据条目对应的用户行为数据转换成文本格式的字符 串,获得历史聊天文本。具体地,由于本实施例采集的与历史聊天数据条目对应的用户行为 数据可能包括多种形式,例如文本、图片、视频、音频、语音等等,故在获取到与历史聊天数 目对应的用户行为数据后,先将其转换成文本格式的字符串,从而为后续提取与历史聊天 数据条目对应的用户行为数据的特征向量奠定基础。
[0086] 步骤S2032,对历史聊天文本进行分词、语义消歧、去除停用词操作,获得分词文 本。在具体的实施过程中,本实施例对历史聊天文本进行预处理,从而获得分词文本,不限 于只包括分词、语义消歧、去除停用词操作,例如还可W包括词性标注等操作。且本实施例 对历史聊天文本进行分词的方法可W采用最大正向匹配法或最大逆向匹配法等多种分词 方法。
[0087] 步骤S2033,采用词频逆文本算法获得分词文本中与预设的离职特征词匹配的分 词文本的权重值,并将权重值作为与历史聊天数据条目对应的用户行为数据的特征向量。
[0088] 具体地,本实施例假设预先设置的离职特征词列表为r换工作"、"求职"、"招聘"、 "找工作"、"离职"、"辞职"},然后再采用词频逆文本算法获得分词文本中与预设的离职特 征词匹配的分词文本的权重值,并将权重值作为与历史聊天数据条目对应的用户行为数据 的特征向量。也即本实施例分别统计与历史聊天文本对应的分词文本中包含离职特征词列 表中的离职特征词的权重值,例如,假设本实施例统计与历史聊天文本L对应的分词文本 中包含离职特征词("换工作")的权重值的计算公式为:
[0089] w(tk,Tj) = tf (tk,Tj) Xidf(tk),
[0090] 其中w(tk,Tj)为历史聊天文本町中与预设的离职特征词("换工作")tk匹配的分词 文本的权重值,tf(tk,W为tk在历史聊天文本T冲的词频数,也即历史聊天文本T冲出现离 职特征词"换工作"的词频数
g示tk在训练集中的逆文本频率,N为 训练样本中历史聊天文本总数目,Nk为训练样本中的历史聊天文本包含离职特征词("换工 作"Hk的历数目。根据上述公式,不难计算出历史聊天文本中与离职特征词列表中每一个 离职特征词分别对应的权重值,假设本实施例获取到历史聊天文本L中与离职特征词列表 为r'换工作"、"求职"、"招聘"、"找工作"、"离职"、"辞职"}中的离职特征词分别对应的权重 值为w(ti,Tj)~w(t6,Tj),则本实施例将{w(ti,Tj)、w(t2,Tj)、w(t3,Tj)、w(t4,Tj)、w(ts,Tj)、w (t6,T山作为训练样本L的与历史聊天数据条目对应的用户行为数据的特征向量。
[0091] 步骤S204,根据特征向量训练分类器,获得离职预测模型。具体地,假设本实施例 的训练样本总数为N,则分别将每一个训练样本的特征向量输入分类器进行训练,从而获得 离职预测模型,需要说明的是,为了获得相对较高的分类准确率和预测精度,本实施例选取 的训练样本的数量应当尽量大。
[0092] 步骤S205,根据离职预测模型,确定待预测员工是否有离职意向。
[0093] 具体地,当需要预测待预测员工是否有离职意向时,本实施例首先采集待预测员 工的与离职属性条目对应的待预测用户行为数据,即采集待预测员工的与历史聊天数据条 目对应的用户行为数据,也即待预测员工的手机短信历史记录和/或即时通讯历史记录;然 后基于待预测用户行为数据,提取待预测用户行为数据的特征向量,且提取待预测用户行 为数据的特征向量的方式和训练分类器前提取训练样本的特征向量的方法一致,最后将提 取的待预测用户行为数据的特征向量输入离职预测模型,并根据训练好的离职预测模型的 输出结果判断待预测员工是否有离职意向。
[0094] 本实施例通过获取待预测员工的与历史聊天数据条目对应的用户行为数据,也即 待预测员工的手机短信历史记录和/或即时通讯历史记录,W及通过词频逆文本算法提取 与历史聊天数据条目对应的用户行为数据的特征向量,训练出用于预测员工是否有离职意 向的离职预测模型,解决了如何预测员工离职的技术问题,实现了根据待预测员工的手机 短信历史记录和/或即时通讯历史记录就能对其是否有离职意向进行预测,有利于企业及 早知晓员工是否有离职意向,并采取相应措施减少企业离职率,从而大大节约了企业重新 招聘所花费的人力或金钱成本W及保障了企业的正常运作或工作进展。
[00M]精简实施例二
[0096] 参照图3,本实施例预测员工离职的方法包括:
[0097] 步骤S301,预先设定离职属性条目。
[0098] 具体地,本实施例假设设置的离职属性条目包括5个,分别为工作绩效条目、工作 任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目。
[0099] 步骤S302,采集训练样本的与离职属性条目对应的用户行为数据,其中,训练样本 包括有离职意向员工和无离职意向员工的训练样本。
[0100] 具体地,本实施例分别采集已离职员工的训练样本和在职员工的训练样本的与上 述五个离职属性条目对应的用户行为数据。假设本实施例采集的针对上述五个离职属性条 目对应的用户行为数据如表1所示:
[0101] 表1
[0102]
[0103]
[0104] 步骤S303,按照预先定义的标识规则,对除历史聊天数据条目外的其他离职属性 条目对应的用户行为数据进行定量标识,获得其他离职属性条目对应的用户行为数据的特 征向量。
[0105] 具体地,由于本实施例中的离职属性条目不包括历史聊天数据条目,故按照预先 定义的标识规则,对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据进行 定量标识。本实施例针对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据 进行定量标识的标识规则由用户自定义,本实施例为了统一定量标识范围,将针对用户行 为数据进行定量标识的范围均设置在范围0-100之间,具体参照表2。
[0106] 表2
[0107]
根据表2,本实施例假设针对表1获取的用户行为数据进行定量标识后获得的与五 个离职属性条目对应的用户行为数据的标识值分别为{50,95,65,59,70},由于本实施例的 离职属性条目不包括历史聊天数据条目,则直接将向量{50,95,65,59,70}作为训练样本的 特征向量。
[0109] 步骤S304,根据特征向量训练分类器,获得离职预测模型。具体地,假设本实施例 的训练样本总数为N,则分别将每一个训练样本的特征向量输入分类器进行训练,从而获得 离职预测模型,需要说明的是,为了获得相对较高的分类准确率和预测精度,本实施例选取 的训练样本的数量应当尽量大。
[0110] 步骤S305,根据离职预测模型,确定待预测员工是否有离职意向。
[0111] 具体地,当需要预测待预测员工是否有离职意向时,本实施例首先采集待预测员 工的与离职属性条目对应的待预测用户行为数据,即采集待预测员工的与步骤S301中设定 的五个离职属性条目对应的用户行为数据;然后基于待预测用户行为数据,提取待预测用 户行为数据的特征向量,且提取待预测用户行为数据的特征向量的方式和训练分类器前提 取训练样本的特征向量的方法一致,最后将提取的待预测用户行为数据的特征向量输入离 职预测模型,并根据训练好的离职预测模型的输出结果判断待预测员工是否有离职意向。
[0112] 本实施例通过获取待预测员工的与离职属性条目对应的用户行为数据,W及通过 预先定义的标识规则对除历史聊天数据条目外的其他离职属性条目对应的用户行为数据 进行定量标识,从而获得其他离职属性条目对应的用户行为数据的特征向量,并基于获得 的用户行为数据的特征向量训练出用于预测员工是否有离职意向的离职预测模型,解决了 如何预测员工离职的技术问题,实现了根据待预测员工的用户行为数据就能对其是否有离 职意向进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离 职率,从而大大节约了企业重新招聘所花费的人力或金钱成本W及保障了企业的正常运作 或工作进展。此外,本实施例将采集的用户行为数据进行定量标识,从而可W获得标准规范 的用于训练分类模型的特征向量,而且通过设置多个离职属性条目,能从多个维度对用户 行为数据进行数据采集,有助于提高分类模型的准确度和离职预测模型的预测精度。
[0113] 精简实施例S
[0114] 参照图4,本实施例预测员工离职的方法包括:
[0115] 步骤S401,预先设定离职属性条目。
[0116] 具体地,本实施例假设设置的离职属性条目包括6个,分别为历史聊天数据条目、 工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目。
[0117] 步骤S402,采集训练样本的与离职属性条目对应的用户行为数据,其中,训练样本 包括有离职意向员工和无离职意向员工的训练样本。
[0118] 具体地,本实施例通过采集训练样本的手机短信历史记录和/或即时通讯历史记 录,获得训练样本的与历史聊天数据条目对应的用户行为数据。且假设本实施例采集的除 历史聊天数据条目外的另外5个离职属性条目对应的用户行为数据具体如表1所示。
[0119] 步骤S403,采用词频逆文本算法获取与历史聊天数据条目对应的用户行为数据的 特征向量。具体地,假设本实施例预先设置的离职特征词列表为{"换工作"、"求职"、"招 聘"、"找工作"、"离职"、"辞职"},且参照精简实施例一中获取的与历史聊天数据条目对应 的用户行为数据(历史聊天文本Tj)的特征向量为W= {w(ti,Tj)、w(t2,Tj)、w(t3,Tj)、w(t4, Tj)、w(t5,Tj)、w(t6,Tj)}。
[0120] 步骤S404,按照预先定义的标识规则,对除历史聊天数据条目外的其他离职属性 条目对应的用户行为数据进行定量标识,获得其他离职属性条目对应的用户行为数据的特 征向量。具体地,参照精简实施例二中获取除历史聊天数据条目外的其他离职属性条目对 应的用户行为数据的特征向量的方法,假设本实施例获取到与另外五个离职属性条目(工 作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目)对应 的用户行为数据的标识值分别为{50,95,65,59,70}。
[0121] 步骤S405,根据与历史聊天数据条目对应的用户行为数据的特征向量W及其他离 职属性条目对应的用户行为数据的特征向量,获得训练样本的特征向量。
[0122] 根据步骤S403可知,本实施例针对历史聊天数据条目获得的用户行为数据的特征 向量为 W= {w(tl,Tj)、W(t2,Tj)、W(t3,Tj)、W(t4,Tj)、W(t5,Tj)、W(t6,Tj)},而针对工作绩效条 目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率条目获得的用户行 为数据的特征向量分别为{50}、{9引、{65}、{59}、{70}。因此本实施例采用"0"填充的方法 将针对工作绩效条目、工作任期条目、收入水平条目、上班路程条目、登录招聘求职网频率 条目获得的用户行为数据的特征向量的维数分别扩充到针对历史聊天数据条目获得的用 户行为数据的特征向量的维数,也即将低于六维的特征向量,均采用"0"填充的方法将其扩 充到六维,从而最终可获得训练样本的特征向量为6*6维。
[0123] 步骤S406,根据特征向量训练分类器,获得离职预测模型。具体地,假设本实施例 的训练样本总数为N,则分别将每一个训练样本的特征向量输入分类器进行训练,从而获得 离职预测模型,需要说明的是,为了获得相对较高的分类准确率和预测精度,本实施例选取 的训练样本的数量应当尽量大。
[0124] 步骤S407,根据离职预测模型,确定待预测员工是否有离职意向。
[0125] 本实施例的预测员工离职的方法,通过采集训练样本的与预先设定的离职属性条 目对应的用户行为数据,并基于获得的用户行为数据提取训练样本的特征向量,W及基于 提取的特性向量训练用于预测待预测员工是否有离职意向的离职预测模型,解决了如何预 测员工离职的技术问题,实现了根据待预测员工的用户行为数据就能对其是否有离职意向 进行预测,有利于企业及早知晓员工是否有离职意向,并采取相应措施减少企业离职率,从 而大大节约了企业重新招聘所花费的人力或金钱成本W及保障了企业的正常运作或工作 进展。
[0126] W上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可W有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种预测员工离职的方法,其特征在于,包括: 预先设定离职属性条目; 采集训练样本的与所述离职属性条目对应的用户行为数据,其中,所述训练样本包括 有离职意向员工和无离职意向员工的训练样本; 基于所述用户行为数据,提取所述训练样本的特征向量; 根据所述特征向量训练分类器,获得离职预测模型; 根据所述离职预测模型,确定待预测员工是否有离职意向。2. 根据权利要求1所述的预测员工离职的方法,其特征在于,所述离职属性条目包括: 历史聊天数据、工作绩效、工作任期、收入水平、最近一次升职时间间隔、上班路程、登 录招聘求职网频率条目中的一种或多种组合。3. 根据权利要求2所述的预测员工离职的方法,其特征在于,采集训练样本的与所述历 史聊天数据条目对应的用户行为数据包括: 采集训练样本的手机短信历史记录和/或即时通讯历史记录,作为训练样本的与所述 历史聊天数据条目对应的用户行为数据。4. 根据权利要求3所述的预测员工离职的方法,其特征在于,基于所述用户行为数据, 提取所述训练样本的特征向量包括: 采用词频逆文本算法获取与所述历史聊天数据条目对应的用户行为数据的特征向量; 按照预先定义的标识规则,对除所述历史聊天数据条目外的其他离职属性条目对应的 用户行为数据进行定量标识,获得其他离职属性条目对应的用户行为数据的特征向量; 根据与所述历史聊天数据条目对应的用户行为数据的特征向量以及其他离职属性条 目对应的用户行为数据的特征向量,获得所述训练样本的特征向量。5. 根据权利要求4所述的预测员工离职的方法,其特征在于,采用词频逆文本算法获取 与所述历史聊天数据条目对应的用户行为数据的特征向量包括: 将与所述历史聊天数据条目对应的用户行为数据转换成文本格式的字符串,获得历史 聊天文本; 对所述历史聊天文本进行分词、语义消歧、去除停用词操作,获得分词文本; 采用词频逆文本算法获得所述分词文本中与预设的离职特征词匹配的分词文本的权 重值,并将所述权重值作为与所述历史聊天数据条目对应的用户行为数据的特征向量。6. 根据权利要求5所述的预测员工离职的方法,其特征在于,根据所述离职预测模型, 确定待预测员工是否有离职意向包括: 采集待预测员工的与所述离职属性条目对应的待预测用户行为数据; 基于所述待预测用户行为数据,提取所述待预测用户行为数据的特征向量; 根据所述待预测用户行为数据的特征向量以及所述离职预测模型,确定所述待预测员 工是否有离职意向。7. 根据权利要求6所述的预测员工离职的方法,其特征在于,所述分类器包括: 支持向量机分类器、贝叶斯分类器、最大熵分类器中的任意一种。
【文档编号】G06Q10/10GK106022708SQ201610300752
【公开日】2016年10月12日
【申请日】2016年5月9日
【发明人】陈包容
【申请人】陈包容