一种适用于电子商务中文网站商品标签化的方法

文档序号:9564702阅读:563来源:国知局
一种适用于电子商务中文网站商品标签化的方法
【技术领域】
[0001] 本发明属于计算机互联网领域,特别是涉及一种适用于电子商务中文网站商品标 签化的方法。
【背景技术】
[0002] 在电子商务中文网站中,用户利用关键词检索商品时,通常是直接检索商品的基 本信息,然而由于网站内的商品信息多是由商家自己填写和维护,商家虽会按照网站的商 品规则维护商品信息,但仍不能避免两类问题的出现:其一是商品信息作弊的问题,商家为 了提供自家商品在商品搜索过程中的曝光率和出现频率,使发布的商品引人注目,使商品 购买者能更多地搜索到发布的商品,他们在对商品描述时滥用品牌名称或与本商品不存在 关联的关键词,从而导致商品购买者无法准确地找到需要的商品;其二是商品信息不全面 的问题,商家在描述商品时遗漏商品描述的关键信息,包括商品标题、图片、描述等重要信 息缺失,而信息缺失将导致用户做商品检索时,网站无法返回更多相关的商品检索结果。
[0003] 针对商家作弊商品信息的问题,电子商务网站通常设定规则来解决,对那些不符 合规则的作弊商品进行降权,然而规则存在一定程度的缺陷,严格的规则可能导致未作弊 的商品降权;宽松的规则可能会使防作弊的效果不够明显;在解决商家填写信息不全的问 题上,为保证尽可能多地召回相关产品,电子商务网站不惜牺牲检索质量而选择扩大检索 商品信息的检索范围,即在多个商品信息字段上做匹配,有时甚至连"商品描述"这类数据 量庞大但质量较差的字段都被选用,这种方式虽然能召回更多的商品,但召回的商品并不 能令用户满意,进而导致流量大量流失。

【发明内容】

[0004] 针对现有技术的不完善,本发明目的是,提供一种适用于电子商务中文网站商品 标签化的方法,通过综合分析商品名称和商品属性的信息,提供与商品相关的标签对其标 示,以完善电子商务中文网站中的商品信息。这些用以标示商品的标签数据将会在商品搜 索过程中作为重要的检索字段参与检索,以保证在召回更多相关商品的同时,也能提升商 品检索的准确率。
[0005] 本发明的技术方案如下,一种适用于电子商务中文网站产品标签化的方法,其特 征在于,具体步骤包括分词词库的构建方法、标签采集的方法及标签标示商品的方法;
[0006] 所谓分词词库的构建方法,指基于对电子商务中文网站内各商品关键词在不同商 品描述中的频次统计,保留频次大于3的商品关键词,并从中筛选出商品关键词字数小于 等于5的关键词作为词库数据,当长度比较长的商品关键词包含多个短的关键词的时,这 些长的词将不会入库;
[0007] 所谓商品关键词,是指由商家通过网站后台系统自由添加的词语,是商家对商品 关键特征的描述;
[0008] 特别地,考虑到电子商务中文网站内商品关键词通常由商品卖家添加,因而从这 些关键词中选取简短精炼且高频出现的词列入分词词库中,能最大程度保证分词的准确 性;
[0009] 所谓标签采集方法,指基于已构建的分词词库,通过逆向最大匹配分词算法对电 子商务中文网站内所有商品名称进行分词处理;经最大逆向匹配算法的分词处理后,按照 汉语语法特点,即在"形容词+名词"的语句形式中,名词位于句末,进而选取商品经分词处 理后形成的最后一个词作为该商品的商品标签;最终,这些所有标签组成标签数据集合;
[0010] 所谓商品名称,是指由商家自行添加的一段对商品的简短文字描述;
[0011] 所谓标签标示商品的方法,指通过利用文本挖掘算法,寻找商品属性和标签之间 的关系。特别地,利用文本挖掘算法的前提是商品属性和标签都具备能体现两者关系且有 代表性的内容作为判断依据。商品属性能多方位表明商品特征,如果标签也有自己的特征 数据,通过比较两者在特征的相似性,即可确定商品属性和标签之间的相似关系。
[0012] 进一步的,标签标不商品的方法具体包括的步骤有:
[0013] 步骤1 :标签特征的获取
[0014] 在标签集合的基础上确定隶属每一个标签的特征信息。如果某个商品的标签出现 在某个商品的商品名称中,则默认这个标签与该商品存在相关关系。
[0015] 按照上述思路,首先筛选出包含某一特定标签词的商品名称,然后根据商品名称 找到该商品的商品特征信息数据,统计出所有商品特征信息数据作为该标签的特征信息数 据;特别地,商品特征信息数据来自于商品属性信息;
[0016] 步骤2 :判断商品和标签间的相似关系
[0017] 基于某一标签的所有标签特征,分析每个标签特征的权重,评估每一个标签特征 在所有标签的特征中的代表性,具体包括:
[0018] 步骤2-1 :分析每一个标签特征在标签集合的分布情况:如果一个标签特征集中 于一个标签中,则默认该标签特征的代表性强;如果一个标签特征分布在多个标签中,则默 认该标签特征的代表性不强;
[0019] 步骤2-2 :参照TF*IDF权重计算方法,针对代表性强的标签特征,做加权,权重为 标签特征在该标签中出现的频次乘以初始权重;针对代表性弱的标签特征,做降权,权重为 初始权重除以该标签在不同标签中出现的频次;标签特征在标签中的权重Boost p可参照如 下公式:
[0021] 其中,count (p, t)表示标签特征p在标签t中出现的次数,size (t)表示标签t所 包含的标签特征的个数,N表示标签集合中的标签总数,tags (p, t)表示包含标签特征p的 标签t的个数。
[0022] 步骤2-3 :将标签的特征信息集合和商品的特征信息集合分别抽象成一个多维的 空间向量,利用空间向量余弦相似性原理,通过计算两个空间向量间的相似度,判定商品和 标签之间的相关关系;
[0023]
[0024] 步骤3 :确定商品的相关标签
[0025] 由于商品和标签之间的相关程度有高低好坏之分,因而标签和商品的相关程度系 数值还不足直接将标签赋予商品,需通过设定合理阀值,筛选出两个空间向量间的相似度 即商品和标签之间相关关系系数在阀值之上的标签作为商品的标签,阀值范围在〇~1之 间;阀值的设定可根据数据质量要求给出严格或宽松的值,若希望商品搜索过程更严格,阀 值越接近1。此外,也可以取所有相关程度系数值的平均值作为阀值;
[0026] 特别地,为更准确地选取商品的标签,可视情况控制每个商品的标签个数,并选择 限定个数以内的最相关的标签作为商品标签。
[0027] 商品属性信息代表了商品的若干特征,如果标签也有自己的特征数据,那么我们 挖掘出两者在特征数据之间的关系就能知道商品和标签的关系。
[0028] 本发明与现有技术相比,其有益效果:
[0029] (1)本发明利用商品关键词构建分词词库,实现基于网站内现有商品的关键特 征对商品描述做分词处理,从而保证分词准确性,有利于在商品描述中精确地锁定商品名 称;
[0030] (2)本发明通过辨识和确定标签的特征,将标签特征与商品特征进行相似度比较, 从而确认商品名称的相似名称,为商品标示更丰富的标签,完善商品信息,有助于在搜索过 程中提升搜索的召回率和准确率;
[0031] (3)本发明通过为电子商务网站内的商品找到实体标签和相关标签,在保证商品 标签更具
[0032] 客观性的同时,也能提尚商品彳目息的可靠性;
【附图说明】
[0033] 图1本发明实施例中一种适用于电子商务中文网站商品标签化方法的结构图;
[0034] 图2本发明实施例中标签标示商品方法实现的流程图;
[0035] 图3本发明实施例中判定商品和标签间相似关系方法实现的流程图。
【具体实施方式】
[0036] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1