文本地址处理方法及装置的制造方法
【专利摘要】本申请提供一种文本地址处理方法及装置。方法包括:根据业务系统中用户的社会关系圈,确定至少一个地址集合,每个地址集合包括:至少两个原始文本地址;对于每个地址集合,对地址集合中的原始文本地址进行归一化处理,以获得地址集合对应的目标文本地址。本申请以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面相当于缩小了待归一化的原始文本地址的范围,另一方面相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,可以更加容易地把控文本地址之间的容错边界,有利于提高归一化结果的准确性。
【专利说明】
文本地址处理方法及装置
【技术领域】
[0001]本申请涉及通信技术领域,尤其涉及一种文本地址处理方法及装置。
【【背景技术】】
[0002]随着互联网技术的发展,基于互联网的应用越来越广泛。在互联网应用中,经常需要用户以文本方式填写一些地址信息,例如家庭住址、公司地址等。将用户对地址信息的文本描述方式简称为文本地址。用户以文本方式填写地址信息时,一般都有自己的描述习惯,且不同用户的描述习惯一般不同,这就导致同一地址信息对应不同的文本地址。例如,对于“一号楼一单元”这样的地址信息,有的用户会描述成“101”,有的用户会描述成“1-01”,有的用户会描述成“一号楼一单元”等,导致同一地址信息出现多种文本地址。
[0003]为了便于对地址信息进行管理和应用(例如可以基于地址信息做一些应用挖掘等),需要对文本地址进行归一化处理,即需要将对应同一地址信息的不同文本地址统一成一个文本地址。现有为本地址归一化的思路主要是:确定所有需要进行归一化的文本地址,提取文本地址所包含的标准片段,然后基于文本地址所包含的标准片段两两计算相关度,基于两个文本地址的相关度确定两个文本地址是否应该被归一化。
[0004]由于文本地址本身存在多样性,对于描述同一地址信息的不同文本地址的文本内容可能差异较大,而描述不同地址信息的文本地址在文本内容上可能差异较小,基于此,若需要进行归一化处理的文本地址数量较多,就会使容错边界难以把控,导致文本地址的归一化结果的准确率较低。
【
【发明内容】
】
[0005]本申请的多个方面提供一种文本地址处理方法及装置,用以提高文本地址的归一化结果的准确率。
[0006]本申请的一方面,提供一种文本地址处理方法,包括:
[0007]根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;
[0008]对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
[0009]本申请的另一方面,提供一种文本地址处理装置,包括:
[0010]确定模块,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;
[0011]归一化模块,用于对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
[0012]在本申请中,根据业务系统中用户的社会关系圈,确定至少一个地址集合,之后以地址集合为单位,分别对每个地址集合中的原始文本地址进行归一化处理,以获得每个地址集合对应的目标文本地址,实现对文本地址的归一化处理。由于以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面将待归一化的原始文本地址的范围限定在了用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
【【附图说明】】
[0013]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本申请一实施例提供的文本地址处理方法的流程示意图;
[0015]图2为本申请一实施例提供的归一化过程图示示意图;
[0016]图3为本申请一实施例提供的文本地址处理装置的结构示意图。
【【具体实施方式】】
[0017]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0018]图1为本申请一实施例提供的文本地址处理方法的流程示意图。如图1所示,该方法包括:
[0019]101、根据业务系统中用户的社会关系圈,确定至少一个地址集合,至少一个地址集合中的每个地址集合包括:至少两个原始文本地址。
[0020]102、对于每个地址集合,对该地址集合中的原始文本地址进行归一化处理,以获得该地址集合对应的目标文本地址。
[0021]本实施例提供一种文本地址处理方法,可由文本地址处理装置来执行。本实施例提供的方法主要用于对文本地址进行归一化处理。
[0022]首先说明,本实施例中的文本地址是指对地址信息的文本描述。不同文本地址可能是对同一地址信息的文本描述。另外,为便于描述和区分,本实施例将归一化之前的文本地址称为原始文本地址,将归一化之后得到的文本地址称为目标文本地址。无论是原始文本地址还是目标文本地址,都是对地址信息的文本描述。
[0023]通常,只有在有归一化需求时,才会对文本地址进行归一化处理。而对文本地址进行归一化处理的需求,通常是针对某个或某些业务系统的。简单来说就是,需要针对某个或某些业务系统,对与之相关的文本地址进行归一化,以便于通过归一化的文本地址进行新的业务或新的业务需求的挖掘,或者进行有关信息的统计分析等。
[0024]值得说明的是,本实施例并不对业务系统进行限制,该业务系统可以是各种会涉及到文本地址的业务系统,例如可以是电子商务系统、在线支付系统、即时通讯系统、电子邮件系统等等。
[0025]在进行文本地址归一化处理之前,需要确定与业务系统相关的待归一化处理的原始文本地址。在本申请中,根据业务系统中用户的社会关系圈,确定与业务系统相关的原始文本地址。对一用户来说,其社会关系圈主要包括与该用户存在关联关系的其他用户。优选的,可以从与该用户存在关联关系的其他用户中,选择关联关系较密切的其他用户作为该用户的社会关系圈。举例说明,获取用户的社会关系圈可以采用以下至少一种方式:
[0026]获取与该用户存在资金往来(例如转账)的其他用户作为该用户的社会关系圈中的用户;优选的,可以获取与该用户的转账频次或者金额超过一定的阈值的其他用户作为该用户的社会关系圈中的用户;
[0027]获取该用户的通讯录中里面的其他用户作为该用户的社会关系圈中的用户;一般用户授权后,各应用都可以读取到的用户的通讯录;
[0028]获取通过即时通讯工具与该用户进行通讯的其他用户作为该用户的社会关系圈中的用户;即时通讯工具包括但不限于微信、QQ等;优选的,获取与该用户的互动频次或通讯时长超过一定的阈值的其他用户作为该用户的社会关系圈中的用户;
[0029]获取与该用户使用同一台设备的其他用户作为该用户的社会关系圈中的用户,这里的设备可以包括电脑、手机、WIFI等,优选的,获取与该用户使用同一台设备的频次或时长超过一定阈值的其他用户作为该用户的社会关系圈中的用户。
[0030]具体的,当需要进行文本地址归一化处理时,文本地址处理装置根据业务系统中用户的社会关系圈,确定至少一个地址集合。其中,每个地址集合包括至少两个原始文本地址。在该过程中,除了根据用户的社会关系圈确定与业务系统相关的原始文本地址之外,同时对与该业务系统有关的原始文本地址进行了划分,将与业务系统相关的原始文本地址划分到不同的地址集合中。
[0031]在一种可选实施方式中,可以根据业务系统中的用户数量来确定地址集合的数量,例如一个用户对应一个地址集合。
[0032]具体的,对业务系统中的每个用户来说,文本地址处理装置首先需要确定该用户的社会关系圈(具体可以采用前面描述的方式确定用户的社会关系圈);然后,获取该用户曾经使用的地址信息以及该用户的社会关系圈中的用户曾经使用的地址信息,作为一个地址集合。
[0033]对于每个地址集合,文本地址处理装置对该地址集合中的原始文本地址进行归一化处理,从而获得该地址集合对应的目标文本地址。这相当于将文本地址的归一化处理限制在每个地址集合内,一方面相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的地址信息之间,这两方面使得文本地址处理装置可以更加容易的把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
[0034]在一可选实施方式中,对于每个地址集合,文本地址处理装置对该地址集合中的原始文本地址进行归一化处理,以获得该地址集合对应的目标文本地址的过程包括:
[0035]文本地址处理装置根据该地址集合中的每两个原始文本地址的特征,计算每两个原始文本地址的相似度;根据每两个原始文本地址的相似度,确定每两个原始文本地址是否可以归一化成每两个原始文本地址中的一个,以获得该地址集合对应的目标文本地址。
[0036]值得说明的是,地址集合对应的目标文本地址可以是一个或多个。
[0037]具体的,对于一个地址集合来说,文本地址处理装置对该地址集合中每两个原始文本地址进行特征提取,以获得每两个原始文本地址的特征;之后,根据提取的每两个原始文本地址的特征,计算每两个原始文本地址之间的相似度;进一步根据每两个原始文本地址的相似度,确定每两个原始文本地址是否可以归一化成每两个原始文本地址中的一个。
[0038]可选的,本实施例所采用的原始文本地址的特征可以包括:标准片段特征、经炜度特征和字母数字特征中的至少一个。
[0039]基于上述,对于一个地址集合来说,文本地址处理装置对该地址集合中每两个原始文本地址进行特征提取,以获得每两个原始文本地址的标准片段特征、经炜度特征以及字母数字特征中的至少一个特征;对于至少一个特征中的每个特征,根据该特征,计算每两个原始文本地址对应于该特征的相似度;进一步根据每两个原始文本地址对应于每个特征的相似度,来判断每两个原始文本地址是否应该被归一化成其中一个。
[0040]其中,标准片段特征具体反映原始文本地址所包括的标准地址片段。例如,可以对原始文本地址进行结构化解析,以获得原始文本地址所包括的标准片段。在本实施例中,可以预先将文本地址划分为24个标准地址片段。例如,可以对原始文本地址进行结构化分析,以获得原始文本地址包括24个标准片段中的哪些片段。24个标准片段包括如:省、市、 区、开发区、路等片段信息。
[0041]经炜度特征具体可以反映原始文本地址所描述的地址信息的经炜度信息。例如, 可以利用高德的Geocoding技术来提取原始文本地址的经炜度特征。Geocoding技术是基于空间定位技术的一种编码方法,它提供了一种把文本地址转换成可以被用于地理信息系统(GIS)的地理坐标的方式,具体描述可参见现有技术。
[0042]字母数字特征具体可以反映原始文本地址中包含的字母和/或数字。该字母数字特征可以直接从原始文本地址中提取获得。
[0043]对上述标准片段特征、经炜度特征和字母数字特征中的至少一个特征中的每个特征:
[0044]若该特征为标准片段特征,则文本地址处理装置可以采用SimHash算法对每两个原始文本地址的标准片段特征进行处理,获得每两个原始文本地址在标准片段特征维度上的相似度。
[0045]SimHash算法的主要思想是特征降维,将高维度的标准片段特征映射成一个低维度的标准片段特征,然后通过比较两个低炜度的标准片段特征的汉明距离,来确定两个低炜度的标准片段特征所标识的两个文本地址是否重复或者是否高度近似。其中,两个码字的对应比特取值不同的比特数称为这两个码字的汉明距离。在一个有效编码集中,任意两个码字的汉明距离的最小值称为该编码集的汉明距离。举例说明:码字10101和码字00110 从第一位开始依次有第一位、第四位、第五位不同,则汉明距离为3。
[0046]若上述特征为经炜度特征,则文本地址处理装置可以采用经炜度距离算法对每两个原始文本地址的经炜度特征进行处理,获得每两个原始文本地址在经炜度特征维度上的相似度。
[0047]具体的,文本处理装置可以根据两个原始文本地址的经炜度特征,计算两个原始文本地址所描述的地址信息之间的距离,根据距离确定两个原始文本地址在经炜度特征维度上的相似度。
[0048]在实际应用中,部分用户描述的原始文本地址可能可以精确到地图上的点,部分用户描述的原始文本地址可能只能精确到地图上的线,甚至部分用户描述的原始文本地址可能只能精准到地图上的面,由于粒度不一致,若从地图的角度对原始文本地址进行归一化,只能从最粗粒度上进行归一化,导致归一化结果的精度不够。而本实施例将原始文本地址映射到经炜度上,由于所有文本地址都可以映射到经炜度,且经炜度的粒度相对较细,这相当于将归一化处理统一到了一个相对较细的粒度上,有利于提高归一化结果的精确度。
[0049]若上述特征为字母数字特征,则文本地址处理装置可以采用杰卡德(Jaccard)系数算法对每两个原始文本地址的字母数字特征进行处理,获得每两个原始文本地址在字母数字特征维度上的相似度。
[0050]Jaccard系数主要用来比较样本集中的相似性和分散性的一个概率。Jaccard系数等于样本集合的交集与样本集合的并集的比值,即J= |A n B|/|A U B|。其中,上述一个原始文本地址的字母数字特征作为一个样本集合,字母数字特征中的字母和/或数字作为样本集合中的元素。
[0051]基于上述每两个原始文本地址在标准片段特征维度上的相似度、在经炜度特征上的相似度以及在字母数字特征维度上的相似度,文本地址处理装置具体可以同时根据每两个原始文本地址在标准片段特征维度上的相似度、在经炜度特征上的相似度以及在字母数字特征维度上的相似度,确定两个原始文本地址是否可以被归一化成其中一个文本地址。
[0052]例如,可以分别将两个原始文本地址在每个维度上的相似度,与对应的阈值进行比较,如果两个原始文本地址在每个维度上的相似度均大于对应的阈值,则确定两个原始文本地址可以被归一化成其中一个;反之,对于其他情况,确定两个原始文本地址不可以被归一化成其中一个。
[0053]又例如,可以优先将两个原始文本地址在某个维度上的相似度,与对应的阈值进行比较,如果两个原始文本地址在该维度上的相似度大于对应的阈值,则直接确定两个原始文本地址可以被归一化成其中一个。
[0054]又例如,可以预先为每个维度上的相似度配置一个权重,则可以对每两个原始文本地址在每个维度上的相似度和相应的权重进行数值处理,获得一个处理结果,将该处理结果与预设的阈值进行比较,若大于该阈值,则确定两个原始文本地址可以被归一化成其中一个;反之,确定两个原始文本地址不可以被归一化成其中一个。
[0055]进一步,在一可选实施方式中,考虑到一个用户可能同时与业务系统中的多个用户存在社会关系,从而出现在多个用户的社会关系圈中,这就意味着该用户曾经使用的原始文本地址可能出现在不同的地址集合中。对于这种情况,在获得每个地址集合对应的目标文本地址之后,可以进一步进行地址集合之间的归一化,以便于获得更加精确和精简的归一化结果。
[0056]值得说明的是,在对每个地址集合进行归一化过程中,文本地址处理装置可以记录目标文本地址与原始文本地址的对应关系,该对应关系可以体现目标文本地址具体是由哪些原始文本地址归一化得到的。
[0057]基于上述,在获得每个地址集合对应的目标文本地址之后,文本地址处理装置还可以根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;其中,对应于同一原始文本地址的至少两个目标文本地址分别对应于不同的地址集合;之后,对对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
[0058]在一可选实施方式中,文本地址处理装置可以获取对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段;进一步,获得对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集,该片段交集包括对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址都包含的标准地址片段;接着,根据该片段交集,对对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
[0059]—种具体归一化处理的方式包括:文本地址处理装置判断该片段交集是否可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个,若判断结果为是,即该片段交集可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个,则将对应于同一原始文本地址的至少两个目标文本地址归一化成该片段交集可表征的目标文本地址; 反之,若判断结果为否,即该片段交集无法表征对应于同一原始文本地址的至少两个目标文本地址中的任何一个,则不做归一化处理。
[0060]具体的,可以预先设定表征一个目标文本地址所需的片段集合,则可以将该片段交集与预设的片段集合进行比较,若该片段交集与预设的片段集合一致,则确定该片段交集可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个;反之,确定该片段交集无法表征对应于同一原始文本地址的至少两个目标文本地址中的任何一个。
[0061]进一步,若上述片段交集可以表征对应于同一原始文本地址的至少两个目标文本地址中的一个,则可以将该片段交集与该片段交集可表征的目标文本地址对应存储到特征知识库中。这样,可以使用这个特征知识库去归一化更多的原始文本地址。
[0062]下面以业务系统包括第一用户和第二用户为例,假设第一用户的社会关系圈包括用户A、用户B和用户C,第二用户的社会关系圈包括:用户D、用户E和用户F。第一用户曾经使用的文本地址及其社会关系圈中的用户曾经使用的文本地址构成第一地址集合,假设第一地址集合包括的文本地址为X1、X2和X3 ;第一用户、用户A、用户B和用户C,与文本地址X1、X2和X3之间没有固定的对应关系,可能是一个用户曾经使用过一个文本地址,也可能是多个用户曾经使用过相同的文本地址,还可能是一个用户曾经使用过多个文本地址。 例如,第一用户曾经使用了文本地址XI,用户A和用户B使用了文本地址X2,用户C使用了文本地址XI和X3。第二用户曾经使用的文本地址及其社会关系圈中的用户曾经使用的文本地址构成第二地址集合,假设第二地址集合包括的文本地址为X2、X4和X5。同理,第二用户、用户D、用户E和用户F,与文本地址X2、X4和X5之间同样没有固定的对应关系,可能是一个用户曾经使用过一个文本地址,也可能是多个用户曾经使用过相同的文本地址,还可能是一个用户曾经使用过多个文本地址。例如,第二用户曾经使用了文本地址X2,用户D 曾经使用了文本地址X2、X4和X5 ;用户E曾经使用了文本地址X2和X5,用户F曾经使用了文本地址X5。
[0063]基于上述,整个归一化过程具体如图2所示:
[0064]首先确定第一用户的社会关系圈,获得第一地址集合,如图2所示,第一地址集合包括文本地址X1、X2和X3 ;并确定第二用户的社会关系圈,获得第二地址集合,如图2所示,第二地址集合包括文本地址X2、X4和X5。
[0065]针对第一地址集合中的文本地址两两进行相似度计算,根据相似度完成归一化处理,其中,文本地址XI和X2归一化为XI和X2中的一个,假设归一化为XI,文本地址X3归一化为文本地址X3,也就是说,第一地址集合对应的两个目标文本地址分别是文本地址XI 和X3,如图2所示;同理,针对第二地址集合中的文本地址两两进行相似度计算,根据相似度完成归一化处理,其中,文本地址X2和X4归一化为X2和X4中的一个,假设归一化为X4 ; 文本地址X5归一化为文本地址X5,也就是说,第二地址集合对应的两个目标文本地址分别是文本地址X4和X5,如图2所示。
[0066]进一步,由于第一地址集合对应的目标文本地址XI与第二地址集合对应的目标文本地址X4均由文本地址X2归一化得到,因此可以对这两个目标文本地址进行归一化处理,这两个目标文本地址进一步归一化为XI和X4中的一个,假设归一化为文本地址XI,如图2所示,。至此,原来的文本地址X1、X2、X3、X4和X5被归一化为文本地址X1、X3和X5。
[0067]值得说明的是,在上述过程中,若文本地址XI和X2归一化为X2,且文本地址X2和 X4也归一化为X2,由于文本地址X1、X2和X4已经归一化为同一文本地址,故在对上述两个地址集合对应的目标文本地址进行归一化过程中,可以不用对这两个相同的目标文本地址进行归一化处理,有利于节约归一化所消耗的资源,提高归一化处理的效率。
[0068]由上述可见,通过对文本地址进行归一化处理,简化了文本地址的个数,且对文本地址进行了统一,更加便于管理和应用文本地址。另外,以用户的社会关系圈对待归一化的原始文本地址进行划分,一方面将待归一化的原始文本地址的范围限定在了每个用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内的用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
[0069]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0070]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0071]图3为本申请一实施例提供的文本地址处理装置的结构示意图。如图3所示,该装置包括:确定模块31和归一化模块32。
[0072]确定模块31,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址。
[0073]归一化模块32,用于对于确定模块31确定的每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。
[0074]值得说明的是,地址集合对应的目标文本地址可以是一个或多个。
[0075]在一可选实施方式中,确定模块31具体用于:
[0076]确定业务系统中每个用户的社会关系圈;
[0077]获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。
[0078]在一可选实施方式中,归一化模块32具体用于:
[0079]根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度;
[0080]根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。
[0081]归一化模块32在根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度时,进一步具体用于:
[0082]对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经炜度特征以及字母数字特征中的至少一个特征;
[0083]对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。
[0084]归一化模块32在对于所述至少一个特征中的每个特征,根据该特征,计算所述每两个原始文本地址对应于该特征的相似度时,进一步具体用于:
[0085]若该特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度;
[0086]若该特征为经炜度特征,则采用经炜度距离算法对所述每两个原始文本地址的经炜度特征进行处理,获得所述每两个原始文本地址在经炜度特征维度上的相似度;
[0087]若该特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。
[0088]在一可选实施方式中,确定模块31还用于:在所述归一化模块32获得每个地址集合对应的目标文本地址之后,根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;
[0089]所述归一化模块32还用于:对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
[0090]归一化模块32在对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理时,具体用于:
[0091]获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集;
[0092]根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。
[0093]在一可选实施方式中,本实施例的文本地址处理装置还可以包括:特征知识库,用于在上述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个时,对应存储所述片段交集与所述可表征的目标文本地址。
[0094]本实施例提供的文本地址处理装置,根据业务系统中用户的社会关系圈,确定至少一个地址集合,之后以地址集合为单位,分别对每个地址集合中的原始文本地址进行归一化处理,以获得每个地址集合对应的目标文本地址,实现对文本地址的归一化处理。由于本实施例提供的文本地址处理装置以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面将待归一化的原始文本地址的范围限定在了用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。
[0095]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统, 装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0096]在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0097]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0098]另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0099]上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0100]最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
【主权项】
1.一种文本地址处理方法,其特征在于,包括: 根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址; 对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。2.根据权利要求1所述的方法,其特征在于,所述根据业务系统中用户的社会关系圈,确定至少一个地址集合,包括: 确定所述业务系统中每个用户的社会关系圈; 获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。3.根据权利要求1所述的方法,其特征在于,所述对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址,包括: 根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度; 根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。4.根据权利要求3所述的方法,其特征在于,所述根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度,包括: 对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经玮度特征以及字母数字特征中的至少一个特征; 对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。5.根据权利要求4所述的方法,其特征在于,所述根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度,包括: 若所述特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度; 若所述特征为经玮度特征,则采用经玮度距离算法对所述每两个原始文本地址的经玮度特征进行处理,获得所述每两个原始文本地址在经玮度特征维度上的相似度; 若所述特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。6.根据权利要求1-5任一项所述的方法,其特征在于,在获得每个地址集合对应的目标文本地址之后,还包括: 根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址; 对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。7.根据权利要求6所述的方法,其特征在于,所述对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理,包括: 获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集; 根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。8.根据权利要求7所述的方法,其特征在于,所述根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理,包括: 若所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个,则将所述对应于同一原始文本地址的至少两个目标文本地址归一化成所述片段交集可表征的目标文本地址。9.根据权利要求8所述的方法,其特征在于,还包括: 若所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个,将所述片段交集与所述片段交集可表征的目标文本地址对应存储到特征知识库中。10.一种文本地址处理装置,其特征在于,包括: 确定模块,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址; 归一化模块,用于对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。11.根据权利要求10所述的装置,其特征在于,所述确定模块具体用于: 确定所述业务系统中每个用户的社会关系圈; 获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。12.根据权利要求10所述的装置,其特征在于,所述归一化模块具体用于: 根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度; 根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。13.根据权利要求12所述的装置,其特征在于,所述归一化模块进一步具体用于: 对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经玮度特征以及字母数字特征中的至少一个特征; 对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。14.根据权利要求13所述的装置,其特征在于,所述归一化模块进一步具体用于: 若所述特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度; 若所述特征为经玮度特征,则采用经玮度距离算法对所述每两个原始文本地址的经玮度特征进行处理,获得所述每两个原始文本地址在经玮度特征维度上的相似度; 若所述特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。15.根据权利要求10-14任一项所述的装置,其特征在于, 所述确定模块还用于:在所述归一化模块获得每个地址集合对应的目标文本地址之后,根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址; 所述归一化模块还用于:对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。16.根据权利要求15所述的装置,其特征在于,所述归一化模块具体用于: 获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集; 根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。17.根据权利要求16所述的装置,其特征在于,还包括: 特征知识库,用于在所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个时,对应存储所述片段交集与所述片段交集可表征的目标文本地址。
【文档编号】G06F17/27GK105988988SQ201510079914
【公开日】2016年10月5日
【申请日】2015年2月13日
【发明人】熊军
【申请人】阿里巴巴集团控股有限公司