一种针对gis数据的建模方法
【技术领域】
[0001] 本申请涉及轨迹数据的应用领域,尤其是一种针对GIS数据的建模方法。
【背景技术】
[0002] 近年来,随着搭载GIS传感器的智能设备在日常生活中的普及,对轨迹数据的研究 也越来越火热。其中,轨迹相似度作为地理推荐、行程预测等基础应用的基本指标,其计算 方法是完成基于位置的服务的基本技术。
[0003] 但是,现在技术中,轨迹相似度的计算方法大都只是粗粒度地计算轨迹间的形状 相似度,很少将轨迹上附着的语义信息考虑在内。
【发明内容】
[0004] 本申请提供一种针对GIS数据的建模方法,解决现有技术中,计算轨迹相似度未考 虑语义信息的问题。
[0005] -种针对GIS数据的建模方法,包括以下步骤:
[0006 ]获取GIS数据,从GIS数据中检测出带有语义信息的逗留点;
[0007] 建立包含带有语义信息逗留点的路网集合GST(V VST,E EST,其中,V为节点的集合, E为边的集合,VST为逗留点组成的节点集合,EST为两个逗留点连成的边以及一个逗留点与 其他节点连成的边的集合,路网集合G ST中包含语义轨迹a和语义轨迹b;
[0008] 计算语义轨迹a和语义轨迹b中边的公共区间长度| sim(ea,i,eb,j) |,其中,ea,i表示 语义轨迹a中的第i条边,e,表示语义轨迹b中的第j条边;
[0009] 将语义轨迹a和语义轨迹b中每一对边的公共区间的长度相加,得到:
[0010]
[0011] 其中,STNa表示语义轨迹a,STN表示语义轨迹b,|Sa|为语义轨迹a中逗留点的总长 度,| Sb |为语义轨迹b中逗留点的总长度;
[0012] 计算语义轨迹a和语义轨迹b中基于逗留点的两条边的相似度Sims(eaJ,e ,;
[0013] 基于语义轨迹a和语义轨迹b中不同边之间的距离,计算基于距离的正则化相似度 Sim(ea)i, e ,;
[0014] 计算语义轨迹a和语义轨迹b中两条边之间的相似度:
[0015] simw(ea,i,eb, j)=feimd(ea,i,eb,j) + (l-P)sims(ea,i,eb, j);
[0016] 其中,〇<β<1是权重系数;
[0017] 再计算语义轨迹a和语义轨迹b的第一相似度为:
[0018]
[0019] 将语义轨迹b的时间线在每一步中平移At,再计算平移后语义轨迹a和语义轨迹b 的第二相似度:
[0020]
[0021 ]其中,Δ T=max( | ea,i · tin_eb,m. tout |,| eb,i · tin_ea,n. tout | ),n为语义轨迹a中边 的总数,m为语义轨迹b中边的总数,ea, l. tin为经过边ea,开始节点的时间戳,eb, l. tin为经过 边e,开始节点的时间戳,eb,m. tout为经过边eb,m结束节点的时间戳,ea,n. tout为经过边ea,n 结束节点的时间戳,在第r步平移了rX At的时间线标记为 7
[0022] 根据第一相似度和第二相似度,得到轨迹a和轨迹b的最大加权相似度:
[0023]
[0024] 本申请的有益效果是,由于本申请建立包含带有语义信息逗留点的路网集合,计 算语义轨迹a和语义轨迹b中边的公共区间长度、基于逗留点的两条边的相似度和基于距离 的正则化相似度,再计算语义轨迹a和语义轨迹b中两条边之间的相似度,根据边之间的相 似度,计算语义轨迹a和语义轨迹b的第一相似度和第二相似度,最终得到轨迹a和轨迹b的 最大加权相似度。因此,本申请在计算轨迹间的相似度时,使用了语义信息,使计算结果更 精准。
【附图说明】
[0025] 图1为实施例1中某种路网的不意图;
[0026] 图2为实施例1中某种路网轨迹的形状示意图;
[0027] 图3为实施例1中某种标记了逗留点的路网示意图;
[0028] 图4为图3中语义轨迹所对应的时间线示意图;
[0029] 图5为实施例1中语义轨迹a和语义轨迹b相对比的示意图。
【具体实施方式】
[0030] 下面通过【具体实施方式】结合附图对本发明作进一步详细说明。
[0031 ] 实施例1:
[0032] -种针对GIS数据的建模方法,包括以下步骤:
[0033 ] S101:获取GIS数据,从GIS数据中检测出带有语义信息的逗留点。
[0034] GIS即地理信息系统,可通过GIS定位技术获取用户的GIS数据,例如微信的位置服 务等,可用k-means聚类方法从GIS数据中检测出带有语义信息的逗留点,一个逗留点是指 一个移动的实体在某个地理范围内停留了一定时间的地方,语义信息包含时间和位置坐标 等信息。
[0035] S102:建立包含带有语义信息逗留点的路网集合GST(V VST,E EST,其中,V为节点的 集合,E为边的集合,VST为逗留点组成的节点集合,EST为两个逗留点连成的边以及一个逗留 点与其他节点连成的边的集合,路网集合Gst中包含语义轨迹a和语义轨迹b。
[0036] 如图1所示,路网中包括了节点¥1、¥2、¥3、¥4、¥5和¥6,每个节点表示道路交叉口, 节点之间的连线为边,一个边表示一个路段,而语义轨迹由一系列带有语义信息的逗留点 组成。图2示出了路网中轨迹的示意图,其中的箭头表示移动方向,从图中可看出,该语义轨 迹为 vl->v3->v5->v4->v2。
[0037] 为了将语义信息附着在轨迹信息上,我们将检测到的逗留点作为新节点添加进路 网中,形成最终的路网集合GST(V VST,E EST。每个逗留点都需要标注两个时间戳:到达时间 和离开时间,因此,需要定义最终的语义轨迹:P s τ (V ,tin . tout , (v ,tin ,tout. ,, v ,.tin ,tout ,其中,v为逗留点或节点,n 为逗留点和节点的数目,tin为到达时间,tout为离开时间。图3中,w,u3,u5,u 4,u2 e V为节 点,u7,u8,u9,u1Q e VST 为逗留点。
[0038] 将PST表示成一条由逗留点和道路交叉口组成的时间线。图4表示了图3中语义轨迹 所对应的时间线,时间线是由一系列连续的长方格组成的,每一个长方格都代表了一段路 程的行驶时间。长方格的长度就代表了从一个道路交叉口到下一个交叉口的行驶时间长 度。图4中共有五个长方格(vl,v3),(v3,v5),(v5,v4),(v4,v2),而tl,七4,七5,1:10,1:13分别 代表移动实体经过^1^3^5^4^2时的时间戳。同时,还标记了语义轨迹上的逗留点,图中 的斜线部分表示移动实体在逗留点的逗留时间,斜线部分的起点表示到达逗留点的时间 tin,斜线部分的终点表示离开逗留点的时间tout。图4中的四个斜线部分分别表示图3中语 义轨迹的四个逗留点?7^8^9^10,其逗留时间分别是(七2 43),&6 47),&8 49),(七11, tl2)〇
[0039] S103:计算语义轨迹a和语义轨迹b中边的公共区间长度| sim(ea,i,eb, j) |,其中, ea, i表示语义轨迹a中的第i条边,e,表示语义轨迹b中的第j条边。
[0040] 语义轨迹a和语义轨迹b为待研究对象,后文中,使用STNa表示语义轨迹a,STN表示 语义轨迹b。公共区间是指不同移动实体在同一时间间隔内所共现的相同或相近的逗留点, 其中,相近的逗留点是指逗留点之间的距离小于一定的罚值。语义轨迹a和语义轨迹b中边 的公共区间即语义轨迹a任意一边和语义轨迹b任意一边中相同或相近的逗留点。
[0041] S104:将语义轨迹a和语义轨迹b中每一对边的公共区间的长度相加,得到:
[0042]
[0043] 其中,| Sa |为语义轨迹a中逗留点的总长度,| Sb |为语义轨迹b中逗留点的总长度。 式中,分子是所有逗留点的公共区间的总长度,分母是两条轨迹中逗留点总长度的最大者。 如果公共区间的长度等于最大者的长度,则相似度为1;如果没有公共区间,则其相似度是 0〇
[0044] 这里需要说明的是,在计算公共区间之前,必然要先找出语义轨迹a和语义轨迹b 之间的公共区间。通过以下步骤过逐步过滤出不相同的公共区间:(1)首先检查两条语义轨 迹是否存在交叠的行驶时间;(2)如果行驶时间存在交叠,再检查它们是否隶属于同一条 边;(3)如果两条轨迹隶属于同一条边且行驶时间存在交叠,再检查同一条边上是否存在逗 留时间交叠的逗留点;(4)最后检查逗留时间交叠的逗留点是否相同或相近。
[0045] 如图5所示,具体解释上述的四个步骤。图中为语义轨迹a和语义轨迹b。显然,语义 轨迹a和语义轨迹b共享了很长一段时间的行驶时间。然后,检查它们是否隶属于同一条边。 图中,语义轨迹a的(vl,v2)和语义轨迹b的(vl0,v3)并不属于同一条边,它们之间不存在公 共区间。语义轨迹a和语义轨迹b的第二部分都是(v3,v4),且它们分别有三个和两个逗留 点。因为v7和vl2之间的距离小于Θ,它们之间存在公共区间;同理 V7,vl3之间也存在公共区 间。尽管V8和vl4之间的行驶时间存在交叠,但是它们之间的距离大于阀值Θ,所以不存在公 共区间。
[0046] S105:计算语义轨迹a和语义轨迹b中基于逗留点的两条边的相似度Sims Cea,i,e ,。
[0047] 因为建模时在时间维度上的严格约束,会有很多轨迹间的相似度为零。比如,即便 两条语义轨迹的形状和逗留点完全相同,但是两条轨迹在时间维度上没有任何重合的话, 则两条轨迹的相似度仍然为0。然而这种度量并不能确切地表征轨迹间的相似度。
[0048] 因