本发明属于数据挖掘与城市计算领域,具体涉及一种基于知识图谱的城市物联网数据分析框架。
背景技术:
信息通信技术(ict)和物联网(iot)的快速发展已经给城市的物理基础设施、建筑物、城市交通系统带来的巨大的变化。物理网设备和应用平台的融合对于智慧城市起着相当重要的作用。现阶段,数以亿计的物理传感器和社交媒体等每时每刻都产生着海量的数据流,为各种各样的城市应用服务。然而,直观地利用现有的人工智能技术统一物联网数据是相当困难的。传统的做法通常是利用语义映射封装底层的传感器,对外发布各种网络服务。
然而,城市的数据具有异构性的特点。例如,兴趣点数据是由地理坐标位置和所属分类来描述的,而空气质量数据是一组带有地理标签的时间序列。不同传感器的数据拥有不同的数据类型、数据分布、规模。此外,城市现有的数中隐藏有很多潜在的关联。现阶段,语义网技术已经被视为物联网技术的关键因素。然而,现有的框架都是面向特定传感器的数据流的应用,缺少结构化知识的表达、城市应用的通用框架和机器学习的整合。因此,将传感器的数据流组织成结构化的知识图谱,结合机器学习手段进行特征融合是相当可行的。
技术实现要素:
有鉴于此,本发明提供了一种基于知识图谱的城市物联网数据分析框架。相比其他方法,本发明框架实现了城市底层物联网抽象、城市知识图谱的构建以及数据特征融合。
一种基于知识图谱的城市物联网数据分析框架,包括:
背景知识库,存储每个区域的静态数据;
物理实体层,采集每个区域的社交媒体传感器数据和物理传感器数据,形成数据流;
抽象实体层,为物理实体层的数据流添加语义标注,使来源于不同数据源的数据转化为通用的数据格式,并根据用户需求构造虚拟实体;
数据流层,根据应用需求将抽象实体层中处理后的相应数据流发送至融合层;
融合层,根据虚拟实体融合接收的数据流中相应的社交媒体数据与传感器数据、背景数据库中的背景数据,并将其结构化组织成城市知识图谱;
应用层,将城市知识图谱通过接口输送至外部;或通过自身整合的机器学习框架,实现对城市知识图谱的分析。
所述的机器学习框架包括迁移学习和极限学习,将城市知识图谱作为机器学习框架的输入,能够解决数据稀缺和学习效率问题。
所述背景知识库的构建为:
利用openstreetmap或baidumapapi获得与时间无关的静态数据;
利用yago2或wikidata获得每个静态数据映射到的实体,得到实体拥有的属性关系,组成背景知识库。
对于每个区域,利用传感器不仅获得非结构化的数据如兴趣点等,还利用现有的知识库获得结构化语义书。例如,除了可以获得一个区域有“星巴克”,同时这类是属于“咖啡店”,也可以从知识库获得“离这个地点最近的咖啡店”、“这个城市最大的星巴克再哪里”等知识。
所述的物理实体层中的每一个传感器根据逻辑实体(ae)和通用服务实体(cse)来为上层的应用提供相应的数据流。onem2m(onemachinetomachine,一种统一的物联网)国际标准中,逻辑实体是指的是应用实体(applicationentity,ae),也就是具体的数据资源的来源,如社交媒体、空气质量、出租车轨迹、交通状况等。通用服务实体(commonserviceentity,cse)是onem2m定义的一套服务功能,这些功能通过各种接口开放给其他层如抽象实体层,是层之间数据的桥梁。
所述的物理实体层是一个底层的数据接口,从传感器等数据源获得数据,将数据和实体做语义映射,然后作为抽象实体层的输入。
所述的抽象实体层隐藏了底层的复杂设备,比如,空气质量传感器、空气状况相关的微博文本信息、空气质量发布平台等都是可以获得空气质量数值的数据源,抽象实体“空气质量(虚拟的并不存在)”整合了以上的多个空气质量数据源,并隐藏了不同数据源之间获取数据方式的差异性。通过访问抽象实体可以获得空气质量数据而无需关心底层复杂的设备。
每一个抽象实体层的虚拟实体其实都是由融合层带来的外部应用需求创造的。例如,一个用户请求某一个区域的空气质量,然后一个新的虚拟实体(融合了空气传感器和空气质量相关的社交媒体)就被创造出来,通过查询这一虚拟实体,无需关系底层细节就可以获得区域的空气质量。
所述的数据流层中的数据是rdf四元组(subject,predicate,object,time),其中,subject是语义中的主语,也就是一个实体;object是语义中的宾语,也就是一个实体;predicate是语义中的谓语,也就是关系;time是时间。数据流层中包含了所有设备获得的抽象语义数据。以交通预测为例,数据流层的数据就是根据应用需求,利用窗口将交通信息的数据组织成rdf四元组数据流。
应用层利用数据流层提供的实时数据流和融合得到的结构化城市知识图谱为应用服务,除了能够提供预测、监测等服务之外,还能够对结果提供一定的分析和解释。例如,监测发现一个区域经常在20:00发生交通拥堵,然而根据实时数据很难解释原因。利用城市知识图谱发现相邻的区域中的一个火车站刚好在20:00有数趟列车进站,因此导致了临近街区的拥堵。此外,应用层还能利用迁移学习等技术为某些区域的数据稀疏提供帮助。
传统的对城市物联网数据分析,只能针对特定的应用,而且无法利用静态的城市固有数据;而本发明基于结构化的城市知识图谱,能够融合结构化语义数据和实时流数据,是一个通用的框架。具体优势体现如下:
(1)本发明对城市数据中的不同类型的数据利用结构化的组织方式进行了链接,可以挖掘其中潜在的语义特征,对解决实际问题提供帮助。
(2)本发明构建了城市知识图谱,其有助于解释实际问题中预测或监测结果的原因。
(3)本发明在应用层整合了机器学习框架,对于数据较少的区域可采用迁移学习方式比单纯用本区域数据取得更好的效率。
附图说明
图1是本发明知识图谱的城市物联网数据分析框架的框图;
图2是利用本发明方法建立的城市知识图谱概念图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
参见图1,本发明知识图谱的城市物联网数据分析框架具体包括:
背景知识库,存储每个区域的静态数据;
物理实体层,采集每个区域的社交媒体传感器数据和物理传感器数据,形成数据流;
抽象实体层,为物理实体层的数据流添加语义标注,使来源于不同数据源的数据转化为通用的数据格式,并根据用户需求构造虚拟实体;
数据流层,根据应用需求将抽象实体层中处理后的相应数据流发送至融合层;
融合层,根据虚拟实体融合接收的数据流中相应的社交媒体数据与传感器数据、背景数据库中的背景数据,并将其结构化组织成城市知识图谱;
应用层,将城市知识图谱通过接口输送至外部;或通过自身整合的机器学习框架,实现对城市知识图谱的分析。
实施例1
本实施例以上海为例,根据上海的道路状况将上海划分成22053个区域。对于每一个区域,利用openstreetmap、baidumapapi等接口获得区域内的兴趣点等数据。对于区域内的每一个兴趣点,查询现有的知识库例如wikidata、yago2等,映射到相应的实体,获取实体拥有的属性关系,到此为止,城市的静态数据构建完毕。
然后,构建物理实体层、抽象实体层、数据流层。事实上,对于所有的应用,物理实体层是通用的,起一个数据和实体之间的语义映射的功能。抽象实体层是根据数据融合层获得的具体应用需求来构建的。以交通监测为例,整合交通相关的所有底层物理实体,构建交通监测抽象实体。之后,根据应用的需求,利用窗口将流式抽象实体层的数据发送到数据融合层。到此为止,实时的流式数据构建完毕。
数据融合层主要是承上启下的作用,将静态的数据和流式数据融合,构建如图2所示的结构化的城市知识图谱,同时利用数据融合生成应用相关的特征向量(时间片段)。特征向量可以作为各种机器学习算法的输入,如果区域的数据稀疏性较大,可以利用丰富数据区域的特征向量做迁移学习。应用层是应用的接口,应用的输入主要是实时数据流、数据融合层构建的城市知识图谱和具体应用的需求,输出是需要预测或监测的结果,可采用网络服务的方式发布出去。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。