一种微博客蕴含交通信息融合的d-s证据理论方法

文档序号:6373890阅读:372来源:国知局
专利名称:一种微博客蕴含交通信息融合的d-s证据理论方法
技术领域
本发明涉及移动位置服务、互联网空间信息搜索,移动互联网络技术,具体涉及一种微博客蕴含交通信息融合的D-S证据理论方法。
背景技术
实时交通信息能够缓解交通拥堵、提高交通运输效率,保障交通安全,方便公众出行,现有的交通信息获取方式主要包括固定传感器技术(感应线圈、视频监控和微波探测),安装GPS和无线通讯设备的浮动车技术、移动通讯终端信令分析技术等,但这些采集手段在获取临时交通管制限制信息以及应对突发性交通事件等方面仍存在很大局限。微博客中蕴含着丰富的时效性很高的实时交通信息,涵盖各种交通信息类型,例如包括道路交通流、道路畅通度和行驶速度、交通限制、临时交通管制、突发性交通事件、针对特定地点的
交通状态描述信息等,获取微博客中蕴含的高动态的实时交通信息能够弥补现有交通信息采集手段的不足。然而,微博客消息的高动态性、模糊性及其不同微博客用户发布消息的描述差异性使得信息融合成为信息提取的瓶颈问题,直接影响了微博客蕴含实时交通信息的利用。微博客交通信息融合是对不同微博客消息所蕴含的交通信息内容进行推理决策,获取准确的交通状态描述信息,更好地服务于交通管理与出行服务。微博客交通信息融合的难点在于(1)微博客消息的非结构化特征造成语义理解困难由于微博客消息内容精简,仅140字左右,且口语化特征明显,含有较多冗余内容,给自动化的语义判断与提取造成很大压力;(2)不同微博客用户发布消息对交通状态的描述差异造成信息汇集矛盾在一定时间段内,可能存在描述同一路段交通状态的多条微博客消息。针对同一路况,不同用户的描述可能差异很大,有些描述甚至语义相斥。为解决该问题,目前采用的技术为文本聚类方法,当文本具有一定词汇数量时,文本聚类过程才能够确定准确的文本主题描述。但微博客消息内容短小,在经过分词、词义消歧、词义干化等过程后,可以利用的交通状态描述关键词汇很少。因此,文本聚类并不能很好地解决微博客消息描述的模糊性以及不同微博客用户消息描述的差异性。为此,本专利针对上述信息融合问题,提出一种基于D-S证据理论的微博客交通信息融合方法。该方法通过引入中文语料库资源,来丰富微博客的语义信息,解决微博客描述的模糊性问题。在中文语料库知识基础之上,实现了对微博客内容进行词义相似度加权评价,接着利用证据理论来处理由于不同微博用户的差异性造成的信息融合的不确定性推理问题,从而确定融合结果。给动态交通信息收集提供了一种新的解决方案,弥补传统的动态交通信息采集技术相对比较薄弱的环节。

发明内容
本发明要解决的技术问题是针对目前微博客中蕴含的大量交通信息难以充分融合利用,传统动态交通信息收集方法,很难及时反应突发性的路况信息的现状。本发明提出一种微博客蕴含交通信息融合的D-S证据理论方法,为动态交通信息的收集提供又一重要的数据源。该方法解决了微博客消息的非结构化特征造成语义理解困难以及不同微博客用户发布消息对交通状态的描述差异造成信息汇集矛盾,可直接应用于个人及车载导航、移动位置服务、地图网站、专业的出行信息服务平台、物流调度以及交通应急预案。本发明的技术解决方案为一种微博客蕴含交通信息融合的D-S证据理论方法,包括根据交通拥挤程度,确定证据理论辨识框架Θ及命题空间2θ ;根据有效时间窗Tintwval和路网路段road,抓取与交通信息主题相关的微博客内容,组成需要融合的微博客数据集V ;微博客信息Vi预处理操作,包括自然语言分词、词义消歧、词义干化,得到微博客 交通状态描述词汇集Wi ;引入中文语料库资源Corpus = {C
wikipedia,Chownet,· · ·,^numI, 计算微博客交通状态词汇集Wi与命题空间中词汇的词义相似度Sim ;计算微博客消息Vi的词义相似度加权评价Scorei,确定证据理论基本概率分配函数 Hl(Vi);通过Dempster合成法则进行证据合成及证据决策,确定该路段road微博客蕴含交通信息融合结果TStateMad ;优选地,所述根据交通拥挤程度确定证据理论辨识框架包括交通拥挤程度的确定可参照部分国家标准,如公安部2002年公布的《城市交通管理评价指标体系》对路网交通拥挤程度分类;交通拥挤程度的确定与实际融合需求相关;证据理论辨识框架及命题空间不限制大小;优选地,所述根据有效时间窗口及路网路段,抓取交通信息主题相关微博客,组成需要融合微博客数据集V包括有效时间窗口 T定义为交通信息时间Tmt进行扩充而形成的时间段,即T =[Tcurrent Ata Tcurrent + Atb]其中Ata与Atb用户定义参数;路网中路段以路网道路名称为研究对象或者以导航路网中的道路分段为研究对象;微博客数据集V与实际选取的路网路段相关;微博客数据集V的构建过程是本专利不涉及的;微博客数据集V不限制其存储形式,可以是数据库或者数据文件;优选地,所述对引入中文语料库资源Corpus,计算微博客交通状态词汇集Wi与命题空间中词汇的词义相似度Sim包括中文语料库资源Corpus不限制语料库类型,可以为维基百科,知网等;词义相似度Sim的计算过程是本专利不涉及的;优选地,所述微博客内容的词义相似度相似度加权评价Score,确定微博客的基本概率分配函数Hl(Vi)包括微博客内容词义相似度加权评价计算,具体为
权利要求
1.一种微博客蕴含交通信息融合的D-S证据理论方法,其特征在于,步骤包括 根据交通拥挤程度,确定证据理论辨识框架 及命题空间2Θ ; 根据有效时间窗Tinteval和路网路段road,抓取与交通信息主题相关的微博客内容,组成需要融合的微博客数据集V ; 微博客信息Vi预处理操作,包括自然语言分词、词义消歧、词义干化,得到微博客交通状态描述词汇集Wi ;引入中文语料库资源Corpus = ICwikipedia, Chownet, . . . , CmJ ,计算微博客交通状态词汇集Wi与命题空间中词汇的词义相似度Sim ; 计算微博客消息\的词义相似度加权评价Scorei,确定证据理论基本概率分配函数Hl(Vi); 通过Dempster合成法则进行证据合成及证据决策,确定该路段road微博客蕴含交通イH息融合结果TStateroadO
2.根据权利要求I所述的方法,其特征在于,所述根据交通拥挤程度确定证据理论辨识框架包括 交通拥挤程度的确定可參照部分国家标准,如公安部2002年公布的《城市交通管理评价指标体系》对路网交通拥挤程度分类; 交通拥挤程度的确定与实际融合需求相关; 证据理论辨识框架及命题空间不限制大小。
3.根据权利要求I所述的方法,其特征在于,所述根据有效时间窗ロ及路网路段,抓取交通信息主题相关微博客,组成需要融合微博客数据集V包括 有效时间窗ロ T定义为交通信息时间Tmt-行扩充而形成的时间段,即T =[Tcurrent 八 Tcurrent + Atb]其中Ata与Atb用户定义參数; 路网中路段以路网道路名称为研究对象或者以导航路网中的道路分段为研究对象; 微博客数据集V与实际选取的路网路段相关; 微博客数据集V的构建过程是本专利不涉及的; 微博客数据集V不限制其存储形式,可以是数据库或者数据文件。
4.根据权利要求I所述的方法,其特征在于,所述对引入中文语料库资源Corpus,计算微博客交通状态词汇集Wi与命题空间中词汇的词义相似度Sim包括 中文语料库资源Corpus不限制语料库类型,可以为维基百科,知网等; 词义相似度Sim的计算过程是本专利不限定。
5.根据权利要求I所述的方法,其特征在于,所述微博客内容的词义相似度相似度加权评价Score,确定微博客的基本概率分配函数Hi(Vi)包括 微博客内容词义相似度加权评价计算,具体为Scorek = I Simiterml,k) · log(-· boost(M.yer) 其中,k为证据理论命题空间中的命題,term微博客交通状态描述词汇集Wi词汇,sum为微博客的数量,num(k)为包含命题k的微博客数量,boost (user)为该微博客用户的激励函数,反映了该用户的重要程度,默认值为1,该值越大说明该用户越重要。
微博客内容的基本概率分配函数计算,具体为
6.根据权利要求I至5任一项所述的方法,其特征在于,所述方法还包括 根据用户提供的所要融合路段及融合时间条件,完成所述微博客蕴含交通信息融合; 根据用户提供的所要融合区域内路段及融合时间条件,完成所述微博客蕴含交通信息融合。
全文摘要
本发明公开了一种微博客蕴含交通信息融合的D-S证据理论方法,所述方法包括根据交通拥挤程度,确定证据理论辨识框架及命题空间;根据时间窗口及道路路段,抓取与交通信息主题相关的微博客内容,组成需要融合的微博客数据集;微博客数据集预处理;计算微博客数据集交通状态描述词汇的词义相似度,引入中文语料库资源,提高词义相似度计算精度;计算微博客词义相似度加权评价,构建证据理论基本概率分配函数;根据Dempster组合规则对多条微博客证据源,进行证据合成,确定辨识空间内各命题的信任区间,选取信任区间中信任函数最大的命题作为融合结果。利用本发明可以实现微博客蕴含交通信息的融合,为城市交通信息的采集提供一种重要数据源。
文档编号G06F17/27GK102855272SQ201210243199
公开日2013年1月2日 申请日期2012年7月16日 优先权日2012年7月16日
发明者陆锋, 张恒才 申请人:中国科学院地理科学与资源研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1