网络言论数据疑似犯罪度计算方法

文档序号:9417403阅读:686来源:国知局
网络言论数据疑似犯罪度计算方法
【技术领域】
[0001] 本发明属智能化安防技术领域,具体涉及一种基于犯罪心理学与文本分析的网络 言论犯罪度理论,以及基于此理论的网络言论数据疑似犯罪度计算方法。
【背景技术】
[0002] 智能化安防技术的主要内涵是其相关内容和服务的信息化、图象的传输和存储、 数据的存储和处理等等。就智能化安防来说,一个完整的智能化安防系统主要包括门禁、 报警和监控三大部分。目前,国家大力发展安防系统,并将其运用到实际安防领域,大大提 高了犯罪事件的侦破效率,并为国家全面监控各个区域局势提供了保证。同时,智能化安防 系统为案件的侦破提供了重要的线索和依据。
[0003] 然而传统的智能化安防技术存在明显的缺点,即无法提前预警犯罪事件的发生, 智能化也是相对原始的安防手段来说的,并未达到真正意义上的智能化。如果我们能提前 预警犯罪事件的发生,将减少或者避免不必要的损失,有时候该损失是巨大的,比如恐怖主 义袭击、银行劫案或者暴力杀人事件等,因此,对犯罪事件预警方法的研究具有重要的意 义。
[0004] 目前对犯罪事件的预警方法主要是通过监控画面中人物的行为分析实现的,该技 术尚不成熟且某个体或团体既已表现出行为异常那预示着犯罪准备条件已经具备,伴随而 来的很可能是马上实施犯罪,这给阻止犯罪事件的发生带来了很大的难度。目前急需一种 理论能洞察犯罪心理的形成,将预警机制提前到犯罪心理的形成以及犯罪准备阶段。
[0005] 以博客、微博和社区论坛等为代表的新型社交网络的出现和快速发展,使得用 户产生数据的意愿更加强烈。用户原创内容类数据近几年一直呈现爆炸性的增长,越来 越多的人喜欢将自己的心情、活动等信息以文本的形式发表于社交网络,如微信、新浪微 博、腾讯微博以及贴吧论坛等。犯罪心理学认为犯罪行为与犯罪心理息息相关,心理状态 通常又能通过言论表现出来。John Langshaw Austin的言语行为理论认为语言不仅是 表达也是做事,言(saying)即是行(doing),奥斯汀称这种意义上的言语行为为"说话行 为"(locutionary act)。该行为不仅能反映说话者意欲为之的内容,还能反映出说话人的 思想、情感、思维等主观意志。因此通过对网络言论的分析来预测一个人的犯罪可能性是有 科学依据的,如何利用网络上海量的言论数据预测犯罪事件的发生将成为关键性问题。然 而无论国际上还是国内对该方向的研究都非常少,更是难以找到一个理论或数学模型去定 义和计算犯罪事件发生的可能性。因此研究犯罪行为与网络言论之间的关系将具有重要意 义,如何通过对网络言论的分析构建一个理论体系与数学模型来预警犯罪事件的发生显得 尤为重要。

【发明内容】

[0006] 本发明的目的在于构建起一套基于犯罪心理学与文本分析的网络言论疑似犯罪 度理论,提供一种基于该理论的网络言论数据疑似犯罪度计算方法。
[0007] 本发明的网络言论数据疑似犯罪度计算方法,包括下列步骤:
[0008] 1.定义网络言论疑似犯罪度:社交网络上某ID通过其言论表现出来的犯罪可能 性大小。
[0009] 2.网络言论疑似犯罪度的影响因素判断,具体包括下列步骤:
[0010] 2. 1需求因素判断:犯罪心理学认为犯罪的诱因为行为人的需求得不到满足,本 发明通过朴素贝叶斯分类器对网络言论是否有需求得不到满足语义倾向进行判断,具体包 括下列步骤:
[0011] 2. I. 1在社交网络上收集初始言论样本,将其中的言论分为有需求得不到满足之 意的言论,标注为1 ;没有需求得不到满足之意的言论,标注为〇;为尽量避免人为因素影 响,标注过程采用两人同时标注取标注相同的言论作为初始言论样本的方式。
[0012] 2. 1. 2预处理:将步骤2. I. 1中收集的初始言论样本去除标点和停顿词,分词冲 文停顿词无实际意义,并且会给语义分析带来干扰,所以去除停顿词,停顿词指汉语中表示 停顿、无实际意义的词;;中文不同于英文,中文词语之间没有分隔符,所以要分词,即将一 个句子分为若干单词。
[0013] 2. 1. 3将预处理后的言论样本中标注为1和标注为0的言论中70%的言论归类为 待用训练言论样本;剩下的30%的言论归类为待用测试言论样本。
[0014] 待用训练言论样本指用于分类器训练形成预测函数的言论数据。
[0015] 待用测试言论样本指用于分类器测试,衡量分类器分类性能的言论数据。
[0016] 2. 1. 4将步骤2. 1. 3中的待用训练言论样本放到朴素贝叶斯分类器中训练得到预 测函数为:
[0017]
[0018] 其中:vNB表示朴素贝叶斯分类器输出的目标值;集合V是标注集合{1,0} ;P(V ]) 代表不同标注的数据量占总数据量的比例两表示测试样本中不同位置的词语。
[0019] 用预测函数预测待用测试言论样本的类型,与标注类型比较,得出分类器预测待 用测试言论样本的正确率。
[0020] 2. 2情绪因素判断:采用基于台湾大学情感词库NTUSD的方法,判断网络言论表现 出的情绪是否消极,消极情绪是否累积与叠加,具体包括下列步骤:
[0021] 2. 2. 1预处理:一条言论可能有多句话,每句话可能表达不同情感,要看总的情感 极性,要对每句话进行分析,对每条网络言论按标点分句、分词、去除停顿词。
[0022] 2. 2. 2情感极性判断:
[0023] (1)定义每条言论的总情感值为emotionValue,简称eV ;
[0024] (2)定义一条言论中一句话的情感值为sonEmotionValue,简称sV ;
[0025] (3)词语匹配
[0026] a.匹配情感词:有一个消极词汇sV减1,有一个积极词汇sV加1,中性词sV值不 变;
[0027] b.匹配否定词:有奇数个否定词sV正负号取反,有偶数个否定词sV符号不变;正 负号取反指若sV原来为正,则取负;sV原来为负,则取正;
[0028] c.匹配程度词:有一个程度词,sV符号不变,绝对值加1 ;程度词指表示程度的修 饰词,如很、非常。
[0029] d.计算eV,每条言论的总情感值eV等于言论中m句话的sV求和;如果eV〈0,
[0030] η 加 1。
[0031] (4)重复步骤2. 2. 2的(1)、(2)、(3)、(4),判断所有N条言论的情感极性。
[0032] 2. 2. 3计算消极强度IoN
[0033]
Cl)
[0034] 其中:IoN表示消极强度,衡量消极言论的积累程度,并为总的网络言论犯罪度做 得分修正;N为监测最近言论的数量;η为最近N条言论中消极言论的数量;
[0035] 犯罪心理学认为消极犯罪心理有两种发展趋势,主导因素为情绪。如果消极情绪 得到释放,就会消除警戒恢复正常;如果消极情绪积累下去得不到缓解就会引发犯罪。所以 犯罪强度的定义中我们只取最近的N条言论。
[0036] 2. 3准备因素判断:综合运用机器学习和情感词典的方法,分析言论中是否有为 犯罪做准备的语义倾向,具体包括下列步骤:
[0037] 2· 3· 1构建犯罪敏感词词典:
[0038] 通过网络敏感词词典,筛选出犯罪敏感词(比如枪,买枪,炸药等),再通过犯罪类 书籍和相关资料扩充犯罪敏感词词典;
[0039] 2. 3. 2根据步骤2. 3. 1构建的犯罪敏感词词典,对检测出的网络言论中含有犯罪 敏感词的言
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1