一种识别网络文字信息的语种的方法及系统的利记博彩app

文档序号:6630087阅读:271来源:国知局
一种识别网络文字信息的语种的方法及系统的利记博彩app
【专利摘要】本发明提供了一种识别网络文字信息的语种的方法及系统,通过在网络接入位置采集上网设备在上网时产生的上网数据包,之后获取所述上网数据包中包含的文字信息并根据所述文字信息识别所述上网设备产生的文字信息的语种。因此本发明所述识别网络文字信息的语种的方法及系统,无需在上网设备上安装客户端即可获取所述上网数据包并能从中识别文字信息的语种,而根据所述语种即可判断出所述上网设备的持有人所属的民族,使得安全部门能够有针对性的对某些特定人群(比如某一民族范围内的人群)进行监控,提高了监察效率,有利于安全部门及时获取到与恐怖活动相关的情报,维护社会的稳定。
【专利说明】一种识别网络文字信息的语种的方法及系统

【技术领域】
[0001]本发明涉及数据采集处理技术。具体地说涉及一种识别网络文字信息的语种的方法及系统。

【背景技术】
[0002]现阶段,世界范围内民族矛盾突出,基于民族特征的暴力恐怖事件频繁发生。而随着网络技术的快速发展,互联网上信息资源的数量急剧增长,上网用户群体也不断扩大,上网设备的持有人通过网络可以进行发送邮件、聊天、论坛发帖以及浏览网页等操作,在进行这些操作的同时会产生包含上述操作信息的上网数据包,因此,如果能对所述上网数据包加以分析,将有可能获取到上网设备的持有人的某些信息,比如上网设备的持有人所输入的文字信息所属的语种,进而判断出其所属的民族,使得安全部门能够有针对性的对某些特定人群(比如某一民族范围内的人群)进行监控,提高了监察效率,有利于安全部门及时获取到与恐怖活动相关的情报,维护社会的稳定。
[0003]但现有技术中要获取上述上网数据包存在很多技术上的困难和挑战,一般需要在上网设备上安装客户端才能实现对上述数据的采集,但不同的上网设备往往使用不同的操作系统,这就需要开发出多种与操作系统相匹配的客户端,开发工作量非常大,上网设备的操作系统升级的时候,也需要对客户端进行同步升级,使得系统的维护成本非常高,而且上网设备持有人在安装客户端时往往特别小心,经常会发生拒绝安装客户端的现象,而客户端安装不了,就不能获取到上网设备的上网数据包,识别上网数据包中包括的文字信息的语种当然也就无法实现了。


【发明内容】

[0004]为此,本发明所要解决的技术问题在于现有技术中需要在上网设备上安装客户端才能获取到上网设备持有人在上网时产生的上网数据包,从而提供一种无需在上网设备上安装客户端即可获取上网数据包并能从中识别文字信息的语种的识别网络文字信息的语种的方法及系统。
[0005]为解决上述技术问题,本发明的技术方案如下:
[0006]本发明提供了一种识别网络文字信息的语种的方法,包括如下步骤:
[0007]在网络接入位置采集上网设备在上网时产生的上网数据包;
[0008]获取所述上网数据包中包含的文字信息;
[0009]根据所述文字信息识别所述上网设备产生的文字信息的语种。
[0010]本发明所述的识别网络文字信息的语种的方法,所述获取所述上网数据包中包含的文字信息的步骤,包括:
[0011]根据传输层协议将所述上网数据包重组成传输层会话数据流;
[0012]根据超文本标记语言HTML协议解析出所述传输层会话数据流中包含的数据;
[0013]从所述数据中提取出其包含的文字信息。
[0014]本发明所述的识别网络文字信息的语种的方法,所述根据所述文字信息识别所述上网设备产生的文字信息的语种的步骤,包括:
[0015]解析出所述文字信息中包含的每个字符在Unicode中对应的字符编码;
[0016]根据所述字符编码得到所述文字信息在Unicode中的编码范围;
[0017]根据所述编码范围识别出所述文字信息的语种。
[0018]本发明所述的识别网络文字信息的语种的方法,在所述根据所述文字信息识别所述上网设备产生的文字信息的语种之后还包括:
[0019]根据所述文字信息的语种对所述文字信息进行分类存储。
[0020]本发明还提供了一种识别网络文字信息的语种的系统,包括:
[0021]采集装置,用于在网络接入位置采集上网设备在上网时产生的上网数据包;
[0022]获取装置,用于获取所述上网数据包中包含的文字信息;
[0023]识别装置,用于根据所述文字信息识别所述上网设备产生的文字信息的语种。
[0024]本发明所述的识别网络文字信息的语种的系统,所述获取装置包括:
[0025]重组单元,用于根据传输层协议将所述上网数据包重组成传输层会话数据流;
[0026]第一解析单元,用于根据超文本标记语言HTML协议解析出所述传输层会话数据流中包含的数据;
[0027]提取单元,用于从所述数据中提取出其包含的文字信息。
[0028]本发明所述的识别网络文字信息的语种的系统,所述识别装置包括:
[0029]第二解析单元,用于解析出所述文字信息中包含的每个字符在Unicode中对应的字符编码;
[0030]范围获取单元,用于根据所述字符编码得到所述文字信息在Unicode中的编码范围;
[0031]语种识别单元,用于根据所述编码范围识别出所述文字信息的语种。
[0032]本发明所述的识别网络文字信息的语种的系统,还包括:
[0033]分类存储装置,用于根据所述文字信息的语种对所述文字信息进行分类存储。
[0034]本发明的上述技术方案相比现有技术具有以下优点:
[0035]本发明提供了一种识别网络文字信息的语种的方法及系统,通过在网络接入位置采集上网设备在上网时产生的上网数据包,之后获取所述上网数据包中包含的文字信息并根据所述文字信息识别所述上网设备产生的文字信息的语种。因此本发明所述识别网络文字信息的语种的方法及系统,无需在上网设备上安装客户端即可获取所述上网数据包并能从中识别文字信息的语种,而根据所述语种即可判断出所述上网设备的持有人所属的民族,使得安全部门能够有针对性的对某些特定人群(比如某一民族范围内的人群)进行监控,提高了监察效率,有利于安全部门及时获取到与恐怖活动相关的情报,维护社会的稳定。

【专利附图】

【附图说明】
[0036]为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
[0037]图1是实施例1所述识别网络文字信息的语种的方法的步骤框图;
[0038]图2是获取上网数据包中包含的文字信息方法的步骤框图;
[0039]图3是根据文字信息识别上网设备产生的文字信息的语种方法的步骤框图;
[0040]图4是实施例2所述识别网络文字信息的语种的系统的结构框图;
[0041]图5是获取装置的结构框图;
[0042]图6是识别装置的结构框图。
[0043]图中附图标记表示为:1_采集装置,2-获取装置,3-识别装置,4-分类存储装置,21-重组单元,22-第一解析单元,23-提取单元,31-第二解析单元,32-范围获取单元,33-语音识别单元。

【具体实施方式】
[0044]实施例1
[0045]本实施例提供了一种识别网络文字信息的语种的方法,如图1所示,包括如下步骤:
[0046]S1.在网络接入位置采集上网设备在上网时产生的上网数据包。
[0047]S2.获取所述上网数据包中包含的文字信息。
[0048]S3.根据所述文字信息识别所述上网设备产生的文字信息的语种。
[0049]优选地,所述步骤S3之后还包括如下步骤:
[0050]S4.根据所述文字信息的语种对所述文字信息进行分类存储。
[0051]具体地,可以通过设置于网络接入位置的数据采集节点在网络接入位置采集上网设备在上网时产生的上网数据包。可以通过轮询的模式采集各个上网设备的上网数据包。
[0052]具体地,也可以先存储上网数据包,再对存储的上网数据包执行上述操作识别出上网设备产生的文字信息的语种,语种识别之后再按照语种对存储的数据按照语种进行分类标识;也可以先执行上述操作识别出上网设备产生的文字信息的语种后按照语种对文字信息进行分类存储。总之,对数据的存储可以在识别之前进行,也可以在识别之后进行,可以在搭建系统的时候根据系统架构具体情况来确定。
[0053]优选地,如图2所示,所述获取所述上网数据包中包含的文字信息的步骤,可以包括:
[0054]S21.根据传输层协议将所述上网数据包重组成传输层会话数据流。
[0055]S22.根据超文本标记语言HTML协议解析出所述传输层会话数据流中包含的数据。
[0056]S23.从所述数据中提取出其包含的文字信息。
[0057]具体地,上网设备持有人利用上网设备进行发送邮件、聊天、网上论坛留言等操作时,一般都会进行文字输入,因此上网设备在上网时产生的上网数据包中就会包含上述文字信息,当采集到上述上网数据包后,通过传输层协议将所述上网数据包重组成传输层会话数据流,根据超文本标记语言HTML协议即可解析出所述传输层会话数据流中包含的数据,所述数据中就包括了上网设备的MAC地址,上网类型(发送邮件、浏览网页、论坛发帖、聊天等)以及上网内容(邮件内容、网站URL地址发帖内容、聊天对象、聊天内容)等数据,因此从上述数据中即可提取出其包含的文字信息,比如邮件内容、聊天内容、发帖内容等。
[0058]优选地,如图3所示,所述根据所述文字信息识别所述上网设备产生的文字信息的语种的步骤,可以包括:
[0059]S31.解析出所述文字信息中包含的每个字符在Unicode中对应的字符编码。
[0060]S32.根据所述字符编码得到所述文字信息在Unicode中的编码范围。
[0061]S33.根据所述编码范围识别出所述文字信息的语种。
[0062]具体地,解析出文字信息中包含的每个字符在Unicode(统一码、万国码、单一码)中对应的字符编码,就可以根据字符编码获取到文字信息在Unicode中的编码范围,比如编码范围在(4E00-9FBF)中时,就可以通过查询比对的方式根据该编码范围识别出其对应的文字信息的语种为中文,当编码范围处于(0600-06FF,0750-077F,FB50-FDFF,FE70-FEFF)中时,就可以识别出该编码范围对应的文字信息的语种为阿拉伯文,当编码范围在(1800-18AF)中时,就可以识别出该编码范围对应的文字信息的语种为蒙古文等等。而通过所述文字信息的语种,就可以判断出上网设备持有人的民族,是中国人、阿拉伯人、蒙古人还是其他国家、民族的人。语种确认后,再根据文字信息的语种对文字信息进行分类存储,例如按照中文信息、英文信息、藏文信息、维文信息、中英混合信息、中维混合信息等对所述文字信息进行分类存储和展示,有利于后期的查询和监测。
[0063]本实施例所述识别网络文字信息的语种的方法,无需在上网设备上安装客户端即可获取所述上网数据包并能从中识别文字信息的语种,而根据所述语种即可判断出所述上网设备的持有人所属的民族,使得安全部门能够有针对性的对某些特定人群(比如某一民族范围内的人群)进行监控,提高了监察效率,有利于安全部门及时获取到与恐怖活动相关的情报,维护社会的稳定。
[0064]实施例2
[0065]本实施例提供了一种识别网络文字信息的语种的系统,如图4所示,包括:
[0066]采集装置1,用于在网络接入位置采集上网设备在上网时产生的上网数据包。
[0067]获取装置2,用于获取所述上网数据包中包含的文字信息。
[0068]识别装置3,用于根据所述文字信息识别所述上网设备产生的文字信息的语种。
[0069]优选地,还可以包括分类存储装置4,用于根据所述文字信息的语种对所述文字信息进行分类存储。
[0070]优选地,所述获取装置2可以包括:
[0071 ] 重组单元21,用于根据传输层协议将所述上网数据包重组成传输层会话数据流。
[0072]第一解析单元22,用于根据超文本标记语言HTML协议解析出所述传输层会话数据流中包含的数据。
[0073]提取单元23,用于从所述数据中提取出其包含的文字信息。
[0074]优选地,所述识别装置3可以包括:
[0075]第二解析单元31,用于解析出所述文字信息中包含的每个字符在Unicode中对应的字符编码。
[0076]范围获取单元32,用于根据所述字符编码得到所述文字信息在Unicode中的编码范围。
[0077]语种识别单元33,用于根据所述编码范围识别出所述文字信息的语种。
[0078]本实施例所述识别网络文字信息的语种的系统,无需在上网设备上安装客户端,通过采集装置I即可获取所述上网数据包并通过获取装置2和识别装置3从中识别出文字信息的语种,而根据所述语种即可判断出所述上网设备的持有人所属的民族,使得安全部门能够有针对性的对某些特定人群(比如某一民族范围内的人群)进行监控,提高了监察效率,有利于安全部门及时获取到与恐怖活动相关的情报,维护社会的稳定。
[0079]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0080]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0081]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0082]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0083]尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
【权利要求】
1.一种识别网络文字信息的语种的方法,其特征在于,包括如下步骤: 在网络接入位置采集上网设备在上网时产生的上网数据包; 获取所述上网数据包中包含的文字信息; 根据所述文字信息识别所述上网设备产生的文字信息的语种。
2.根据权利要求1所述的识别网络文字信息的语种的方法,其特征在于,所述获取所述上网数据包中包含的文字信息的步骤,包括: 根据传输层协议将所述上网数据包重组成传输层会话数据流; 根据超文本标记语言HTML协议解析出所述传输层会话数据流中包含的数据; 从所述数据中提取出其包含的文字信息。
3.根据权利要求1或2所述的识别网络文字信息的语种的方法,其特征在于,所述根据所述文字信息识别所述上网设备产生的文字信息的语种的步骤,包括: 解析出所述文字信息中包含的每个字符在Unicode中对应的字符编码; 根据所述字符编码得到所述文字信息在Unicode中的编码范围; 根据所述编码范围识别出所述文字信息的语种。
4.根据权利要求1-3任一所述的识别网络文字信息的语种的方法,其特征在于,在所述根据所述文字信息识别所述上网设备产生的文字信息的语种之后还包括: 根据所述文字信息的语种对所述文字信息进行分类存储。
5.一种识别网络文字信息的语种的系统,其特征在于,包括: 采集装置(I),用于在网络接入位置采集上网设备在上网时产生的上网数据包; 获取装置(2),用于获取所述上网数据包中包含的文字信息; 识别装置(3),用于根据所述文字信息识别所述上网设备产生的文字信息的语种。
6.根据权利要求5所述的识别网络文字信息的语种的系统,其特征在于,所述获取装置⑵包括: 重组单元(21),用于根据传输层协议将所述上网数据包重组成传输层会话数据流;第一解析单元(22),用于根据超文本标记语言HTML协议解析出所述传输层会话数据流中包含的数据; 提取单元(23),用于从所述数据中提取出其包含的文字信息。
7.根据权利要求5或6所述的识别网络文字信息的语种的系统,其特征在于,所述识别装置⑶包括: 第二解析单元(31),用于解析出所述文字信息中包含的每个字符在Unicode中对应的字符编码; 范围获取单元(32),用于根据所述字符编码得到所述文字信息在Unicode中的编码范围; 语种识别单元(33),用于根据所述编码范围识别出所述文字信息的语种。
8.根据权利要求5-7任一所述的识别网络文字信息的语种的系统,其特征在于,还包括: 分类存储装置(4),用于根据所述文字信息的语种对所述文字信息进行分类存储。
【文档编号】G06F17/27GK104317847SQ201410539771
【公开日】2015年1月28日 申请日期:2014年10月13日 优先权日:2014年10月13日
【发明者】孙伟力, 杨超 申请人:孙伟力
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1