基于分布式计算的火力发电机组远程诊断方法及系统的利记博彩app
【专利摘要】本发明涉及基于分布式计算的火力发电机组远程诊断方法和系统,所述方法包括ETL模块将PI数据库的数据同步导入到Hadoop集群中;标准读写模块为上层应用提供查询接口;数据合成模块提供专业函数;数据订单模块执行远程诊断任务。所述系统包括ETL模块,用于将PI数据库的数据同步导入到Hadoop集群中;标准读写模块,用于为上层应用提供查询接口;数据合成模块,用于提供专业函数;数据订单模块,用于执行远程诊断任务;所述运维平台用于对整个Hadoop系统提供图形化管理和系统调优。本发明充分利用海量的历史数据,进行分布式计算,进行火力发电机组远程诊断,使远程诊断更加高效快捷,能够诊断的内容更加全面。
【专利说明】基于分布式计算的火力发电机组远程诊断方法及系统
【技术领域】
[0001]本发明涉及远程诊断【技术领域】,尤其涉及一种基于分布式计算的火力发电机组远程诊断方法及系统。
【背景技术】
[0002]云计算是信息技术的第三次浪潮,是未来新一代信息技术变革、IT应用方式变革的核心,将带来工作方式和商业模式根本性改变。分布式的云计算技术是当下IT领域最热门的话题之一,它把一个需要非常巨大的计算机能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算节点进行并行处理,最后把这些结果综合起来得到最终结果。它帮助人们存储管理、计算处理、分析使用大数据,并从大量、高复杂的数据中高效的提取价值,完成仅仅由平台服务器无法在让人接收的时间内完成的计算量。
[0003]数据是企业宝贵的资产,随着大型发电厂数字化建设的发展,数据测点数目大量增加,数据保存周期延长,海量的过程数据被保存下来;同时,远程诊断系统及技术监督工作队数据的需求不再仅仅局限于结构化数据,同时需要大量的视频、图片、声音、地理位置信息等非结构化数据来作支撑。传统的小型机加上关系型数据库加实时数据库模式已经失去了优势,体现出高成本、低性能、不灵活、难扩展等劣势。在发电企业中,传统的设备特性计算方法非常成熟,然而,应用分布式框架进行指标计算和远程诊断方面还是空白。
【发明内容】
[0004]针对【背景技术】中出现的问题,本发明提供了一种基于分布式计算的火力发电机组远程诊断方法,所述方法以Hadoop为基础进行扩展,自定义数据服务并开发运维平台,所述方法可通过接口程序直接导入现有平台数据,并反馈分布式计算结果,所述自定义数据服务包括以下步骤:
ETL模块将PI数据库的数据同步导入到Hadoop集群中;
标准读写模块为上层应用提供查询接口;
数据合成模块提供专业函数;
数据订单模块执行远程诊断任务;
所述运维平台用于对整个Hadoop系统提供图形化管理和系统调优。
[0005]优选的是,所述ETL模块进一步用于将所述导入数据存储至HBase。
[0006]在上述任一方案中优选的是,所述ETL模块抽取不同数据源的数据保存到分布式文件系统。
[0007]在上述任一方案中优选的是,所述ETL模块自动同步数据数值及属性。
[0008]在上述任一方案中优选的是,所述标准读写包括单个数据和/或批量数据的基本读写。
[0009]在上述任一方案中优选的是,所述专业函数包括数据库操作类函数、常用函数、专业函数、数理统计函数、设备特性函数、远程诊断函数、应用接口函数中至少一种。
[0010]在上述任一方案中优选的是,所述数据订单模块进一步用于数据挖掘任务和数理统计任务。
[0011]在上述任一方案中优选的是,所述数据订单模块可直接调用Hadoop原生API函数。
[0012]在上述任一方案中优选的是,所述运维平台包括集群的部署、运行监控、配置调度以及设置权限中至少一种。
[0013]在上述任一方案中优选的是,所述系统可提供信息系统应用。
[0014]在上述任一方案中优选的是,所述信息系统应用包括报警机制、远程诊断、流程管理、数据监控以及报表展示中至少一种。
[0015]在上述任一方案中优选的是,所述运维平台中,管理员可增加、配置、移除分布式集群中的任意节点。
[0016]在上述任一方案中优选的是,所述管理员可看到整个集群和/或单个节点的状态、健康度以及执行任务状态的信息汇总中至少一种。
[0017]在上述任一方案中优选的是,所述数据库操作包括增、删、改、查中至少一种。
[0018]在上述任一方案中优选的是,所述数据库操作类函数包括对数值的读写操作函数和/或对数据属性的操作函数。
[0019]在上述任一方案中优选的是,所述常用函数包括计算函数、指标计算函数、曲线拟合函数中至少一种。
[0020]在上述任一方案中优选的是,所述专业函数包括水汽热力性质计算函数。
[0021]在上述任一方案中优选的是,所述水汽热力性质计算函数包括求熵值、焓值、饱和温度中至少一种。
[0022]在上述任一方案中优选的是,所述数理统计函数包括加权、离散度、方差中至少一种。
[0023]在上述任一方案中优选的是,所述设备特性包括锅炉部分和汽机部分。
[0024]在上述任一方案中优选的是,所述锅炉包部分括汽水分离器、空预器、锅炉风机、燃烧系统中至少一种。
[0025]在上述任一方案中优选的是,所述汽机部分包括汽机热耗率、汽机本体、冷端系统、加热器回热系统中至少一种。
[0026]在上述任一方案中优选的是,所述应用接口函数用于完成与其它平台的交互。
[0027]本发明还提供了一种基于分布式计算的火力发电机组远程诊断系统,所述系统以Hadoop为基础进行扩展,自定义数据服务并开发运维平台,所述系统可通过接口程序直接导入现有平台数据,并反馈分布式计算结果,所述自定义数据服务包括:
ETL模块,用于将PI数据库的数据同步导入到Hadoop集群中;
标准读写模块,用于为上层应用提供查询接口 ;
数据合成模块,用于提供专业函数;
数据订单模块,用于执行远程诊断任务;
所述运维平台用于对整个Hadoop系统提供图形化管理和系统调优。
[0028]优选的是,所述ETL模块进一步用于将所述导入数据存储至HBase。
[0029]在上述任一方案中优选的是,所述ETL模块抽取不同数据源的数据保存到分布式文件系统。
[0030]在上述任一方案中优选的是,所述ETL模块自动同步数据数值及属性。
[0031]在上述任一方案中优选的是,所述标准读写包括单个数据和/或批量数据的基本读写。
[0032]在上述任一方案中优选的是,所述专业函数包括数据库操作类函数、常用函数、专业函数、数理统计函数、设备特性函数、远程诊断函数、应用接口函数中至少一种。
[0033]在上述任一方案中优选的是,所述数据订单模块进一步用于数据挖掘任务和数理统计任务。
[0034]在上述任一方案中优选的是,所述数据订单模块可直接调用Hadoop原生API函数。
[0035]在上述任一方案中优选的是,所述运维平台包括集群的部署、运行监控、配置调度以及设置权限中至少一种。
[0036]在上述任一方案中优选的是,所述系统可提供信息系统应用。
[0037]在上述任一方案中优选的是,所述信息系统应用包括报警机制、远程诊断、流程管理、数据监控以及报表展示中至少一种。
[0038]在上述任一方案中优选的是,所述运维平台中,管理员可增加、配置、移除分布式集群中的任意节点。
[0039]在上述任一方案中优选的是,所述管理员可看到整个集群和/或单个节点的状态、健康度以及执行任务状态的信息汇总中至少一种。
[0040]在上述任一方案中优选的是,所述数据库操作包括增、删、改、查中至少一种。
[0041]在上述任一方案中优选的是,所述数据库操作类函数包括对数值的读写操作函数和/或对数据属性的操作函数。
[0042]在上述任一方案中优选的是,所述常用函数包括计算函数、指标计算函数、曲线拟合函数中至少一种。
[0043]在上述任一方案中优选的是,所述专业函数包括水汽热力性质计算函数。
[0044]在上述任一方案中优选的是,所述水汽热力性质计算函数包括求熵值、焓值、饱和温度中至少一种。
[0045]在上述任一方案中优选的是,所述数理统计函数包括加权、离散度、方差中至少一种。
[0046]在上述任一方案中优选的是,所述设备特性包括锅炉部分和汽机部分。
[0047]在上述任一方案中优选的是,所述锅炉包部分括汽水分离器、空预器、锅炉风机、燃烧系统中至少一种。
[0048]本发明中,充分利用由Hadoop统一起来的集群存储资源、网络资源和计算资源,实现基于海量数据的高速运算和存储。以Hadoop为基础,封装火力发电机组常用的计算函数、水汽性质函数、数理统计概率函数等,构建适用于火力发电机组热力学计算的分布式计算平台,充分利用海量的历史数据,进行分布式热力计算,进行火力发电机组远程诊断,提高了远程诊断平台的运行效率。
[0049]通过采用分布式架构提高了系统的扩展性,运用已有的资源,组织更加庞大的计算机网络、更大的集群来满足公司对应的需求,使平台有更强的计算力、更广泛的数据分布、更低的耦合性、更强的稳定性以及更灵活的可扩展性,同时使远程诊断更加高效快捷,能够诊断的内容更加全面。
【专利附图】
【附图说明】
[0050]图1是按照本发明的火力发电机组远程诊断系统分布式架构图。
【具体实施方式】
[0051]下面参照附图结合示例性的实施例对本发明进行详细描述。
[0052]实施例1:
如图1所示为火力发电机组远程诊断系统分布式架构图。其中,以Hadoop为基础进行扩展,自定义数据服务并开发运维平台。远程诊断的任务就是调用自定义数据服务及Hadoop原生API获取数据并进行运算,运维平台负责部署、监控、调度、诊断任务的执行。整个技术架构的底层由Hadoop集群组成,在集群之上搭建Hbase数据库,并且通过已有的Hbase API对数据库进行操作。
[0053]Hadoop:一个分布式系统基础架构,由Apache基金会所开发。
[0054]用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop DistributedFile System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax) POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。它主要有以下几个优点:高可靠性,Hadoop按位存储和处理数据的能力值得人们信赖;高扩展性,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中;高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快;高容错性,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配;低成本,与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
[0055]Hadoop 由许多兀素构成,其最底部 Hadoop Distributed File System (HDFS),它存储Hadoop集群中所有存储节点上的文件。HDFS (对于本文)的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了 Hadoop分布式平台的所有技术核心。
[0056]HDFS:对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括NameNode (仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点(单点失败)。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)0这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。
[0057]NameNode =NameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode上的复制块上。对于最常见的3个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。注意,这里需要您了解集群架构。实际的I/O事务并没有经过NameNode,只有表示DataNode和块的文件映射的元数据经过NameNode。当外部客户机发送请求要求创建文件时,NameNode会以块标识和该块的第一个副本的DataNode IP地址作为响应。这个NameNode还会通知其他将要接收该块的副本的DataNode。NameNode在一个称为FsImage的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是EditLog)将存储在NameNode的本地文件系统上。FsImage和EditLog文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。NameNode 本身不可避免地具有 SPOF(Single Point Of Failure)单点失效的风险,主备模式并不能解决这个问题,通过Hadoop Non-stop namenode才能实现100% uptime可用时间。
[0058]DataNode =DataNode也是一个通常在HDFS实例中的单独机器上运行的软件。Hadoop集群包含一个NameNode和大量DataNode15DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。DataNode响应来自HDFS客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。NameNode依赖来自每个DataNode的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode可以根据这个报告验证块映射和其他文件系统元数据。如果DataNode不能发送心跳消息,NameNode将采取修复措施,重新复制在该节点上丢失的块。
[0059]文件操作:可见,HDFS并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入的大型文件。如果客户机想将文件写到HDFS上,首先需要将该文件缓存到本地的临时存储。如果缓存的数据大于所需的HDFS块大小,创建文件的请求将发送给NameNode。NameNode将以DataNode标识和目标块响应客户机。同时也通知将要保存文件块副本的DataNode。当客户机开始将临时文件发送给第一个DataNode时,将立即通过管道方式将块内容转发给副本DataNode。客户机也负责创建保存在相同HDFS名称空间中的校验和(checksum)文件。在最后的文件块发送之后,NameNode将文件创建提交到它的持久化元数据存储(在EditLog和FsImage文件)。
[0060]Linux集群:Hadoop框架可在单一的Linux平台上使用(开发和调试时),官方提供MiniCluster作为单元测试使用,不过使用存放在机架上的商业服务器才能发挥它的力量。这些机架组成一个Hadoop集群。它通过集群拓扑知识决定如何在整个集群中分配作业和文件。Hadoop假定节点可能失败,因此采用本机方法处理单个计算机甚至所有机架的失败。
[0061]本发明中整个系统的设计包括五个模块,分别是运维平台设计、ETL接口设计、标准读写设计、数据合成及数据订单设计。其中,ETL设计实现了将PI数据库中的数据同步导入到Hadoop集群中,并且存储在Hbase中,这一部分涉及到对PI数据库中数据的读取及写入Hbase的设计;标准读写模块设计指为上层应用提供简单的查询窗口 ;数据合成模块提供基本的数据统计类函数、设备特性函数等常用专业函数;数据订单模块负责执行远程诊断任务;运维平台模块指的是对整个Hadoop系统提供图形化管理和系统调优,主要包括集群的部署,运行监控、配置调度和设置权限。本发明中,为降低平台运维的复杂性,开发运维平台简单有效的管理、监控系统的运行状态。管理员可以方便的增加、配置、移除分布式集群中的任意节点;也可以看到整个集群或单个节点的状态和健康度,以及任务执行状态的信息汇总,从而大大简化和降低了集群日常运维的流程和成本。
[0062]实施例2:
分布式计算在空预器诊断中的应用研究:
对300丽机组同类型的空预器进行诊断,显示所有同类型的空预器,列表计算并显示所有与空预器相关的参数及性能指标情况:烟温降、风温升、X比、漏风率、煤的硫份、空预器风侧压差、空预器烟侧压差、暖风器出口烟温、空预器效率、引风机效率、氨的效率。通过对历史数据进行分析,特别是对空预器检修前后一段时间的数据进行对比分析,在相同工况下(负荷、供热、环境温度)寻找到引起空预器性能变化的原因,同时快速在展示界面上展示出来,并能够随时选择切换任一时间段。
[0063]实施例3:
分布式计算在冷端系统诊断的应用研究:
以300MW机组为研究对象,计算并显示凝汽器实际真空、排气温度反算真空、理论应达真空、真空严密性、凝汽器端差、同工况下同类型机组真空及相关指标和参数。通过历史数据分析(与历史数据对比、与临机参数指标对比、与同类型机组对比),判断冷端是否产生异常,列出异常指标参数,通过逻辑反算对比找出影响真空和端差的主要原因。
[0064]实施例4:
分布式计算在高压缸效率诊断的研究:
对三缸四排气水冷300MW汽轮机高压缸效率进行分析研究,计算并显示调节级效率、调节级一抽效率、调节级一抽到高排效率、高压缸效率、一抽温度、二抽温度、监视段压力、调节级压力,所有与高压缸效率相关的指标及计算全部列出,通过与同类型汽轮机,特别是同制造厂生产的汽轮机进行比较,对比分析反复推算得出高压缸异常的原因。
[0065]为了更好地理解本发明,以上结合具体实施例对本发明作了详细说明。但是,显然可对本发明进行不同的变型和改型而不超出权利要求限定的本发明更宽的精神和范围。因此,以上实施例具有示例性而没有限制的含义。
【权利要求】
1.基于分布式计算的火力发电机组远程诊断方法,所述方法以Hadoop为基础进行扩展,自定义数据服务并开发运维平台,所述方法可通过接口程序直接导入现有平台数据,并反馈分布式计算结果,其特征在于,所述自定义数据服务包括以下步骤: ETL模块将PI数据库的数据同步导入到Hadoop集群中; 标准读写模块为上层应用提供查询接口; 数据合成模块提供专业函数; 数据订单模块执行远程诊断任务; 所述运维平台用于对整个Hadoop系统提供图形化管理和系统调优。
2.根据权利要求1所述的基于分布式计算的火力发电机组远程诊断方法,其特征在于,所述ETL模块进一步用于将所述导入数据存储至HBase。
3.根据权利要求2所述的基于分布式计算的火力发电机组远程诊断方法,其特征在于,所述ETL模块抽取不同数据源的数据保存到分布式文件系统。
4.根据权利要求3所述的基于分布式计算的火力发电机组远程诊断方法,其特征在于,所述ETL模块自动同步数据数值及属性。
5.根据权利要求1所述的基于分布式计算的火力发电机组远程诊断方法,其特征在于,所述标准读写包括单个数据和/或批量数据的基本读写。
6.根据权利要求1所述的基于分布式计算的火力发电机组远程诊断方法,其特征在于,所述专业函数包括数据库操作类函数、常用函数、专业函数、数理统计函数、设备特性函数、远程诊断函数、应用接口函数中至少一种。
7.根据权利要求1所述的基于分布式计算的火力发电机组远程诊断方法,其特征在于,所述数据订单模块进一步用于数据挖掘任务和数理统计任务。
8.基于分布式计算的火力发电机组远程诊断系统,所述系统以Hadoop为基础进行扩展,自定义数据服务并开发运维平台,所述系统可通过接口程序直接导入现有平台数据,并反馈分布式计算结果,其特征在于,所述自定义数据服务包括: ETL模块,用于将PI数据库的数据同步导入到Hadoop集群中; 标准读写模块,用于为上层应用提供查询接口 ; 数据合成模块,用于提供专业函数; 数据订单模块,用于执行远程诊断任务; 所述运维平台用于对整个Hadoop系统提供图形化管理和系统调优。
9.根据权利要求8所述的基于分布式计算的火力发电机组远程诊断系统,其特征在于,所述ETL模块进一步用于将所述导入数据存储至HBase。
10.根据权利要求9所述的基于分布式计算的火力发电机组远程诊断系统,其特征在于,所述ETL模块抽取不同数据源的数据保存到分布式文件系统。
【文档编号】G06F17/30GK104281980SQ201410507461
【公开日】2015年1月14日 申请日期:2014年9月28日 优先权日:2014年9月28日
【发明者】黄珂 申请人:黄珂