您的当前位置:首页正文

铁路运输设备技术状态大数据平台构建方法研究

2021-10-08 来源:客趣旅游网
铁路运输设备技术状态 大数据平台构建方法研究 王华伟,史天运,蒋荟 (中国铁道科学研究院电子计算技术研究所,北京100081) 摘要:铁路运输设备的持续稳定是铁路运输生产的基础,铁路各专业已建立起一系列运输设备监 测与管理系统,积累了海量与设备技术状态相关的大数据信息,迫切需要构建铁路运输设备技术状 态大数据平台,对运输设备进行精细化管理和健康状态科学评价,从而为设备管理及维修养护提供 决策支撑。在分析铁路运输设备技术状态大数据平台数据处理流程的基础上,对数据整合、数据存 储、可视化展示等平台构建方法进行研究,并应用于平台的实际构建,为平台搭建奠定了理论基础。 关键词:铁路运输设备;技术状态;大数据;数据整合;数据存储;可视化 中图分类号:U29;TP39 文献标识码:A 文章编号:1001—683X(2018)02—0037—07 DOI:10.195494.issn.1001—683x.2018.02.037 0引言 括实时监测、历史故障、检修维护在内的铁路运输设 备技术状态大数据。如何利用大数据技术,构建铁路 铁路运输设备是铁路主要生产性资产,是运输 运输设备技术状态大数据平台,实现对铁路运输设备 组织活动正常进行的保证,铁路运输设备的健康持续 技术状态从投产、运用、检修、维护到报废管理的全 稳定是铁路运输生产活动的重要基础。设备技术状态 生命周期内海量信息的采集、处理、分析与展示,是 评价就是综合分析影响设备状态的各类指标,利用 目前运输设备管理迫切需要解决的问题。在分析运输 相关指标数据对设备运行状况进行全面评估…。对运 设备技术状态大数据平台构建涉及的诸多技术方法的 输设备状态的科学评价是实现设备状态维修的重要 基础上,围绕运输设备技术状态大数据平台的数据整 前提。 合、数据存储、可视化展示等平台构建方法开展研  铁路机务、车辆、电务、工务、供电等专业已 究,将为大数据处理和应用展示提供有力手段。建立起一系列设备监测与管理系统,积累了海量运输 设备技术状态数据,并呈爆发性增长趋势,形成了包 1处理流程 要从运输设备技术状态大数据中获得其业务价 基金项目:中同铁路总公司科技研究开发计划项目(2015X009-A); 中国铁道科学研究院电子计算技术研究所基金项目 值,必须经过一系列的大数据处理及应用流程,包括 (DZYF16—20) 第一作者:王华伟(1981一),女,副研究员,博i。 E—mail:if01 12@163.COIn 聚集数据、存储数据、分析数据和利用数据等基本环 节(见图1)。 一37— 铁路运输设备技术状态大数据平台构建方法研究王华伟等 时数据、数据库数 据、文件数据等海 量的多类型数据进 行收集、整理、清 洗、解析、转换与 加载,形成到一个 新的数据源…,为 数据使用用户提供 全新、统一的数据 视图式的数据集成 图1 运输设备技术状态大数据处理及应用流程 方式 (1)聚集数据。运输设备技术状态专业管理系统 数据整合可以实现对海量结构化、非结构化数据 中产生了大量的非结构化文档、日志、视频监控数据 的全面采集及预处理,保证数据在采集交换过程中不 等,需要建立企业级的运输设备数据架构,对运输设 丢失、不失真、安全高速流转口 J。 备技术状态数据进行采集、清洗和管理,实现大数据 2.1数据源分析 平台数据的聚集。 铁路运输设备技术状态数据主要来源于机车、车 (2)存储数据。对于聚集的海量数据需要建立统 辆、供电、工务、电务等各专业系统,包括结构化、半 一的数据模型,基于NoSQL、分布式文件系统、分布式 结构化及非结构化的数据,数据内容包含设备基础履 计算框架等大数据处理技术,实现不同应用数据库之 历、日常监测、检修维护等记录数据,以及音频、视频 间的整合,完成企业主数据存储管理。 监控录像及图像等数据,同时,为开展基于大数据的铁 (3)分析数据。大数据的潜在价值产生于大数据 路运输设备状态综合分析,需要接入其他铁路相关系 的分析过程,需要根据不同业务应用的需求从异构数据 统数据。此外,接入天气、地震等外部系统数据进行关 源抽取和集成相关数据,从中挖掘分析潜在的重要数据 联分析也将具有现实意义,平台的主要数据源见表1。 价值,为运输设备技术状态管理提供辅助决策依据。 (4)利用数据。利用数据是大数据分析结果的 2.2实现方法 运输设备技术状态数据整合的目的是对各类运输 展示及合理利用,是大数据处理的最终环节,该环 设备技术状态相关信息进行整合,加载到大数据存储 节与用户关系最紧密。大数据分析结果往往是海量 平台,运输设备技术状态数据整合分为数据采集和数 的、关系复杂的,需要引进新的大数据展示和分析 据处理2部分。运输设备技术状态整合将采用ETL技术 技术,通过这些技术,可以让用户更好地分析和管理 作为核心理念,大数据整合技术实现架构见图2。 数据。 (1)数据采集。通过智能数据采集适配器 大数据平台的构建主要围绕上述4个环节开展技术 Webservice、FTP/SFTP等,研究统一的运输设备技术 研究。 状态数据接口,将运输设备状态数据从既有专业系统 中灵活接入到本平台中,采集的数据包括结构化数 2整合方法 数据整合(Data Consolidation)是通过改进现有 据、半结构化数据、非结构化数据和实时数据等。 结构化数据采集:目前运输设备技术状态数据来 ETL(Extract—Transform—Load)技术、文件适配器技术 源于运输设备专业管理系统,存储于专业系统的关系 等,引入新型、分布式、高速可靠的数据爬取和采集等 型数据库中,各专业系统的关系型数据库信息利用统 数据处理技术,重点攻克针对大数据源的智能识别、 一标准化的数据接口,采用sqoop采集到大数据平台, 适配、传输、接人与压缩技术等,把不同数据源的实 大数据平台数据采集前置机数据库为MySQL。 .38. 表1 铁路运输设备技术状态大数据平台主要数据源 图2运输设备技术状态大数据整合实现架构 实时数据采集:利用分布式消息队 ̄qKafka进行部分运输 备技术状态实时数据的采集,将消息生产的前端和后端服务架 构解耦,由数据生产者、数据消费者以及存储节 O,tH成,将部 分实时生成的数据接人到运输设备大数据平台中. .半结构化数据及非结构化数据采集:同前,系统的I监控H 志、检测报告等均以数据文件的形式进行保存,在设备状态动 态检测系统中也产生大量的非结构化数据,如罔像、影音数据 等.因此,大数据平台将利用Flume ̄E产生的大量文件从各专业 设备监控管理系统服务器采集到平台的HDI'、S中一Flmne是一个 高可靠的、高可用的、分 式的海量[』志采集和传输系统,它 能从文件(text)、U志系统(syslog)、UNIX tail、命令执行 (exec)等多种数据源卜收集数据,可将多个专业应用系统服务 中产生的H志文件、检测报告、冈像数据等采集到数据服务平 台fl ̄HDFS中,实现非结构化的数据采集并存储到数据平台的 结构化数据存储单元中。 (2)数据处理。运输设备技术状态大数据平台的数据处删 要包含数据抽取、清洗、变换等。常用的数据处理技术有传统的 ET1 、Hadoop ETL和流式计算ETL。传统ETL丰要用于对结构化数 据进行处理;Hadoop ETL主要用于对半结构化以及非结构化数据 进行处理,通过元数据定义数据抽取规则,定制相应I ̄ETL,并日. 通过数据管控模块对ETL流程、数据质量进行实时: 控和管理 从运输设备专业系统数据源到运输设备技术状态大数据平 台的过程中,会出现数据类型不匹配、数据约束错误等各种『口J 题,通过制定合理的数据清洗策略,对数据进行清洗、变换、 加丁等预处理操作,使加丁后的数据满足目标数据库的要求 .39 铁路运输设备技术状态大数据平台构建方法研究王华伟等 3存储方法 据、主数据、部分管理及运维类应用的底层数据主要 采用关系型数据库MySQ1 进行仔储,还可满足Lj原有 对于铁路运输设备技术状态大数据平台将采用 专业系统数据进行交换和联合查询的需要一关系型数 关系 数据库 非关系型数据库卡H结合的方式,实现 据库作为分布式文件系统 分布式数据库的补充和强 对铁路运输设备伞生命同期履历管理、数据挖掘、信 化,满足各类基础结构化数据的存储需求 息共享及大数据应用分析的需要平台的仔储将按照 (3)Hive是建 在Hadoop卜的数据仓库基础架 HadooI 体系结构,通过HDFS实现对分布式存储的底层 构,参照该架构,将数据整合层集成的运输设备技术 支持,运输设备技术状态大数据存储模型见图3。 状态数据构建而向运输设备全生命周期管理和分析集 (1)分布式文件系统H DFS具有自动冗余、扩 成的数据仓库,包 面向运输设备履历主题域、运输 展性好等特 ,能支撑高奔吐量的数据访问,是具有 设备故障分析主题域、运输状态评价主题域、运输设 高度容错性的系统,非常适合大规模数据集 的应 备安伞风险识别主题域、运输设备智能维修主题域等 用,适合部臀剑X86等低成今、一般配置的硬件卜, 方面、并根据不用级别、不同类 用FI对运输没备管 可作为数据服务平台仔储的基础 在HDFS之} 可采 理及挖掘分析的实际需求,构建多角度、多维度的数 jHHBase、Hiv 等分 式数据库或数据仓库产rI 为应 据集市,如机务设备故障诊断数据集市、机务没备状 用系统提供 向SQL或类SQL的数据接【一I。对于运输 态评价数据集市、机务设备风险识别数据集市、车辆 设备技术状态大数据平台,利用X86 J] ̄务器采用基于 故障诊断数据集市等.为开展基于大数据的挖掘分析 HDFS的大数据存储服务系统作为统一的底层分布式 提供主题数据基础 文件系统.运输设备技术状态相关数据都汇聚存储 (4)铁路运输设备技术状态大数据平台的非结构 在HDF、S之上.HDFS同时支持Erasure Code功能以及 化数据和半结构化数据(如图像、视频、音频、榆洲报 HDFS文件加密仔储,HDFS主要有2类__1了点:NameNode 告等)主要采用分 式数据库HBase进 仔储一H Base 和DalaNode 在运输设备技术状态大数据平台的部署 可解决关系型数据库在处理海量数据时的局限性.满足 ·tl,一般是30个节点选取1个NameNode与1个备用的 海量数据的OLTP类秒级检索查询和()LAP类高速数据分 NameNode作为热备,其余28个节点全部作为DalaNode 析应用需求、HBase南管理服务器(HMaster) 多个 他用.剐本数量为3个,每个块的大小为128M。 数据服务器(RegionServer)组成HMaster负责平台 (2)铁路运输设备技术状态大数据平台的元数 中表的创建、删除和维护以及Region的分配和负载平 衡;RegionServet·主要负责管胛维护 Region以肢响应渡写请求 Clien! HMaster进行有大表元数据的操作, 之后直接读写RegionServer 在运输 设备技术状态大数据平台的实际部署 中,一般配置规模是:30个 点. 3~5个HMaster,除rNameNode角色 的28个节点伞部作为RegionSel·ver使 用,HBase存储采用压缩仔储,仔储 块HFile大小为7G,缓俘Flush大小一 般设置为l28M: (5)运输没备技术状态大数据 平台的数据分发问步处理主 包括数 图3运输设备技术状态大数据存储模型 据分发同步、数据处殚引擎、数据聚 ..40.. CHINA RA ̄WAY 2018/02 合IJl迂务、数据杏ifIJ服务等 中,数据分发同步支持 架构_◆ 数 在行利t小刚仔储 问进行交换、同步和分发;数 据处刖 JI擎可干f!据业务需求对不同存储中的数据进行 数据转换和处那;而数据聚合服务可按不同场景 刚 需 构建数 集『汀祠】数据仓库;数据查询服务可统一 仃能力 式下的数据查询 ‘式,形成高效的数据索 ,jl姚范。便_】 数 查找和格合 ’ fl  据采集与抽取 数据转换 换 人机交互 视  视图转换图4运输设备全生命周期履历多维时序数据可视化实现流程 4可视化方法 化数据以及非结构化数据的数据处卿 .然 ,利用门: 对于运输设箭技术状态大数据平台形成的复杂或大 源时问线技术构建运输设备令生命周 时问轴架构. 规模 删数据集,如状态评价、故障诊断、状态风险囚 .}{:按可视化及用 rLI交互的需 进行数据转换。之后, 豢分析等.j 分析展爪技术单靠传统的统汁【殳1表方式是 埘于每个没备敝障发生点关联其关键指标参数数据,  参数数据的折线 显示。最 几泼满址的,需 借助数据治卵、数据分析、数据挖{_Ii{{ 在故障发生时间节点进i一『了点信息结合文小、 系列复杂数据加l 过 .辅助直观有效的可视化展 后,将设箭全生命周期的履历_像等进行 于“H,j-I' ̄i,l线+折线 ”的多维时序可视化肥 图5 爪.实现运输没行技术状态的综合管理 运输设箭技术状态大数据可视化实现思路是采 示, 体实现界 集处理运输没备技_术状态动静态信息,综合运用大数 批、汁 机陶形学、 像处理、地理信息、人机交互 ±●●■■t■ 等技术.将大数据平台处理转换后的数据变换为用户 可识圳的网形符号、图像、}见频或动J H1j,便于各种类 的系统数据J1】J 从I}1洲悉、挖jJ=fI{运输没备技术状态 大数据信息背 隐减的多维多角度的价值信息和卡H父 r珊=孽 ■ ■m m■u *■ n … 1¨t ,r 蝣 T i !ri两 ] ●日蛋 :0 :0,1 一…。 ¨_’ ’ 0…’ …一一 一 日_●● e ’ … 钢r I。从 为没备僻胂干¨俭修维护等I 作提供辅助决 策支持 口1 船’ 日■■● 0 6 埘哪‘■“ }l I’ m 世蛆 J L 帅 旦| 4.1 全生命周期履历时序数据 按H《{“ 儿一档案”的管娌原则,对每个具体 1--}t再’ 日●●● n 0 0 J 明 8● 舢0 的运输没备单元令生命周 内的动静态信息进行有效 串联.形成完 的运输设备 生命 期技术状态档案 图5运输设备全生命周期履历可视化实现界面 的时序数据,结合大数据时序·可视化技术,实现令生 4.2运输设备空间数据 命问期腹历 息大事件的可查询、呵追溯、呵分析, 为^叟障诊断蜓准确、维修养护世科学提供 沦依据 为保 没衙令生命 期电子履J玎信息的时问连贯性, 铁路运输 产活动要在四通八达的铁路线『奴J l::完 成,铁路运输没箭也要沿铁路线分散在伞 ,因此铁 路运输没箭具仃利-类繁多、部署分散的特性,运输设 采用时问线法的时序呵视化为框架构建复合的多维时 舒的地坪属性是运输设箭技术状态管邢 分析的重 数抓.对没箭P僮 数据信息进行可视化分析展示, 内容。 时问线法以令, 命川期的时问数 为轴线,按照时问 铁路运输没备技术状态卡}I关地理数据是设箭各种 顺序川文_小、 片等 式 ,Jj令生命剧期关键履历信 地理特 和技术状态之间关系的符号化表,J 按照平 息,其! 俸实现流程 罔4 ‘ 『fr『窄问的 本元素划分,运输设备技术状态的地理数 完成运输设备伞,E命周期技术状态履历大数 据可划分为点数据、线数据和区域数据3类 J。运输设 信息的采集、打l1取、整合和预处理等,包括对结构 得空间地 柑父数据可视化实现流程见罔6 CHINA RAILWAY 20’8,O2 妻 一4l一 图6运输设备空间地理相关数据可视化实现流程 图8运输设备状态分析多维数据可视化实现流程 铁路运输设备空间地理数据可视化的第一步依然是 设备状态分析多维数据可视化大多是基于统训 对于空间地理信息采集、抽取与数据处理。然后,对点 分析的多维度多角度分析,因此,主要采用百度的 数据、区域数据进行标识,并结合设备技术状态多维属 E—chart技术,结合统计分析图表,对于运输设备技术 性信息,采用地图与其他多维数据可视化关联的方法来 状态开展趋势分析、关联分析、性能分析等多维可视 展示铁路运输设备空间多维属性信息。 平台基于“Supermap+html 5”技术实现空间数据 的可视化。对于点数据可视化主要用于设备的分布展 化分析。多维数据可视化实现界面见图9 、 示,并结合设备技术状态信息对该点进行雷达图、饼 图等展示。而对于区域数据多维属性可视化,通过在 地图 标识区域,并结合统计图表、折线图、饼状图 等对区域内运输设备多维属性进行展示。线数据可视 化=E要应用于机车、车辆的运行历史轨迹追踪,实现 车辆历史数据轨迹动态可视化呈现。设备空间可视化 实现界面见 7。 §l‘1 ■档I擅 · 棚●t… ·It■■■●· … ———一 · 擅 蟠; 聃∞H嘲  i图9运输设备状态分析多维数据可视化实现界面 ¨幢■■q E■m■●■■ ■‘■■ *I1 ‘E '一 e ¥ ’_ 5结束语 以铁路运输设备技术状态大数据平台的实际直 用为出发点,同绕大数据平台构建过程中涉及的关键 技术及方法开展研究,包括铁路运输设备技术状态大 。 ■_IIE ittnut ■■ⅡE■t¨ q■ E j■¨ 驰IE■t¨ ■■¨ 酣■■  -! tt。● ^一 r 。 ■ ¥t  ̄lElIg■■■UE■ ■ B n¨ ■l虹E jI¨ EE■■¨ t■¨ ■■iE qtⅡ■酣I ●■■盟H…●Ⅲ种¨ : : t0  ■■¨ ,I H 数据整合方法、大数据存储方法、大数据可视化方法 等,为铁路运输设备技术状态大数据平台搭建提供可 图7设备空间可视化买现界面 行的理论基础及实现方案,为运输设备技术状态的综 合监测与评价提供技术保障及平台支撑。 4.3设备状态分析多维数据 结合数据挖掘技术等实现运输设备状态分析的多 维数据可视化,是铁路运输设备故障诊断、设备状态 参考文献 评价、安全风险源识别、安全风险评估必不可少的重 …杨鹃.基于语义的金融行业大数据整合及处理技术【D】 要手段,其实现流程见冈8。 杭州:浙江大学,2O1 5. 一42一 [忠曼妻 CHINA RAILWAY 2018/02 铁路运输设备技术状态大数据平台构建方法研究王华伟等 策划 [9]任磊,杜一,马帅,等. 大数据可视分析综述 l2 刘义德.梁坚.智能电网大数据处理技术现状与 21战【J】.科技仓0新与应用 201 5(29):1 84. 软件学报,2O1 4(9):1 909 1 936.  0]王瑞松.大数据环境下时空多维数据可视化研究【D】 f5】周国亮 朱永利 王桂兰.等. 实时大数据处理 [1技术在状态监测领域中的应用【J].电工技术学报, 201 4(s1):452 437. 杭州:浙江大学,2O1 6. 【4]张少敏.毛冬 王保义.大数据处理技术在风电机 组齿轮箱故障诊断与预警中的应用l J1. 电力系统自 动化,201 6,40(1 4):1 29-1 34. 【5 J李晚飞.基于云计算技术的大数据处理系统的研 J]. 长春工程学院学报:自然科学版,2 0 1 4,1 5(1): 1 1 6—1 1 8. 『61金雯婷,张松.互联网大数据采集与处理的关键技 术研究 .中国金融电脑,201 4(1 1):7O一75. 王同军.中国铁路大数据应用顶层设计研究-b实践[-J]. 中国铁路,201 7(1):8-1 6. 【8】李青.甚- ̄NoSQL的大数据处理的研究[D].西安: 西安电子科枝大学,201 4. 责任编辑卢敏 收稿日期 20 1 7—07 09 WANG Huawei,SHI Tianyun,JIANG Hui nstitutc of Cornputing Technology,China Academy of Railway Sciences,Beijing 1 0008 1,China) Abstract:The stability of railway transport facilities is the fotmdation of safe railway operation.Thanks to the existing monitoring and management platforms Or each subsystem.inass big data about the technical status 0r the facilities has been accumulated,which demands urgently the big data plattbrm r0r the technical status of railway transport facilities with the purpose of providing decision support to the rnanagement and maintenance 0f facilities based on refined and scientiic condiftion assessment to the facilities.This paper analyzes the data processing flow of the proposed big data platform and studies the approaches to bui ld the platIbrm such as data integration.data storage and visual demonstration.These approaches have been applied to the building of a real platform and provide theoretical foundations 1'or platfbrm building. Keywords:railway tl ansport facility;technical status;big data;data jntegration;data storage; viStlal izati011 CH/NA RA/LWAY 2018/02(二差. .嚣 43 

因篇幅问题不能全部显示,请点此查看更多更全内容