航空公司安全大数据分析及系统评价架构浅析
摘要:本文通过对大数据分析及系统评价的核心过程及相关方案进行解析,为航空公司开展这项工作提供思路和路线。作为把安全事后管理转变为事前管理的可选方案,本文从航空公司安全管理部门的需求和面临的困难出发,提出对应的解决思路,最后明确实现这一目标航空公司需要进行的转变。
关键词:航空公司、安全状态、系统评价、大数据、数据挖掘、人才建设
通过大数据分析和系统评价来支撑航空公司安全状态或安全水平的评价,已经被大多数航空公司的安全管理部门所接受。安全信息系统的建设也正在完成从面向规章到面向大数据分析的升级和重构。
这项工作有助于打破航空公司传统事后安全管理模式,积极推进事前安全管理模式,不再仅使用事故、事故征候以及安全严重差错等结果指标来衡量航空公司是否安全,而是力求领先于数据,分析信息趋势,并预测运行风险,实现航空公司的持续安全。
一、大数据分析及系统评价面临的困难
大数据分析及系统评价的内容主要包括:航空器运行活动相关数据的收集、有效和潜在信息的识别、有效的数据挖掘、数据规律分析、潜在事件趋势预测及评价五部分内容。在与安全总监的交流中,发现航空公司开展这项工作面临的困难主要有三个:
(一)数据管理架构不明确
缺失数据管理角色和岗位,难以在组织上推动数据收集工作,导致重要数据、关键数据、安全信息等收集不全面、不及时。
(二)缺少数据标准
数据和信息在安全管理部门、运行保障部门、组织支撑部门按行政架构处理和管理,缺少数据标准,导致信息流动不顺畅,数据共享不及时,数据理解不一致。
(三)缺少数据分析能力
缺少数据分析人员或缺乏专业训练和经验,数据分析与评价能力薄弱,数据分析与评价的深度、宽度和完整度都不够,导致不能得出有效结论,难以较好的把握安全趋势和规律。
二、大数据分析及系统评价五大过程
为了做到过程有力、决策有据、结果有效、持续安全的安全管理目标,推荐按照以下顺序来实施大数据分析及系统评价。
(一)明确数据管理架构
数据管理组织架构建设是数据管理能够得以贯彻的人力资源和组织保障,也是安全数据管理工作能够持续开展的基础。航空公司要建立健全数据管理组织,同时也需要持续开展数据团队的建设,构建企业数据文化。
图 21数据管理参考组织架构
数据管理架构是在组织上确保安全数据采集、分析、评估及持续改进的资源及体系保障,是这项工作开展的必要条件。
(二)制定安全数据标准
与安全相关的数据来源广泛,飞行前不限于机组数据、飞机状况数据、签派放行数据和地面保障数据,飞行中不限于签派放行监控数据、飞行状态监控数据、机组对威胁和差错的管理数据、观察员观察数据和员工安全报告数据,飞行后不限于QAR译码数据、飞行计划解析数据、飞行关键部件可靠性数据和机组主动报告数据。这些数据被收集和分析后,需要再次输出到运行保障系统,以辅助运行决策。
图 22 数据标准参考分类
数据标准是组织建立一套符合航空公司自身实际,涵盖定义、操作、应用多层次数据的标准化体系,数据标准建设是这项工作能够持续发展的必要条件。
(三)构建安全大数据平台
安全大数据平台是涵盖数据采集、数据存储、数据计算、数据整合、数据管理、数据交换、数据分析和挖掘、数据可视化等能力的一体化大数据中心,基于大数据平台的一体化能力,全面整合、管理航空公司相关安全数据,包括飞行前、飞行中、飞行后的运行保障数据、安全管理数据和组织培训数据等。
图 23 安全大数据平台架构参考
安全大数据平台是一套安全数据采集、存储、计算、分析和共享的信息支撑工具集,安全大数据平台建设是这项工作能够持续开展的必要支撑。
(四)完善数据分析能力
航空公司要建设一支满足大数据分析及系统评价需要的专业队伍,定期开展培训,并科学规划其职业成长通道,这样才可以充分的管理和应用好安全数据。
图 24 重点培养复合人才
建设培养一支既懂业务,又精通信息的复合性人才队伍,是大数据分析和系统评价建设的配套能力。
(五)系统持续改进及优化
航空公司通过建立持续改进体系,不断完善大数据分析和系统评价能力,来确保持续的安全。其持续改进内容包括:工作或业务流程,数据分析工具,数据标准及人力和其它资源。
图 25 系统持续改进及优化参考
工作或业务流程:包括不限于数据采集流程、信息分析流程、安全管理工作流程、运行保障流程、组织支撑流程、数据共享流程等。
数据分析工具:对于工作或业务流程改进的各项工作,是否使用和完善相关软件系统,自动化的程度如何,是否提供了足够的培训,相关工具是否可以拿到,是否已经配置足够好,是否可以应对以后业务的变化和数据量的增加等。
数据标准:是否有一整套的标准可以使用,标准是否已经很好的成文并可以使用,是否可以应对今后的变化等。
人力和其它资源:是否有足够的人力资源来完成有关的大数据分析和系统评价工作,需要哪些具体的技能、培训、知识背景和经验,相关的组织机构和责任是否到位等。
三、大数据分析及系统评价四大困难
大数据分析及系统评价项目工作中,因航空公司组织架构、运行模式和运营规模不同,面临的困难和问题也各不相同。通过多家航空公司的访谈和调研,以下问题需要迫切得到解决。
(一)安全数据标准
航空公司采用何种安全信息分析及评价方法,采用一种还是多种复合使用,一直以来困扰着安全管理人员。
1.分类法评估
安全分析方法非常丰富,具体包括:故障数分析(FTA)、人为差错分析(HEA)、TEM框架分析法、SHEL分析法等,不论采用哪种或哪几种分析模型,都需要应用系统整体性原理,将相关影响安全的因素纳入整体,找到系统内要素间、系统外环境间的有机联系、外部联系和内在联系。
为了能够整合航空公司各部门对待不安全事件的统一目标,支持报告、事件、QAR、审计等信息分析的融合,推荐采用TEM分类法进行分析和评价。
2.TEM模型推荐
TEM管理框架,经过威胁管理、差错管理和不安全状态管理后,其模型中显示的虚线路径经过TEM框架管理其风险有效降低。
图 31差错和威胁管理框架概要
TEM模型中有三个基本的构成: 威胁(Thread)、差错(Error)和不期望的状态。通过计算机语言来描述TEM模型非常简单直观,为大数据智能处理提供数据标准化支撑,TEM框架数学构建模型如下:
图 32 TEM数学模型
通过借鉴行业经验数据,可总结抽象出TEM模型参考数据,作为初始标准化数据,有效提高分析人员进行TEM分析的有效性。
图 33 事件TEM分析数据示例
(二)安全数据收集
运行保障数据的及时有效采集,是大数据分析和系统评价的基础,但其一直困扰着安全管理部门。可通过二个步骤来明确采集什么数据,如何采集数据和采集频次。
1.标准化安全绩效指标
安全绩效指标必须能够准确衡量运行活动的安全状态,因此安全绩效指标必须围绕安全事件分析(风险管理)活动展开设计。BOWTIE分析模型已经成为安全事件分析的首选,结合TEM分析模型,建议安全绩效指标与TEM模型一致。
图 34 BOWTIE模型是安全事件分析的首选模型
基于历史不安全事件的TEM分析,来确定具体的绩效指标是推荐的绩效指标梳理方法。
威胁和差错定义为过程类安全绩效指标,不安全状态定义为低后果安全绩效指标,重大风险定义为高后果安全绩效指标,叠加严重性后,即可得到航空公司全面的安全绩效指标。
图 35 通过历史安全事件分析来构建安全绩效指标体系
图 36 地面保障(部分)安全绩效指标举例
根据航空公司运行手册和航空公司运行规模确定严重程度及对应的分值,示例参考如下:
图 37 严重程度分值定义参考
严重性和可能性是风险的两个度量指标,根据TEM分析模型,可以采用以下方案来度量不安全事件的严重性和可能性。
严重性=事件的严重程度(分值高低与严重程度成正比)
可能性=1(不安全事件已经发生,特取值为1)
不安全事件风险值确定后,可以采用以下方案来度量重大风险、不安全状态的风险值。
重大风险=不安全事件风险=严重程度分值
不安全状态风险=不安全事件风险=严重程度分值
重大风险和不安全状态风险值确定后,可以采用以下方案来度量威胁和差错的风险值。
通过海量历史不安全事件分析,其威胁、差错的诱因分布基本处于七三分布(威胁:差错 = 7:3)。如果诱因中无差错,不安全状态的风险全部分摊到威胁的风险上。
威胁风险=不安全状态风险(无差错)
不安全状态风险* 0.7 (有差错)
差错风险=不安全状态风险*0.3
不安全事件往往由多个诱因(威胁、差错)导致,可通过主威胁、次要威胁、主差错和次要差错来度量具体威胁风险值和差错风险值,其度量方案建议如下。
主威胁风险=威胁风险*0.6
次要威胁风险=威胁风险*0.4/qty(qty=次要威胁数量)
主差错风险=差错风险*0.6
次要差错风险=差错风险*0.4 /qty(qty=次要差错数量)
特定周期(年、季度、月)不安全事件风险度量可以采用不安全事件风险和飞行小时量指标综合度量。
周期风险 = /
安全绩效指标的目标值和预警值,可以参考国际民航组织发布的Doc9859《安全管理手册(第三版)》中对要素3.1“安全绩效监测和评估”的相关要求。
图 38 安全绩效指标预警及目标的设计参考
运行保障数据自动采集后,自动与指标数据进行匹配计算,得出指标度量数据,是大数据分析及系统分析的核心功能。
指标数据标准规范后,可以由业务部门根据度量标准进行数据盘点,梳理出各指标对应的运行数据,由数据管理部门统筹,输出运行保障数据采集范围及频次。信息部门统筹各系统数据采集,可充分利用航空公司已有的ODS系统把运行保障数据集成到安全大数据平台。
通过大数据平台可视化技术来直观呈现不安全状态趋势和致因关联。
图 39 不安全状态风险走势
图 310 TEM关联风险分析
(三)数据模型算法
采用合适的数学模型,实现安全状态的准确评估分析和风险预测,是航空公司安全管理人员面临的第三个困难。可以通过大数据分析实现实时风险计算和预测风险计算,推荐采用多元线性回归算法和贝叶斯概率。
根据TEM管理框架进行不安全事件分析,已经识别出不同系统运行人员事发时面临的威胁和差错,通过周期内不安全事件数量的统计分析,可以得出以下数据(示例):
图 311 威胁与不安全事件月度数量统计
采用多元线性回归算法,可以计算出具体威胁分类与不安全事件的关联,借助EXCEL提供的多元线性回归数据分析模型,可得到人、设备、环境、软件、组织对不安全事件的贡献度。
不安全事件 = -0.57人+-0.42设备+0.47环境+0.18软件 +0.21组织
图 312 回归结果
通过周期内不安全事件数量的统计分析,可以得出以下数据(示例):
图 313 基于TEM数据统计的风险数据
通过贝叶斯算法可以得出飞错高度的预测风险,辅助提供安全管理决策。以下是贝叶斯公式,其相当简洁。
根据贝叶斯公式,对以上统计数据进行计算,可以得出飞错高度的预测风险为3.29 。
图 314贝叶斯风险预测计算过程
图 315 贝叶斯风险预测计算结果
通过贝叶斯算法可以得出不安全状态和重大风险的预测风险,得出的风险预测雷达。
图 316 贝叶斯风险预测计算结果
以上数据挖掘算法的选取符合航空公司实际安全业务情况,能够体现出关联指标、重要指标的特征,包括机器学习,能通过对历史数据的学习修正算法并且可实现指标数量的增加或减少。
(四)运行系统联动
安全状态及风险预测等信息如何及时、准确传达到运行保障单位,辅助实现运行决策是安全管理部门面临的第四个困难。可以通过构建标准化数据交换子平台、运行保障系统集成和持续系统评价解决。
图 317 运行系统与安全大数据平台联动
四、航空公司需改进方向
安全大数据分析及系统评价不仅为各级安全管理者提供有力的决策依据和技术支撑,还能够将事后处理变为事前预防,将经验管理变为科学管理,将单一管理变为系统管理,但是,要实现上述功能,航空公司还有不少需要改进的方面:
(一)安委会结果汇报向过程监控的转变
从关注事件到关注过程,是发挥数据说话的有力推手,安委会需要通过听取趋势分析报告,来代替原有的事件报告来推动大数据分析及系统评价的持续落地。
(二)规章符合性向数据分析评价的转变
从关注规章的符合性,到运行保障工作安全绩效的自动评价能够实现事后管理到事前管理,通过安全绩效的监测,诱因的及时控制,来减少事件发生。
(三)SMS信息系统向安全大数据平台的转变
要通过大数据架构来构建SMS信息系统,杜绝新建安全管理的OA系统,新系统聚焦在大数据分析和系统评价上。也可在现有SMS业务系统之上,架构大数据平台,实现大数据分析和系统评价功能。(作者:金亚东 上海虹桥临空经济园区)
参考文献:
[1] Doc 9859号文件-安全管理手册发(SMM)[S].第三版.国际民航组织.第四章附录四.