基于白云机场数据波动分析的思考和展望
摘要:机场具有旅客流量大、停留时间长的特点,是最容易产生大数据的机构之一。如何充分释放和利用数据资源价值将会成为机场未来的主要研究课题之一。但目前机场在数据的应用方面依然相对薄弱,而一旦应用不到位,则容易在日常工作中犯经验性错误。本文以白云机场2017年11月12日-18日旅客数据波动为例,对其进行了认真的研究和分析,找到旅客数据波动的真正原因,避免了经验性错误,同时发现旅客出行的规律,并通过其反映出的问题对机场数据业务应用发展进行探讨。
可以看到,在对数据的正确应用下,机场和航空公司的运力安排和生产保障力量的布置将更有针对性。此类分析还可以举一反三,向各大机场推广。
关键词:白云机场;数据波动;数据分析
目录
一、绪论
在大数据时代,机场运营产生的大量数据将成为最重要的无形资产。通过数据分析,能够总结经验、发现规律、预测趋势、辅助决策,充分释放和利用数据资源价值。未来,数据分析和应用的能力将成为机场的核心竞争力。但目前机场在数据应用方面依然相对薄弱,对数据的使用主要停留在统计层面上,大部分仅用来统计生产保障成果,在数据安全审计、风险管理、数据分析、决策支撑等方面认识不够全面。
本文以白云机场2017年11月12日-18日旅客数据波动为例,揭示目前国内机场在数据应用上存在的问题,并对机场数据业务应用发展进行思考和展望。
“同比”,一般情况下是本期(今年第n日/月)与同期(去年第n日/月)作比较。相比于“环比”,“同比”消除了季节变动的影响,用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。因此,同比增长率是衡量一个机场各项业务数据增长情况的重要指标。
但是在采样空间较小的情况下,同比往往容易出问题。
2017年11月12日-18日,白云机场旅客同比增长率波动非常大,特别是国际旅客的同比增长率波动剧烈(见表1-1)。但当时每日运行状况基本相同,并无造成旅客数量、国内国际构成比例变化的明显因素。而机场运行机构初步判断波动原因为生产数据统计系统发送故障,导致的生产数据统计错误,经过事后调查,并不是生产数据统计系统问题,该数据确实无误,是判断方法上出了问题。
表1-1白云机场2017年11月12日-18日旅客数据统计表
日期 |
2017年旅客数 |
2016年旅客数 |
旅客增长率 |
2017年国际旅客数 |
2016年国际旅客数 |
国际旅客增长率 |
2017年11月12日 |
18.73 |
15.97 |
17.26% |
4.56 |
3.55 |
28.58% |
2017年11月13日 |
18.39 |
16.92 |
8.69% |
4.31 |
3.97 |
8.63% |
2017年11月14日 |
18.08 |
16.59 |
9.01% |
3.96 |
3.70 |
6.93% |
2017年11月15日 |
18.98 |
16.63 |
14.16% |
4.38 |
3.53 |
24.02% |
2017年11月16日 |
18.67 |
17.57 |
6.24% |
3.89 |
3.89 |
0.10% |
2017年11月17日 |
19.77 |
16.90 |
17.01% |
4.69 |
3.38 |
38.79% |
2017年11月18日 |
18.93 |
17.71 |
6.87% |
4.38 |
4.08 |
7.24% |
图1-1 白云机场2017年11月12日-18日旅客增长率分布图
二、原因分析
为查明原因,本人对旅客出行规律进行了分析比对,发现周一到周日按照作息日区分,对旅客出行的影响非常大,这也符合白云机场对多年旅客出行习惯和规律的研究。因此,我初步判断数据比对没有考虑作息日的规律,有可能是造成11月12-18日旅客增长率偏差较大的原因。
白云机场2017年11月12-18日旅客吞吐量按照作息日统计如图:
图2-1 白云机场每日旅客吞吐量分布图
在周三、周五、周日时旅客较多,其中周五最多;周一、周二、周四、周六时旅客较少。总体上看,周一至周五的旅客吞吐量是呈波动状态而非平缓的。这符合旅客每周出行习惯。但由于一年365天或366天并不能整除一周7天,因此,造成白云机场2017年11月12日-18日旅客数据波动较大的原因可能是作息日错位(由于用于同比的2016年11月12日是周六,刚好是旅客较少的日子)。为验证造成数据波动剧烈的原因是否为作息日错位。将2017年11月12日-18日的旅客数据经过作息日调整(即同比周期不按日历日,而按照同期最接近的周一到周日,也就是2016年11月14-20日进行对比)后,得出以下结果:
表2-1白云机场2017年11月12日-18日旅客数据统计表
(作息日调整后)
作息日 |
日期 |
2017年旅客 |
2017年国际旅客 |
日期 |
2016年旅客 |
2016年国际旅客 |
旅客日增长率 |
国际旅客日增长率 |
星期一 |
2017年11月13日 |
18.39 |
4.31 |
2016年11月14日 |
16.5863 |
3.7035 |
10.87% |
16.38% |
星期二 |
2017年11月14日 |
18.08 |
3.96 |
2016年11月15日 |
16.6253 |
3.5316 |
8.75% |
12.13% |
星期三 |
2017年11月15日 |
18.98 |
4.38 |
2016年11月16日 |
17.573 |
3.8862 |
8.01% |
12.71% |
星期四 |
2017年11月16日 |
18.67 |
3.89 |
2016年11月17日 |
16.8966 |
3.3791 |
10.50% |
15.12% |
星期五 |
2017年11月17日 |
19.77 |
4.69 |
2016年11月18日 |
17.7131 |
4.0844 |
11.61% |
14.83% |
星期六 |
2017年11月18日 |
18.93 |
4.38 |
2016年11月12日 |
15.9728 |
3.5464 |
18.51% |
23.51% |
星期日 |
2017年11月12日 |
18.73 |
4.56 |
2016年11月13日 |
16.9199 |
3.9677 |
10.70% |
14.93% |
图2-2白云机场2017年11月12日-18日旅客增长率分布图
(作息日调整后)
经过作息日调整后,旅客增长率较为均衡,除去星期六这一偏差点以外,整体增长率趋于平稳状态,旅客增长率与国际旅客增长率趋势相同。旅客增长率与国际旅客增长率分别在15%、10%上下浮动。因此基本可以判定造成数据波动剧烈的原因是作息日错位,但还存在星期六(2017年11月18日与2016年11月12日)这一偏差点。
根据上一节(一)中分析出的结果,分别将2016年与2017年11月12日-18日的数据根据作息日调整后,与历史作息日数据进行对比,得出以下结果:
图2-3白云机场2016年11月12日-18日旅客吞吐量对比图
(作息日调整后)
图2-4白云机场2017年11月12日-18日旅客吞吐量对比图
(作息日调整后)
2016年11月12日的数据明显比一般情况下的星期六数据低很多;而2017年2017年11月18日的数据明显比一般情况下的星期六数据高。在此消彼长的情况下,导致了(一)中的星期六增长率过大的结果。
根据(一)与(二)的分析,造成白云机场2017年11月12日-18日旅客增长率数据波动大,特别是国际旅客波动大的主要原因是作息日错位。但当时这一现象被判断为生产数据统计系统故障原因。造成这一误判的因素除了当时白云机场正处于新的生产数据统计系统刚上线运行之外,还有一个重要因素就是目前机场对于数据的应用、分析方面依然相对薄弱,因此使用了不符合运行规律的对比样本,也就必然导致不正确的判断结论。
正如本文一开始提到的,同比反映的是本期与同期之间的相对情况。当同比周期范围较大时(例如:周、月、季、年),个体数据之间的差异性被弱化,受其他因素影响降低,整体性被突出,所以可以很好地反映周期之间的发展情况。但当同比周期范围为单日时,个体数据之间的差异性被突出,受其他因素影响加强,因此,得出的结果并不一定能很好的反映周期之间的对比情况。恰好旅客出行习惯极容易受作息日影响,从而导致在日与日之间的同比时出现偏差。
因此,数据分析一定要找到合适的对比点和对比样本,并且要使用正确的对比规则,才能有效分析出真实的变化规律。不能笼统而论。
三、机场数据发展现状
尽管近年来机场对信息资源的采集、分析和价值挖掘日益深入,但面对大数据发展新挑战,机场仍存在许多问题。主要体现在:
目前,机场拥有航班数据、客货邮行数据、地服保障数据、机场资源数据、视频监控数据、GIS地理信息、停车数据、水电数据、WIFI数据、VIP数据、天气及周边交通数据等。尽管数据众多,但在数据的使用上主要停留在统计层面,大部分仅用来统计生产保障成果。在数据安全审计、风险管理、数据分析、决策支撑等方面认识不够全面。
目前,机场各二级单位中还有多个操作型系统在同时运行,各类业务平台、网络平台,例PSP系统、生产统计系统、值机系统、安检系统、货运系统等。这些系统的分散建设导致同一类数据分散在不同单位及应用系统中,缺乏统一的数据来源和技术标准,导致出现数据不规范、不一致、无法共享等问题。多系统提供数据,缺乏机场统一可信的数据源。
目前,机场的各项数据基本还停留在某项数据只供一个部门或者一类用户使用,相互割裂,极少实现不同数据之间的共享和集成,更不用说跨机场、跨行业的数据交换与互联。同时,各项数据的管理职能分散在各单位,而各单位中数据管理的职责分散,责权不明确,致使数据管理的相关规范无法有效地执行和落实。
目前机场缺乏清晰的跨专业的数据质量管控规范与标准,数据分析随机性强,存在业务需求不清的现象,影响数据质量;跨专业的数据质量沟通机制不完善;尚未全面实现数据的自动采集,处理过程存在人为干预问题。
而在各单位也存在数据质量管理人员不足、知识与经验不够,监管方式不全面等多方面的问题;同时,缺乏完善的数据质量管控流程和系统支撑能力。
四、机场数据业务展望
李小鹏部长提出建立交通强国,冯正霖部长提出建立民航强国。交通和民航强国建设需要强大的数据支撑,必须建立大一统的数据交换和共享系统,克服目前大范围存在的信息壁垒,并且合理有效的利用数据,让数据产生效益,让大数据为未来决策提供充分参考,这才是数据建设的更高目标。而只有利用好数据,中国才有可能在大数据时代与美日欧的竞争中立于不败。
如何做好机场自身数据业务建设,本人认为要做好如下几点:
(一)资源整合
数据交换和共享平台的建设需要明确数据共享的范围边界和使用方式,厘清数据交换各方的数据管理及共享的义务和权利,在依法加强安全保障和隐私保护的前提下,加快机场内各信息系统的互联互通和信息整合,在整个行业以CDM为全国范围的数据共享平台,机场则应以A-CDM为自身的数据共享平台,两个平台的数据做好对接,进行互联互通,机场可以随时掌控全国乃至世界的状态,而行业其他用户也可以即时共享任何机场的实时数据,只有这样,才可以更好做到资源整合,做到高效应用和节能减排。
机场目前还应该加快大数据基础设施建设,利用精准算法和数据模型分析全流程数据,实现智能化和自动化采集与分析,更好地进行研判和预测,为现场保障、公司决策提供专业化支撑。
本人认为机场应该尽快建立“机场统计分析和大数据平台”,在发挥机场数据分析职能的同时,专注致力于大数据分析定制服务,为关联单位提供数据管理和分析解决方案。在大数据时代,机场要更好地为旅客服务,就不能坐井观天,要充分分析全球旅客流向的趋势和规律,将数据提供给航空公司,配合航空公司主动开拓市场。机场还应该利用现有的各类数据平台掌握和分析旅客的构成和消费习惯,了解旅客的出行需求,反馈给航空公司,便于航空公司更好安排运力。机场还应该做好自身数据系统和交通行业的数据系统对接,解决旅客出行的信息推送和“最后一公里”的交通问题,让旅客拥有更好的旅行体验,充分体现“真情服务”的宗旨。
[参考文献]
[1] 范煜.数据革命[M]. 北京:清华大学出版社,2017.93-135
[3] 陈胜可. SPSS统计分析从入门到精通[M](第二版).北京:清华大学出版社.2013.77-129
[2] Michael Milton.深入浅出数据分析[M].北京:电子工业出版社,2012.75-90