阅读4Incorporating travel behavior regularity into passenger flow forecasting
文章信息
本周阅读论文题目为《Incorporating travel behavior regularity into passenger flow forecasting》,是一篇2021年发表在Transportation Research Part C 涉及将行程规律融入时间序列模型进行地铁客流预测的文章。
摘要
准确预测客流是城市地铁系统运行的关键。以往的研究主要是将客流视为时间序列,将个体客流聚合,然后根据前几个步骤的数值进行预测。然而,这种方法忽略了一个事实,即客流由每个旅客的行程组成。例如,一个旅行者早上的工作行程可以帮助预测他/她晚上的回家行程,而这种因果结构不能在标准的时间序列模型中明确体现。文章提出了一个新的预测上车客流的框架,将生成机制纳入标准时间序列模型,并利用根植于行程行为的强规律性。文章引入了以前的下车客流的返程客流作为一个新的协变量,用来说明行程行为的因果结构和长期依赖性。文章用返程概率平行四边形(RPP)来总结因果关系并估计返程客流。利用现实的客流数据对所提出的框架进行了评估,结果表明,返程客流(一种单一的协变量)可以显著持续地改善各种预测任务,包括一步提前预测、多步提前预测和特殊事件下的预测。该方法对于客流量大、往返时间短的商务型车站更有效。本研究可推广到其他交通方式,并对用户行为产生因果结构和长期依赖的一般需求时间序列预测问题提供了新的思路。
1.介绍
对于短期客流预测,大多数研究主要将客流数据作为时间序列,线性的ARIMA、exponential smoothing、tate-space/Kalman filter等以及相应的非线性版本和集成扩展。近期研究开始将客流预测视为有监督的机器学习问题,而这种主要聚焦于一个单独的地铁站,为了探究全路网的客流预测,许多先进的模型被提出,比如矩阵分解等。然而这些方法都忽略了根植于行程行为的规律性,因此,在发展客流预测模型时,除了本地输入(例如,时间序列中过去的n个步骤)外,还必须集成行为驱动和长期依赖性。文章的目的就在于探索在客流时间序列预测中加入出行行为的部分。
文章主要贡献如下:
- 定义了返程客流来表征客流数据中的因果结构和长期相关性,这在以往基于时间序列的研究中基本上被忽略了。
- 将返程客流作为额外的协变量整合到标准时间序列模型中,在基于真实数据集的案例研究中表明所提出的这一模型可以持续提高预测性能。
- 模型还提供了在特殊事件下预测客流的新方法。
2.方法
本章节介绍了returning flow的概念以及return probability parallelogram这一将行为规律性整合到客流预测模型的工具。
2.1 问题描述
2.2 returning flow
we divide all the passengers associated with stations s (both boarding and alighting) into two groups (see Fig. 1):
(G1) Passengers who alight at station s;
(G2) Passengers who board at station s without a previous trip alighting at s.
We define “returning flow” at time t as the number of people in G1 who will finish their activities and start their returntrips at time t by station s, denoted by rst .
2.3 Return probability parallelogram (RPP)
主要思想:
关于时间窗H参数的选取:选取H=24h
关于条件概率分布的估计:
简化:
其中,
RPP:用RPP中相应的条件概率代替公式(6)中的Ps
3.实验
以SARIMA为M0(关于SARIMA参见此博客)
SARIMA(2, 0, 1)(1, 1, 0)[36]
On top of this model,we create two regression with SARIMA error models—M1 and M2—by simply incorporating the observed rst and the estimated ̂rst+1 as additional covariates
评估指标:RMSE、SMAPE
分别在三种场景下,用真实数据评估文章提出的模型的效果:
- one-step ahead forecasting, 2) multi-step ahead forecasting, and 3) forecasting under special events.
数据:
中国广州2017.7.24-9.8的159个地铁站的智能卡数据集(不包含周末数据)
将整个数据集分为3部分:
(D1) July 24 to August 4 (two weeks): estimate the RPP ps0 for a station s (for M2 only);
(D2) August 7 to August 25 (three weeks): estimate model parameters for all the three SARIMA models (training set);
(D3) August 28 to September 8 (two weeks): evaluate model performance (test set).
3.1 One-step ahead forecasting
检验M2的提升是否具有统计意义:
层次聚类分析谱系图(详细参见此博客)
三个类别相应的RPP:
(a)商业型的地铁站;(b)住宅型的地铁站;(c)综合。
结合图6下半图可以看出,对于商业型的地铁站使用返程预测效果更好。
3.2 Multi-step ahead forecasting
由于长期依赖性,M2较少受到误差积累问题的影响。
对于公式(6)所需的下车客流问题:
预测结果:
总的来说,可以看到,多步提前预测任务可以从M2和和̂rst+1的远程依赖项中受益。
3.3Forecasting under special events
从上述图6可以看到,在一些站点中M2没有表现更好,主要原因是这些站的RPP每天都有很大的变化。对于这些站点,,̂rst+1在预测方面的准确性和信息量将会较低。因此,由通用RPP估计的的̂rst+1的M2没有M0和M1效果好。
比如图8所示的地铁站,与正常情况非常不同,
为解决此类特殊情况:
关于event conditions的确定:下车客流大于某一特定阈值的时期被视为event period,文章采用的阈值为Q3+1.5IQR
使用重新提出的概率,对此站点进行重新预测,结果如下图所示:
4.总结
本文提出了一种新的地铁客流时间序列预测框架。与以往一些以数据驱动方式捕捉时间动态的研究不同,研究试图将根植于旅行行为的生成机制纳入客流时间序列建模。为此,将返程客流作为一种新的协变量/特征引入标准时间序列模型。该返程流量是根据以往的下车次数估计的预期返程乘车需求;因此,它编码了客流数据中的因果结构和长期依赖关系。通过聚集历史数据来估计返程概率,从而解决与基于个人的数据和模型相关的敏感性问题和隐私问题。研究通过中国广州地铁收集的真实客流数据集验证了所提出的框架。所提出的具有返程客流的模型在三个测试的场景中**(提前一步预测、提前多步预测和特殊事件预测)都具有优异的性能,。此外,我们发现返程流量对于返程行程多在同一天的商务型车站**的乘客需求预测更有帮助。相反,该模型对住宅站点的改善效果不明显。这一结果表明,“家庭”活动持续时间比“工作”活动显示了更高的方差。此外,附录中的实验表明,返程也提高了SVR和MLP等机器学习模型的预测能力。事实上,**返程客流(作为协变量)和基于规则的长期相关性的思想可以用于各种预测模型(**例如,时间序列模型、机器学习模型、深度学习)。