短期总线客运流预测的一种新型分层混合模型

摘要

针对日益增长的出行需求和公共交通问题，在准确实时预测客流的基础上，动态调整时刻表或公交调度是必要的。为了获得更准确的客流预测结果，本文提出了一种基于时间序列模型、深度置信网络(DBNs)和改进增量极限学习机(Im-ELM)的分层混合模型来预测短期客流。该模型命名为HTSDBNE，分为两个建模步骤。首先，借鉴并行化思想，利用时间序列模型、DBN模型和Im-ELM模型构建的混合模型，对不同时间尺度的短期客流进行分层并行预测;其次，利用Im-ELM从第一步开始分析预测结果之间的关系，并将Im-ELM的加权输出作为最终的预测结果。测试结果表明，与单一预测模型和典型的混合预测模型相比，HTSDBNE具有更好的预测性能。预测结果的平均绝对百分误差在10%左右，完全满足客车运营企业的应用要求。

1.介绍

目前城市公交系统面临的问题越来越多，如公交车到站不当、拥挤或车厢空车等，造成乘客延误、乘坐体验差、交通资源浪费。因此，许多企业尝试根据客流变化实时动态设置时间表，以主动的方式提供服务，而不是被动的、具有预测能力的方式[1，2］.短期客流预测，预测时间间隔不超过60分钟，对于实时设置时间表基本很重要。它是运营规划和决策的最重要的基础之一，以便合理地利用运输资源，解决或缓解运输问题，并提供更好的总线服务[3.，4］.

近几十年来，短期客流预测已经引起了广泛的关注，并且已经提出了各种方法，其可以被分类为线性模型，非线性模型和组合模型[5］.由于客流统计具有时间依赖性，自回归综合移动平均模型(ARIMA)、自回归移动平均模型(ARMA)和自回归模型(AR)等线性模型被广泛应用于简单的短期客流预测。Ma et al. [6]和薛等人。［7基于多时序列算法构建了一种基于多时序列算法的组合预测模型，以预测不同时间段的乘客流量的变化。然而，线性模型在应用中受到限制，并且难以描述客流的变化特性。为了跟踪实际乘客流量的非线性特性，研究人员已经引入了许多非线性方法，例如支持向量机（SVM）模型[8]最小二乘支持向量机（LSSVM）模型[9，模糊神经网络[10，11，贝叶斯网络[12，13]，径向基函数神经网络(RBF-ANN) [14- - - - - -17.，灰色模型[18.- - - - - -20.］.这些非线性方法的核心思想是构建乘客流动与矿井之间的非线性关系，而不是事先知识的潜在信息[21.］.然而，非线性模型与特定应用环境密切相关，缺乏普遍性。

上述每一种方法在实际应用中都有各自的优势和局限性，单靠一种方法很难涵盖客流的所有特征，并提供全局最佳的预测性能[6］.因此，混合预测模型将多种算法战略性地结合在一起，可以充分利用不同算法的优点，弥补每种算法的不足，成为提高预测性能的常用方法。例如，Sun等人[22.]提出了一种新型混合模型小波-SVM;它利用SVM模型来捕获由小波分解产生的不同频率的乘客流特性。杨和刘[8]在特征分析的基础上引入亲和传播对客流进行聚类，然后利用支持向量机对每个子集进行预测;预测精度明显提高。Liu等[23.]提出了组合预测模型BP-LSSVM;通过LSSVM对BP的初步预测结果进行进一步细化，得到更好的预测客运量。Wang等[24.]采用Levenberg-Marquardt算法对BP进行优化，并采用Spearman秩相关系数法构建SLMBP模型[25.]预测乘客流量。在这些混合方法中，基于安基的模型被广泛利用，因为它更好的预测能力[26.］.

此外，近年来，深度学习(DL)引起了学术界和业界的广泛关注[27.］.一些基于dl的混合模型已经应用于客流预测中，因为它们能够反映复杂的非线性关系，并从客流数据中捕捉潜在的相关特征。Liu等[27.]提出了一个端到端的DL架构，用于短期地铁客流预测。Bai等人。［21.]提出了一种多模式深度融合方法(MPDF)，该方法通过融合多个模式对应的深度信任网络(dbn)构建多模式深度融合方法，并利用dbn作为亲和传播算法生成的每个模式中客流的深度表示。Ke等[28.]提出了一种新的深度记忆方法，命名为融合卷积长短期记忆网络。它由多个卷积长短期记忆层、标准LSTM层和卷积层堆叠融合，准确捕捉乘客需求的时空相关性。Liu等[29.提出了一种基于卷积神经网络(CNN)和时空上下文(STC)模型的乘客混合估计系统。利用CNN对乘客进行检测，然后利用STC对乘客进行跟踪，从而准确估计客运量。

综上所述，线性模型结构简单，非线性算法的精度优于线性模型，组合模型的适应性更强。然而，这些研究成果主要存在以下缺陷。(1)数据问题:大多数研究研究的客流统计样本均来自自动收费(AFC)系统[30.]，这不能涵盖以现金购买门票的乘客数量。根据目前使用的设备，大多数AFC系统的总线无法实时将票证信息传输到总线操作企业，在这种情况下，数据样本不能用于实时预测。（2）客流是复杂的时间序列数据;它具有自己的特殊显微特征和宏观特征，并且在这方面没有分析的大部分研究;他们只考虑全球特征或仅分析非线性性质。（3）不同时间尺度的乘客流量彼此相关。然而，许多研究研究只假设它们的模式之间的线性关系[31.，32.]，这可能导致低估或堕落的性能，大多数混合模型太复杂，无法在实践中使用。

为了解决上述问题，充分利用线性和非线性模型的优势，提高了型号的普遍性和准确性，并降低了模型复杂性，提出了一种基于的短期客流分层混合预测模型时间序列模型，DBN和IM-ELM，称为HTSDBNE。自动乘客计数收集的实时乘客流量数据（APC）[25.系统被选择作为预测的统计样本。HTSDBNE通过两步完成预测操作:(a)利用时间序列模型和由DBN组成的子混合模型[33.，34.]及Im-ELM [35.，36.]，对统计数据进行分析，预测客流的变化趋势;(b)分析实时客流与历史客流的关系，充分利用不同时间尺度的客流序列数据，提高最终结果的准确性。

本文的其余部分组织如下。部分2介绍了公交客流采样数据的结构。部分3.讨论了一种新的混合预测模型。部分4显示比较实验和分析。最后，部分5总结了主要结果和未来的工作。

2.巴士客流量统计

２.１.数据源

公交客流统计主要有三种方法:一是对公交车或车站进行人工调查。另外两种统计方法是通过AFC和APC系统。人工统计由于效率低、成本高，现在几乎不再使用。由于AFC系统广泛安装在公交车上，通过车票信息可以推断出客流，已成为客流统计的主要来源。但是在目前的公交系统中，有相当一部分乘客使用现金购票，因此AFC系统的客流统计结果并不能完全覆盖所有乘客。APC系统能够较为全面、准确地进行客流统计，已成为公交客流统计的重要发展方向之一。本文使用的客流统计数据来自APC系统，记录结构如表所示1［5］.


字段名	插图

设备ID	设备唯一数量
开关	表示乘客上下车
车辆ID	车辆的唯一编号
行ID	唯一数量的总线
跳闸类型	表示当前的行程正在运行或倒退
停止id.	唯一的站点数，即公交车在当前时间的站点数
计数时间	乘客通过垃圾扫描的时间
停止积累	在一站下车或上车的乘客总数

２.２.数据集定义

安装在公交车上的APC生成的原始客流统计集与公交车出站时间相关。本文对相关数据集的定义如下。

定义到达车站的巴士序列为在哪里是一天抵达车站的第一辆巴士是在一天内到达车站的最后一辆巴士。

定义一天中停止的乘客流统计序列作为订购列表：在哪里请问汽车站的号码是多少是在总线上实时上传到数据库的乘客流统计数据的时间离开停止。这上车的乘客总数是多少停留在．

2.3。数据样本分析

本文使用的客流统计数据来源于中国大连市28号线和10号线公交车上安装的APC系统。一些客流量大的站点决定了整条线路的客流量变化。因此，在相关研究中，通常选择客流量较大的公交站点作为研究对象。

首先统计28号线上行线各站近六个月的日均客流量。结果如图所示1．

如图所示1，起始站(1号站)、3号站和7号站日均客流量均超过1000人次。这些站点是28号线上行方向的重要站点。本文选取7号站作为短期客流预测的研究对象。

本文使用的7号站样本数据为2018年10月1日(星期一)至2019年3月31日(星期日)26周的统计数据。原点数据图部分如图所示2．

如图所示2，原始客流统计与公交车到达时间有关。由于交通拥堵等原因，使得每辆公交车难以按照时刻表准时到站，导致数据采样间隔不相等。为了减少异常因素导致的客流统计序列的不稳定性，将数据按等时间间隔进行聚合，构建时间序列如下图所示。

定义时间间隔为

通常，时间间隔由总线调度计划确定，其不小于最小偏离间隔。在短期客流预测的应用研究中，在本文中，最大时间间隔不能超过60分钟，并且在本文中选择了5,15和30分钟的相等时间间隔。

数据分段时间点可以根据时间间隔确定，定义为在哪里从所有统计数据来看，第一辆公共汽车最早发车的时间是几点。定义作为在哪里最后一班车离站的最迟时间是几点。

等时间区间收敛后形成的新的客流统计序列定义为:

根据公式(7)，对7号站30分钟间隔内的客流统计数据进行汇总，统计结果如图所示3.．

从曲线变化可以得出结论，日常客流在早晨和晚上显示双峰变化。工作日的早期高峰期可以从7：30到9：30，晚上高峰期可以从16：30到18：30。在下面的研究中，本文提出的模型将用于预测早晨峰值期间乘客流量的变化，数据集在30分钟的间隔中聚合。从图中的观察开始3.，乘客流统计序列具有线性相关性的时间周期变化特性。然而，每个循环的变化不完全相同，具有明显的非线性特性。因此，必须组合线性和非线性方法来描述乘客流统计序列，以便准确地预测乘客流动变化。

3.混合预测模型

理论和实证结果表明，不同模型的集成模型是提高预测效果和弥补各模型不足的有效途径。本文提出的混合预测模型是在前人研究的基础上建立的。卡夏和比贾里[37.]和张[32.[采用线性模型与神经网络模型相结合，通过使用线性模型来识别和放大数据的线性结构，然后使用神经网络来模拟预处理数据以提高预测精度。有些作品[32.，37.- - - - - -40]考虑了时间序列数据的残差序列的重要性，将时间序列预测结果结合起来，提高了混合模型的性能。在参考上述工作的基础上，结合在线顺序算法的一些思想，提出了一种新的混合预测模型。

一般来说，新模型以两个顺序步骤进行数据建模。一种是混合时间序列建模，从线性和非线性两个方面对时间序列进行分析。另一种是非线性数据建模，用于分析以往不同时间尺度或时间和空间尺度的结果。

数字4显示了第一步的过程;通常，它按三个顺序执行子步骤。(一)利用线性模型对时间序列数据进行预测。给定训练时间序列集，预测结果为．对客流统计序列的不稳定性进行了研究不稳定是不可接受的，也不能作为最终的结果。(二)残差序列分析与预测。基于真实的价值以及时间序列预测结果，误差或残差由它们的差值计算，，然后利用残差级数对非线性模型进行训练，其输出为．该非线性模型是一种混合模型，由DBN和Im-ELM组成，Im-ELM根据DBN提取的特征预测残差变化。(三)非线性组合分析。在子步骤中，用于输入数据和，非线性模型, ，用于分析和描述时间序列预测结果与相应残差序列之间的关系，以最大化组合性能为目标。

数字5显示了第二步的过程;它接收几个输入数据: ．这些数据可以来自不同的空间交叉相关部分或空间和时间点。在实际应用中，可能是简单的线性关系，，也可能是复杂的非线性关系，，因此，它不仅使用线性模型或非线性模型，只需描述输入数据集之间的关系。在混合模型中，采用IM-ELM来解决问题。

“预测模型一个、“预测模型”K是综合预测模型，如图所示4．

３.１.滑动窗口的数据

关键是确定子步骤(I)和(II)中每次训练或测试前的数据量。参考在线顺序算法的思想[41.]，采用自适应滑动数据窗口表示系统动力学[41.- - - - - -43.，并可动态调整时间序列模型和神经网络模型的结构。所述数据滑动窗口为先进先出数据序列;它的宽度可以固定或动态调整。

在实际应用中，数据由块1个或块接收，并且通过添加新数据并丢弃最重要的数据来更新滑动窗口;当接收数据的卷是否小于滑动窗宽度，．但是，在一些极端条件下，所接收的数据量是否大于滑动窗宽度，．对于第一个子步骤（i）和第二个子步（ii）中的输入数据的连续性，最重要的数据选自数据接收数据,而和．

数据滑动窗口由输入样本和相应输出结果表示，即数据对，如下式所示: 在哪里滑动窗的宽度是多少表示输入数据和输出结果对的个数和为显示最新数据索引的时间索引。

３．２．时间序列预测模型

时间序列预测是整个模型的重要阶段;它主要用于分析实时数据和历史数据，预测未来时间序列数据的变化。时间序列分析一般采用曲线拟合和参数估计的方法建立数学模型。基本模型为ARMA，其数学描述如下: 在哪里为时间序列数据;为自回归模型的系数;为自回归模型的阶数;是白色噪声系列，适合零平均值的正常分布;为移动平均模型系数;和为移动平均模型的顺序。

分析平稳的随机过程，但某些领域的时间序列数据出现了剧烈的上下变化，并表现出周期性波动的特征。时间序列数据是非平稳的随机过程，可以用，如公式(13）。它是模型与微分操作。在哪里是向后换档运算符，，和是差异的顺序。

３．3.改进的极限学习机模型

ELM是针对单隐层前馈神经网络的一种特殊学习算法。它只需要确定隐层神经元的数量和输出权值。输入权值和激活函数的阈值是随机设置的，保持不变。

给定训练样本，ELM的输出为，在哪里，，为隐含层的输出矩阵。是连接隐藏层和输出层的隐藏层的输出权重。为ELM的输出结果。固定隐层神经元后，ELM的目标是找到最优的输出权矩阵，为了使输出误差最小，基于ELM理论，最优结果如下:

用于改善自适应，Huang等人。［44.，45.]更新了ELM算法，提出了一种增量极限学习机算法(I-ELM)。I-ELM的基本思想是更新动态地通过剩余和输出在添加新的隐藏层神经元之前和之后，如下式所示：

为了提高I-ELM算法的稳定性和泛化能力，提出了Im-ELM算法和新增加的神经元不是随机产生的。引用文学的概念[46.，47.，这两个参数和基于混沌优化算法(混沌优化算法，COA)动态确定，该算法具有高效的全局搜索能力。在COA中，混沌状态被引入优化变量中。将混沌的遍历范围映射为优化变量的范围，在第一和第二载波期间，如式(16)和(17.)，求出满足终止条件的最优解。在哪里为优化变量;表示多个混沌变量映射的优化变量; 的定义域是；表示迭代次数;和是放大增益。为了更好的预测精度，等式（17.)转化为以下形式: 在哪里是一个监管机构。优化目标函数，，和是目标值和预测值分别和样品可由式(15）。

基于上述分析，如下所述描述IM-ELM：IM-ELM初始化: ，培训:而& &S1:增加一个新的隐藏层神经元，S2:生成输入权值和偏见对新神经元的参数进行优化和基于COAS3：计算新重量基于等式（15)，增加新的神经元S4:计算新神经网络的输出误差

3．4．深度学习模型

DBN是本文采用的深层学习模型之一。它由堆叠的限制Boltzmann机（RBM）组成[48.]只有一个隐藏层[49.］.由于融合了特征学习和深度学习，分析速度快，数据拟合能力强[50.，51.］.

RBM是一种特殊的马尔可夫随机场，由可见层和隐层两部分组成。在每个RBM中，可见变量是连接隐藏的单位由无向加权［52.］.RBM是一种能量模型;其能量定义为[53.］

DBN将多个rbm堆叠成无监督网络，考虑到可见层到隐藏层。一个RBM的隐含层是后续RBM的可见层，训练过程可分为两个步骤。第一步是无监督学习。在此过程中，对训练样本进行逐层变换，得到较好的初始参数，，和可以获得。是连接隐藏单元的对称权重可见单元．可见单位的偏置，和为隐藏单元的偏差。另一个步骤是监督学习。在这一步中，使用一些学习算法对第一步得到的参数进行优化。最后，通过全局微调过程，选择最优参数。rbm训练完成后，从最顶层隐层提取DBN特征[54.］.

用于确定参数， ,，在训练的第一步，采用对比发散(CD)算法对每个RBM逐个进行训练[48.，55.］.CD算法是一种快速的学习算法，采用一步吉布斯抽样法进行逼近。CD的过程主要分为四个步骤:(1)设置第一可见层变量作为输入样本;(2)从可见层到隐层，隐层变量由基于已知可见层状态;(3)负相位:根据第二步中隐含层的状态，重构可见层；（4）更新权重。参数的更新标准如下：在哪里和的状态分别重建可见层前后神经元;和的状态神经元可见层重建前后;和是学习率。

4.实验和分析

为了说明和验证本文提出的模型，以28号线7号站和10号线8号站的客流统计数据为实验样本。原始数据集的采样周期为2018年10月1日至2019年3月31日，共6个月。时间长度为上午高峰时间7:30至9:30，晚上高峰时间16:30至18:30。作为模型输入，原始数据集根据方程(6) - (10)，第28行7站数据如图所示6．利用均方误差(mean squared error, MSE)和平均绝对百分比误差(mean absolute percent error, MAPE)评价了模型的性能。

4．1.时间序列模型

以下介绍了使用时间序列模型的乘客流量分析的建模过程，这是基于文献中描述的内容[5］.

以下4.4.1。单位根检验

通过观察图6，序列显示显著的不稳定性。一阶差分后，单位根检验结果如表所示2．当附加项是"拦截"时，假设，单位根的t-Static值为−7.962247，明显小于1%、5%和10%的显著性水平。t-static的临界值分别为−3.886751、−3.052169、−2.666593。显然，的统计值测试小于相应的关键值。这意味着经过一阶差分分析后，数据序列是稳定的，可以用时间序列模型进行分析。


测试方程中包含的项目	t-Static
	ADF测试统计信息	测试关键值
	ADF测试统计信息	1%的水平	5%的水平	10%的水平

没有任何	-8.059761	−2.708094	−1.962813	−1.606129
拦截	−7.962247	−3.886751	−3.052169	−2.666593
趋势和拦截	−7.729247	−4.616209	-3.710482	-3.297799.

4.1.2。模型选择

选择时间序列模型的过程是识别自回归(p)及移动平均项(问）。可以通过计算序列的自相关函数（ACFS）和部分自相关函数（PACF）来获得订单，并且常规判断规则如表所示3.［56.］.分析图中的结果7，什么时候，ACF和PACF都呈指数呈下尾部。根据表格3.，arca模型是初步选择的，及其参数和的间隔是有限的[1，2］.


	基于“增大化现实”技术( ）	硕士(问）	ARMA ( ）

ACF	尾呈	滞后切断问	尾呈
PACF.	滞后切断	尾呈	尾呈

（一种）

（b）

4.1.3。参数估计

拟合程度需要根据AIC、SC、HQC信息准则进行检验，以确定滞后阶数p和问和其他参数。测试方程中包含的项目。根据他们的间隔，四个模型，，，和构造。设置样本量为40、50、60后，每个模型测试三次。最后得到AIC、SC、HQC的最小值，如表所示4．分析结果表明，AIC最小值为7.108482,SC最小值为7.306342,HQC最小值为7.135764。经过综合分析，结果表明在四种模型中，选取最优的模型作为时间序列模型。


模型	另类投资会议	SC	认证机构

	7.108482	7.306342	7.135764
	7.198449	7.346844	7.218911
	7.238309	7.387430.	7.263546
	7.236094	7.335508	7.252919

4.1.4。模型测试

为了验证所选模型的性能，我们需要通过计算ACF和PACF来检验残差序列是否为白噪声序列。结果如图所示8和9．在图中8，滞后顺序显示残留序列是明显的白噪声序列。数字9展示了真实世界数据的拟合曲线和高峰前期的预测结果。由于早高峰时段交通堵塞，拟合效果明显降低。结论表明，单线性模型不能很好地描述影响客流变化的非线性因素。

（一种）

（b）

在本文中，选择大时间刻度的历史数据作为提高预测效果的助手，并且需要基于上述操作来确定历史数据的分析模型。分析后，为历史数据选择。

4．2.Im-ELM模型分析

图10和11显示隐藏层神经元数和培训过程中的学习错误的变化，以及为混沌映射函数，调节器．随着隐藏神经元的数量增加，训练误差正在减少。从图中11当隐藏神经元数量超过20个时，误差趋于稳定。最终结果是可以接受的。

为了测试Im-ELM的性能，从整个数据中选取了一段乘客时间序列数据。数字12展示培训和验证过程。随着训练过程的增加，训练误差减小，且误差稳定且达到最优结果大约是10。实际数据的预测结果也在10左右。表格5显示了Im-ELM与其他模型(SA-ELM [57.], ImSAP-ELM [58.),和榆树)。由于引入了COA，每次迭代都需要花费更多的时间来优化新神经元的参数。训练时间大于SA-ELM，但小于ImSAP-ELM和ELM。Im-ELM与SA-ELM的差异仅为0.12秒左右，综合分析完全可以接受。Im-ELM隐层神经元数量比其他隐层神经元少23个，且精度最好，适用于混合模型和应用。


	IM-ELM	SA-ELM	IMSAP-ELM.	榆树

隐藏神经元数	23.	29.	30.	57.
培训时间(年代)	2.7518	2.6287	3.0853	3.9837
错误（MSE）	10.015	11.254	11.438	13.583

4．3．DBN分析

在DBN中，隐层数和隐神经元数由枚举法逐层确定。表格6给出了DBN模型与其他模型的比较。DBN的预测精度随着隐层数的增加而提高。然而，过多的隐藏层或神经元可能会降低预测的准确性。从表6， DBN-4(3个隐藏层，每个隐藏层有150个神经元)表现最好，被选为HTSDBNE的一部分。


模型	隐藏层	隐藏的神经元	MSE	日军(%)

DBN-1	2	200-200	14.524	15.968
DBN-2	2	150 - 150	14.305	15.208
DBN-3	3.	200-200-200	13.624	14.483
DBN-4.	3.	150-150-150.	12.385	13.167
DBN-5	4	150-150-150-150	13.747	14.615
LSSVM.	- - - - - -	50.	12.472	13.259
榆树	- - - - - -	60.	14.983	15.115

4.4。混合模型测试与分析

获得工作日和非工作日的时间序列数据，对提出的HTSDBNE模型进行检验。表7和8和数字13和14显示HTSDBNE和其他型号之间的比较（，Elm, ts-ann, slmbp, sae-dnn [59.]和mpdf [21.])。在客运非高峰时段，如早上7:30，各模型精度较好，MSE和MAPE较小。然而，在工作日和非工作日的高峰时段，尤其是在关键区域，HTSDBNE的性能表现出更大的优越性。例如，在Figure中13时，HTSDBNE的MSE为8.24，远低于18.13的误差，与其他方法相比，准确率有了明显提高。在几个时间点(在表格中用粗体标出7和8和数字中的红色星号13和14)， HTSDBNE的结果弱于SAE-DNN和MPDF，但差异很小，最大的差异仅为1.4257%。


模型		（％）	榆树(%)	TS-ANN（％）	SLMBP (%)	SAE-DNN (%)	MPDF (%)	HTSDBNE (%)

工作日	7: 30	24.59	23.58	19.91	19.57	15．00	14.80	11.84
	8: 00	25.49	24.66	20.82	19.64	15.38	15.17	13.91
	8: 30	23.82	22.89	19.33	18.87	14.52	14.33	11.46
	9: 00	24.64	23.59	19.92	19.58	15.01	14.82	12.12
	9：30	23.66	22.72	19.18	18.85	11.25	12.01	11.41
	16：30	21.92	21.52	18.17	18.68	12.59	13.18	12.06
	17：00	22.97	22.15	18.70	18.38	14.09	13.91	11.13
	17：30	23.88	21.97	19.13	18.49	14.30	14.11	13.29
	18: 00	23.58	22.54	19.04	18.71	14.34	14.15	11.32
	18: 30	22.39	20.60	17.97	17.36	13.42	13.25	11.68

非工作日	7: 30	21.71	20.88	17.63	17.33	13.29	13.11	10.49
	8: 00	20.69	18.59	16.28	15.69	12.15	11.99.	9.88
	8: 30	23.19.	20.18	18.19	17.27	13.47	13.30.	10.64
	9: 00	17.09	16.58	14.00	13.76	10.55	10.41	10.43
	9：30	15.37	14.98	12.74	12.47	9.58	9.45	8.56
	16：30	15.29	14.63	12.36	12.14	10.12	9.39	8.35
	17：00	15.38	13.97	11.92	11.65	8.96	8.84	8.39
	17：30	14.59	14.12	12.39	11.93	8.52	8.12	8.40
	18: 00	16.33	14.81	12.83	12.44	8.35	8.84	8.58
	18: 30	14.39	13.59	11.47	11.28	8.65	8.53	8.03


模型		（％）	榆树(%)	TS-ANN（％）	SLMBP (%)	SAE-DNN (%)	MPDF (%)	HTSDBNE (%)

工作日	7: 30	24.59	23.58	19.91	19.57	15．00	14.80	11.84
	8: 00	25.49	24.66	20.82	19.64	15.38	15.17	13.91
	8: 30	23.82	22.89	19.33	18.87	14.52	14.33	11.46
	9: 00	24.64	23.59	19.92	19.58	15.01	14.82	12.12
	9：30	23.66	22.72	19.18	18.85	11.25	12.01	11.41
	16：30	21.92	21.52	18.17	18.68	12.59	13.18	12.06
	17：00	22.97	22.15	18.70	18.38	14.09	13.91	11.13
	17：30	23.88	21.97	19.13	18.49	14.30	14.11	13.29
	18: 00	23.58	22.54	19.04	18.71	14.34	14.15	11.32
	18: 30	22.39	20.60	17.97	17.36	13.42	13.25	11.68

非工作日	7: 30	21.71	20.88	17.63	17.33	13.29	13.11	10.49
	8: 00	20.69	18.59	16.28	15.69	12.15	11.99.	9.88
	8: 30	23.19.	20.18	18.19	17.27	13.47	13.30.	10.64
	9: 00	17.09	16.58	14.00	13.76	10.55	10.41	10.43
	9：30	15.37	14.98	12.74	12.47	9.58	9.45	8.56
	16：30	15.29	14.63	12.36	12.14	10.12	9.39	8.35
	17：00	15.38	13.97	11.92	11.65	8.96	8.84	8.39
	17：30	14.59	14.12	12.39	11.93	8.52	8.12	8.40
	18: 00	16.33	14.81	12.83	12.44	8.35	8.84	8.58
	18: 30	14.39	13.59	11.47	11.28	8.65	8.53	8.03

图15和16展示28号线7号站每个工作日实际数据的变化趋势和预测结果。由于空间的限制和结果的相似性，本文省略了对10号线8号站的分析。从曲线拟合来看，HTSDBNE在9:00 - 9:30和16:30 - 18:30的时间较好。HTSDBNE的真实数据与预测结果的差值约为2.5，其他模型的差值最小约为3.2。与其他型号相比，HTSDBNE的性能最好。早上7:30，没有捕捉到真实的客流变化，并且在晚上8点和17点，路段处于高峰期和拥堵;这导致ELM、TS-ANN和SLMBP的预测延迟较大。HTSDBNE、SAE-DNN和MPDF在捕捉客流急剧变化方面相对成功，但HTSDBNE的预测精度更好。在早高峰和晚高峰结束时，HTSDBNE的预测结果与实际情况最为吻合。结果表明，无论是高峰时段还是非高峰时段，HTSDBNE模型的性能和适用性都优于其他模型。

（一种）

（b）

（C）

（一种）

（b）

（C）

图17.和18.显示了第28行的第7行的每个非工作日的现实世界数据和预测数据的变化趋势。非工作日的乘客流量高峰时段比工作日晚30分钟。在图中17.上午8时至8时30分，客流急剧上升。，ELM、TS-ANN、SLMBP、sai - dnn和MPDF均能捕捉到这一上升趋势，但预测结果的精度不高，最大误差在20%以上。然而，HTSDBNE表现良好，误差仅为8.787%。在早高峰结束时，HTSDBNE成功预测了真实的客流状况。与非工作天的上午高峰不同，在晚上高峰时段如图所示18.，客流量逐渐增加，三种混合模型(SAE-DNN、MPDF和HTSDBNE)描述了这一特征。HTSDBNE的预测精度最好，最大差值仅为2左右。

（一种）

（b）

（一种）

（b）

5。结论

本文对原始客流统计数据进行了深入分析，将其构造为一个聚集间隔为30分钟的时间序列。基于客流变化特征，提出了一种新的混合预测模型HTSDBNE，该模型由ARIMA、DBN和Im-ELM组成。第一步，利用ARIMA分析历史数据和实时数据的时间序列的稳定性，并进行初步预测。其次，构建了基于DBN和Im-ELM的子混合模型，用于提取预测结果的残差序列特征，预测残差序列的变化。在第一步的最后，将残差和初步预测结果重组为中间预测结果。为了有效利用历史数据改进当前预测，HTSDBNE的第一步采用并行化的子模型，其结构与上述相同。在第二步中，将第一步基于实时客流和不同时间尺度的历史数据的中间预测结果进行Im-ELM组合，作为最终的预测结果。为了验证HTSDBNE的性能，与HTSDBNE进行了对比分析，ELM、TS-ANN、SLMBP、SAE-DNN、MPDF。试验结果表明，该混合模型能够在更广泛的环境下准确地捕捉和预测客流变化。在未来的研究中，考虑将混合模型在大数据计算环境下并行化，以提高计算效率，适应整个城市所有公交线路的实时预测。

数据可用性

用于支持本研究结果的总线客流数据包括在文章中。

的利益冲突

作者声明本文的发表不存在利益冲突。

致谢

该工作得到了中央大学的基本研究资金（Grant No.1132019205和3132019354），辽宁省自然科学基金基金（辽宁省教育署科研基金（授予No.）JYT2019LQ01和JYT2019LQ02）。

参考文献

B. L. Smith, B. M. Williams，和R. Keith Oswald，“交通流量预测的参数和非参数模型的比较”，交通研究C部分:新兴技术，第10卷，第5期。4，页303-321,2002。视图:出版商网站|谷歌学术搜索
D. Sun，S. Chen，C. Zhang和S. Shen，“基于GIS和超高效数据包络分析的公交路线评估模型”交通规划与科技第39卷第3期4, pp. 407-423, 2016。视图:出版商网站|谷歌学术搜索
李伟，李士生，“基于两种改进策略的STL和ESN有效客流预测”，神经古脑， vol. 356, pp. 244-256, 2019。视图:出版商网站|谷歌学术搜索
“考虑网络脆弱性和客流量的新地铁线路线形评价”，年光，陈飞，李振中，朱元璋，孙德生，“基于网络脆弱性和客流量的新地铁线路线形评价”，运输学A:运输科学，卷。15，不。2，pp。1402-1418,2019。视图:出版商网站|谷歌学术搜索
张伟，崔林，翟华，“短期公交客流预测基础理论的综合比较分析”，对称，第10卷，第5期。第9页，2018年。视图:出版商网站|谷歌学术搜索
Z.Ma，J.Xing，M. Mesbah和L.Ferreira，“使用模式混合方法预测短期总线乘客需求”交通研究C部分:新兴技术， vol. 39, pp. 148-163, 2014。视图:出版商网站|谷歌学术搜索
“基于时间序列模型和交互多模型方法的短期公交乘客需求预测”，自然与社会中的离散动力学文章编号682390,11页，2015。视图:出版商网站|谷歌学术搜索
杨昕，“基于亲和传播和支持向量机的公交车站短期客流预测”，武汉理工大学学报(交通科学与工程版)，第40卷，第5期。1, pp. 36-40, 2016。视图:谷歌学术搜索
S. Guo，W.Li，W. Bai和D. Zhang，“基于LSSVM的公交车站上的短期客流预测”武汉理工大学学报(交通科学与工程版)，第37卷，第2期3，pp。603-607,2013。视图:谷歌学术搜索
J. J. Buckley和Y. Hayashi，《模糊神经网络:调查》，模糊集与系统第66期1，页1 - 13,1994。视图:出版商网站|谷歌学术搜索
T.-h.Tsai，C.-k.李和c。 -魏，“短期铁路乘客需求预测的神经网络的时间特征模型”专家系统与应用第36卷第2期2, pp. 3728-3736, 2009。视图:出版商网站|谷歌学术搜索
J. Roos, G. Gavin，和S. Bonnevay，“基于不完全数据的动态贝叶斯网络方法预测短期城市轨道客流”，交通研究Procedia，卷。26，pp。53-61,2017。视图:出版商网站|谷歌学术搜索
“基于贝叶斯网络的交通流预测方法研究”，IEEE智能交通系统汇刊，第7卷，第5期1，页124 - 132,2006。视图:出版商网站|谷歌学术搜索
雷曼交通研究中心，佛罗里达高级公共交通系统计划，雷曼交通研究中心，迈阿密，佛罗里达州，美国，2009。
C.主教，“提高径向基函数神经网络的泛化特性”，神经计算，第3卷，第2期。4，第579-588页，1991。视图:出版商网站|谷歌学术搜索
“基于动态径向基函数网络的客流控制下的短期客流预测”，应用软计算，第83卷，第105620条，2019。视图:出版商网站|谷歌学术搜索
Y. Li，X. Wang，S. Sun，X. Ma和G. Lu，“预测使用MultiScale径向基函数网络的特殊事件场景下的短期地铁客运流程”交通研究C部分:新兴技术，第77卷，第306-328页，2017。视图:出版商网站|谷歌学术搜索
凌辉，席娥，“基于随机波动的公共交通客运量预测模型”，中国长安大学自然科学版杂志，第32卷，第2期1, pp. 85-88, 2012。视图:谷歌学术搜索
杨青，杨勇，冯志峰，“基于灰色理论和马尔可夫模型的城市公共交通客流量预测方法”，中国公路学报第26卷第2期6，页169-175,2013。视图:谷歌学术搜索
王琪，“基于随机灰色蚁群神经网络的城市短期公交运量预测”，计算机应用研究，卷。29，不。6，pp。2078-2080,2012。视图:谷歌学术搜索
“基于多模式深度融合的公交客流预测模型研究”，国家自然科学基金青年项目，项目负责人。应用软计算， vol. 58, pp. 669 - 680,2017。视图:出版商网站|谷歌学术搜索
“基于小波支持向量机的北京地铁短期客流预测方法研究”，神经古脑，卷。166，pp。109-121,2015。视图:出版商网站|谷歌学术搜索
刘军，王平，“城市轨道交通枢纽短期客流预测模型研究”，《中国交通科学》，2014年第4期。交通信息与安全学报，第32卷，第2期2, pp. 41-44, 2014。视图:谷歌学术搜索
C. Wang，Z.Cao，X.张，W.张和H. Zhai，基于大数据的短期公交车客流预测模型研究，“Matec会议网页，第232卷，第02050条，2018年。视图:出版商网站|谷歌学术搜索
J. C. F. de冬季，S. D. GoSling和J. Potter，“比较了Pearson和Spearman相关系数跨发布和样本尺寸：使用模拟和经验数据的教程”，“心理的方法第21卷第2期3, pp. 273-290, 2016。视图:出版商网站|谷歌学术搜索
E. Vlahogianni和M. Karlaftis，“交通数据的时间聚合:统计特征和模型选择的含义”，交通信件，第3卷，第2期。1，页37-49,2011。视图:出版商网站|谷歌学术搜索
刘宇宇，“基于深度学习的地铁客流预测体系结构研究”，交通研究C部分:新兴技术，卷。101，pp。18-34,2019。视图:出版商网站|谷歌学术搜索
柯建杰，郑华，杨华，陈旭东，“基于时空深度学习的出行服务需求预测方法研究”，交通研究C部分:新兴技术，卷。85，pp。591-608,2017。视图:出版商网站|谷歌学术搜索
刘国栋，“基于卷积神经网络的公交系统客流估计，”以知识为基础的系统，卷。123，pp。102-115,2017。视图:出版商网站|谷歌学术搜索
W. E. Allen和R. D. Murray，智能卡自动收费(AFC)技术在小型公交机构的实施及标准制定，交通研究委员会，华盛顿特区，美国，2016。
S. panigrahi和H. s. behera，“时间序列预测的混合ETS-Ann模型”人工智能的工程应用， 2017年，第66卷，第49-59页。视图:出版商网站|谷歌学术搜索
张广平，“基于混合ARIMA和神经网络模型的时间序列预测”，神经古脑，卷。50，pp。159-175,2003。视图:出版商网站|谷歌学术搜索
陈玉玲，“深度信念网络的稀疏特征学习”，国立中央大学资讯科学与技术研究所硕士论文神经信息处理系统进展，页1185-1192，温哥华，加拿大，2008年12月。视图:谷歌学术搜索
H. Lee，R. Grosse，R. Ranganath和A. Y.Ng，“卷积性深度信仰网络，可扩展无监督的分层陈述学习”第26届国际机器学习年会论文集，第609-616页，蒙特利尔，加拿大，2009年6月。视图:谷歌学术搜索
丁s.，张宁，张建军，徐昕，史志，“具有代表性特征的无监督极限学习机”，国际机器学习与控制论杂志，第8卷，第2期2, pp. 587-595, 2017。视图:出版商网站|谷歌学术搜索
S. Ding，H. Zhao，Y. Zhang，X. Xu和R. Nie，“极端学习机：算法，理论和应用”，人工智能审查，卷。44，不。1，pp。103-115,2015。视图:出版商网站|谷歌学术搜索
M. Khashei和M. Bijari，“用于时间序列预测的人工神经网络和ARIMA模型的新杂交”，应用软计算，第11卷，第5期。2, pp. 2664-2675, 2011。视图:出版商网站|谷歌学术搜索
J. J. Ruiz-Aguilar, I. J. Turias, M. J. Jiménez-Come，“基于SARIMA和人工神经网络的检验时间序列预测的混合方法”，运输研究部分E：物流和交通审查， vol. 67, pp. 1-13, 2014。视图:出版商网站|谷歌学术搜索
P. R. A. Firmino, P. S. G. de Mattos Neto，和T. A. E. Ferreira，“改进时间序列预测的错误建模方法”，神经古脑，第153卷，242-254页，2015。视图:出版商网站|谷歌学术搜索
P. S. G. de Mattos Neto, G. D. C. Cavalcanti，和F. Madeiro，“PM时间序列预测的非线性组合方法”，模式识别字母， vol. 95, pp. 65-72, 2017。视图:出版商网站|谷歌学术搜索
J.-C。“一种用于时变系统预测的变结构在线序列极值学习机”，神经古脑， vol. 261, pp. 115-125, 2017。视图:出版商网站|谷歌学术搜索
C.-Y.陈，T.-S. Li，Y.-c。YEH和C.-C.Chang，“用于轮式移动机器人的自适应滑模动态控制器的设计与实现”机电一体化，卷。19，没有。2，pp。156-166,2009。视图:出版商网站|谷歌学术搜索
C.-Y.陈，T.-S. Li，和Y.-c。YEH，“基于EP的运动机器人的运动控制和自适应模糊滑模动态控制”信息科学第179期1-2页，180 - 195,2009。视图:出版商网站|谷歌学术搜索
G.-B。Huang, L. Chen，“凸增量极限学习机”，神经古脑，第70卷，第2期16-18，第3056-3062页，2007。视图:出版商网站|谷歌学术搜索
G.-B。黄，L. Chen, c - k。基于随机隐藏节点的增量结构前馈网络的通用近似，神经网络学报，第十七卷，第二期4，第879-892页，2006。视图:出版商网站|谷歌学术搜索
D. T. Bui, p . T.T. Ngo, T. D. Pham等人，“一种基于群体智能优化极限学习机的新型混合方法用于山洪易感性制图”，系列，卷。179，pp.184-196,2019。视图:出版商网站|谷歌学术搜索
“基于并行混沌搜索的增量式极限学习机”，国家自然科学基金重点项目，神经处理信件，第37卷，第2期3, pp. 277-301, 2013。视图:出版商网站|谷歌学术搜索
G. E. Hinton, S. Osindero和y . w。"深度信仰网络的快速学习算法"神经计算第18卷第2期7, 2006年。视图:出版商网站|谷歌学术搜索
W. Huang，G.歌曲，H. Hong和K.Xie，交通流预测的深度建筑：多任务学习的深度信仰网络，“IEEE智能交通系统汇刊，卷。15，不。5，pp。2191-2201,2014。视图:出版商网站|谷歌学术搜索
D. Saif, S. M. El-Gokhy和E. Sallam，《基于深度信仰网络的Android系统恶意软件检测框架》，亚历山大工程杂志(第57卷)4, pp. 4049-4057, 2018。视图:出版商网站|谷歌学术搜索
W.刘，Z.Wang，X. Liu，N. Zeng，Y. Liu和F. E. Alsaadi，深度神经网络架构及其应用的调查，“神经古脑，第234卷，第11-26页，2017。视图:出版商网站|谷歌学术搜索
Y. W. Teh和G. E. Hinton，“用于人脸识别的速率编码受限玻尔兹曼机器”神经信息处理系统进展13T. K. Leen, T. G. Dietterich和V. Tresp, Eds。，pp。908–914, MIT Press, Cambridge, MA, USA, 2001.视图:谷歌学术搜索
G. E. Hinton，“培训受限制的Boltzmann机器的实用指南”神经网络:交易技巧、G.蒙塔文、G. B.奥尔和k - r。穆勒,Eds。，pp。59.9- - - - - -619，Springer, Berlin, Germany, Second edition, 2012.视图:谷歌学术搜索
M. M. Hassan, M. G. R. Alam, M. Z. Uddin, S. Huda, A. Almogren，和G. Fortino，《基于深度信念网络架构的人类情感识别》，信息融合，卷。51，pp。10-18,2019。视图:出版商网站|谷歌学术搜索
G. E. Hinton，“通过最小化对比差异来培训专家的产品，”神经计算第14卷第2期第8页，1771 - 1800,2002。视图:出版商网站|谷歌学术搜索
s·p·华盛顿、m·g·卡拉提斯和f·l·曼纳林，运输数据分析的统计和计量经济方法，查普曼和霍尔/CRC, Boca Raton，佛罗里达州，美国，2011。
F. J. Li，H. G. Han和J.F. Qiao，“基于灵敏度分析的极端学习机修剪算法”控制与决策， vol. 29, pp. 1003-1008, 2014。视图:谷歌学术搜索
杜振华，“基于改进灵敏度分析的剪枝极限学习机”，中国科学(d)，控制与决策，卷。31，pp。249-255,2016。视图:谷歌学术搜索
刘磊、刘志强。“基于深度学习方法的新型客流预测模型”，交通研究C部分:新兴技术， vol. 84, pp. 74-91, 2017。视图:出版商网站|谷歌学术搜索

先进运输杂志

摘要

1.介绍

2.巴士客流量统计

２.１.数据源

２.２.数据集定义

2.3。数据样本分析

3.混合预测模型

３.１.滑动窗口的数据

３．２．时间序列预测模型

３．3.改进的极限学习机模型

3．4．深度学习模型

4.实验和分析

4．1.时间序列模型

以下4.4.1。单位根检验

4.1.2。模型选择

4.1.3。参数估计

4.1.4。模型测试

4．2.Im-ELM模型分析

4．3．DBN分析

4.4。混合模型测试与分析

5。结论

数据可用性

的利益冲突

致谢

参考文献

版权

更多相关文章

相关文章