抽象性
本文提供模型法预测目前COVID-19阳性个人总数和意大利现有特护单元占用率从3月29日起10天时间跨度预测将按照基于该现象规模的标准,在国家一级和分解程度更高一级提供受大流行影响最大的区域被隔离开来,受影响较小的区域被归并成同质宏域结果显示-在预测期间(3月29日至4月7日)-所有意大利区域将显示COVID-19正数下降需要住院重症室的人数也将观察同样情况依据政府当前约束策略的恒定性,这些估计有效在这种假设中,北部区域将仍然是受影响最大区域,而南部区域预计不会发生大规模暴发事件。
开工导 言
3月19日意大利因传播病毒COVID-19支付死亡人数达3405名,3月26日这一数字升至8165例死亡
在发生紧急情况时,可靠的预测方法对决策制定者设计基于证据的政策并快速采取行动控制感染传播至关紧要。预测目前COVID-19测试阳性人数(下文称“阳性案例”)可能有助于绘制感染的流行病学曲线并预测峰值除此变量外,本文介绍的预测程序用于预测另一个关键变量的未来值,即需要入院重症护理单元的人数眼下意大利ICU系统因疾病传播而严重压力因此,未来伊斯兰法院联盟需求的预测可以在操作计划的设计和实施中得到富有成效的考虑。预测地平线从3月29日起为10天
由于意大利区域受COVID-19不同程度的影响,已决定对下列地理区域进行预测演练:Lombardia、Piedmont、Valled'Aosta、Veneto、Friuli Venezia Giulia、Trentino AltoAdie、Lazio和Campania剩余区域划分为下列宏域:“Centre”(Marche,Umbria和Toscana)和“South”(Abruzzo,Molise,PugliaBaslicata,Calbria,Siclia和Sardevna)。至少有另外两个理由证明可以拆分:(1)不同起始时间记录锁(2)南部地区受重击较少,因此,特别是在观察期开始时,在所考虑的时间跨度中显示数个零或低数
实质上,本研究第2节详述的现有官方数据分三步使用,即:(1)数据预处理中,数据异常按Kalman滤波式处理法识别并校正(2)单变平均移动模型(ARMA)对正例数和ICU3级陷阱生成预测值和置信区间
二叉数据大全
本文使用COVID-19相关数据,由意大利国家卫生局(意大利卫生部的一个机构)和意大利民防局收集并定期更新完全数据集免费公开存取综合数据库,并上网登录网站https://github.com/pcm-dpc/COVID-19/tree/master/dati-regioni档案名dpc-covid19-itareati20200323.csvCOVID-19测试者关键数据采集自暴发(2月24日)(1)集合21个数据点-代表19个意大利大区+两个自治省Trento和Bolzano-从疾病爆发开始每天1个(2)考虑关键变量,如正例、复发案例、死亡数、住院人数和重症护理单元收治人数
上文已经指出,在本研究中,感兴趣的变量是(1)测试阳性COVID-19V级)(2)入院ICU(用粗拉丁字母表示)U级)
值得概述的是,根据意大利政府发布的规定,只有显示中度至严重症状者、通常与感染相关者或与至少一名阳性者近邻者才能测试因此,所得预测应参考样本,因为没有试图为估计人口层次变量执行推理程序
为了正确处理数据,所有显示记录周期起始点无正例和/或全时段低值的区域都归为宏域这样做是为了 (i) 提供更多有意义的结果和(ii) 保存自由度(这些自由度在短时间序列中总是珍贵的)。
详解预测演练将在下列区域/macroa(A)诺特特尔区域(1)伦巴达(2)皮德蒙3级山谷Aosta(4)维内托(5)弗里柳里Venezia朱利亚(6)Emilia-Romagna(7)利古里亚(8)宏域Trentino AltoAdie(B)中心区域(1)拉齐欧(2)宏域Center: Marche、Umbria和Toscana(C)南方大区(1)坎帕尼亚州(2)宏地南方:Abruzzo、Molise、Puglia、Basilicata、Calabria、Siclia和Sardevna
北意大利区域-目前受大流行病影响最严重-与另外两个区域-拉齐奥和坎帕尼亚-分开处理,因为它们的主要城市-罗马和那不勒斯-值得特别注意机构作用和人口密度显示不令人担忧数字的区域则按地理定位汇总成宏区唯一例外是Valled'Aosta,由于无法找到汇总选项,该选项被分离
简化表示法,对两个变量都适用V级并U级介绍下列公约
左上上标(由高写拉丁字母K表示)指地理区域(即北区、中区和南区),下标则指下标 与数关联 区域或宏编译例举符号 并 Emilia-Romagna大区和Central宏域“McRE-Umbria-Toscana”分别确定正例数
3级数据预处理
缺失数据和其他异常点成为设计预测模型时首选挑战,因为统计方法一般是在假设不缺失观察下设计测试的一号..在深入探讨拟议程序细节前,需要谨慎一点,因为不幸的是,对数据进行视觉检查显示在区域和国家二级都存在数种异常数据。检测到异常点可能与生物采样采集过程和相关测试程序相关联典型实验工作流受一套僵硬协议约束,这些协议可能受到人力可用性、swabs、试剂和其他实验材料等因素的严重影响。紧急情况下,这种工作流可能中断,结果可能出现时间前后不一。举例说,一组样本可能比往常延迟采集时间交付实验室,或特定实验室只能完成一定数样本筛选过程在上述两种情况中,都可合理期望一天(或更多天)交替发布实验结果数据录入和数据编辑过程是另一个异常源码,这些过程在工作环境中进行,可能受传染风险影响,并在僵硬截止日期下执行。
图中举一例说明异常数据一号中位数列 Lombordia描述显示值与总体模式不相容的一些数据点显而易见参照现有样本大小(极小),这类数据相对权势几乎肯定不可忽略,并可能在模型参数推理程序中并从而在预测值中造成严重反射
为了纠正这些数据,卡尔曼平滑状态空间模型2..... 应用特别是卡尔曼平滑器采用式定点平滑算法设计以获取实现估计 时间 固定式 )随机变量 ,给定一组观察 .深入解释这个方法超出论文范围感兴趣的阅读者参考Sage和Melsa的优秀论文3..
图中2校正版数列 由应用卡尔曼滑动-描述不仅此数列本身可提供更好的视觉检查,更重要的是,更适合通过预测模型处理
4级理论框架
本文使用的方法依赖 (i) 随机过程理论和 (ii) 重采样法前者对生成靴式算法输入值(预测值)并证明使用异常校正法有理是必要的,而后者服务于目的(1)生成最终预测,受低不确定性度影响(与随机模型生成值相关)(2)产生相关置信区间
4.1.存储过程范式
本文提议方法所依赖的假设是(变换)时间序列 并 近似实现ARMA进程4..
等一等 实战 顺序固定过程,据说它接受ARMA(p,q)表示 if, for some常量 , ,将 条件如下:
来 表示sigma代数导出 ,并 并 假设非常用零
以上条件保证 可表示为 带 以几何速率递减0
受调查序列动态不适应理论框架,因为它需要二阶静态和同质性预处理序列同时实现这些条件 ,成为符号 差分运算符和推算符 表示差分顺序完全理解角色 ,后向运算符 现介绍本质上 移动时间索引回溯观察 时间间隔,即 ,并因此我们
4.2采样法
为了从数据中提取有价值的信息并同时减少ARMA模型结果的不确定性总量,采用了重采样程序依赖数据多采样方法-其中许多免费公开提供,形式为按软件包工作强例例数,如Python++或R维诺德建议5并随后改进(例如见Vinod6基础假设不同于通常标准方法更多细节中,经典靴套 表示引用群数 观察时间序列取自 MEB中多组数(子集)表示 成为元素归并 ,内含大数仿真 .
不同于标准靴子机制,在MEB例中重标集 模拟观察基本随机过程实现过程,在MEB中大数子集表示 成为元素归并 ,内含大数仿真 .MEB机制的重要特征中,值得一提的是,其陷阱样本与ERGodic定理的一致性(例如见Birkhoff[7和概率结构 观察时间序列图中3例子应用MEB变量 提供中 。
5级预测方法
程序建议分步编解(1)方程分解2估计两者 并 令模型排序2) 并 现成可用性(2)时间序列 并 ,MEB程序应用以便集 并 内含- 离散复制-即 并 图中4集 面向变量 提供)3级存储式复制 ,方程2)根据模型排序估计,即 ,和1-10步前预测-和5%-95%靴置信区间生成(4)B预测和前步获取的信任区间存储 矩阵化 ,柱子下带置信区间、靴子预测和上带置信区间,分别用符号表示 , ,并 .(5)中值 并同时提取 95%置信区间 并 ,计算取t-百分位法程序解释超出本文范畴感兴趣的阅读者参考Berkowitz和Kilian的优秀论文8..(6) 并 下标 省略brevity) ,说 ,由靴式复制组成,其范围介于最小值和最大值间,为置信区间计算 .符号化 (7)步骤1-6重复使用 ,以新矩阵预测维度 建构,即 ,列类 并用符号表示 , ,并 .
不幸的是,不能认为整个过程完全自动化,因为估计方程2需要第1步
5.1.传承模型
随机模型结构为两者确定 并 几乎总归ARMA类型(1,0)除Campania变量(ARMA+0,1)外,两个变量都存在 并 )和Emilia-Romagna最佳变量模型 类型ARMA(1,1)最合适的预滤器5) 常有类型d级=3差自然日志
6级经验证据
在国家一级(数据图解4COVID-19峰值4月2日实现,数例预测正值接近77,000最大预测值4月4日预计为4280计算这些值时使用间接方法,即汇总分类估计值与COVID-19正数和ICU占用率相关的结果分别在表上报告一号并2中带标准偏差 并 单个表示符号 并 与信任区间并发报告 并 上调下表报告的主要结果评语i)Lombardia-最受影响的区域-将分别达到正例(25963)和ICUs需求(1425)峰值,4月2日和4日二)Emilia-Romagna第二大受COVID-19影响区域,但仍显示大量受害者受感染者趋势4月5日将达到峰值,而在预测期间重症护理病例数将继续以逐步慢速增长三)维内托是死亡数第三大区正面案例数和伊斯兰法院联盟案例数将在4月3日达到峰值四)Piedmont第四区受害者数预测正数3月29日将达峰值(6635),第五大类利古里亚早在3月29日便开始相对减少正数进程重症护理案例数经过一段稳定时期后(持续到3月31日),将开始缓慢下降路径委 员 会Trentino AltoAdie-它综合Trento市和Bolzano市-预计3月30日为2158,然后预计下降趋势居中ICU床位四月三日前后将达到峰值七)Friuli Venezia Giulia中正例显示前半预测区间相对稳定趋势,4月4日前后峰值下降后绝对数开始下降3月30日至4月1日之间 重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症重症八)Valled'Aosta是一个小区域,相对较少受病毒影响3月31日开始下降趋势(正例)和3月31日前后开始下降趋势(ICUs案例)。九)拉齐奥正数上升趋势估计3月31日停止并到预测人端最小值(1821例)。ICU案例估计在4月1日至3日达到峰值(x)宏面积中心将在四月初达到峰值 )反之变量 估计峰值日约3月31日(十一)Campania4月5日将达到传染峰值,而ICU案例前天将实现十二级其余南部地区(Abruzzo、Molise、Puglia、Basilicata、Calabria、Sicly和Sardinia)将显示未来正例数上升趋势,持续到4月6日,预测有6355例需要ICU的人数4月4日将达到峰值(348估计案例数)。
7结论
提出了两种变量预测法-即阳性数和ICU床位未来使用率-在大流行病期间通常至关重要整个过程设计 实现这样一个需要知道目标使用 最小数据集时间序列与正数和ICU占用相关这是一种强度点,因为在大流行病初始阶段,可用时间序列仅限于基本变量(如本文件所考虑的变量),并必然短短,这一事实在总体上排除多变方法除此以外,这一程序使用两种强效工具,即ARIMA模型和MEB重采样机制,生成受不确定性构件影响比不使用靴子步骤少的数量估计值和置信区间最后,程序包括卡尔曼式滤波器,证明有效纠正这类数据中常见异常和异常(例如外部线)至少有两个点是拟议方法的弱点:首先,假设两个时间序列都实现(未知)ARIMA型数据生成过程是任意的,需要在分析中引入不可忽略的不确定性(顺序选择不确定性)。第二,一旦发现最优模式顺序,推理过程势必导致失去宝贵的自由度未来研究方向包括探索不同预测模型(如类型指数平滑)并综合预测
数据可用性
支持本研究发现的数据可应请求从相关作者处获取。
披露
文章表达的观点和意见与作者相同,不一定反映意大利国家统计局的官方政策或立场。
利益冲突
撰文者没有利益冲突声明具体地说,他与本手稿所讨论的主题或材料没有任何金融利益或非金融利益或涉入任何组织或实体