抽象性
模拟计数数据超值使用零充公poisson回归最近开发出各种规范化方法供ZIP模型变量选择EMLASSO即同时变量选择和参数估计常用法EMLASSO估计效率差和选择前后不一。为了解决这些问题,我们建议一套EM自适应LASSO方法,使用各种数据适配权从理论上讲,我们显示新方法能一致识别真模型,结果估计器可像acle一样高效方法通过广泛的合成实验进一步评价并应用到德国保健需求数据集中
开工导 言
现代研究例行收集各种结果的信息,包括计数测量量多为零建模零缩计数结果具有挑战性有几个原因第一,传统计数模型,如Poisson和负二叉算法算零通膨超变异性不最优一号,2..第二,替代零充气模型,如Z级欧罗-一缩放式P级oisson(ZIP)2和Z级欧罗-一缩放式N级符号化B级异性化(ZINB)一号模型在高维和多线性变量出现时无法计算
规范化方法被提议为缓解这些问题的强力框架,这些问题往往比传统方法有极大优势[3,4..所有这些方法基本都通过适当的惩罚函数强制分治宽度,并通过计算高效期望最大化算法识别预测特征EMLASSO具有同时选择模型和稳定效果估计能力,因此特别有吸引力。最近研究表明EMLASSO可能不完全高效,模型选择结果可能前后不一5,6..由此简单修改LASSO刑罚,即EM自适应LASSO(EMAL)。EMAL通过允许不同回归系数不同量缩放实现acle选择一致性
先前的研究尚未深入调查EMAL,以在多样化现实假设下评价属性尚不清楚,例如所产生参数估计在多曲线性下有多可靠eqli实际变量选择性能取决于数据适配权向量的正确构造相联特征拥有固有相联性时,EMAL预期产生次优结果,当样本规模有限时,这种现象特别明显[7..已经为线性泛线性模型建议了若干补救措施,如标准差错调整适应LASSO7,8..缺少类似发布零充数回归模型方法此外,这些方法的全套软件尚未提供给社区使用。
我们通过提供一套灵活变量选择方法来解决这些问题,高效识别ZIP回归框架零缩计结果相关特征算法AMAZONN位元ulticollinearity-adjustedA级广度LASSOZ级高压C欧市欧市N级t回归N级)AMAZonn考虑两个数据适配权重:(一)最大似值逆向估计值(EMAL)和(二)ML估计值逆向除以标准误差理论显示AMAZONN能持续识别真模型 并产生估计器和acle一样高效数值研究证实了我们的理论发现其余文章组织如下下一节建议AMAZONN法,C节确定其理论属性3.模拟结果报告分节4并用段分析一真实数据集5.文章结尾部分简短讨论6.所有技术细节见附录
二叉方法论
2.1.零充气波松模型
零缩计数模型假设观察来源于按计数分布产生零正计数的“可感知性”群或产生零正计数的“不可感知性”群一号,2..正数主体被认为属于“可感知性”群,零数个人可能属于两种潜在群中之一表示响应变量观察值 .后朗伯2sIP混合分布可写成 去哪儿 概率归为不可感知群 poisson平均值对应易感人群 个体化 )可见自一号)ZIP下降为标准 Poisson模型 .临Τ ,表示零膨胀概率归为不可感知群 ,和波松值 ,通过日志链接连接解释变量 去哪儿 并 向量共变 Th主体 )对应计数模型和零模型 并 对应回归系数包括拦截
面向 独立观察,ZIP日志似函数可写成
2.2.AMAZONN方法
AMAZonn考虑EM自适应LASSO框架内两种数据适配权:(一)最大似值逆向估计值(EMAL)和(二)ML估计值逆向除以标准误差(EMSEAL)。Tang等定义[6EM自适应LASSO配方ZIP回归 去哪儿 参数矢量已知权值 并 .江阳7最大似然估计权值反向不一定稳定,当设计矩阵多线性引起关注时尤其如此为了适应不稳定性,AMAZONN还考虑ML估计逆差除以标准误差权重这两种方法分别指AMAZONN-EMAL和AMAZONN-EMSEAL一号)
2.3EM算法
高效估计上述优化问题中的参数5使用EM算法为此目的,我们定义一组隐型变量 详解如下: 我们考虑隐型变量 s为缺失数据重写全数据日志函数4)如下: 上方配方目标函数5可重写为 可迭代解决方式如下:(1)迭代tE级阶梯计算期望 通过替换 有条件期望给定观察数据和当前参数估计 (2)内M阶梯,预期受罚全数据日志相似性5)可最小化 原封 3级继续此进程并发 .
需要注意的是(10可进一步分解 去哪儿 加权约束 Poisson日志似定义 并 受罚逻辑似然性定义 两者都可用计算高效坐标下降算法分别最小化九九..
2.4.选择图灵参数
我们根据最小BIC选择调优参数10标准常识提供优异选择性能优于其他信息标准11..可不遗余力地将之纳入我们的编程中,即使用零充数模型现有实施3,4,6..
3级acle属性
最近Tang等[6显示EM自适应LASSO(即AMAZonn-EMAL)拥有所谓的acle属性,即估计器能一致识别真模型,结果估计器和估计器一样高效oracle语言.显示AMAZONN-EMSEAL估计器 并显示AMAZONN-EMSEAL估计器 也保留相同的理论属性为了完整性,我们为AMAZonn估计器提供综合通用证明
避免数学上过于严格,回想ZIP回归模型日志似函数由 去哪儿 s表示观察数据(i.d观察ZIP分布) 概率质量函数 Poisson分布带参数 并 , .相应的受罚日志似由 表示真系数向量 .分解 并假设 内含全部零系数表示实非零系数子集 并子集选择非零系数 .有了这种配方,Fisher信息矩阵可以写成 去哪儿 Fisher信息对应实非零子模型amaZonnAcle属性可基于下列某些温和规范条件开发:高山市A1:渔业信息矩阵 有限确定所有值 .高山市A2:有函数存在 中位数 去哪儿 面向所有 .
定理一下调A1和A2 , , , ,AMAZonn估计符服从下列acle属性:(1)一致性变量选择 ,并(2)非零系数无损常数 .
4级模拟学习
本节模拟研究评价AMAZONN有限样本性能比较时评价AMAZONN和EMLASOS性能每种模拟数据集相关调试参数均按最小BIC标准选择所有审议方法本节报告的所有例子取自发表论文,在本研究范围内略微修改11,12..
特别考虑三种假想:数据生成模型模拟一号并2考虑所有连续预测器,而模拟3中包括连续变量和绝对变量对每个实验实例,我们随机将数据分解为训练测试集:模型安装在训练集上,预测误差基于测试集悬停样本计算平均绝对比例误差全面比较时,我们考虑过三组样本大小 ,并 ,去哪儿 并 表示培训大小和测试数据选择相应的回归系数和拦截量,以达到所期望的宽度比例 实现中 。尽可能保持模型不可知性,我们考虑对零计子模型使用同组预测器 )在许多实用应用中,这种模型很常见,因为没有域别前文资料说明零通货膨胀机制详细数据生成步骤供模拟实例使用
模拟一(1)生成式 多变常量分布预测器平均向量 ,变化向量 ,差差矩阵 ,中位元素 系 .双向关联值 介于0至0.4(中度相联性)至0.8(高相联性)不等(2)计数零回归参数选择如下: 3级零缩计数结果 模拟依据一号带以上参数和输入数据
模拟2相似模拟一号计数和零回归参数选择如下:
模拟3(1)首选模拟 独立于标准正则分布视下列为连续预测器: 并 .(2)模拟多变正常分布中的5个连续变量 ,偏差 ,ARD )相关结构变化 内 同前数分五新变量 , , , ,并 ,引出总计 绝对变量3级带上输入数据参数 零充值计算结果 模拟依据一号中选择两组回归参数如下: 生成性能测量迭代200多复制2显示AMAZONN性能或优于EMLASOSAMAZonn-EMSEAL最能估计几乎每一种采样大小和零膨胀比例,突出显示基于ML估计和标准误差整合数据适配权的好处这一现象在分析德文保健数据中也明显可见5AMAZONN-EMSEAL法的参数估计似乎比其他方法法的参数估计更多解析性
5级德国保健需求数据应用
接下去,我们应用方法 德国保健需求数据3德国社会经济小组数据集子集13上期研究中也曾用于插图目的3,14..原创数据包含数 医生办公室访问 25至65岁西德男子1994年最后3个月(响应兴趣变量)补充1984至1995年12次年度波补充信息,包括保健利用情况、当前就业状况和保护主体的保险安排3..原创研究的目的是调查德国国民就业特征如何与其保健需求相关依存变量分布一号显示许多医生访问为零 )证实典型方法如Poisson回归不适合建模这一结果
模型安装过程与原创变量一起考虑年龄组和健康状况之间的交互作用,结果产生28个候选预测器3)完全模型的适配结果显示EM自适应LASSO方法都提供竞争性模型选择性能4常导模型选择比EMLASOS少5)此外,AMAZONN-EMSEAL方法似乎选择更少变量数AMAZonn-EMSEAL等特征在许多实用环境中可有吸引力,在这些现实环境中变量间数据相迭性是一个关切问题,需要更主动性特征选择EM自适应LASSO方法计算间接处理相似性,但比EMLASSO快级数级数级数级数级数4并证实AMAZONN为现有方法提供可行的替代方法
6级讨论
近些年来,大量零充值测量遍及生物、公共卫生和医学等多个学科正因如此,许多实用应用中广泛使用零缩计数模型,如美术学、单细胞RNA排序和保健研究文章中,我们建议AMAZONN法用于ZIP回归模型中的适配变量选择模拟和实数据经验显示AMAZONN在各种回归设置下可优于EMLASOS,同时保持理想理论属性和计算方便性初步结果相当鼓舞人心,https://github.com/himelmallick/AMAZonn.
设想数大改进 可进一步改进AMAZONN性能AMAZonn依赖ML估计构建权向量,但这些估计可能无法提供超高维度7..替代初始化计划可进一步改进,如海脊估计15..扩展为其他零充值模型,如边缘零充值回归16,17双片和阻塞模型18号并多重通膨模型19号或可构成深入调查的有用基础虽然我们只注重固定效果模型变量选择,但未来工作可包括扩展到其他规范问题,如分组变量选择12,20码和稀疏混合特效模型21号..
附录
证明应该指出,物流和 Poisson分布都归指数式家庭所有自目标函数 in10可分解为加权逻辑类Poisson日志类一号直接应用Zou定理422号..因此,如果 , , ,并 ,AMAZonn-EMAL和AMAZonn-EMSEAL估计值都持有acle属性:概率偏差为1,零系数估计值为0,非零系数估计值非零正态分布值为正差值和差值约等于Fisher信息矩阵中含非零系数子矩阵的子矩阵证明完全
数据可用性
论文中使用的德国保健数据集公开提供他人提供https://cran.r-project.org/web/packages/HDtweedie/index.html)软件公开https://github.com/himelmallick/AMAZonn.
利益冲突
作者声明他们没有利益冲突
作者贡献
Prithish Banerjee、BrotiGarai和Himel Mallick对这项工作的贡献相等
感知感知
作者想感谢匿名评审员为改进手稿而提出的宝贵评论和建议这项工作得到阿拉巴马大学伯明翰IT研究计算所获取和管理的研究计算资源部分支持。材料中表达的任何意见、结果和结论或建议都是作者的意见、结论或建议,不一定反映伯明翰阿拉巴马大学的观点