抽象性
通过在测试车辆上安装机载诊断器,后处理排出物可实时监控构建驱动循环排放模型,为构建移动源排放动态清单提供数据支持然而,在实际车辆排放检测系统中,由于设备安装成本和车辆驱动条件、引擎操作条件和驱动行为模式的差异,无法确保不同车辆的排放监控数据始终遵循相同的分布法。传统机器学习排放模型通常假设培训集测试数据集取自相同数据分布,并使用统一排放模型估计不同类型的车辆,忽略监测数据分布的差异在这次研究中,我们试图建柴油车NOx排放预测模型,基础为深转移学习框架并带少数排放监控数据Spearman相关分析Lasso特征选择堆放稀疏自动编码器用于映射不同车辆工作状态排放数据到相同特征空间,然后通过最小化特征空间最大均值差异实现不同车辆工作状态释放数据特征分布对齐最后,我们用Hefei环境保护局收集的柴油车OBD数据验证了拟议方法综合实验结果显示,我们的方法可以实现不同车辆工作条件下排放数据特征分布对齐,提高NOx倒置模型预测性能并分点NOx排放监测数据
开工导 言
随着中国城市化与社会经济快速发展,中国机动车队快速增长并连续十一年成为世界最大机动车生产和营销同时,机动车排放造成的空气污染问题正变得越来越严重,它已成为中国大中型城市空气污染的重要源头,并成为微粒物和光化烟污染的重要原因排放清单作为移动源污染量化计算的一个重要工具,可用于空气污染控制措施和溯源分析。当前移动源污染规范主要依赖车辆年度检验,单车排放测试费时长,测试结果无法充分反映路上车辆实际排放量,难以实现移动源排放动态规范机载诊断安装测试车辆一号处理后排出物可实时监控,为构建动态移动源排放编目提供数据支持但由于数据隐私和设备安装费用安全性,不可能在所有行人车辆安装监测设备检测排放,而诸如人数据篡改和设备故障等一系列问题往往导致缺失监测值,从而极大限制OBD监测数据在移动源排放管理中的应用因此,通过可靠分析影响排放检测特征和准确预测缺失监测数据实现移动源排放精确规范,提高OBD监测数据应用效率意义重大
移动源现有排放估计方法主要划分为平均速度模型和实际驱动周期模型前方法通常建起基于车辆平均速度的污染排出统计回归模型,通常用于估计特定区域(行政区或市)内特定时段(通常为四分之一或一年)的宏观流量排出典型模型是美国环境保护局开发的MORBILE模型2由加利福尼亚空气资源局开发的EMFAC模型3和欧洲委员会开发的COPERT模型4..模型从标准轮廓测试周期获取排放特征并用平均速度和平均排放特征等平均值描述车辆排放特征,同时忽略实际道路操作条件、驱动行为和车辆动态对车辆排放的影响驱动周期排放模型分析不同驱动周期下车辆排出全驱动过程基于多维工作条件特征数据,如即时速度和加速乘车时获取的数据,这些数据适合分析单车排出或计算特定数路的单车排出任务类中主模型为iVe模型5和CMEM模型6由加利福尼亚大学Riverside开发MOVES模型7由EPA开发(它可以估计平均速度和驱动周期)和EMIT模型8由麻省理工学院开发由于缺乏基本车辆测试数据,国内排放因子模型研究延迟启动,缺省外国模型值直接用于评估本地车辆污染排放,结果产生大估计误差近些年来,随着车辆排放监测系统开发应用,它可以获取用于校正外国排放模型的实际道路排放特征九九..Quirama等[10使用PEMS构建基于能源微轨操作模型并估计特定区域机群实际耗能和排气清华大学开发北京车队排放因子模型,以成熟外国排放模型为基础,综合平均速度驱动周期实现宏微分因子获取11..王等[12使用基于车辆低频GP轨迹的顺序决策策略实现路速估计并结合微粒排放模型估计车辆 排出物王等[13考虑车辆历史运行状态的影响并搭建基于BP神经网络使用短时驱动周期的微粒排放模型传统驱动循环排放模型使用人工设计参数,如车辆速度加速描述车辆驱动周期与污染排放之间的关系,但它忽略车辆引擎运行状态信息以及车辆驱动周期特征描述不充分,这使得难以有效估计不同驱动条件下监控缺失车辆的排气量
随着机器学习和深学习研究的兴起,一些学者开始将人工智能技术引入移动源估计研究中Chen等[14数分回归森林用于NO遥感预测徐等人[15建立时空地图多变网络 有效预测河飞市区域车辆排放徐等人[16深片遗留延迟聚变网络与半监督地理加权回归以预测区域排放为时序数据Altug和Kucuk17XGBost培训引擎速度、引擎托盘、踏板位置和车辆速度数据作为预测输入 并比对弹性网络LSTM显示高精度飞等[18号提议多构聚时网预测CO排放量,同时考虑多重复杂特征徐等人[19号建基于深神经网络移动源排放预测模型,实现车辆瞬态操作条件和污染排放之间的关系映射,并进一步建议基于COPERT排放特征的远程排放感测数据深修正模型,即搭建三级自动编码器网络实现多源多功能数据特征提取,如气象数据、公路网数据、流量数据以及城市功能区[20码..
实际车辆排放检测系统,由于车辆驾驶条件、引擎操作条件和驱动行为模式的不同,无法确保不同车辆的排放监控数据始终遵循相同的分布法。然而,在传统机器学习排放模型中,通常假设培训集和测试集排放测试数据取自相同数据分布,并使用统一排放模型估计不同类型的车辆,忽略监测数据分布的差异图中显示一号s表示 柴油车辆排值培训获取NOx预测模型标签_T表示 柴油飞行器排放值预期会使用Label-S数据集获取预测模型知识,该数据集标签显示回归模型中另一种柴油飞行器上头 源域和目标域分布不同,这将导致独立完全分布假设监督模型性能退化传教技巧21号可用数据完全源域知识转换为数据稀疏目标域,为在不同驱动条件下构建废气排放预测模型提供求解
启迪传教小说 本文建议柴油车辆排出反射法具体地说,它是一种深传学习模型,先使用Spearman相关分析Lasso特征选择完成与多因子释放NOx高度相关因素的选择(例如节流状态和引擎相关状态)。堆放稀疏自动编码器用于映射不同车辆工作条件排放数据并存同一特征空间,然后通过最小化特征空间最大均值差异实现不同车辆工作条件释放数据特征分布对齐最后,我们验证了实战车OBD数据的拟议方法,综合结果显示,提议的DTL模型优于数种深学习方法,显示基于多外部源的DTL对柴油车有很大潜力 差量监控数据预测
其余文章组织如下段内2讨论相关作品段内3描述DTL模型构建内段4数项实验结题和未来的研究取自C节5.
二叉相关工程
2.1.激光索
使用与预测无关特征输入变量会增加复杂性并减少回归模型解释力,因此有必要选择相关初始特征最小绝对缩水选择运算符(Lasso)由Tibshiran建议22号常用变量选择方法 机器学习字段通过添加L1规范实现变量选择,使输入变量中的某些变量系数培训为0损失函数如下: 去哪儿 受罚系数越大,保留变量越少交叉验证法通常用于确定其最优值
2.2.SAE网
AutoEncoder(AE)系对称单层隐藏神经网络23号..由编码模块和解码模块组成,编码模块用隐层输入表示,解码模块用隐层隐藏训练后,它能最大程度复制输入输出,隐藏层特征表示特征空间输入特征的抽象表示AE结构图解2输入一Th样本 =[ , , , 内存m特征和特征h隐藏层表示为
公式化 从输入层到隐藏层的权值 偏向从输入层到隐藏层 是一个激活函数,在本论文中,我们选择 .重构特征 可表示为 去哪儿 权值隐藏层对输出层 隐层偏向输入层以确保 可最大程度恢复,损失函数使用如下:
隐藏层神经元数小于输入数时,AutoEncer可实现数据压缩
AutoEncoder简单复制输入培训输出,这使得难以获取有意义的特征描述现代研究通过增加传统AutoEncoder约束来补偿这一缺陷,结果产生各种小说AutoEncoder,例如DenoisingAutoEncoder24码稀疏自动编码器25码变式自动编码器26..
SAE中,KL偏差添加为稀疏惩罚词,只强制隐层中部分神经元激活KL差分表示如下: 去哪儿 表示隐层神经元激活概率,通常视之为接近0值 实际激活概率 隐层神经元表示如下: 去哪儿 表示隐层神经元激活概率 输入数据时 样本
此外,为了防止网络超装,L2规范加进损函数 微值微值系数简言之,SAE损失函数如下:
2.3栈自动编码器
与正常自动编码器相比,堆栈自动编码器可获取更适合复杂回归任务之隐藏特征堆栈稀疏自动编码器使用层向非监督预培训27号万事通具体地说,简单稀疏自动编码器培训后,隐藏层特征被用作新输入培训新稀疏自动编码器,可描述为 ,并当达到所需数层时,所有隐藏层合并组成堆叠稀疏自编码器
2.4.域适配
域适配28码是一种比较受欢迎转移学习法,目的是绘制源特征分布和目标特征并划入同一空间并绘制特征空间近二分分布图,从而实现分布对齐,然后用特征空间源数据培训获取的客观函数可移入目标域
深入学习中DA方法有三大类,即异差域适配、对称域适配和重建域适配
异差域适应侧重于测量源域和目标域之间的差异,增加一定度量并实现源域和目标域对齐深域适配Tzeng等[29新建CNN结构,通过添加自适应层和MMD损耗函数实现域适配并具有视觉域任务优异性能Werner等[30码中心时位差异建议 CMD执行域适配Li等[31号依据MM适应边缘分布和条件分布建议dNN,该分布和条件分布在图像分类和识别以及文本分类中具有优越性
反向域适配主要通过与偏向器对立实现,生成器对准源和目标空间数据Eric等[32码并用偏差模型、权分享和GAN损耗建议反歧域适配朱迪等人[三十三循环自对域适配像素级和特征级执行跨域适配,同时确保语义一致性沈等人[34号WGDRL计量优化特征提取网络以对抗方式减少Wasserstein距离
重构域适配主要侧重于域适配,重构数据以确保所学特征不变Glorot等[35码依据堆栈自编码自定义取高阶语义信息Bousmalis等[36号提议dsn框架解码源域和目标域并用常用编码器对三大编码器输出物中的每一项编码码解码,以提取不同域间的公共特征并使用共享特征传输
2.5MMD
最大均值差(MD)在转移学习中频繁使用,作为测量两个域间差的共同方法将原创数据映射进Hilbert空间并测量两个域间的分布,这是一种内核学习法37号..具体度量公式如下: 去哪儿 映射原创数据进入Recent内尔Hilbert空间 ) 表示两个分布式样本 映射函数集
3级方法论
本节主要介绍模型细节图中显示3深传学习模型 柴油车辆基于多源外部影响排放物,使用Spearman分析关系并选择Lasso特征查找与柴油车辆关系密切的特征 排出物后堆放稀疏自动编码器设计出提取源域和目标域中常见隐藏特征最小化源域和目标域间MMD距离实现不同车辆模型数据对齐归根结底 获取分布数据不同的车辆间排放模型
3.1.数据描述
2020年Hefei收集的柴油车OBD数据包括牌照号、终端号、数据日期、引擎速度、实际输出叉百分比、引擎水温、机油温度、下游处理 处理后下游氧百分数、大气压力、环境温度、处理后垃圾流率、尿素水槽温度、车辆速度、气踏开口、单行里程数、全里程数、引擎瞬时燃料注入、引擎瞬时燃料消耗率、平均引擎燃料消耗率、单程引擎燃料消耗率、累积引擎耗油量、电池电压邮箱水平、累积引擎运行时间、经度、纬度、SCR上游温度和SCR下游温度
表2一号显示源域柴油车和目标域柴油车详细参数比较提高数据质量,我们预处理数据,包括数据重复、异常清除和去除无关特征预处理后,源域柴油车和目标域柴油车数据统计见表2并3.
3.2相关特征选择
多特征影响 监控柴油车辆下游处理,预处理后源数据计算Spearman关联系数 多特征处理后下游,如氧百分率、引擎速度和引擎水温度等,并让这些系数接受假设测试 并去掉无关 排出外部特征作为新特征Spearman系数和T级值显示表4很容易知道引擎油温度、环境温度、尿素槽温度和尿素槽百分比无关 条件下排放 .
发现新特征后,使用Lasso算法计算每个特征关联系数 ,后特征的系数非0 取作最终特征其中包括拉索系数 Spearman后关联分析显示于表5中拉索乘速系数 表示0,从终端特征中去除
由Spearman和Lasso处理特性组成的新源数据表示为 ,和特征 按源次划分为车辆引擎相关、车辆节流相关和车辆处理后系统相关,具体分类见表6.
为了确保源特征和目标特征相同,我们取特征 联想 as基准并制作特征 目标域相交并进特征 窗体新目标域数据 可视化表示为
柴油车辆排气监控元素一致性 子集 .
3cm3DTL
筛选柴油车外部关联 释放源与目标数据高度关联 特性包含引擎速度、实际输出托盘百分率、引擎水温度、气踏开口、处理后下游氧百分率和处理后排气流速率最小化MMD距离实现领域适配,表示源数据和目标数据分布差异,深度向公共空间传输网络投影并高维稀疏表示法
3.3.1堆放稀疏自动编码器
取 以输入堆叠稀疏AutoEncer第一层, 隐藏层神经元数定为输入特征数5倍 ,和概率隐藏层神经元激活 0.05,优化损失函数 反向剖析并保存网络集成后隐藏层权值隐藏层特征数据输入并训练新稀疏AutoEncoder 实现时保存隐藏层叠叠7显示多层隐藏特征维度
3.3.2.权分享
快速高效学习源码和目标域的共同隐藏特征时,我们使用权分享方式将堆叠稀疏自动编码器中接受源数据培训的每一层的权重转移至最后深度传输网络
权分享深传学习常用方式38号-40码..预培训堆栈稀疏自动编码器后,带源数据,权重 并偏差 需要分层共享新栈稀疏自动编码器完成权重传递 去哪儿 算法 隐藏层权新堆放稀疏自动编码器 算法 隐藏层偏差新栈稀疏自动编码器 并 有 隐藏层权值和偏差 训练堆栈稀疏自动编码
33.3.特征转移学习
混合源域与目标域 , 输入新稀疏自动编码器并使用MMD堆栈稀疏自动编码器深传网络损失函数如下:
通过持续最小化MMD,目标域和源域分布可有效拉近新特征空间的距离通过持续最小化MMD分布目标域和源域可有效近似新特征空间梯度下降帮助回传播,更新权值和偏向,直到趋同,输出被用作新特征源域和目标域新特征表示为 ,互斥
3.4.目标域
预测源数据和目标数据通过深传输网络投射到特征空间并完成域适配深传输网络原型变换可用下列方程详细描述: 去哪儿 原创特征列 特征表示 特征空间上s级人工设置参数
自 后处理下游值受非线性特征影响,如引擎速度、后处理下游氧百分数和引擎水温等,我们选择使用BP神经网络构建回归预测模型
特征转移后分词 输入培训验证集 8:2 用作测试集构建双层BP神经网络模型平均平方差错选择全回归网络损函数,平均绝对差错选择评价索引,亚当使用优化函数,整个网络集合后测试集
3.5评价度量
均值绝对误差和root正方差有效评价预测效果 排出物计算方式如下: 去哪儿 表示样本数 正值标签 预测值标签
4级实验
4.1.MMD设置
MMD分布式变异并比较MAE和RMSE预测值以选择最优位置为最终模型搭建
表28显示MAERSE比较预测值后选择多层稀疏自动编码器并尝试在不同层添加MMDN级)N级表示堆叠稀疏自动编码层数,DTL术语数表示多层MD特征维度因层叠加而指数化增长, 并增加培训时间, 我们只比较堆叠稀疏AutoEncder达3层从表结果8中选择稀疏自动编码器三层并增加二层MMD供域适配
4.2模型性能
为了验证本文中建议模型的有效性,我们比较传统深学习模型和模型结果传统深学模型默认源域和目标域同分布并使用源数据与训练集和验证集训练BP神经网络和目标数据同测试集图4显示100随机选择数据点的预测效果,即本文件提议的DTL模型比传统DL模型小误差并更适合真值
为了进一步验证本文模型的有效性,我们在数据集上使用DTL和DL进行了实验,而没有相关特征筛选(效果显示图中5和训练集、验证集和测试集保持与前几次实验一致回归预测部分随机森林支持向量回归九九显示模型预测结果比较DL表示预测模型深学而不考虑外部特征对外部特征的影响 NDTL表示预测模型深传学习而不考虑外部特征对外部特征的影响 NDL表示预测模型深入学习并考虑外部特征对外部特征的影响 NDTL表示预测模型深传学习并考虑外部特征对外部特征的影响 排出物表中数据比较九九DL无特征转移性能比DTL模型高得多,DTL模型证明特征转移在不受监督预测中的有效性,并可以清楚地推断特征筛选后数据对柴油车预测更为有利 集中性实验中 神经网络模型比传统机器学习模型强
图6显示源柴油车可视化效果并目标柴油车图6(a)显示引擎速度分布、实时输出托盘百分比、引擎水温度、气踏开口、处理后下游氧百分数和处理后排气流速率特征图6(b)显示源式柴油车和目标式柴油车分布从图中可以明显看出,源式柴油车和目标柴油车培训后的数据分布可基本混合到一个域并实现域适配
(a)
(b)
4.3探索影响特征 释放
以上实验所选相关特征对 并有效预测DTL模型深入调查特征的哪个方面对哪些方面有更大的影响 集中性,我们训练DTL使用每一种属性分布6预测 ,并获取预测数据MAERSE,如表所示10.
取自表内指标10很容易知道DTL与节流相关特性预测得更好即开关程度 节流踏板对 驱动期间柴油汽车排放现实世界柴油车加速灵敏度低轮用燃料供应量会急剧增加, 由于其敏感度差, 柴油引擎速度不会大增, 导致相对弱气扰动,延长燃烧过程并增加不完全燃烧, 发射电流锐释放后 引擎燃烧条件会恶化 工作难易 排放量会增加因此,驱动器开动时应顺畅操作节流器,而不是紧急踏板或紧急释放节流板
引擎相关特征和油气相关特征都可实时由驱动程序驱动正确驾驶行为可大大减少污染物排放,即当道路条件和环境条件允许时,应保持稳定速度,不频繁速度变化 柴油车辆排放可通过处理后系统有效减少
5级结论
本文建议深自编码转换反转模型 柴油车辆排出预测整合多源外部影响性能 不同柴油车辆间排放模式转移并有效提高柴油车辆精度 排放预测OBD柴油数据特征 Spearman相关分析与Lasso特征选择选择排出物,引擎速度选择特征、实际输出托盘百分比选择特征、引擎水温度选择、气踏开口选择、处理后下游氧百分率选择和处理后排气流率选择与强关联 设计DTL学习框架配对依赖含上强关联特征并配对 光有以上强关联特征的柴油飞行器联合培训网络模型,使不同类别柴油飞行器数据汇合特征空间相同分布并用含柴油飞行器数据培训特征空间目标函数 传入柴油车辆 排放值实现 预测柴油车辆无 发射值为预测无标签柴油车数据提供有效预测方法基于柴油车分析 基于不同源的外部特征,车辆节流相关特征对柴油车产生巨大影响 并合理控制车道状态是有效控制柴油的重要手段 排出物
未来研究可通过以下方式扩展(1) 在潜在特征提取中,可尝试用其他方法寻找特征空间原特征的抽象表示法(2) 特征转移使用MMD度量测量两个域间分布的差分,以后基于数据集的研究可选择更合适的度量
数据可用性
支持本研究发现的数据因数据拥有问题尚未提供
利益冲突
撰文者声明,本论文的发布不存在利益冲突问题。
感知感知
这项工作得到中国自然科学基金会(62103124、62033012和61725404)、中国安徽主要特殊科技项目(201903a07020012和202003a07020009)、中国博士后科学基金会(2021M703119)和Grant2018YFO0108800中国关键研发方案部分支持。