抽象性
洪水属于最危险的自然灾害,它们的灾难管理严重依赖精确预测预测由基于微分方程的物理模型提供但这些模型依赖不可靠的输入,如测量或参数估计,这些估计引起不良不准确性。因此,对物理模型及其精度进行适当的数据挖掘分析似乎有助于调整物理模型。显示洪峰预测应用模糊GUHA法使用系统测水流率数据预测洪流是为了用自然语言清除模糊关联规则提供数据先扩展一代人工变量产生变量后转换成模糊GUHA表 帮助评价语言表达发现关联被解读为模糊IF-HEN规则,并协同基于概念推理法使用预测流速峰值预期时间移从该调整模型中获取的结果经过统计评价,预测精度提高得到确认。
开工导 言
灾害管理任务正变得越来越重要。在许多自然灾害中,洪涝是最危险的之一,此外,洪涝也是中欧区域最频繁发生的之一。研究者投入巨大努力调查独特的洪模型,帮助预测洪涝,从而为灾害管理提供可靠的决策支持,可用于预防进一步的沉积和物价成本
其中一个长期研究侧重于灾难管理,特别是建模预测洪水,创建FLOREON系统,即突发洪预测系统一号..不论系统多复杂,由于数据源自然不精度(例如测量站)和参数设置自然不精度(由专家判定crips值),并铭记整个问题复杂程度,它必然提供并非总精确预测值
集中分析系统性能似乎适当,至少可以提供一种模糊概念,说明系统在何种条件下运作,在何种条件下系统提供某种不精确性,在何种条件下我们能够纠正预测从不精确源头看,似乎适当的数据挖掘技术如含混淆性可能给我们带来大有希望的结果并值得尝试在这次调查中,我们在模糊GUHA方法帮助下面临上述预想问题,即关联采掘技术的具体变式,允许广义使用模糊逻辑概念2..
1.1.简单问题描述
数据分析取自捷克共和国OstravaOdra河水流速测法测量站提供流速3/s按小时计算目标是预测未来流速由所谓的 Math-1D模型实现3开发FLOREON灾难管理IT系统一号..
Math-1D模型以差分方程模型流速为了提供流速预测,它使用降水量信息(预测和预测数)、土壤类型、河岸形状和其他参数虽说它是一种成熟物理模型实证检验,但不够可靠。原因不在于模型,而在于大多数参数和输入数据高度不精确举例说,土壤类型由水文专家提供,但由于自然限制,不进行深度地质分析,此外,所提供的土壤类型对整个河流流都是一样的。
计数一维模型预测主要依赖测量的过去降水量和流速数以及预测降水量提供预测,尽管往往可靠,但可能甚至极不精确。不精确性可以从两个角度看:垂直和横向垂直不精确实际上表示高估或更糟糕的是低估顶峰流速率第二调查即横向不精确性至关重要即我们专注于时间精度即,我们集中研究模型前后预测峰值移值和峰值移值
垂直和横向不精确度可能相当大从图中的模范预测中可以看到一号实际顶峰比预测提前数小时出现Math-1D模型不使用过去水流速率知识,主要依赖降水量说明为什么模型不完全匹配过去数据(从-119小时到0th!参图一号)降水量比测量站数据要精确得多,测量站可能不完全标定或更糟的是测量站可能部分受损或甚至完全毁损(偶发,即使在大规模洪涝期间测量站提供零流速测量值)。

我们的任务是分析和预测水平轴峰值移位换句话说,任务就是要建模型(基于流速测量和模型-1D性能过去)为灾难管理提供宝贵的信息,说明数学-1D模型横向可能的不精确性,并额外为灾难管理提供峰值移位估计值峰值移位估计可用于修正预测
二叉理论背景
本节介绍基本理论背景 用于调查由于没有空间详细介绍所有理论概念,我们将只向读者提供简短介绍并参考更多宝贵源4-7..
2.1.评价语言表达
混淆/语言化IF-HETN规则系统的主要组成评价语言表达式[4简言之评价表达式举个例子极大,或多或少热之类自然语言特殊表达式使用时,必须评价决策状况,具体说明某些过程开发过程,并在许多其他情况下使用自然语言注意其重要性和数学建模潜力Zadeh已经指出(例如. in.8,九九))
简单评价表达式保留下结构 原子评价表达式内含任意剖面图形容词小点,介质并大块头缩写成sm、Me和Bi
语言套头等同词使原子表达式或多或少精确化似可辨别套头缩小效果举个例子极值,极值之类和放大效果举个例子大致上,或多或少之类下文中,我们不失泛性使用表内介绍的套头一号成功应用10并安装LFLC软件包11..特殊案例 可为空 。备注:树篱为所谓的包涵型12表示更多具体评价表达式的扩展包含在较不具体表达式中参图2.

评价表达式一号)通常用脚本字母表示 , .....用于评价某些变量的值 .生成表达式调用评价语言预言并拥有表单
评估预测例子为“温度高”、“物价低等”。模型评价表达式和预言区分强度并扩展各种语言上下文.上下文特征范围可能的值范围可定性为三重数 中位 并 .这些数字分别描述特定使用环境评价特征的最小值、中间值和最大值因此,我们将识别上下文概念 .通过 我们指 .续集中,我们将用一套上下文工作 预发式
强化评价推理 " 华府市 表示公式解释函数 即函数为集中的任何上下文分配模糊集 .
增量化3和上下文 ,我们可以定义扩展 华府市 上下文 散乱集 : 去哪儿 表示模糊子集关系
公约1为了简洁简洁,并牢记扩展为特定上下文模糊集,我们将酌情省略扩展概念,并只写缩写表单: 左手方未明文提及所选上下文 并变量 .
2.2.语言描述
评价预言出现形式自然语言条件条款 去哪儿 , 评析表达式语言描述 " 华府市 称之前缀并 华府市 称之并发规则6)前缀可能包含更多评价预言,并加进连接式AND6后继编程中FTHN规则调用模糊/语言化
混淆/语言化IF-HETN规则汇编语言描述中表示集 中位 因为每一规则 in7)视同专用自然语言条件句语言描述可理解为特殊类型文本.可视此文本为a模型化特定行为系统关照
上头模糊语言化IF-HEN强化规则类 内6函数 : 函数为每个上下文分配 和每一上下文 a/模糊关系内 .后选扩展数组8)
语言焦点表达法[13语言描述需要分解两组 专题焦点表达现象在下文描述的推理法中起重要作用,推理法称为基于感知逻辑推理
公约2除以上介绍主题和焦点概念外,引入下列符号有时有利: 表示评价预测集扩展 了解特定上下文 .后段定义局部感知函数时使用此符号公约1也很容易介绍 详解如下:
2.3语言判断顺序
才能描述评价表达式之间的关系,例如,当一个表达式“覆盖”另一个时,我们需要定序关系定义集先从语言套头排序似可定义命令 例子套头如下:
我们扩展评价语言表达原理如下内含axiom.等一等 表示模糊集内核 .面向任 , 等待原子表达式 下假设 , .
基于 似可定义命令 评价表达式等一等 , 双评价表达式 并 .之后写作 if 并 .
换句话说,同型评价表达式按其特性排序,由表达式中的套头提供如果给出两种评价预言并用不同类型原子表达式,则无法按序排序 .
最后,我们定义顺序 判断判断rta给定观察让我们有上下文 表示观察 并扩展二 并 从 .我们写作 或 或 并 .
应当指出,通常 内含评价预言强度,并加多项评价预言换句话说,我们通常会遇到下列情况:
本案命令 保存组件 并扩展复合语言预言如下: 后端命令 类比一维
2.4.感知逻辑调试
感知逻辑调试公元前PbLD)是一种特殊推理法,旨在推导基于模糊/语言化IF-THN规则的结果感知被理解为指定给定输入值在给定上下文的评价表达式感知选择取决于特定语言描述专题换句话说,感知总是从评价表达式中选择,这些表达式出现在IF-HETN规则前[见5,10,14..
基础排序 语言预言特殊函数局部感知 分配到每个值 For 子强度最小wrt顺序排序
等一等 语言描述7)让我们考虑上下文 面向变量 和上下文 For .让我们观察 上下文 提供位置 .接下,下文逻辑推理规则高山市 可介绍: 去哪儿 即与下文描述的观察相对应的结论输入推理规则语言描述 和局部感知 发自19号)局部感知由一组评价表达方式组成,这些表达方式取自IF-HEN规则前代(即专题表达式)公式化19号)选择最适应给定数字输入的前缀 脱机换句话说,根据顺序最具体 .
一次或多次前缀 , 依次选择19号),我们计算其中任何一个结论 : 去哪儿 kasiewicz隐含2由提供 .
假设 非空性也就是说 .接后最后结论 称之为全集的Gordel相交 结论 对应 成员集 脱机也就是说
在许多应用中,推断输出模糊集 需要解构成crisp值 .任务特殊解构技术解析评价表达式公元前DEE建议原则上,解构综合优先aximaFOM系统平均负数MOM和死后Maxima基于输出模糊集分类应用具体地说,如果推断模糊集为类型小点LOM应用假设输出类型大块头FOM应用最后,如果推断输出为类型中度MOM应用参图2.
3级模糊GUHA语言关联采掘
本文使用语言关联采掘15......这种方法大都称为采矿关联规则16优先介绍GUHA法17,18号..发现特定对象属性间有明显的统计许可关联具体地说,GUHA方法处理表2去哪儿 表示对象 表示独立布尔属性 表示依存(解释式)布尔属性,最后表示符号 表示对象是否 带属性 或非
原创GUHA只允许布尔属性参与[见19号..由于对象的大部分特征是在实区间测量的,标准方法假设量化变量分类并随后定义每一类布林变量
GUHA方法的目标是查找窗体语言关联 去哪儿 , s(comound)评价预言20码仅含连接AND For 全部变量发生 .上头 , 称之为前缀并并发..泛泛地说,GUHA方法已知四重表构建参表3.
符号符号 中表3表示正数 并 ; 表示正数 倒置者 即非 模拟意义有数字 并 .仅限数字 并 举足轻重
前代关系和后代关系由所谓的描述量化符 .多量化关系有效性特征23号数据中18号..任务使用二进制矩阵 .假设此量化为真 去哪儿 置信度 支持度
实例1举个例子,让我们考虑表4.
视所选信任度支持度而定,GUHA方法可产生例如以下语言关联
显示[21号处理关联规则采掘量化变量有两种方法首先是使用预定义概念层次分类变量 )第二组是查找变量集群并按发现集群分解(数据分布)。两种方法均将数值变量划分为crisps间隔
在许多情况中,包括我们的情况中,最好定义数字变量的模糊集并使用GUHA方法的模糊变式15,22号..在此例中,我们有两种可能性处理量化变量或应用模糊聚类或使用预定义概念正因精通评价语言表达学理论2.1)我们选择后一种方法
方法模糊变异属性非布林词,而是模糊性最小属性(重写最大属性)变换 参考文献 并因此获取上下文 给定属性 中位值或平均值或介于中间值 并 )语义形容词Sm、Me和Bi和7种语言套头,我们可以定义20多套fzzy变量传值 或 )现在是区间元素 表示成员度
比方说,代之以定义布林变量 表24),我们取量化变量BMI并生成所有可能的评价语言判断并定义模糊集 中的第一个列4替换表5.以这种方式分治一群营养不良者 )模拟捕捉这类人案例, 这些人几乎理想BMI索引, 我们定义 , .归根结底 定义 , .....并添加从量化变量BMI转换成两个布尔变量所损信息 并 .更重要的是,我们也捕捉到不同组别间渐变对象化 可能拥有fisy集成员学位 等同 并并发 归Feltisy集 带度 .以这种方式捕捉病人信息 从体重不足向理想BMI索引过渡无法通过crisps间隔捕捉这类信息
以这种方式处理每一种量化变量,使最后一个模糊GUHA表与表相似6.
四重表类比表3并构造方法模糊变异差别在于数字 , , 并 s和0s之和归结为模糊集数据成员度总和 并继 或互补自然,事实前 并产生 控件并发自然使用t-norm23号..以我们为例,我们使用Gordelt-norm最小操作举例说,如果对象 归并值等于 .等值求和所有对象等值 表内3脱机表格上的其他值相似确定其余思想方法不变
通过使用模糊集,我们通常会得到更精确的结果,更重要的是,我们避免不良阈值效果24码..进一步的好处是方法搜索隐含关联可直接解读为PbLD推理系统模糊规则
实例2经确认关联 可直接解读为下列模糊规则:
人体内分量极大 胆固醇极大 血压或多或少
发现这种方法高效合理,例如识别所谓的模糊规则库25码中位数数列预测特殊组合技术26使用模糊规则判定单次预测方法的权重自然地,语言表达方式重叠引起一代代大冗余关联高效方法自动检测并消除冗余[见6,7..
内段4.3方法应用到人工变量 从水流测量中计算 以获取有趣的水流速峰值移位描述
4级数据分析
4.1.数据描述
引言中提到,我们仅从测量站和FLORON系统应用的数学-1D模型获取数据与 Math-1D模型不同,我们既没有测量降水量,也没有预测水量,也没有其他物理属性或估计水量理由是这是物理模型 Math-1D域,我们的任务不是再建竞技物理模型,而是集中分析现有模型处理GUHA方法时, 需要生成数个特征(人工变量)并调查问题, 其中哪一个变量对模型性能有一定影响。
为了调查的目的,我们得到了从不同方面收集的数据集事件处理测量站斯维诺夫Odra河(Svinov为Ostrava市的一部分)流经Odra河自然测量站带同名)整组数据划分为57仿真.每一次模拟捕捉系统状态(提供实值和模型值) e/e )每一模拟可进一步划分为按小时测量或模拟的过去和将来数据
介绍二集 和两个时间依存变量,即时水流率 并原创流速率时 表示由 并 ..因此,我们还可以介绍以下集 并类推
确实,值 时间点未知 后加数据只是为了比较和效率评价传值 由时点可调用原 Math-1D模型预测 .
目的是分析输入变量之间的关联 高山市 , 并 和依存变量选择峰值时间 即最大流速时间
数据分解为2比1测试集,即38模拟培训测试和19模拟测试
4.2特征生成和减少
面向每次模拟 集特征通过对取自数据的不同矢量应用数统计特征提取 并 .即使用下列统计: 标准偏差 中位数 最小值 最大值 区间 内分数范围 上值和平均值之差 变异系数 差值平均值和中值 绝对差平均值和中值 ,skewness 和绝对值 ,kurtis 和绝对值 斜坡 从线性回归计算 内地 即拦截 剩余误差)和趋势强度 计算成 值假设 .
以上所列所有统计均计算出下列数据 .此外,还为以下新生成数据向量确定了相同的统计数: 重址 .
类似地,同样的统计也用于 唯一差因时间值不同即应用
最后,时间点预测峰值
并添加为附加特征表示共生成205新特征
从特征池中回归法27号用于选择那些对回归模型有最高意义具体地说,依存变量
表示峰值移位 模拟所有生成特征的线性回归之后,所有回归系数的统计意义都经过测试,只有特征与 0.05以下值选择
以这种方式结束特征选择并有以下三大特征 标准偏差 ; :变异系数 脱机最后 :预测峰值时间点三十三)
4.3模糊GUHA应用
所有计算特征都被视为量化变量,这些特征在统计上具有重要意义,前小节对此做了描述。使用语言关联时,我们不得不将语言关联转换为模糊属性更具体地说,我们生成所有语言表达式(见段)。2并判定每种变量的适当上下文,最后,对每一种模拟,我们判定每个变量语言表达式扩展中给定模拟成员度这一过程将三位前位变量转换为63模糊属性-每种相关某些评价语言表达式(每个变量21表达式!见段2.1)
以上介绍变量 依存变量使用模糊GUHA法和生成语言关联见段3.
生成模糊GUHA表的一部分包含84列,63前代属性和21后代属性,表显示于表7.
取模隐含量化和置信度 和程度支持 模糊GUHA生成多语言关联应用冗余检测清除算法后769条模糊规则表8双重重要性i)描述各种情况,在这些情况下,灾难管理可期望水流速峰值有一定时间移位,这对于精确警告和疏散人员或可能省下接近灾难的物质成本的其他准备工作都至关紧要;二)连接PbLD推理机制后,可直接使用预测Math-1D模型原预测峰值时间移位,从而直接纠正并预知物理模型预测
5级预测、结果和评价
5.1.结果评价
预测模型用测试数据集评价,即用先前在整个数据挖掘过程期间隐藏的数据评价测试数据集由19次模拟组成,每次模拟含5天时流率和2天预测未来
测试模拟时,对峰值时间预测精度比对原 Math-1D模型和Math-1D模型
面向每次测试模拟 和模型-原创数-或调整数-预测误差 评估方式如下: 去哪儿 峰值预测模拟 受给定模型和 即模拟中峰值实际发生时间 脱机并见公式30码)–(三十三)汇总比较可见表九九.
简言之,可以说原模型预期洪峰比现实晚约半个小时测试数据集由GUHA模型调整后,估计变得更加精确更精确地说,原型(Math-1D)模型误差平均为0.603天(标准偏差0.521)。调整模型误差为-0.205天(标准偏差0.65)。
偏向原型正值也从一个样本Wilcoxon排名和测试中证明有理28码:无效零移位拒绝 值=0.000487原型反之,不可拒绝同一假设调整模型 值=0.1776类似结果也从一个样本中获取 -测试(见表)10)
6级结论
本文尝试调整洪水流速物理模型 并用语言关联挖掘以差分方程为基础的物理模型(math-1D模型,就我们而言)高度依赖许多不可靠的参数,因此执行一些真实数据分析似乎是合理的,这种分析会通知我们,时间和条件(水流速率峰值最高值)时间延迟或逆差过大
使用模糊GUHA法处理任务 自动生成语言关联提供数据首先通过生成描述数据各种特征的人工变量扩展产生变量后用所谓的评价语言表达法转换成模糊GUHA表本表用于清除可直接解读为模糊IF-HEN规则的关联此类解释不仅可解释性有益,而且可与基于认知推理法并用,以预测最初物理模型预测的洪峰预期时间移位从该调整模型中获取的结果经统计评价确认预测精度提高
请注意数据挖掘分析以及实验评价仅在Odra河单测站Svinov上进行物理模型依赖许多不精确估计参数,这些参数可能因河流流而异,因此每个站需要自己的分析然而,由于全区站数相当低(9个站分布在四大河流上),这种办法显然可行。有希望结果为深入分析提供机会,通过更精确物理模型增强灾难管理,预测由模糊IF-THIN规则调整另一方面,由于缺乏可分析的过去数据而更加复杂化前几大洪水不幸没有足够多精确数据相伴举例说,如前所述,甚至在大规模洪涝期间也存在测量零水流率问题,原因包括测量站未经校准或因其他不明原因缺乏可靠数据可能使情况大为复杂
作为未来研究的第一步,我们计划扩展调查范围,使用测量过量降水量并可能使用预测未来降水量,这些降水量已经可供 Math-1D模型使用,但不供本文提供的数据分析使用
感知感知
这项工作得到了欧洲区域开发基金IT4创新中心优异项目的支持(CZ.1.05/1.00/02.00/00/00/00/