数据流挖掘已成为数据挖掘的一个研究热点,并引起了许多学者的注意。然而,传统的数据流挖掘技术仍有一些问题需要解决在处理概念漂移和概念进化。为了减轻概念漂移的影响,小说类的概念进化检测和分类,提出了一种分类和小说类检测算法基于凝聚力和分离指数的距离。实验结果表明,该算法可以有效地减轻概念漂移的影响分类和小说类检测。
近年来,随着互联网的不断普及和互联网的不断发展,数据采集技术、数据爆炸了。不断变化的带时间戳数据模型,数据流,已经出现在互联网、金融、医学、和生态监测。后,互联网的出现和无线通信网络,数据流作为一种新型的数据模型从社会吸引了越来越多的关注
数据流小说类检测技术检测数据流的新类别。许多传统的数据流分类算法使用固定类数字数据流分类器训练。然而,在现实中,异常值和小说类将出现在数据流随着时间的推移,这将导致逐渐下降的传统数据流分类算法的准确性。因此,迫切需要设计一种新型类数据流的特征检测算法。
本文的其余部分组织如下:部分
在文献[
由于需要不断更新分类模型在使用单一分类器来处理概念漂移的数据流以及分类器的泛化能力不高(
代表性研究成果概念漂移的数据流在2000 - 2016年。
类型 | 算法 | 一年 | 特征 | 参考 |
---|---|---|---|---|
增量学习 | VFDT | 2000年 | 叶子节点被替换为一个分节点,算法使用更少的内存和时间。 | ( |
帽子 | 2009年 | 霍夫丁树是结合一个基于滑动时间窗技术;没有必要预测何时发生概念漂移的数据流。 | ( |
|
OHT | 2014年 | 误分类率是用来控制节点分裂、漂移和概念是解决基于误分类类和假警报率。 | ( |
|
Hoeffding-ID | 2016年 | 贝叶斯定理结合传统霍夫丁树。新分类过程中使用生成树不断取代旧的生成树,这样分类器保持精度高和适应概念漂移的数据流。 | ( |
|
|
||||
基于集群的 | CluStream | 2003年 | 扩展传统的数据流聚类算法桦树场景具有较强的灵活性和可伸缩性,但是它对离群值很敏感。 | ( |
DenStream | 2006年 | 微簇用于捕获汇总数据流信息,可以发现任意形状的簇的数据和有能力处理噪声对象。 | ( |
|
IEBC | 2014年 | 分类数据流的聚类框架集成使用滑动窗口技术和数据标记技术,这是优秀的在聚类结果和检测概念漂移,但是只能处理机密数据。 | ( |
|
MuDi-Stream | 2016年 | multidensity分类问题概念漂移的数据流由一个混合方法解决基于网络和微簇,但它不适合高维数据流。 | ( |
|
|
||||
集成学习 | 敬畏 | 2003年 |
|
( |
AE | 2011年 | 主要解决的问题,数据流挖掘噪声和是水平和垂直集成框架的集合的方法。时间复杂度高。 | ( |
|
新兴市场 | 2013年 | 概念漂移和小说类的数据流可以被自动检测到,但是只有概念漂移下动态特性集可以处理。 | ( |
|
蛤 | 2016年 | 它使用基于类的集成分类器有效分类数据流循环类和小说类,但它不能多类数据进行分类。 | ( |
在文献[
Chandak [
许多研究人员不断探索之后,小说类检测取得了许多成果。然而,大多数小说类的算法不能解决的问题在同一时间多个小说类问题,也不考虑不同属性之间的相互作用决定小说类的实例。因此,基于以前的研究和考虑属性的作用,本文提出了一种新型类检测算法,可以区分不同类别的小说类。
基于Mahalanobis距离(
(R-outlier)(见[
(F-outlier)(见[
(
根据上述定义,我们给凝聚力的定义和分离指数MN-NSC基于距离。
(MN-NSC)。让
根据定义,MN-NSC的价值是在区间[−1,1]。当MN-NSC是负的,这意味着
本节将阐述分类的算法流程和小说类检测算法基于距离Mahalanobis粘性分离指数,并将分析数据流的概念漂移的处理。
首先,数据流分成相同大小的数据块,最后到达的数据块
添加
聚类
计算MN-NSC (
数=数+ 1
把所有实例
为了验证分类和小说类检测算法基于距离Mahalanobis粘性分离指数提出了三套实验进行两个真实的数据集和一个合成数据集。然而,(
KDD 1999杯,Covertype ArtificialCDS数据集被选为实验数据集。类的数量,尺寸,数量和总数量为每个数据集的数据集样本如表所示
参数不同的数据集。
数据集 | 类的数量 | 数量的维度 | 数量的样品 |
---|---|---|---|
知识发现(KDD)杯1999 | 3 | 23 | 494021年 |
Covertype | 7 | 54 | 581012年 |
ArtificialCDS | 5 | 27 | 100000年 |
(
(
(
本实验使用的准确性(
Kappa统计(
本部分分别比较,验证该算法的分类性能和算法对概念漂移的影响,给出分析结果。
根据上述实验目的,我们选择了Covertype, KDD Cup 1999,和ArtificialCDS数据集实验数据集和C&NCBM的分类精度和评价时间相比,MineClass,然而,独自在上面的三个数据集。在这个实验中,不同的数据集的具体算法的参数值如表所示
参数设置的三个比较算法。
参数 | Covertype | 知识发现(KDD)杯 | ArtificialCDS |
---|---|---|---|
|
10 | 10 | 10 |
|
45 | 40 | 20. |
块 | 58102年 | 49402年 | 10000年 |
实验结果数据的数据集KDD杯。
|
C&NCBM精度(%) | MineClass精度(%) | 然而,精度(%) | C&NCBM评估时间(年代) | MineClass评估时间(年代) | 然而,评估时间(年代) |
---|---|---|---|---|---|---|
1 |
|
99.6988 | 99.6174 |
|
25.95 | 22.4859 |
2 |
|
99.7375 | 99.5071 |
|
51.12 | 45.0750 |
3 |
|
99.6569 | 99.4002 |
|
77.80 | 69.3438 |
4 |
|
99.7427 | 99.5081 |
|
109.33 | 97.3688 |
5 |
|
99.7942 | 99.6065 |
|
138.35 | 123.5469 |
6 |
|
99.8130 | 99.6721 |
|
170.77 | 154.1313 |
7 |
|
99.8156 | 99.6966 |
|
203.87 | 185.8859 |
8 |
|
99.8290 | 99.7249 |
|
228.09 | 207.2969 |
9 |
|
99.8245 | 99.7101 |
|
258.43 | 234.4469 |
在Covertype数据集实验结果数据。
|
C&NCBM精度(%) | MineClass精度(%) | 然而,精度(%) | C&NCBM评估时间(年代) | MineClass评估时间(年代) | 然而,评估时间(年代) |
---|---|---|---|---|---|---|
1 |
|
87.8438 | 87.0177 |
|
18.2156 | 15.7438 |
2 |
|
89.8646 | 89.4737 |
|
32.5750 | 30.7797 |
3 |
|
89.8546 | 89.5844 |
|
49.2234 | 46.3016 |
4 |
|
90.2581 | 89.9857 |
|
65.4875 | 64.8359 |
5 |
|
89.4413 | 88.9274 |
|
85.3375 | 84.2594 |
6 |
|
89.2808 | 88.8317 |
|
104.6641 | 102.9203 |
7 |
|
89.1186 | 88.5925 |
|
128.4422 | 121.6672 |
8 |
|
89.4059 | 88.8483 |
|
148.0813 | 139.3656 |
9 |
|
89.3561 | 88.9612 |
|
166.9156 | 156.5406 |
10 |
|
89.8698 | 89.4625 |
|
183.3109 | 173.3313 |
在ArtificialCDS数据集实验结果数据。
|
C&NCBM精度(%) | MineClass精度(%) | 然而,精度(%) | C&NCBM评估时间(年代) | MineClass评估时间(年代) | 然而,评估时间(年代) |
---|---|---|---|---|---|---|
1 |
|
74.8900 | 74.1500 |
|
7.3750 | 7.3088 |
2 |
|
75.2600 | 74.4200 |
|
15.0781 | 14.6625 |
3 |
|
75.7800 | 74.6300 |
|
22.8438 | 21.9838 |
4 |
|
75.8050 | 74.5575 |
|
30.4844 | 29.3313 |
5 |
|
75.8640 | 74.4540 |
|
38.2344 | 36.6325 |
6 |
|
75.9917 | 74.4083 |
|
45.9063 | 44.2265 |
7 |
|
75.9557 | 74.4586 |
|
53.6250 | 51.7875 |
8 |
|
75.9388 | 74.4088 |
|
61.2969 | 59.4813 |
9 |
|
76.0044 | 74.3711 |
|
69.0625 | 67.0588 |
10 |
|
75.9800 | 74.3850 |
|
76.7188 | 74.5263 |
从实验结果可以看出表
三组实验的结果对两个真实的数据集和一个人造数据集显示,本文提出的算法是用来解决分类概念漂移的数据流和小说类,它具有以下特点。(1)它能够做出及时的判断当小说类出现在概念漂移的数据流,并自适应更新原有的模式使它之后,它具有较强的鲁棒性分类小说类发生概念漂移的数据流。(2)与普通的使用分类器相比,在分类精度有显著改善,在一定程度上提高分类精度与分类和小说类检测算法MineClass [
概念漂移的数据流的出现表明映射属性和类别之间的关系发生了变化,和数据流的分类器是基于这种映射关系。attribute-to-category映射关系发生变化时,分类器的分类精度指数Kappa统计将不可避免的显著变化。因此,在本节中,我们将使用分类器的分类精度的差异来确定概念漂移的敏感性不同的算法。
我们选择Covertype和ArtificialCDS数据集实验数据集和C&NCBM相比,MineClass,和资讯分类精度指数Kappa统计这两个数据集,分别。数据集上的比较结果如图所示
比较Kappa统计的数据集。(a) Covertype数据集的块大小设置为58102,和(b) ArtificialCDS数据集的块大小设置为10000。
为了介绍这个概念漂移,我们重新安排Covertype数据集,这样最多3和至少2类别同时出现在任何块,和新类别随机出现。安排Covertype数据集的概念漂移是主要在3和5块。由农业部ArtificialCDS数据集自动生成增量漂移,主要出现在4和6块。的结果图
在本文中,一个MN-NSC基于粘性分离指数提出了距离。这个索引、分类和小说类检测算法,C&NCBM,基于距离了。不同传统之间的距离测量的例子使用欧氏距离,这种方法更多的关注和实例之间的相似性可以敏感测试异常值之间的微小变化。在对比实验中使用资讯算法和MineClass算法,分类算法的有效性验证。C&NCBM算法,然而算法,MineClass算法分类精度Kappa统计也相比。结果表明,该C&NCBM算法是最好的。可以处理的概念漂移适应性概念漂移的影响在某种程度上对数据流分类。然而,由于添加Mahalanobis距离的问题,本文提出的算法需要稍微长一点的时间比其他算法。如何提高计算时间,同时保证算法的有效性分类是本文未来的研究方向。
使用的数据来支持本研究的结果包括在本文中。
作者宣称没有利益冲突。
这项工作是由中国国家自然科学基金(61862042和61862042号,61601215);江西省科技创新平台项目(没有。20181 bcd40005);主要学科学术和技术领袖培训计划项目江西(没有。20172 bcb22030);江西省主要研发计划(没有。20192 bbe50075, 20181 ace50033, 2013年20171 bbe50064 zbbe50018);江西省自然科学基金(20192 bab207019和20192 bab207020号);江西省和研究生创新基金项目(nos YC2019-S100和YC2019-S048)。