JECE 电气和计算机工程杂志》上 2090 - 0155 2090 - 0147 Hindawi 10.1155 / 2020/4027423 4027423 研究文章 分类和小说类检测算法基于凝聚力的概念漂移的数据流和分离指数的距离 https://orcid.org/0000 - 0003 - 4901 - 6065 Xiangjun 1 2 https://orcid.org/0000 - 0002 - 2976 - 1538 2 https://orcid.org/0000 - 0001 - 7285 - 7992 紫嫣 3 2 避开 2 Nistazakis 赫克托耳E。 1 学校的软件 南昌大学 南昌330047年 中国 ncu.edu.cn 2 计算机科学与技术 南昌大学 南昌330031年 中国 ncu.edu.cn 3 信息和通信分公司 国家电网江西电力有限公司 南昌330096年 中国 2020年 19 3 2020年 2020年 15 06 2019年 11 01 2020年 15 02 2020年 19 3 2020年 2020年 版权©2020李Xiangjun et al。 这是一个开放的文章在知识共享归属许可下发布的,它允许无限制的使用,分布和繁殖在任何媒介,提供最初的工作是正确的引用。

数据流挖掘已成为数据挖掘的一个研究热点,并引起了许多学者的注意。然而,传统的数据流挖掘技术仍有一些问题需要解决在处理概念漂移和概念进化。为了减轻概念漂移的影响,小说类的概念进化检测和分类,提出了一种分类和小说类检测算法基于凝聚力和分离指数的距离。实验结果表明,该算法可以有效地减轻概念漂移的影响分类和小说类检测。

中国国家自然科学基金 61862042 61762062 61601215 江西省科技创新平台项目 20181 bcd40005 主要学科学术和技术领袖培训计划的江西省 20172 bcb22030 江西省的主要研发计划 20192 bbe50075 20181 ace50033 20171 bbe50064 2013年zbbe50018 江西省自然科学基金 20192 bab207019 20192 bab207020 江西省研究生创新基金项目 YC2019-S100 YC2019-S048
1。介绍

近年来,随着互联网的不断普及和互联网的不断发展,数据采集技术、数据爆炸了。不断变化的带时间戳数据模型,数据流,已经出现在互联网、金融、医学、和生态监测。后,互联网的出现和无线通信网络,数据流作为一种新型的数据模型从社会吸引了越来越多的关注 1, 2]。数据流的特性不同于传统的数据集。时间,快速和大规模的变化,潜力无限等特点。正是因为独特的特征数据流数据处理模型的数据流是非常不同的传统的数据挖掘技术。传统的数据挖掘技术处理的数据是静态的数据集,可以永久存储在介质,可以扫描并多次使用过程中数据分析。与传统的静态数据库、数据处理模型的数据流速度更新,不断流入的计算机系统。因此,在处理数据从数据流两个最大的挑战是其内在的无限长度和概念漂移发生在实时数据的变化。概念漂移意味着目标变量的统计特性,模型试图预测以不可预知的方式随着时间而改变。因此,使用传统的数据挖掘技术,它是不切实际的存储和使用的所有历史数据训练,这使我们有必要改变现有的数据挖掘技术和设计新的挖掘算法的数据模型。

数据流小说类检测技术检测数据流的新类别。许多传统的数据流分类算法使用固定类数字数据流分类器训练。然而,在现实中,异常值和小说类将出现在数据流随着时间的推移,这将导致逐渐下降的传统数据流分类算法的准确性。因此,迫切需要设计一种新型类数据流的特征检测算法。

本文的其余部分组织如下:部分 2介绍了相关研究数据流分类和小说类检测。部分 3C&NCBM算法细节。部分 4描述了在不同的数据集实验结果和详细的分析。研究的结论以及挑战,为未来的研究方向提出了部分 5

2。相关工作 2.1。数据流分类的概念漂移

在文献[ 3),各种学习算法近年来在概念漂移的背景下进行了综述。1986年,Schlimmer和格兰杰( 4)首次提出的“概念漂移,紧随其后的是学术界越来越多的关注。从1986年到2000年,研究集中在单个分类器的使用来实现概念漂移的数据流分类。Widmer和库巴特提出CBBIT [ 5),和植物等Hulten等人提出的方法( 6]。与此同时,研究人员开始关注概念漂移的数据流分类的理论问题。

由于需要不断更新分类模型在使用单一分类器来处理概念漂移的数据流以及分类器的泛化能力不高( 7),黑色和希 8)提出了集成学习引入这个概念漂移的数据流分类,首次提出了AES算法。因此,大约2000年之后,人们开始转向研究集成分类器概念漂移的数据流。此时,概念漂移的数据流分类的研究进入了一个快速发展时期,开始研究概念漂移的数据流更接近现实。克林肯伯格和Lanquillon早期研究了概念漂移在某些情况下,用户的反馈或没有反馈 8- - - - - - 11]。在2004年,智能数据分析日报发表的概念漂移的数据流(特刊 12),主要讨论了如何使用增量学习方法来利用现有分类器概念漂移小成本。随后,被更多的关注等问题类不平衡学习( 13, 14,概念重复学习 15, 16],semisupervised学习[ 17, 18),和主动学习 19, 20.在概念漂移的数据流的分类。表 1主要总结了三种类型的概念漂移的数据流分类技术从2000年到2016年。

代表性研究成果概念漂移的数据流在2000 - 2016年。

类型 算法 一年 特征 参考
增量学习 VFDT 2000年 叶子节点被替换为一个分节点,算法使用更少的内存和时间。 ( 21]
帽子 2009年 霍夫丁树是结合一个基于滑动时间窗技术;没有必要预测何时发生概念漂移的数据流。 ( 22]
OHT 2014年 误分类率是用来控制节点分裂、漂移和概念是解决基于误分类类和假警报率。 ( 23]
Hoeffding-ID 2016年 贝叶斯定理结合传统霍夫丁树。新分类过程中使用生成树不断取代旧的生成树,这样分类器保持精度高和适应概念漂移的数据流。 ( 24]

基于集群的 CluStream 2003年 扩展传统的数据流聚类算法桦树场景具有较强的灵活性和可伸缩性,但是它对离群值很敏感。 ( 25]
DenStream 2006年 微簇用于捕获汇总数据流信息,可以发现任意形状的簇的数据和有能力处理噪声对象。 ( 26]
IEBC 2014年 分类数据流的聚类框架集成使用滑动窗口技术和数据标记技术,这是优秀的在聚类结果和检测概念漂移,但是只能处理机密数据。 ( 27]
MuDi-Stream 2016年 multidensity分类问题概念漂移的数据流由一个混合方法解决基于网络和微簇,但它不适合高维数据流。 ( 28]

集成学习 敬畏 2003年 K固定构造分类器,一个新的分类器训练以批处理模式使用新的数据对象。随后, k选择最精确的分类器形成一组分类,每个分类器是根据精度加权。 ( 29日]
AE 2011年 主要解决的问题,数据流挖掘噪声和是水平和垂直集成框架的集合的方法。时间复杂度高。 ( 30.]
新兴市场 2013年 概念漂移和小说类的数据流可以被自动检测到,但是只有概念漂移下动态特性集可以处理。 ( 31日]
2016年 它使用基于类的集成分类器有效分类数据流循环类和小说类,但它不能多类数据进行分类。 ( 32]
2.2。小说类的存在概念漂移检测

在文献[ 33),马苏德•等人提出了一个新颖的类检测方法在概念漂移的数据流和无限的长度。然而,这种方法并没有解决功能进化的问题。在文献[ 34)概念的演化问题的解决而解决问题的概念进化,但文献( 33, 34]仍然太高了一些数据集和假警报率无法区分不同的小说类的问题。马苏德•et al。 35)提出了一个方法来解决这个概念演化造成的小说类的出现。该方法增加了一个辅助分类器设置为主要分类器集合。当确定数据流中的每个实例到达第二个例外的主要分类器集合和关联分类器集合,它是暂时存储在缓冲区中。当有足够的实例在缓冲,小说类检测模块要求检测。如果找到一个小说类,小说类实例相应标记。在文献[ 36),提出了特征空间变换技术来处理数据流的演化特性。传统的数据流集成分类器结合小说类检测技术解决数据流功能进化问题。

Chandak [ 37)提出了一种基于字符串的数据流处理方法,主要解决问题通过CON_EVOLUTION数据流概念的进化算法。苗族et al。 38)解决了这个问题,只有数值数据可以在MineClass算法的框架下解决。小说类检测算法,可以处理混合属性数据,提出了处理时间和模型的算法框架使用VFDTc分类器进行了优化。ZareMoodi et al。 39)使用当地的模式和邻居图来解决数据流的概念进化问题。本地模式是影响顺序的逻辑功能组的特性和分类功能,用于提高分类精度。与此同时,在候选人的小说类类,邻居图是用于分析相关对象提高小说类检测的准确性。

许多研究人员不断探索之后,小说类检测取得了许多成果。然而,大多数小说类的算法不能解决的问题在同一时间多个小说类问题,也不考虑不同属性之间的相互作用决定小说类的实例。因此,基于以前的研究和考虑属性的作用,本文提出了一种新型类检测算法,可以区分不同类别的小说类。

3所示。分类和小说类检测算法基于Mahalanobis距离(C&NCBM) 3.1。凝聚力和分离指数基于距离

基于Mahalanobis距离( 40)和提出的粘性分离指数N-NSC马苏德•et al。 33),小说类检测提出了指数。有关定义如下。

定义1。

(R-outlier)(见[ 33])。让 x测试点和 C 最小值 是聚类结果接近 x。如果 x超出了范围决定的特征空间中包含 C 最小值 ,然后 x是一个R-outlier。

定义2。

(F-outlier)(见[ 33])。如果 x是一个R-outlier所有分类器 E 在分类组 E ,然后 x是一个F-outlier。

定义3。

( λ c 邻居)(见[ 33])。的 λ c 邻居的F-outlier x是一组 n最近的邻居 x在课堂上 c ,用符号 λ c x ,在那里 n是一个用户设置参数。

根据上述定义,我们给凝聚力的定义和分离指数MN-NSC基于距离。

定义4。

(MN-NSC)。让 x 是平均距离F-outlier x λ o x , mb e x 是平均距离F-outlier x λ e x , mb 最小值 x 是最低的 mb e x ;然后MN-NSC定义如下: (1) 国家安全委员会 = mb 最小值 x x 马克斯 mb 最小值 x , x , 在哪里 λ o x 代表了 λ c 邻居的 x 其他F-outliers和 λ e x 代表了 λ c 邻居的 x 其现有的类。

根据定义,MN-NSC的价值是在区间[−1,1]。当MN-NSC是负的,这意味着 x接近现有的类,它是远离F-outlier;当MN-NSC是积极的,这意味着 x远离现有类和接近F-outlier。当至少 N(> n)F-outliers MN-NSC值大于0,这表明一个新的异构生成数据流。

3.2。算法

本节将阐述分类的算法流程和小说类检测算法基于距离Mahalanobis粘性分离指数,并将分析数据流的概念漂移的处理。

首先,数据流分成相同大小的数据块,最后到达的数据块 D 目前,优 分类器集 ,最近的邻居 n 和小说类阈值 β 作为算法的输入。然后,实例的数据块进行分类,以确定是否R-outlier实例。如果R-outlier实例,它将被添加到异常组 F k ——用于集群实例的集合 F 并创建一个集群 F p k 对于每个集群。的 F p k 保存每个集群的集群中心和聚类半径和计算为每个集群MN-NSC价值点 F p k 。如果集群的数量分MN-NSC大于0的值大于设定的阈值,算法确定小说类生成和分类。当所有数据 D 是显著的, D 是用来训练新模式 + 1 最低的模型的分类精度,从集合中选择 ,取而代之的是 + 1 。通过以上方法,电流的分类模型可以随时保持最新的概念,以解决数据流(算法概念漂移问题 1)。算法的伪代码如下所示。

<大胆>算法1:< /大胆>分类和小说类检测算法基于距离。

输入: 数据块 D 分类器设置 = 1 , 2 , , ,最近的邻居 n ,阈值 β

输出: 更新分类器设置

每个实例 x 在块 D

分类( , x )

如果 x 是一个R-outlier所有分类器 在分类组 然后

添加 x F

如果

结束了

聚类 F 通过 k ——( k = n F / D ),创建一个集群 F p k 每个集群

每个集群中 F

计算MN-NSC ( F p )

如果MN-NSC ( F p )大于0 然后

数=数+ 1

如果

结束了

如果数大于 β 然后

把所有实例 x 属于小说类 D 成类 C

如果

如果所有实例 x D 分类 然后

+ 1 = 火车( D )

= 更换( , + 1 )

如果

4所示。实验和分析

为了验证分类和小说类检测算法基于距离Mahalanobis粘性分离指数提出了三套实验进行两个真实的数据集和一个合成数据集。然而,( K最近的邻居)[ 41)被选为总C&NCBM算法的数据流分类器来确认最终的预测实例的类别。本文提出的算法的本质是基于资讯。为了验证算法的有效性,算法使用资讯单独分类数据流和MineClass 33)选择马苏德•等人提出的算法比较实验。

4.1。实验数据集

KDD 1999杯,Covertype ArtificialCDS数据集被选为实验数据集。类的数量,尺寸,数量和总数量为每个数据集的数据集样本如表所示 2

参数不同的数据集。

数据集 类的数量 数量的维度 数量的样品
知识发现(KDD)杯1999 3 23 494021年
Covertype 7 54 581012年
ArtificialCDS 5 27 100000年
以下4.4.1。KDD Cup 1999数据集

( http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html)。使用的数据集KDD Cup 1999数据集是ACM的年度竞争在1999年。数据集由3类共有494021个数据样本,每一种都包含42个属性。本文使用10%的数据集KDD杯的版本。

4.1.2。Covertype数据集

( http://archive.ics.uci.edu/ml/datasets/Covertype)。Covertype数据集是资源信息系统(RIS)的数据,美国森林服务(usf)区域2。数据集包含7种共有581012个实例,每个都有一个属性维度的54。

4.1.3。ArtificialCDS数据集

( https://moa.cms.waikato.ac.nz/)。ArtificialCDS数据集是一个随机的概念漂移的数据流是由农业部自动生成的。数据流包含5类共有100000实例,而且每个样本的属性维度是27岁。

4.2。性能指标 4.2.1。准备分类精度

本实验使用的准确性( 42)和评估时间( 33)分类算法的评估不同的算法的质量,这是一个广泛使用的评价标准领域的分类算法。我们期待一个好的分类算法来满足评价时间短,同时保证较高的分类精度。

4.2.2。Kappa统计

Kappa统计( 43)是一个指标评估分类精度。 (2) Kappa统计 = p o p e 1 p e , 在哪里 p o 的比例分类器的协议,也就是说,每个正确分类的样本总数除以总数量的样本,然后呢 p e 的比例随机分类协议。

4.3。实验结果和分析

本部分分别比较,验证该算法的分类性能和算法对概念漂移的影响,给出分析结果。

4.3.1。实验1

根据上述实验目的,我们选择了Covertype, KDD Cup 1999,和ArtificialCDS数据集实验数据集和C&NCBM的分类精度和评价时间相比,MineClass,然而,独自在上面的三个数据集。在这个实验中,不同的数据集的具体算法的参数值如表所示 3。三个数据集上的实验结果如表所示 4- - - - - - 6

参数设置的三个比较算法。

参数 Covertype 知识发现(KDD)杯 ArtificialCDS
n 10 10 10
β 45 40 20.
58102年 49402年 10000年

实验结果数据的数据集KDD杯。

C C&NCBM精度(%) MineClass精度(%) 然而,精度(%) C&NCBM评估时间(年代) MineClass评估时间(年代) 然而,评估时间(年代)
1 99.8227 99.6988 99.6174 26.8109 25.95 22.4859
2 99.8468 99.7375 99.5071 54.1313 51.12 45.0750
3 99.8078 99.6569 99.4002 83.9797 77.80 69.3438
4 99.8541 99.7427 99.5081 117.6719 109.33 97.3688
5 99.8819 99.7942 99.6065 152.3984 138.35 123.5469
6 99.8890 99.8130 99.6721 190.0578 170.77 154.1313
7 99.8950 99.8156 99.6966 213.7469 203.87 185.8859
8 99.9028 99.8290 99.7249 246.0797 228.09 207.2969
9 99.9020 99.8245 99.7101 259.0313 258.43 234.4469

在Covertype数据集实验结果数据。

C C&NCBM精度(%) MineClass精度(%) 然而,精度(%) C&NCBM评估时间(年代) MineClass评估时间(年代) 然而,评估时间(年代)
1 88.9832 87.8438 87.0177 21.5172 18.2156 15.7438
2 91.1561 89.8646 89.4737 39.0094 32.5750 30.7797
3 91.5212 89.8546 89.5844 57.2563 49.2234 46.3016
4 92.0270 90.2581 89.9857 75.3641 65.4875 64.8359
5 91.4612 89.4413 88.9274 96.3563 85.3375 84.2594
6 91.4837 89.2808 88.8317 118.4125 104.6641 102.9203
7 91.4707 89.1186 88.5925 143.8547 128.4422 121.6672
8 91.7367 89.4059 88.8483 165.1609 148.0813 139.3656
9 91.8901 89.3561 88.9612 185.7063 166.9156 156.5406
10 92.2249 89.8698 89.4625 204.0609 183.3109 173.3313

在ArtificialCDS数据集实验结果数据。

C C&NCBM精度(%) MineClass精度(%) 然而,精度(%) C&NCBM评估时间(年代) MineClass评估时间(年代) 然而,评估时间(年代)
1 76.0900 74.8900 74.1500 7.7969 7.3750 7.3088
2 76.2050 75.2600 74.4200 16.7031 15.0781 14.6625
3 76.3500 75.7800 74.6300 25.2500 22.8438 21.9838
4 76.3775 75.8050 74.5575 34.2031 30.4844 29.3313
5 76.4500 75.8640 74.4540 44.4844 38.2344 36.6325
6 76.5467 75.9917 74.4083 53.9219 45.9063 44.2265
7 76.5686 75.9557 74.4586 63.6094 53.6250 51.7875
8 76.6013 75.9388 74.4088 73.2969 61.2969 59.4813
9 76.6444 76.0044 74.3711 82.1719 69.0625 67.0588
10 76.6870 75.9800 74.3850 90.7500 76.7188 74.5263

从实验结果可以看出表 4- - - - - - 6在整个数据流分类过程,与其他两种算法相比,分类精度C&NCBM很稳定的在整个实验过程中,明显高于其他两个。算法MineClass也有更好的分类效果比单独使用资讯。C&NCBM的评估时间显著长于其他两种算法,和之间的差异评价MineClass和单独使用资讯的时候很小。比MineClass C&NCBM具有较高的准确性,但它也需要更多的评估时间。

三组实验的结果对两个真实的数据集和一个人造数据集显示,本文提出的算法是用来解决分类概念漂移的数据流和小说类,它具有以下特点。(1)它能够做出及时的判断当小说类出现在概念漂移的数据流,并自适应更新原有的模式使它之后,它具有较强的鲁棒性分类小说类发生概念漂移的数据流。(2)与普通的使用分类器相比,在分类精度有显著改善,在一定程度上提高分类精度与分类和小说类检测算法MineClass [ 33基于欧氏距离)。(3)评估时间稍长一些的比其他算法。

4.3.2。实验2

概念漂移的数据流的出现表明映射属性和类别之间的关系发生了变化,和数据流的分类器是基于这种映射关系。attribute-to-category映射关系发生变化时,分类器的分类精度指数Kappa统计将不可避免的显著变化。因此,在本节中,我们将使用分类器的分类精度的差异来确定概念漂移的敏感性不同的算法。

我们选择Covertype和ArtificialCDS数据集实验数据集和C&NCBM相比,MineClass,和资讯分类精度指数Kappa统计这两个数据集,分别。数据集上的比较结果如图所示 1

比较Kappa统计的数据集。(a) Covertype数据集的块大小设置为58102,和(b) ArtificialCDS数据集的块大小设置为10000。

为了介绍这个概念漂移,我们重新安排Covertype数据集,这样最多3和至少2类别同时出现在任何块,和新类别随机出现。安排Covertype数据集的概念漂移是主要在3和5块。由农业部ArtificialCDS数据集自动生成增量漂移,主要出现在4和6块。的结果图 1表明,然而,最快的分类精度下降指数Kappa统计由于缺乏概念漂移的处理机制。MineClass部分影响,但降低小于资讯。C&NCBM是最不受概念漂移的影响,分类精度曲线是最渐进的。当发生概念漂移的数据流,所有这三个算法将在一定程度上受到影响。C&NCBM算法提出了具有更好的概念漂移的适应性,可以减少对分类概念漂移的影响。

5。结论

在本文中,一个MN-NSC基于粘性分离指数提出了距离。这个索引、分类和小说类检测算法,C&NCBM,基于距离了。不同传统之间的距离测量的例子使用欧氏距离,这种方法更多的关注和实例之间的相似性可以敏感测试异常值之间的微小变化。在对比实验中使用资讯算法和MineClass算法,分类算法的有效性验证。C&NCBM算法,然而算法,MineClass算法分类精度Kappa统计也相比。结果表明,该C&NCBM算法是最好的。可以处理的概念漂移适应性概念漂移的影响在某种程度上对数据流分类。然而,由于添加Mahalanobis距离的问题,本文提出的算法需要稍微长一点的时间比其他算法。如何提高计算时间,同时保证算法的有效性分类是本文未来的研究方向。

数据可用性

使用的数据来支持本研究的结果包括在本文中。

的利益冲突

作者宣称没有利益冲突。

确认

这项工作是由中国国家自然科学基金(61862042和61862042号,61601215);江西省科技创新平台项目(没有。20181 bcd40005);主要学科学术和技术领袖培训计划项目江西(没有。20172 bcb22030);江西省主要研发计划(没有。20192 bbe50075, 20181 ace50033, 2013年20171 bbe50064 zbbe50018);江西省自然科学基金(20192 bab207019和20192 bab207020号);江西省和研究生创新基金项目(nos YC2019-S100和YC2019-S048)。

Salunkhe 美国R。 马里 s . N。 安全浓缩在入侵检测系统中使用分类器 电气和计算机工程杂志》上 2017年 2017年 6 1794849 10.1155 / 2017/1794849 2 - s2.0 - 85016557571 W。 P。 Y。 l J。 一种新的入侵检测系统基于资讯分类算法在无线传感器网络 电气和计算机工程杂志》上 2014年 2014年 8 240217年 10.1155 / 2014/240217 2 - s2.0 - 84904678436 J。 一个。 越南盾 F。 F。 伽马 J。 G。 学习下概念漂移:审查 IEEE工程知识和数据 2018年 31日 12 2346年 2363年 10.1109 / tkde.2018.2876857 2 - s2.0 - 85055030391 Schlimmer j . C。 格兰杰 r·H。 从嘈杂的数据增量学习 机器学习 1986年 1 3 317年 354年 10.1007 / bf00116895 Widmer G。 库巴特 M。 在动态环境下有效学习通过显式上下文跟踪 学报第六届欧洲机器学习会议 1993年 奥地利的维也纳 69年 101年 Hulten G。 斯宾塞 l 多明戈 P。 矿业图示数据流 第七届ACM SIGKDD学报》国际会议上知识发现和数据mining-KDD 01 2001年 旧金山,加州,美国 97年 106年 10.1145/502512.502529 Y。 羌族 B。 风扇 Z。 一项调查概念漂移的数据流的分类 CAAI智能交易系统 2013年 46 11 2656年 2665年 黑色的 M。 希基 r . J。 维护概念漂移下学会了分类器的性能 智能数据分析 1999年 3 6 453年 474年 10.1016 / s1088 - 467 x (99) 00033 - 5 尼克街 W。 Y。 流整体算法(海)大规模分类 第七届ACM SIGKDD学报》国际会议上知识发现和数据mining-KDD 01 2001年 旧金山,加州,美国 377年 382年 10.1145/502512.502568 克林肯伯格 R。 学习使用标记和未标记数据漂移的概念 学报的工场笔记IJCAI-1研讨会学习时间和空间的数据 2001年 门洛帕克、钙、美国 16 24 克林肯伯格 R。 约阿希姆 T。 检测与支持向量机的概念漂移 17学报》国际会议上机器学习 2000年 斯坦福,加州,美国 487年 494年 Lanquillon C。 信息过滤在改变域 第16届国际联合会议上进行人工智能 1999年 斯德哥尔摩,瑞典 41 48 库巴特 M。 伽马 J。 Utgoff P。 特刊增量学习系统上处理概念漂移的能力 智能数据分析 2004年 8 3 10.3233 /艾达- 2004 - 8301 H。 年代。 对增量学习的非平稳数据流不平衡:多个选择性的递归方法 进化系统 2011年 2 1 35 50 10.1007 / s12530 - 010 - 9021 - y 2 - s2.0 - 79952737601 需要 年代。 R。 跟踪周期性使用系综分类器概念漂移流数据 《第六届国际会议上的机器学习和应用程序 2007年 美国辛辛那提,哦 404年 409年 P。 X。 X。 有限的矿业循环概念漂移流数据的标签 二十亚洲会议程序的机器学习 2010年 日本东京 241年 252年 j . C。 维斯 g . M。 量化和semi-supervised分类方法处理类分布的变化 ACM SIGKDD国际会议的程序知识发现和数据挖掘 2009年 法国巴黎 897年 905年 P。 X。 X。 学习与无标号数据从概念漂移的数据流 《24日AAAI会议上人工智能 2010年 亚特兰大,乔治亚州,美国 1945年 1946年 Ž。t效果 我。 Bifet 一个。 Pfahringer B。 福尔摩斯 G。 主动学习与不断发展的流数据 学报欧洲会议机器学习和数据库知识发现的原则和实践 2011年 希腊雅典 597年 612年 l 与概念漂移的数据流分类算法及其应用 2013年 福州,福建 福建师范大学 硕士论文 多明戈 P。 Hulten G。 矿业高速数据流 学报第六届ACM SIGKDD国际会议上知识发现和数据mining-KDD 00 2000年 波士顿,美国 ACM 71年 80年 10.1145/347090.347107 Bifet 一个。 Gavalda R。 亚当斯 n·M。 Robardet C。 摘要 一个。 Boulicaut 肯尼迪。 自适应学习发展的数据流 先进的智能数据分析八世 2009年 柏林,德国 激飞柏林海德堡 249年 260年 Kumari s R。 Kumari P。 使用优化霍夫丁树自适应异常入侵检测系统 工程和应用科学杂志》上 2014年 95年 17 22 26 C。 l l 一种改进Hoeffding-ID位置数据分类算法 《华尔街日报》的超级计算 2016年 72年 7 2670年 2681年 10.1007 / s11227 - 015 - 1573 - y 2 - s2.0 - 84948421247 Aggarwal C . C。 p S。 J。 J。 一个集群演化数据流的框架 学报》第29届国际会议上非常大的数据bases-Volume 29 2003年9月 VLDB养老,柏林,德国 81年 92年 10.1016 / b978 - 012722442 - 8/50016 - 1 F。 M。 羌族ydF4y2Ba W。 一个。 Density-based集群在一个不断发展的数据流噪声 学报第六暹罗的国际会议上数据挖掘 2006年 美国马里兰州贝塞斯达 328年 339年 10.1137 / 1.9781611972764.29 Amini 一个。 Saboohi H。 Herawan T。 t Y。 MuDi-stream:演化数据流的多密度聚类算法 网络和计算机应用》杂志上 2016年 59 1 370年 385年 10.1016 / j.jnca.2014.11.007 2 - s2.0 - 84949625393 Y。 D。 年代。 Y。 增量entropy-based分类与概念漂移的数据流聚类 以知识为基础的系统 2014年 59 2 33 47 10.1016 / j.knosys.2014.02.004 2 - s2.0 - 84897638278 Q。 Z。 耿军 Z。 W。 矿业多标记concept-drifting使用系综分类器数据流 5 学报2009年第六次国际会议上模糊系统和知识发现 2009年 中国天津 275年 279年 10.1109 / fskd.2009.315 2 - s2.0 - 76649130981 P。 X。 Y。 l X。 强劲的整体学习矿业嘈杂的数据流 决策支持系统 2011年 50 2 469年 479年 10.1016 / j.dss.2010.11.004 2 - s2.0 - 78650172416 d . M。 l 侯赛因 一个。 一种自适应的系综分类器对矿业概念漂移的数据流 专家系统与应用程序 2013年 40 15 5895年 5906年 10.1016 / j.eswa.2013.05.001 2 - s2.0 - 84878825414 阿哈提卜 T。 马苏德• M . M。 Al-Naami k . M。 重复和小说类检测使用基于类的整体发展的数据流 IEEE工程知识和数据 2016年 28 10 2752年 2764年 10.1109 / tkde.2015.2507123 2 - s2.0 - 84990922468 马苏德• M . M。 J。 l J。 Thuraisingham B。 结合小说类检测与分类concept-drifting数据流 机器学习与知识发现在数据库中 2009年 柏林,海德堡 激飞柏林海德堡 79年 94年 马苏德• M . M。 Q。 J。 l J。 Thuraisingham B。 分类和小说类检测数据流的动态特征空间 机器学习与知识发现在数据库中 2010年 柏林,海德堡 激飞柏林海德堡 337年 352年 马苏德• M . M。 阿哈提卜 t M。 l 检测重复和小说类concept-drifting数据流 学报2011年IEEE 11日国际会议数据挖掘 2011年 加拿大的温哥华BC 1176年 1181年 马苏德• M . M。 Q。 l 分类和自适应检测feature-evolving数据流小说类 IEEE工程知识和数据 2013年 25 7 1484年 1497年 10.1109 / tkde.2012.109 2 - s2.0 - 84878287926 Chandak M。 大数据在分类中的作用和小说类检测数据流 《大数据 2016年 3 1 1 9 10.1186 / s40537 - 016 - 0040 - 9 2 - s2.0 - 85013904761 苗族 Y。 l H。 J。 Y。 小说类分类内检测数据流 国际研讨会上神经网络的程序 2013年 施普林格,柏林,德国海德堡 413年 420年 ZareMoodi P。 Beigy H。 Kamali Siahroudi 年代。 小说类检测使用本地社区模式和数据流图 Neurocomputing 2015年 158年 234年 245年 10.1016 / j.neucom.2015.01.037 2 - s2.0 - 84926524421 Mahalanobis p C。 广义距离的统计数据 美国国家科学学院院刊》上 1936年 加尔各答,印度 奥特曼 n S。 介绍内核和加权非参数回归 美国统计学家 1992年 46 3 175年 185年 10.1080 / 00031305.1992.10475879 2 - s2.0 - 0000581356 d . J。 直到 r . J。 一个简单的概括的ROC曲线下的面积多类分类问题 机器学习 2001年 45 2 171年 186年 10.1023 /:1010920819831 2 - s2.0 - 0003562954 科恩 J。 一个协议名义尺度系数 教育和心理测量 1960年 20. 1 37 46 10.1177 / 001316446002000104 2 - s2.0 - 84973587732