抽象性
我们建议一种方法,即有能力检测偏斜或异常分布的空间集群drichlet进程混合描述空间分布模式不同批量数据收集工作效果还建模Drichlet进程集群空间构件应用生死过程,原因是它能更容易地跳动不同数组参数推理包括聚类是在贝叶斯框架下绘制的模拟演示和评估方法方法应用到FMRI元分析数据集 识别分层对应不同情感
开工导 言
这项工作受研究驱动,研究的目的是从函数磁共振成像元数据集检测激活福西中心简言之,FMRI元数据集合FMRI研究识别脑中那些通过刺激显著激活的区以检验具体结果FMRI费用昂贵,导致小采样规模,因此可用元数据提高采样规模和功率为了识别空间集群,有限混合模型一般得到实施一号-3..混合组件代表集群,通常共享常见参数组,每个组件都包含各自的参数[一号,2..每一构件并发比例或权值与该构件中数据频度相关一号..由于模型容易实现,允许各种应用,如模式识别、计算机视觉、信号和图像分析以及机器学习列数4..
在上述有限混合体中常用分布法是正态分布法一号,5并发化贝叶斯语假设混合物的每一部分正常度都可能导致过分敏感化,例如,当聚类由两种正常分布混合组成时,但中心比较近时。多研究领域应避免这种高敏感度举一例从脑成像数据推断情感福西, 局部情感覆盖宽广区域
推算贝叶斯框架下集群数时,提出了不同方法建议可逆跳马尔科夫链MonteCarlo常用推理集群数6,7..在每个迭代中,将一组对二,将二组合并成一组或无动这种方法的一个潜在难点是受困于局部最大值的风险最近Drichlet进程常用于估计集群数8,九九..进程有能力捕捉异常模式DP有能力检测集群而不增加集群参数的负担集群特征还存在继承缺陷,因为它往往产生更多集群,使解释更加困难。
为了消除上述漏洞,我们实施混合drichlet进程进程能描述异常模式8,九九并使用它作为我们常见参数家庭使模型识别比正常分布能识别的复杂模式并动因前工作 空间Cox进程应用10service选择整合生死过程 以统计方式确定集群数与前文提到的其他聚类方法相比,生死过程有快速趋同的长处,控制出生率,即承载生成冗余聚类的潜力。
余下部分组织如下内段2内框显示模型结构、符号和前缀和超素数模拟3内框内有模型应用FMRI元分析数据集4,结论和讨论载于C节5.
二叉方法论
2.1.模型设计
任由 表示表示 三维空间中空间点坐标, 特别是集jr 并 .有 ,去哪儿 表示总观察点数直截了当地推论 表示研究中所有点数我们模型 原封 去哪儿 表示组效果 ,时段 表示平均值 面向 点分组 后调整组效果 ,并 表示随机错误随机误差建模为标准多变量正态分布 满足度 带 去哪儿 共变矩阵
2.2.前题和超前题分发
我们从前期分布开始 .检测底层集群 因相似性 ,描述前置 混合分布 , .常用选择 正常分布提高弹性性,我们放松混合法中的常态假设并假设 由DP生成,即 ,去哪儿 精度参数 基础分布并取 .特别是 ,去哪儿 中位数 .K集群数前分配短波松 , , .我们分配带参数1的dirichlet分布 ,意指 k维均匀分布前置分布 从基分配 选择对象 ,去哪儿 ,并设置为观察数据变异区间中点参数 设置为 去哪儿 ,并 数据范围为每一维度前置设置从[一号和我们认为合理设置 事实集群数和位置未知任由 带 自观察数据范围小组效果 ,假设小 ,去哪儿 带 后订并 ,下限和上限定义为数据绝对范围10%任由 并 ,带 .偏差构件随机误差 , 假设跟踪相对非信息化逆Gamma分布 .精度参数 并 选择最小化异常信息标准11,12..
2.3条件口袋分布器和口袋计算
从后方分布采样参数估计可以通过Gibbs采样器实现,其中使用生死过程模拟集群数统计推理生死过程是一种持续时间Markov链原创13..这一过程常用于模拟点数进程实现过程,因为它们难直接采样一号..实现后进一步推导模型参数[一号..生死计划允许事件随机遍历链事件不是生就是死。如果生,组件数增加一分,而死亡数减少一分
回想前有限混合 等所有 假设独立分布 drichlet进程表示 ,即 中位 表示DP 未知数 相混合比例 中分量参数关于集群分配,我们介绍索引变量 表示观察rj和 取值一 .指向 ,去哪儿 表示实现独立分布异随机变量 概率质量函数
联合后台分布比例 去哪儿 , 向量所有可估计参数从这里可以描述生死算法和Markov链 介绍并分配集群 :(1)启动初始模型 ,let 表示混合比例和集群专用参数 集群化节率放之四海 .(2)计算每个组件的死亡率 3级计算总死亡率 .快速归并, 我们选择不模拟时间 下跳指数并允许事件发生(4)模拟事件类型、出生或死亡,并有相应的概率 (5)调整模型 反映生死由下i)生成性:模拟新组件 取自参数各自的前置分布 发自 并 自基分布式模式 .可以说 eta分布带参数 并易模拟 并 中位数 .二)死亡:选择概率死亡分量 For 模式变换 (6)显示模型当前时态 ,模拟剩余参数(7)转到阶梯 .
将生死过程整合到模型中, 我们需要进一步定义消除聚类的可能性 : 去哪儿 .生死过程取决于预定出生率 .设置此出生率控制新元件的频数 equal 中建议并完成一号s计算允许概率比缺失 .换句话说,数据概率驱动死亡率并最终决定新集群新集群参数 , 并 取样本前期分布 混合比例乘以当前所有比例 产生或除法 万一死亡
模拟剩余参数和超参数值时,我们应用Gibbs采样器条件后台分布如下表备注 表示数据和其他参数未列条件后台 华府市 去哪儿 子集群数 , 表示群集中的福西数 ,并 表示单位点质量 并 即分配DP 即单元点质量 数fci某些集群 , 去哪儿 表示所有平均值 集群k 去哪儿 表示群集中的福西数 , .条件后台 重新从DP生成 去哪儿 单位点质量条件后台分布相关超参数 去哪儿 并表示平均分组效果
最后采样分布 华府市
采样独有值 并 可使用Neal算法8实现14..工作方式介绍 辅助参数独立于其他参数代表潜在值 并 [14..算法8更新集群分配 ,显示如下:i)状态Markov链由 并 带 表示集群参数,例如 中应用重复样本如下:二)面向 ,let 位数辨别 For ,并 .标签这些 带值进 .if 偏偏 ,取值独立于基分布 面向那些 面向 .if 面向所有 ,let 拥有标签 ,并取值独立 面向那些 面向 .画新值 发自 使用下列概率 去哪儿 与概率 并观察 , ,关连以我们为例 ,三)去哪儿 数之和 For 等值 并 适配正常化常量改变状态只控制那些 与一个或多个观察相联四)面向所有 ,画新值 中位数 ,或执行某些其他更新 留置分配不变14..
正因如此,值对 面向集群中的foci 和子集群 可采样自 去哪儿 介质数 和子集群 并 表示按组效果调整后观察数据平均值值对 分组分组研究 变化型 表示比子集群)可采样 去哪儿 表示分组数 并相似 表示按单个效果调整后观察数据平均值
2.4.判定集群
估计集群数和集群和集群任务中心数时,我们实施同一种最小偏差欧几里得距离法15并用前工作10并重述下文这种方法基于一组聚合MC迭代并选择一个迭代为集群和相关参数的最后估计MCMC最后迭代选择,是因为它最小欧几里得距离预期聚类分配估计值基于一组独立聚合MC迭代这种方法综合了MCMC采样过程中所有聚类信息15:(1)后预定数MC烧入,让MCM模拟继续额外 迭代平均聚类矩阵创建 ,...... 矩阵带块或 项说明频fci 并 高山市 )居同集群中具体地说, 项为W迭代法之比(2)MCMC附加运行 迭代 何地 何地 每种迭代(a)创建 矩阵使用指针表示子群集i.e. 项表示一iffci 并 介于一组或0(b)欧几里得距离判定此指标矩阵与平均聚类矩阵相似性 .3级中间 迭代选择迭代和相邻集群模式、集群数和生成最小欧几里得距离的参数
3级推理
3.1.模拟设置
模拟用于说明和评估拟议方法假设FMRI元数据设置包括50项研究,每项研究含10微分共从三大集群模拟这些foci , ,并 内含150、150和200fci假设半数数据,即单集250微分或二分 和剩余数据 二次研究集群居中 .研究集群向集群中心线性移位例例群组一中75fci居中 后半居中 ;研究效果线性移位 所有三大维 从集群中心多项修改通用设置(1)常态设置:我们模拟数据从多变常态对每个集群使用上文描述的相容方式并产生偏差 .产生微小变异域并期望方法能正确识别集群(2)偏差设置:方法在异常模式下聚类能力是空间聚类的一个重要因素使用四度自由基方分布模拟集群33级大型差分设置:上一个假想旨在评估方法强度与集群间距离为此目的,我们应用正常环境,但考虑提高值(大1大2大3大4设置重写) : ,并 ,表示集群间渐近
对每种环境,我们实施网格搜索单数据集估计值 并 基于最小化dIC精确参数值为0.01、0.05、0.1、0.5、1、2和5基于 并 估计值,100 MC数据集生成2500刻录复用 500工作迭代计算概率矩阵以确定集群,并增加100迭代推出集群数和个人fci聚居中心
模型评估由三项评价组成:敏感度、特性和精度感知度和特性定义由他们的泛型定义、正确分配到模拟集群的foci比例和正确不分配非模拟集群的foci比例组成精确度定义为可正确分组子百分数注意精度定义同时计及正负值和正负值除方法外,我们还应用非常常用的现有集群法持续数据-K值-模拟设置虽然该方法无法适应额外共变数,但允许与现有方法比较最后,为了突出使用混合DP比现有集群方法的优势,我们应用了我们的方法,修改版方法使用多变范式分配比DP和KUMees混合常态和奇差模拟假想重点为集群性能,组效应假设为这两个设置已知
3.2模拟结果
表2一号汇总三大级集群识别结果和识别集群质量拟方法在所有假设中都产生高度敏感度和特性集群任务总体精度高于90%,当数据变异相对小时,只有在集群大到重叠时才下降(假设大4号)。所拟方法还精确地识别个人和研究集群中位数所显示的正确数集群对比中,KUeens方法显示敏感度和特征统计相对较低(表)。2)精度约70%,当数据变异相对小时与拟议方法相比,KUiness方法往往推断出更多集群,大中位数集群表示出更多集群单数据集混合DPs平均耗时7-8小时高性能计算机(Dell集群88计算节点,3120总中央处理单元核心数,20664Giga字节RAM和61440总图形处理单元核心数)。
去除学习效果后,DPs混合式比较、正常式混合式比较和KUPERs混合式比较与预期相同(表)。3)两种混合物在识别三种正常分布集群方面表现优异,而Kmees性能充分,总体精度达80%(而两种混合物均达100%)。数据偏离常态后,正常方法混合无法区分集群,导致低精度(32%)。K means方法与DP混合作用相似,两种方法对第三集群敏感度低,该集群偏斜,但与DP混合作用提高精度组合DP从99%敏感度和100%特征测量中表示,能够区分集群1和2,但趋向分组3变小,大中位数集群14敏感度和特征100%显示整体精度方面,DPs混合性能优于数据倾斜时正常值和KUPERs混合性能
4级实数据应用
面向此应用,我们应用建议方法元分析数据集原建in16数据共162份神经成像出版物,其中57份为PET,105份为FMRI162种出版物中,有437项对比或研究共2 478fci标准中仅包括那些经研究被认为显著激活的foci汇总统计数据可见诸表4并5.
和模拟研究一样,电网搜索DIC用于估计值 并 .潜在精度参数值为0.01、0.05、0.1、0.5、1、25和7.5组合计算超过2 600次迭代,2 000次烧入,500次概率矩阵计算,最后推出100个单个集群和中心数据缩放10
发现精度参数组合 并 生成最小DIC一致性与初始2 000丢弃法基于迹迹图检验基于建议方法,我们辨识出四组研究 14个子集单项DIC设置数据平均耗时72小时运行HPC14个子集散按中心位置、脑定位、福子频率和研究频率可见表6.14组中每个子相联情感频率可见表7.感知情感在所有集群中占主导地位,恐惧是群组1、2、3、11和13中的第二支配情感,群组5和14中的厌恶感,群组6和10中的悲伤感和剩余集群中的情感混合仅关注已知脑感兴趣区域中的foci时,表显示8压倒一切的情感除感知外 分别是悲伤、恐惧和厌恶与空间考克斯点进程(53)和KUines(20)所识别的集群数比较时10少聚类识别当前应用应当指出,该特殊数据不视觉显示不同的集群并接近全脑分布更加统一,可能导致不准确数可识别集群然而,鉴于我们前次分析结果10和模拟研究发现, 有可能组成集群相当隐蔽, 实际可能不够清晰
5级结论和讨论
建模所见福西分解为线性研究效果和单子福西分解带多变常随机误差的动机是空间考克斯进程限制从统计学上区分集群和模式或集群峰值总体目标保留使用FMRI坐标元数据识别脑内激活区域通过以这种方式建模数据,人们希望分布能从统计上区分集群和集群模式,同时保留灵活性和强健性以模拟数据行为
模拟研究证明方法可匹配正常或异常分布生成的数据此外,它能够识别共差内集群,同时保留完整性识别单个集群方法与语言均无法正确识别集群大相重叠时,
应用FMRI元数据集时,方法识别出相对低数集群高噪声模拟研究发现敏感度低,可以得出结论,这些数据极有可能太广当用空间Cox进程分析相同数据时,结果差极大集群数目不仅少得多,而且从拟议方法中识别的集群中心都近不到第一种方法中识别的那些中心。值得一提的是元分析数据不明显分组并在整个脑中分布得更均匀,使用模型也许不提供最适配性
除弹性外,这种方法的主要优势是它描述异常空间模式的能力和采样设计以从统计上划分集群由于其可调适性,本模型还可以适应兴趣之差然而,基于模拟研究和FMRI元数据应用,拟议方法往往过于敏感,难分辨数据不辨别时集群方法上的潜在限制是混合体内每个DP假定拥有相同的精度参数研究发现,模拟研究期间DP混合拟合千方形模拟(无研究效果)时,它过分聚类倾斜聚类精度参数小时,群组3可识别性提高精度,但对群组1和群组2则变不精确因此,为进一步提高数据倾斜时该方法的灵活性和精度,每个DP都可能需要自己的唯一精度参数此外,这种方法聚类能力受识别研究效果的限制,研究效果可通过实施更强约束提高或可产生多重DP效果未来工作将侧重于这些问题,允许随机效果而非固定效果,并识别模型内多DP是否确实有限
数据可用性
数据目前不公开,但TorD教授请求提供高手科罗拉多大学
利益冲突
不存在利益冲突写作者
感知感知
博士Kang的努力得到NIH赠款1R01MH105561支持博士张大夫雷的努力得到了孟斐斯大学提供的启动资金的支持