概率统计杂志

上页

抽象性导言方法论结论和讨论数据可用性利益冲突感知感知引用版权相关文章

特题

生物统计学新进

视图此特殊题

研究文章开放存取

卷积 2018 | 文章标识 3506794 | https://doi.org/10.1155/2018/3506794

通过drichlet进程混合检测空间集群

MeredithA雷 ,^一号简江 ,² 并洪梅张 ³

客座编辑器 : 川赵

接收 2018年5月14日

修改版 2018年11月14日

接受 2018年11月25日

发布 2018年12月18日

抽象性

我们建议一种方法,即有能力检测偏斜或异常分布的空间集群drichlet进程混合描述空间分布模式不同批量数据收集工作效果还建模Drichlet进程集群空间构件应用生死过程,原因是它能更容易地跳动不同数组参数推理包括聚类是在贝叶斯框架下绘制的模拟演示和评估方法方法应用到FMRI元分析数据集识别分层对应不同情感

开工导言

这项工作受研究驱动,研究的目的是从函数磁共振成像元数据集检测激活福西中心简言之,FMRI元数据集合FMRI研究识别脑中那些通过刺激显著激活的区以检验具体结果FMRI费用昂贵,导致小采样规模,因此可用元数据提高采样规模和功率为了识别空间集群,有限混合模型一般得到实施一号-3..混合组件代表集群,通常共享常见参数组,每个组件都包含各自的参数[一号,2..每一构件并发比例或权值与该构件中数据频度相关一号..由于模型容易实现,允许各种应用,如模式识别、计算机视觉、信号和图像分析以及机器学习列数4..

在上述有限混合体中常用分布法是正态分布法一号,5并发化贝叶斯语假设混合物的每一部分正常度都可能导致过分敏感化,例如,当聚类由两种正常分布混合组成时,但中心比较近时。多研究领域应避免这种高敏感度举一例从脑成像数据推断情感福西, 局部情感覆盖宽广区域

推算贝叶斯框架下集群数时,提出了不同方法建议可逆跳马尔科夫链MonteCarlo常用推理集群数6,7..在每个迭代中,将一组对二,将二组合并成一组或无动这种方法的一个潜在难点是受困于局部最大值的风险最近Drichlet进程常用于估计集群数8,九九..进程有能力捕捉异常模式DP有能力检测集群而不增加集群参数的负担集群特征还存在继承缺陷,因为它往往产生更多集群,使解释更加困难。

为了消除上述漏洞,我们实施混合drichlet进程进程能描述异常模式8,九九并使用它作为我们常见参数家庭使模型识别比正常分布能识别的复杂模式并动因前工作空间Cox进程应用10service选择整合生死过程以统计方式确定集群数与前文提到的其他聚类方法相比,生死过程有快速趋同的长处,控制出生率,即承载生成冗余聚类的潜力。

余下部分组织如下内段2内框显示模型结构、符号和前缀和超素数模拟3内框内有模型应用FMRI元分析数据集4,结论和讨论载于C节5.

二叉方法论

2.1.模型设计

任由表示表示三维空间中空间点坐标, 特别是集jr 并 .有 ,去哪儿表示总观察点数直截了当地推论表示研究中所有点数我们模型原封去哪儿表示组效果 ,时段表示平均值面向点分组后调整组效果 ,并表示随机错误随机误差建模为标准多变量正态分布满足度带去哪儿共变矩阵

2.2.前题和超前题分发

我们从前期分布开始 .检测底层集群因相似性 ,描述前置混合分布 , .常用选择正常分布提高弹性性,我们放松混合法中的常态假设并假设由DP生成,即 ,去哪儿精度参数基础分布并取 .特别是 ,去哪儿中位数 .K集群数前分配短波松 , , .我们分配带参数1的dirichlet分布 ,意指 k维均匀分布前置分布从基分配选择对象 ,去哪儿 ,并设置为观察数据变异区间中点参数设置为去哪儿 ,并数据范围为每一维度前置设置从[一号和我们认为合理设置事实集群数和位置未知任由带自观察数据范围小组效果 ,假设小 ,去哪儿带后订并 ,下限和上限定义为数据绝对范围10%任由并 ,带 .偏差构件随机误差 , 假设跟踪相对非信息化逆Gamma分布 .精度参数并选择最小化异常信息标准11,12..

2.3条件口袋分布器和口袋计算

从后方分布采样参数估计可以通过Gibbs采样器实现,其中使用生死过程模拟集群数统计推理生死过程是一种持续时间Markov链原创13..这一过程常用于模拟点数进程实现过程,因为它们难直接采样一号..实现后进一步推导模型参数[一号..生死计划允许事件随机遍历链事件不是生就是死。如果生,组件数增加一分,而死亡数减少一分

回想前有限混合等所有假设独立分布 drichlet进程表示 ,即中位表示DP 未知数相混合比例中分量参数关于集群分配,我们介绍索引变量表示观察rj和取值一 .指向 ,去哪儿表示实现独立分布异随机变量概率质量函数

联合后台分布比例去哪儿 , 向量所有可估计参数从这里可以描述生死算法和Markov链介绍并分配集群 :(1)启动初始模型 ,let 表示混合比例和集群专用参数集群化节率放之四海 .(2)计算每个组件的死亡率 3级计算总死亡率 .快速归并, 我们选择不模拟时间下跳指数并允许事件发生(4)模拟事件类型、出生或死亡,并有相应的概率 (5)调整模型反映生死由下i)生成性:模拟新组件取自参数各自的前置分布发自并自基分布式模式 .可以说 eta分布带参数并易模拟并中位数 .二)死亡:选择概率死亡分量 For 模式变换 (6)显示模型当前时态 ,模拟剩余参数(7)转到阶梯 .

将生死过程整合到模型中, 我们需要进一步定义消除聚类的可能性 : 去哪儿 .生死过程取决于预定出生率 .设置此出生率控制新元件的频数 equal 中建议并完成一号s计算允许概率比缺失 .换句话说,数据概率驱动死亡率并最终决定新集群新集群参数 , 并取样本前期分布混合比例乘以当前所有比例产生或除法万一死亡

模拟剩余参数和超参数值时,我们应用Gibbs采样器条件后台分布如下表备注表示数据和其他参数未列条件后台华府市去哪儿子集群数 , 表示群集中的福西数 ,并表示单位点质量并即分配DP 即单元点质量数fci某些集群 , 去哪儿表示所有平均值集群k 去哪儿表示群集中的福西数 , .条件后台重新从DP生成去哪儿单位点质量条件后台分布相关超参数去哪儿并表示平均分组效果

最后采样分布华府市

采样独有值并可使用Neal算法8实现14..工作方式介绍辅助参数独立于其他参数代表潜在值并 [14..算法8更新集群分配 ,显示如下:i)状态Markov链由并带表示集群参数,例如中应用重复样本如下:二)面向 ,let 位数辨别 For ,并 .标签这些带值进 .if 偏偏 ,取值独立于基分布面向那些面向 .if 面向所有 ,let 拥有标签 ,并取值独立面向那些面向 .画新值发自使用下列概率去哪儿与概率并观察 , ,关连以我们为例 ,三)去哪儿数之和 For 等值并适配正常化常量改变状态只控制那些与一个或多个观察相联四)面向所有 ,画新值中位数 ,或执行某些其他更新留置分配不变14..

正因如此,值对面向集群中的foci 和子集群可采样自去哪儿介质数和子集群并表示按组效果调整后观察数据平均值值对分组分组研究变化型表示比子集群)可采样去哪儿表示分组数并相似表示按单个效果调整后观察数据平均值

2.4.判定集群

估计集群数和集群和集群任务中心数时,我们实施同一种最小偏差欧几里得距离法15并用前工作10并重述下文这种方法基于一组聚合MC迭代并选择一个迭代为集群和相关参数的最后估计MCMC最后迭代选择,是因为它最小欧几里得距离预期聚类分配估计值基于一组独立聚合MC迭代这种方法综合了MCMC采样过程中所有聚类信息15:(1)后预定数MC烧入,让MCM模拟继续额外迭代平均聚类矩阵创建 ,...... 矩阵带块或项说明频fci 并高山市 )居同集群中具体地说, 项为W迭代法之比(2)MCMC附加运行迭代何地何地每种迭代(a)创建矩阵使用指针表示子群集i.e. 项表示一iffci 并介于一组或0(b)欧几里得距离判定此指标矩阵与平均聚类矩阵相似性 .3级中间迭代选择迭代和相邻集群模式、集群数和生成最小欧几里得距离的参数

3级推理

3.1.模拟设置

模拟用于说明和评估拟议方法假设FMRI元数据设置包括50项研究,每项研究含10微分共从三大集群模拟这些foci , ,并内含150、150和200fci假设半数数据,即单集250微分或二分和剩余数据二次研究集群居中 .研究集群向集群中心线性移位例例群组一中75fci居中后半居中 ;研究效果线性移位所有三大维从集群中心多项修改通用设置(1)常态设置:我们模拟数据从多变常态对每个集群使用上文描述的相容方式并产生偏差 .产生微小变异域并期望方法能正确识别集群(2)偏差设置:方法在异常模式下聚类能力是空间聚类的一个重要因素使用四度自由基方分布模拟集群33级大型差分设置:上一个假想旨在评估方法强度与集群间距离为此目的,我们应用正常环境,但考虑提高值(大1大2大3大4设置重写) : ,并 ,表示集群间渐近

对每种环境,我们实施网格搜索单数据集估计值并基于最小化dIC精确参数值为0.01、0.05、0.1、0.5、1、2和5基于并估计值,100 MC数据集生成2500刻录复用 500工作迭代计算概率矩阵以确定集群,并增加100迭代推出集群数和个人fci聚居中心

模型评估由三项评价组成:敏感度、特性和精度感知度和特性定义由他们的泛型定义、正确分配到模拟集群的foci比例和正确不分配非模拟集群的foci比例组成精确度定义为可正确分组子百分数注意精度定义同时计及正负值和正负值除方法外,我们还应用非常常用的现有集群法持续数据-K值-模拟设置虽然该方法无法适应额外共变数,但允许与现有方法比较最后,为了突出使用混合DP比现有集群方法的优势,我们应用了我们的方法,修改版方法使用多变范式分配比DP和KUMees混合常态和奇差模拟假想重点为集群性能,组效应假设为这两个设置已知

3.2模拟结果

表2一号汇总三大级集群识别结果和识别集群质量拟方法在所有假设中都产生高度敏感度和特性集群任务总体精度高于90%,当数据变异相对小时,只有在集群大到重叠时才下降(假设大4号)。所拟方法还精确地识别个人和研究集群中位数所显示的正确数集群对比中,KUeens方法显示敏感度和特征统计相对较低(表)。2)精度约70%,当数据变异相对小时与拟议方法相比,KUiness方法往往推断出更多集群,大中位数集群表示出更多集群单数据集混合DPs平均耗时7-8小时高性能计算机(Dell集群88计算节点,3120总中央处理单元核心数,20664Giga字节RAM和61440总图形处理单元核心数)。

去除学习效果后,DPs混合式比较、正常式混合式比较和KUPERs混合式比较与预期相同(表)。3)两种混合物在识别三种正常分布集群方面表现优异,而Kmees性能充分,总体精度达80%(而两种混合物均达100%)。数据偏离常态后,正常方法混合无法区分集群,导致低精度(32%)。K means方法与DP混合作用相似,两种方法对第三集群敏感度低,该集群偏斜,但与DP混合作用提高精度组合DP从99%敏感度和100%特征测量中表示,能够区分集群1和2,但趋向分组3变小,大中位数集群14敏感度和特征100%显示整体精度方面,DPs混合性能优于数据倾斜时正常值和KUPERs混合性能

4级实数据应用

面向此应用,我们应用建议方法元分析数据集原建in16数据共162份神经成像出版物,其中57份为PET,105份为FMRI162种出版物中,有437项对比或研究共2 478fci标准中仅包括那些经研究被认为显著激活的foci汇总统计数据可见诸表4并5.

和模拟研究一样,电网搜索DIC用于估计值并 .潜在精度参数值为0.01、0.05、0.1、0.5、1、25和7.5组合计算超过2 600次迭代,2 000次烧入,500次概率矩阵计算,最后推出100个单个集群和中心数据缩放10

发现精度参数组合并生成最小DIC一致性与初始2 000丢弃法基于迹迹图检验基于建议方法,我们辨识出四组研究 14个子集单项DIC设置数据平均耗时72小时运行HPC14个子集散按中心位置、脑定位、福子频率和研究频率可见表6.14组中每个子相联情感频率可见表7.感知情感在所有集群中占主导地位,恐惧是群组1、2、3、11和13中的第二支配情感,群组5和14中的厌恶感,群组6和10中的悲伤感和剩余集群中的情感混合仅关注已知脑感兴趣区域中的foci时,表显示8压倒一切的情感除感知外分别是悲伤、恐惧和厌恶与空间考克斯点进程(53)和KUines(20)所识别的集群数比较时10少聚类识别当前应用应当指出,该特殊数据不视觉显示不同的集群并接近全脑分布更加统一,可能导致不准确数可识别集群然而,鉴于我们前次分析结果10和模拟研究发现, 有可能组成集群相当隐蔽, 实际可能不够清晰

5级结论和讨论

建模所见福西分解为线性研究效果和单子福西分解带多变常随机误差的动机是空间考克斯进程限制从统计学上区分集群和模式或集群峰值总体目标保留使用FMRI坐标元数据识别脑内激活区域通过以这种方式建模数据,人们希望分布能从统计上区分集群和集群模式,同时保留灵活性和强健性以模拟数据行为

模拟研究证明方法可匹配正常或异常分布生成的数据此外,它能够识别共差内集群,同时保留完整性识别单个集群方法与语言均无法正确识别集群大相重叠时,

应用FMRI元数据集时,方法识别出相对低数集群高噪声模拟研究发现敏感度低,可以得出结论,这些数据极有可能太广当用空间Cox进程分析相同数据时,结果差极大集群数目不仅少得多,而且从拟议方法中识别的集群中心都近不到第一种方法中识别的那些中心。值得一提的是元分析数据不明显分组并在整个脑中分布得更均匀,使用模型也许不提供最适配性

除弹性外,这种方法的主要优势是它描述异常空间模式的能力和采样设计以从统计上划分集群由于其可调适性,本模型还可以适应兴趣之差然而,基于模拟研究和FMRI元数据应用,拟议方法往往过于敏感,难分辨数据不辨别时集群方法上的潜在限制是混合体内每个DP假定拥有相同的精度参数研究发现,模拟研究期间DP混合拟合千方形模拟(无研究效果)时,它过分聚类倾斜聚类精度参数小时,群组3可识别性提高精度,但对群组1和群组2则变不精确因此,为进一步提高数据倾斜时该方法的灵活性和精度,每个DP都可能需要自己的唯一精度参数此外,这种方法聚类能力受识别研究效果的限制,研究效果可通过实施更强约束提高或可产生多重DP效果未来工作将侧重于这些问题,允许随机效果而非固定效果,并识别模型内多DP是否确实有限

数据可用性

数据目前不公开,但TorD教授请求提供高手科罗拉多大学

利益冲突

不存在利益冲突写作者

感知感知

博士Kang的努力得到NIH赠款1R01MH105561支持博士张大夫雷的努力得到了孟斐斯大学提供的启动资金的支持

引用

M.Stephens,“Bayes分析混合模型数目未知组件-可逆跳法之替代法”,Annals统计,vol.28号公元前1页40-74,2000
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
M.Aitkin和R希利,“有限混合模型估计和假设测试皇家统计学会杂志,皇家统计学会杂志系列B(方法论)pp.67-751985
Viewat: 谷歌学者
G.J.麦克拉克兰和KE.巴斯福混合模型:应用集群Marcel Dekker,纽约州纽约市,美国,1988年
Viewat: MathSciNet
M.A.T.Figueiredo和AK.Jain,“无人监督学习有限混合模型”,IEE交易模式分析和机器智能,vol.24号3页381-396,2002年
Viewat: 发布者网站 | 谷歌学者
J.M.马林KMengersen和C.Robert,Bayesian模型和推理分布式混合贝叶斯思维:建模计算,vol.中25统计员手册pp.459-507 Elsevier/North-Holland,阿姆斯特丹,2005年
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
P.J.绿色,可更新跳马尔科夫链MonteCarlo计算贝叶斯模型判定比美特里卡,vol.82号4页711-732,1995
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
P.J.绿色DI.hastie,可更新跳Mcmc遗传学,vol.1550号3页1391-1403,2009年
Viewat: 谷歌学者
M.公元前Escobar和M西边的Bayesian密度估计和推理使用混合物美国统计协会杂志,vol.90号430页577-588,1995年
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
C.E.Antoniak,Drichlet进程混合应用贝叶斯非参数问题Annals统计,vol.2页1152-1174,1974年
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
M.雷JKang和H张氏识别启动中心使用FMRI数据IEE交易计算生物学和生物信息,vol.13号6页1130-11412016
Viewat: 发布者网站 | 谷歌学者
P.康东市贝叶斯统计建模,vol.704,JohnwileySons,2007年
Viewat: 发布者网站 | MathSciNet
公元前J.Spiegelhalter公司G.最佳bP.卡林和A范德林德,Bayesian模型复杂性和适配度皇家统计学会杂志B辑(统计方法),vol.64号4页583-639,2002年
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
C.Preston编程生死应用概率提高,vol.70号03页405-4081975
Viewat: 谷歌学者 | MathSciNet
R.M.Neal Markov链采样方法drichlet处理混合模型计算和图形统计杂志,vol.9号2页249-265,2000年
Viewat: 发布者网站 | 谷歌学者 | MathSciNet
公元前.b.Dahl,“基于模型聚类表达式数据透出二分处理混合模型”,贝叶斯推理基因表达式和蛋白质组pp.201-218,2006年
Viewat: 谷歌学者 | MathSciNet
H.科伯市F.巴雷特J约瑟EBliss-MoreaLindquist和T公元前工论者,“功能分组和分层情感交互作用:神经成形研究元分析”,神经图像,vol.42号2页998-1031,2008年
Viewat: 发布者网站 | 谷歌学者

版权

版权++2018 MeredithRay等开放访问文章分发创用CC授权允许在任何介质上不受限制使用、分发和复制,只要原创作品正确引用

PDF系统下载引用

下载其他格式

指令打印拷贝

视图

1267

下载

803

引用