抽象性

多数基因表达式数据分析算法需要全基因表达矩阵而不遗漏值因此,有必要设计方法精确估计缺失数据值有一些估算算法估计缺失值工作从微数组数据集启动,内含多值缺失并验证基因算法推算基因排序法和RMSE法等定期统计验证技术的结果基因排名,就知识而言,尚未使用验证缺失值估计结果最先,Spellman数据库测试建议方法,结果显示误差比前几行大幅下降,间接验证建议方法的统计意义并应用到另外四大二级基准数据集中,如染色肿瘤数据集(GDS4382)、乳腺癌数据集(GSE349-350)、前列腺癌数据集和DLBCL-FL(Leukai

开工导 言

微数组表达式分析是一种常用技术,用于剖析mRNA表达式mRNA从脱氧核糖核酸传入Riocome中,并指定基因表达式蛋白质产物的氨基酸序列微数组数据往往含有缺失值,这些值可能因各种原因产生,包括数据编译步骤不完善(例如不良混合化和芯片受灰尘和抓痕污染),产生错误低质量值,这些值通常被丢弃并被称为缺失值。基因表达式数据通常含有至少5%缺失值一号..微数组数据分析算法大都要求完整信息,即全基因表达矩阵而不缺值因此,应使用各种估算技术,精确估计多数据缺失值多推算算法估计缺失值一开始,我们应用了修改版现有推理技术LRFDVIPUET2优先发现相似基因子集使用[fudy差向量算法3基因表达剖面图被视为连续时间序列曲线并用子集线性回归估计缺失值仅估计缺值一二或三位基因,因为这些基因占全数据集5-10%绝对误差计算出原值和估计值之差根均值方差确定

第一阶段工作流显示图一号.

后排基因查找排名最优的基因4..我们用假想测试 威尔科松级和测试5排序特征 并选择顶部 基因从中消解维度 表示群尺寸后用于GA减基因集按GA法排名双级比对 威尔科松法和GA法顶部 基因值 用户定义使用支持向量机分类器分类性能分类说明所用排名法的效率图2显示本阶段工作流

完成后,我们强行编译高排名基因缺失的细胞 并使用相同缺失值估计技术再次估计最后,我们再次排位查找排名最高的基因结果显示,大多数排名最高的基因保持不变,这验证了估计生物方面缺失值估计法建议。

二叉当前艺术状态

如前所述,各种统计分析方法对缺失值不强,需要全基因表达矩阵提供准确结果因此,有必要设计精确方法计算缺失数据值提出了多项估算方法最早方法命名为平均数或填零数,用零或行平均数填缺值补缺

KNNImpute方法建议一号选择表达式剖析相似基因推算缺失值实验数度数计算基因相似性后,如皮尔逊相关性、欧克利得距离和差分最小化,发现欧克利得距离足够精确规范

SVDimpute方法建议一号singal值分解矩阵估计脱氧微数组缺失值方法通过分解基因数据矩阵并编成一组可线性组合到数据库中所有基因表达式与基因表达矩阵原理完全相同的这些模式被进一步称为eigenges6,7..

另一种方法命名LLSimpute8表示目标基因缺失值相似基因线性组合相似基因由选择 近邻或 一致性基因大绝对关联系数后加最小平方回归估计

BPCAImpte方法建议九九使用贝叶斯估计算法预测缺失值BPCA建议使用样本数减1为主轴数BPCA使用类似EM重复算法估计缺失值,需要密集计算推算缺失值

时间序列基因表达分析的另一种算法10允许原则估计非观察时点、集群和数据集对齐每种表达式剖面图像像立方样条(单数多线程),从观察数据估计,分时点影响整体平滑表达曲线对齐算法使用同样样条表示连续时间序列基因表达剖面

FDVImpute法建议11内含一些模糊性估计脱氧核糖核酸微数组缺失值第一步使用模糊差分矢量算法选择目标基因近(最相似)基因(缺分数部分)缺取单元格使用二进制所选基因最小适配估计

FDVSplineImpte3计及基因表达数据时间序列性质并允许使用模糊差向量相似基因B-spline估计缺失观察

另一种方法LRFDVImpute2估计多位缺失观察 先查找目标基因最相似基因 然后再对相似基因应用线性回归这种办法分两个阶段运作第一阶段,它估计SPELLMAN-COMBINED真缺细胞数据集,后阶段,它强迫某些细胞错用同一组数据集,然后使用第一步估计结果,这个方法使用早先使用的方法估计缺细胞绝对误差计算出原值和估计值之差根均值方差确定

从微数组数据提取相关信息也很困难,因为数据集有固有特征,这里有千千变数(genes)和极小数样本查找一组重要基因或换句话说表达最差的基因,通过研究受癌症细胞影响或未受癌症细胞影响的组织数据,是一项重要任务。问题可称为基因选择数项技术被用于排序基因并发现最重要的基因

12算法使用偏最小方块和模糊聚类法解释急性白血病的基因表达模式并识别白血子类型

13方法建议使用 Mann-Whitney测试 Kruskal-WallisANOVA测试排名基因尺寸消减使用 均值聚类和PCA分类使用ANN培训8倍交叉校验并递归特征消除和留置单测试

14算法建议基因选择法 基础是威尔科松级和测试SVMWilcoxon级和测试用于选择子基因并用单线性内核SVM分类器对每一选基因进行培训和测试,并选择高测试精度基因组成最后减精子分类使用两个数据集:乳腺癌15和ALL/AML列克米亚16使用放出单交叉验证

GA/SVM混合法建议选基因17使用模糊逻辑预处理工具减少维度,GA查找最常用基因并使用SVM分类器分类实验用两个已知癌症数据集Leukemia16和Colon18号和结果对比 与六种方法

[多目标遗传法19号并发集群和基因排序方法同时优化特征排序和集群NSGA-II非主排序遗传算法-II20码曾被用作多目标进化算法优化染色体

21号算法使用特征选择法基于遗传算法和分类法,侧重于建设性的神经网络,C-Mantec六大公共癌症数据库使用其他特征选择策略(Stepsy前向选择法)和各种分类技术(LDA、SVM和Nave贝叶斯)提供数项对比结果

PSO图定理法22号用于识别微数组基因表达式数据中非冗余基因标记微数组数据先转换为加权非定向完整特征图,节点表示基因关联性基因为节点权值,边缘按基因相关性排序加权最小平均边缘权值(相似性)和最大平均节点权值(相关性)最稠密子图从原特征图中识别二分粒子群优化应用以通过单目标函数最小化平均边缘权值(关联性)并最大化平均节点权值(遗传关联性)。

网络工具DWSS建议23号高效选择各种问题的重要特征搜索策略使用并行遗传算法实施DWSS还应用各种滤波方法作为特征选择过程预处理步骤并使用三大分类器,如KNN分类器、 Naive贝叶斯分类器和两者并用使用从不同生物医学应用中取出数据集的实验显示DWSS效率并导致特征数目大幅下降而不牺牲性能,而与几种广泛使用的现有方法相比。

3级提议方法

3.1.缺值估计使用线性回归

阶段工作修改现有法LRFDVImpute使用线性回归估计微数组数据集缺失值较早版LRFDVImpute在估计目标基因后插入新估计基因入培训数据以这种方式计算下一个目标基因时将新估计基因考虑在内过程有增加误差的风险同时估计后继基因,因为误差词是累积乘法修改LRFDVImpute在估计后不向培训数据添加目标基因培训基因集大小保持恒定 成员值增加 大小训练数据减少修改效果研究显示实验结果部分问题里 基因缺失值 ) ( 数基因 样本数)数据集估计方法查找相似基因3使用模糊差值向量算法描述如下

目标行/测试数据.缺失值估计行:目标行可能有多值缺失,单行估计单值

相似行/训练数据.行相似目标行:在此例中,只选择那些无缺值行应用相似性度量前,完全矩阵中所有列都删除,与目标行缺失值相对应

等一等 系数据集中的基因集等一等 线程 即目标基因 缺失值取出全数据集缺失值列let结果矩阵包含 列内目标基因 比较数据集中相似行中的每一行面向 Th基因 差向量 联想 计算方式如下:

差量向量计算后对目标行和相似行都表示 目标行和 类似行后计算 获取差矢量匹配数 面向目标基因 .匹配中 Th组件向量 取决于符号是否 或相同或无关 定义目标基因分布和相似基因匹配度并定义成员等级 详解如下: 训练数据中的基因成员值大于所选成员级 被认为是相似基因的一部分

步骤估计概述如下:(1)加载数据集缺失值(2)计算每个基因缺列数并开始第一行最少缺值数(数据集为1)。3级使用FDV算法从培训数据计算目标基因的相应成员级(4)使用线性回归估计缺失值(5)从线性模型对象lmObj获取回归系数(6)目标行开头添加偏差一分以允许偏差参数(7)向量乘法修改目标行和回归系数并加取矢量元素以获取估计值(8)缺失值替换估计值(9)转到阶梯 并重复以上步骤填充缺失值,除非在步中提及“最小数缺失值”。 小于或等于3

虽然我们在这里提到,我们继续填充缺失值直至点数,但这并不是真的。中间中断填充过程 评估算法

填入所有缺失值后,对应单缺失值行后,我们选择单列列位置集合,对应最初没有缺失值行并刻意将这些位置的值视为缺失并使用完全相同的进程估计值

相同的列集合位置再次使用时,算法填充所有行达2行缺失投影器,再填充行缺值达3行缺失值时使用

3.2Gene排名使用遗传算法

第二阶段拟议工程中,第一阶段缺值估计程序的结果通过使用GA对基因排序进行生物验证基因表达微数组数据特征显示变量数远超样本数 ,我们必须减少它的维度执行GA原创数据集不切实际并耗时预处理步骤,我们用Wilcoxon级和测试减维

3.2.1使用 wrst级测试

Wilcoxon排名和测试函数输入二组基因、疾病集和正常集,两者都单方经历缺值估计过程(如果缺值)。两组基因可能有不同数目样本let we considerd集 大小基因表达数据 数基因 表示样本数,正常集有大小 )中 表示样本数Wilcoxon级和函数处理两个数据集,以便找出无效假设被接受或拒绝的基因返回2值 值和 值 前文讨论空虚假设我们的问题 基因没有差分表达或所有样本都来自病人 或来自正常病人替代假设可以是基因有差别表达记录 和值 每种基因值

下一步,我们只考虑替代假设所支持的基因 )在意义级alpha并排序基因 值排序基因取最上层 基因,哪里 表示GA后来使用的人口规模因此,我们有两种下降的人口,一种代表有病者,另一种代表正常组织等一等 染病集 减值基因集 表示样本数并让 常态集 表示样本数

3.2.2.2染色体表示和初始群

减值基因集 服务初始群数算法步内含由用户预选的数位式基因实值编码代表每个染色体也就是说 测量记录 s基因 采样量对每一群

3.2.3适配性计算

精减基因组中每种基因的适配性再次用与使用方法相似的方法计算14基因表达剖面图被视为连续时间序列曲线

问题中,我们有2口数,1口数指染病组织,2口数指正常组织两种群都含有相同数的基因 可能有不同数目的样本以此为例,我们考虑二选二取相同数目的样本从每组中提取

等一等 减数组基因if ,然后对每个群落,差向量 联想 计算使用一号)差量向量计算后 位差矢量间匹配数 成员等级 计算使用2)

适配基因 以对等方式 并计算成 表示基因分布越相似 介质微小 反之亦然fitter基因在这两个群中分布不同然后按基因适配排序

3.2.4.利他主义

最佳染色体传递到下一代即交叉变异运算符不应用于最佳染色体技术通过跟踪最佳解决方案,确保进程更快融合

32.5选择区

选择时使用轮盘技术 基因选择基于相对健康值染色体越多,选择机率越大计权子数轮盘构造22号:i)计算适配值 每种染色体 , .二)查找总体适配 = .三)计算概率选择 每种染色体 , : 四)计算累积概率 每种染色体 , : 旋转轮子时间选择单染色体如下i)生成随机数 0比1二)if 中首选染色体 脱机反之,选择 Th染色体 高山市 )如此 .某些染色体多选一次显示Schema定理[24码最优染色体多拷贝 平均偶存 最差分解

3.2.6交叉交叉

交叉处理程序如下

面向每一种染色体 居中者i)生成随机数 0比1二)if 跨概率,我们选择给定染色体交叉单点交叉站点随机生成 中位 表示样本数交叉后双染色体生成子代染色体25码..交叉获取的新人口包含跨代生成的新一代以及没有交叉传递的精英儿童新的群数用于变异过程

3.2.7变异性

非一致性变异运算符25码曾在这里使用新建运算符定义如下:

i)随机实验产生0或1结果二)随机数pos生成 中位 样本数选择变异网站三)等一等 , 成为染色体 选择变异域名 华府市 脱机产生矢量 : 去哪儿 生成数函数 返回区域值 等概率 接近0增量 增量属性引导运算符初始统一搜索空间 微小)和极局部级后级

计算方式 去哪儿 随机数范围 , 最大数代预选用户 系统参数判断一致性度我们用过 面向实验

整体基因变换对一组人对二组人并同时对正常基因集进行健康评价反向转换产生相似结果

基因变换完成后,我们获取最终群集(即转基因基因集),按适配排序比较二阶位 一阶威尔科松法 另一阶乘GA法阈值 二级比较时考虑结果显示二阶中匹配率高此外,我们发现排名最高的基因由两种方法产生,而这两种方法产生的重要基因也相似。并验证第1阶段缺失值估计法的结果

3cm3Gene使用SVM分类

为了证明按大会方法排名的重要性,我们执行分类顶级排名 基因学N' 中排序法用于此目的我们使用 LOO交叉校验 数据集因样本数而异交叉验证方面,我们把数据集划分成二组培训集和测试集,80比20推理推理为80:20常发生比,常被称为Pareto原理万一 样本训练集 样本测试集 表示样本总数,训练集划分 等尺寸子集中 子集保留子集验证剩余 子集使用培训数据正因如此 SVM分类器线性内核使用 训练子集分类精度记录并使用最精度分类器测试 样本.

4级实验结果

4.1.数据集使用

缺失值估计部分建议修改LRFDVIPUET技术已在Spellmanet[26表中描述的 ]一号.

spellman数据集实验完成后,用四种公开数据集评价拟议方法组合基因排名和分类部分:直肠肿瘤数据集(GDS4382)、乳腺癌数据集(GSE349-350)、前列腺癌症数据集和白血病数据集

4.2平台使用

所有算法均使用Windows8.1中的MATLABR2013a实现

4.3结果
4.3.1.缺失值估计部分结果

初始估计使用成员级LRFDVImpute修改版 .初始估计结束后,我们在指定位置强制处理缺电池并使用成员值 前版和修改版仅在估计单行缺失值并记录对应RMSE值后实现一次我们仅对aacc15elu数据 Spellman数据集进行了实验缺值数大过cdc28正因如此,我们忽略了这部分Alpha、cdc15和elu数据集使用两种方法的结果显示于表2-4.图解3-5显示 RMSE对成员级的相应图 四套数据集各取

表25LFDVLSimute方法两种版本的性能与其他一些现有方法的性能比较,如SVDImpute法LLLSimute法LFVLLSimute法LFVSPLINEimute法LOUTe

4.3.2.合并结果

测试缺失值估计技术的意义 使用基因排序法Spellman数据集使用区至今尚未发现基因排名方面的最新工作正因如此,我们使用四种更多公开现实基因表达数据集,如染色体癌症数据集(GDS4382)、乳腺癌数据集(GSE349-350)、前列腺癌症数据集和白血病癌症数据集[DLBCL-FL4,27号-32码执行缺失值估计和基因排序分析结果取微数组缺失值并应用所拟缺失值估计技术估计缺失值基因并发现排名最高的基因并使用相同缺失值估计技术再次估计缺失值最后,我们再次排位查找排名最高的基因结果显示,大多数排名最高的基因保持不变,这意味着缺失值估计技术在估计未知值时是准确的数据集大都归并使用 score规范法,以便把数据值推向常用尺度

表单6,8,1013显示四种数据集估计值表7,九九,1114显示估计前后常见基因索引1215将拟方法性能与两种最先进方法比较22号,23号前列腺和白血病数据集基于精度、敏感度和特性 分数并 中值度量发现前列腺和白血病是常用数据集 两种现有方法都对之进行了实验结果表明,拟议的基因排序方法比现有方法表现得更好,前者基于PSO图定理法22号和另一个基于网络工具DWSS使用KNN和NBC分类器23号关于那些度量器

5级结论和未来范围

拟修改版LRFDVIPUET技术已在Spellman等数据集测试[26并显示令人印象深刻的结果性能优于最先进方法RMSE比成员级图 显示修改版等同或优于前版alpha和cdc15数据集dc28数据集前版显示效果更好elu数据集均达0差错双版本成员级0.55至0.65生成最小误差,可视此范围的任何值为新实验使用阈值

缺失值估计验证显示,大多数排名最高的基因在估计前后都保持原样,这意味着拟议的修改LFDVIPUET技术在估计未知值时是准确的

未来范围,我们想分析使用二次回归估计缺失值的效果,并使用数据清理技术推算前可能去除异常值并可能进一步减少误差差值基因排名方面,我们希望分析GA不同参数设置的效果,并使用SVM与其他内核观察排名和分类结果,并比较结果与文献中提到的结果我们还想修改算法,提高排名效率并发现最显著基因正确识别子型癌症Leukemia数据集16它可以识别二二分位数急性淋巴性白血病样本

竞技兴趣

作者声明他们没有竞技兴趣