结直肠癌(CRC)患者的高死亡率和传统的局限性tumor-node-metastasis (TNM)阶段强调探索基因中心的必要性在CRC致癌作用和预后密切相关。这项研究的目的是确定为华润中心与致癌作用和预后相关的基因。我们确认和验证212个差异表达基因(度)从六个基因表达综合(GEO)数据和癌症基因组图谱(TCGA)数据库。我们为度调查功能富集分析。蛋白质的相互作用(PPI)网络构造,在CRC致癌作用和中心模块和基因提取出来。预后签名是基于Cox比例风险回归分析和验证。度主要监管生物过程覆盖对刺激反应,代谢过程,蛋白质分子功能包含绑定和催化活性的影响。度扮演了重要的角色在CRC-related通路在肿瘤出现前的病变,致癌作用,转移,预后不良。中心CRC致癌作用密切相关的基因提取包括六个基因在模型1(处于受控,CXCL3 CXCL8, CXCL11, NMU,和PPBP)和两个基因和金属硫蛋白(MTs)在模型2 (SLC26A3和SLC30A10)。其中,CXCL8也与预后有关。 An eight-gene signature was proposed comprising AMH, WBSCR28, SFTA2, MYH2, POU4F1, SIX4, PGPEP1L, and PAX5. The study identified hub genes in CRC carcinogenesis and proposed an eight-gene signature with good reproducibility and robustness at the molecular level for CRC, which might provide directive significance for treatment selection and survival prediction.
结直肠癌(CRC)是第二大癌症诊断女性和男性第三形式,已严重的全球公共卫生问题(
近几十年来,研究CRC致癌的分子和遗传机制的调查和发展加速了遗传预后标记TNM分期系统补充(
在这项研究中,我们确定了和集成(度)从基因表达谱的差异表达基因和RNA为人类CRC测序数据。度被进一步的功能富集分析调查生物过程,分子功能,和reactome通路受度。(PPI)网络反映蛋白质的相互作用之间的交互度构造,中心网络捕获模块和破译,体现代表在CRC致癌基因。最后,患者总生存期数据被随机分为两组,火车组和测试组。火车组被用来揭示基因与生存相关并建立预后的CRC基因签名。测试组是用来评估综合预测模型。
基因表达谱数据(GSE21510、GSE24514 GSE32323, GSE89076, GSE110225,和GSE113513)对大肠癌从地理数据库中提取(
综合重要度从地理数据集验证通过RNA序列,TCGA COADREAD数据集的数据。原始RNA序列数据包括647 COADREAD样品和51匹配非癌变TCGA样本提取数据库,和病人的临床资料也下载。Mann-Whitney测试采用TCGA规范化和分析数据。基因与
潜在的生物过程和分子功能重叠度进行评估使用宾果插件Cytoscape 3.2.1之上的
重叠度的蛋白质相互作用通过字符串识别数据库,和基因的总和
消除患者没有总体生存数据后,617名患者的数据被用于生存分析。所有患者随机分为两组的帮助下脱字符号方案,培训组和测试组(
六个地理数据集的详细信息在这个研究显示在表中
六个地理信息数据集。
数据集 | 平台 | 样品数量(肿瘤/控制) |
---|---|---|
GSE21510 | 人类基因组(HG-U133_Plus_2) Affymetrix U133 + 2.0数组 | 148 (104/44) |
GSE24514 | 人类基因组(HG-U133A) Affymetrix U133A数组 | 49 (34/15) |
GSE32323 | 人类基因组(HG-U133_Plus_2) Affymetrix U133 + 2.0数组 | 44 (22/22) |
GSE89076 | 安捷伦- 039494 SurePrint G3人类通用电气v2 039381 x60k微阵列 | 80 (41/39) |
GSE110225 | 人类基因组(HG-U133A) Affymetrix U133A数组;人类基因组(HG-U133_Plus_2) Affymetrix U133 + 2.0数组 | 60 (30/30) |
GSE113513 | [PrimeView] Affymetrix人类基因表达数组 | 28日(14/14) |
度识别TCGA从地理和验证。(一)前20名,表达下调基因在六个地理数据集基于一个基本方案。(b)之间的重叠度TCGA地理和数据库。
解释212年的潜在生物功能重叠度、生物过程,分子功能,reactome通路富集分析被处决。所涉及的生物过程主要是刺激反应和代谢过程(图
度的功能富集分析。(a)排名前十的生物过程浓缩,度使之抑制。(b)分子功能的前十项浓缩,度使之抑制。(c)的前十项reactome通路调节度的浓缩。(d)的前十项reactome通路富集度使之抑制。
37调节之间的质子泵抑制剂和131年通过字符串表达下调基因发掘数据库相结合
PPI网络的建设和模块分析。(一)PPI网络与红色节点调节基因表达下调基因和绿色节点。(b) PPI网络的模块1。(c) PPI网络的模块2。模块1 (d) Reactome通路富集。模块2 (e) Reactome通路富集。(f) CXCL8存活曲线。(g) CXCL13存活曲线。(h) CLCA1存活曲线。
617名患者的数据被随机分为两组,火车组(309)和测试组(308)。102年,基因捕获通过单变量Cox比例风险回归模型在火车组,这与生存时间显著相关(
套索回归分析火车组。(一)套索系数的预后基因
为八个基因在火车组预后信息。
基因符号 | 单变量分析 | 多变量分析 | |||
---|---|---|---|---|---|
人力资源(95%置信区间) |
|
人力资源(95%置信区间) |
|
系数 | |
抗苗勒氏管激素 | 1.001 (1.000 - -1.02) | 0.000297 | 1.001 (1.000 - -1.001) | 0.011546 | 0.000842 |
WBSCR28 | 1.022 (1.010 - -1.033) | 0.000139 | 1.012 (0.999 - -1.026) | 0.080719 | 0.012188 |
SFTA2 | 1.001 (1.001 - -1.002) | 1.61 |
1.001 (1.001 - -1.002) | 0.000137 | 0.001245 |
MYH2 | 1.061 (1.029 - -1.095) | 0.000162 | 1.067 (1.027 - -1.108) | 0.00076 | 0.064845 |
POU4F1 | 1.005 (1.003 - -1.008) | 5.65 |
1.004 (1.002 - -1.007) | 0.002323 | 0.004278 |
SIX4 | 1.003 (1.002 - -1.004) | 6.33 |
1.003 (1.002 - -1.005) | 1.79 |
0.003124 |
PGPEP1L | 1.061 (1.032 - -1.090) | 2.46 |
1.070 (1.038 - -1.103) | 1.43 |
0.067637 |
PAX5 | 1.001 (1.000 - -1.001) | 1.53 |
1.001 (1.000 - -1.001) | 0.000106 | 0.000774 |
八个基因的评估和确认签名。(一)风险评分分布火车组。(b)的风险评分分布测试组。(c)为火车组生存时间统计。(d)测试组的生存时间统计。为火车组(e)存活曲线。测试组(f)存活曲线。为火车组(g) ROC曲线。测试组(h) ROC曲线。(i)为火车组基因表达模式。 (j) Gene expression pattern for the test group.
目前,TNM阶段是治疗选择和预后预测的主要方针CRC患者。在临床实践中,CRC患者相似的组织病理学特征呈现明显不同预后治疗或不同的反应,这可能与CRC的高分子异质性和可以公开TNM阶段限制对精密医学CRC (
在这个研究中,254度,其中包含80调节基因和174个表达下调基因筛选和综合从六个地理数据集,并映射到RNA TCGA测序数据中提取212包含46个调节和166个表达下调基因重叠度。生物过程分析表明,调节基因主要参与多种代谢过程包括胶原蛋白分解代谢的过程中,多细胞生物的分解过程中,胶原蛋白代谢过程,多细胞有机高分子代谢过程和多细胞有机体的代谢过程。表达下调的基因主要是参与各种对刺激的反应,应对营养化学刺激趋化性和反应,反应像出租车和外部刺激对细胞外的刺激做出反应,和响应等内源性刺激对糖皮质激素的刺激做出反应,对皮质类固醇的刺激做出反应,对类固醇激素的刺激做出反应,激素刺激和反应。分子功能分析表明,调节基因主要影响蛋白质绑定包含趋化因子活动,趋化因子受体结合,细胞因子活性,G-protein-coupled受体结合时,受体结合,等。基因表达下调对催化活性的影响多如裂合酶活性、氧化还原酶的活动,转移酶活动,水解酶的活动。reactome通路富集分析,调节基因主要集中在调节免疫系统和炎症和癌症细胞入侵和转移(
两个中心模块也确认,并在PPI网络拓扑参数计算。基因的拓扑参数模块1没有显著不同,但通路富集的结果主要积累在通路由46个调节基因,揭示了主要处于受控状态,CXCL3, CXCL8, CXCL11 NMU, PPBP。增加处于水平有积极的人际关系与肿瘤大小、程度的入侵,推进阶段,转移,预后不良
在目前的研究中,我们检测到基因表达之间的关系及预后CRC患者通过招募309名患者的3528个基因RNA序列数据,确定了102个基因与CRC患者的总生存期显著相关。高度相关的基因信息删除后,制定一套八个基因签名和风险进行评估,分类的CRC患者分为高和低风险组总体存活率明显不同。测试组验证的预后价值八个基因签名能够良好的再现性和鲁棒性,这表明,八个基因签名可以改善预后预测在分子水平上超越传统的TNM阶段。八个基因签名也推动传统TNM预后预测阶段的局限性,由于分子CRC的异质性。目前,一些基因签名已报告的预后预测CRC (
最后,签名或多或少的基因研究在人类肿瘤。单克隆抗体针对anti-mullerian-hormone-receptor II (AMHRII)是通过肿瘤相关巨噬细胞参与先进/转移性CRC,执行第二阶段研究[
总之,我们发现基因中心的帮助下参与了CRC的发病机制综合生物信息学分析。我们也提出一个八个基因签名包括抗苗勒氏管激素,WBSCR28, SFTA2, MYH2, POU4F1, SIX4 PGPEP1L, PAX5,将提供指导意义在CRC预后的预测和治疗选择。然而,八个基因签名的应用程序仍然需要在临床评估和验证。
结肠直肠癌
Tumor-node-metastasis
差异表达基因
基因表达综合
癌症基因组图谱
蛋白质相互作用
金属硫蛋白
RobustRankAggreg
复杂的分子检测
接受者操作特性
曲线下的面积
Muellerian-inhibiting因素;她们血液中的抗苗勒氏管激素
跨膜蛋白270
Surfactant-associated蛋白2
Myosin-2
经营领域,第4类转录因子1
同源框蛋白SIX4
Pyroglutamyl-peptidase 1蛋白质
蛋白质Pax-5成对的盒子。
使用的数据来支持本研究的发现可以从相应的作者。
作者宣称没有利益冲突。
Benjiao锣和Yanlei拷了同样的工作。
这项工作得到了山东省主要研究和发展计划,中国(2019号gsf107096)。
表S1: 254度筛选Limma包和集成的基本包六个地理数据集。
表S2:度TCGA提取数据库。
表S3: TCGA六个地理数据集和数据库之间的重叠度确定。
表S4:病人的临床信息组织进行生存分析。
表S5:重叠度的生物过程分析。
表S6:重叠度的分子功能分析。
表S7: reactome通路调节重叠度的丰富。
表S8: reactome途径丰富的表达下调重叠度。
表S9:重叠度认同的蛋白质相互作用的总和
表S10: 1三种拓扑参数计算模块。
表S11:三种拓扑参数计算模块2。
表S12:单变量Cox比例风险为火车组回归分析。
表向:套索处罚回归为火车组执行。
表S14系列:微分PGPEP1L在人类的表情。