生物信息学/ChAMP

维基教科书,自由的教学读本
跳到导航 跳到搜索

ChAMP[编辑]

ChAMP流程图

ChAMP(The Chip Analysis Methylation Pipeline)是一个甲基化分析流程。

用法参考:ChAMP - 生物信息软件参考文档 (gitbook.com)




ChAMP:450k 芯片分析甲基化套件[编辑]

Morris TJ, Butcher LM, Teschendorff AE, Chakravarthy AR, Wojdacz TK, Beck S (2014). “ChAMP: 450k Chip Analysis Methylation Pipeline.” Bioinformatics, 30(3), 428-430. doi: 10.1093/bioinformatics/btt684.

摘要[编辑]

Illumina Infinium HumanMethylation450 BeadChip 是用于高通量 DNA 甲基化分析的新平台。 最近发表了几种标准化和处理这些数据的方法。 在这里,展示了一个集成的分析工具,提供了最流行的标准化方法的选择,同时还引入了用于调用差异甲基化区域和检测拷贝数变异的新方法。

引言[编辑]

DNA甲基化是研究最多的表观遗传修饰。 DNA 甲基化模式的变化与许多疾病的发展有关,并被定义为癌症的主要标志(Feinberg,2007)。近年来,全基因组 DNA 甲基化检测的技术发展迅速,存在多种选择(Bock,2012)。尽管亚硫酸氢盐转化结合二代测序是最全面的方法,但目前仅适用于小样本量,并且应用于大规模研究仍然具有挑战性。 Infinium HumanMethylation450 BeadChip (www.illumina.com) 为这个快速发展的领域提供了在通量、覆盖范围和成本方面的有吸引力的平衡。它扩展了之前的 27k 阵列,提供了对 >480 000 个 CpG 位点的评估,涵盖了人类基因组的关键特征,包括 CpG 岛、海岸和货架以及启动子、基因体、基因间和印记区域(Bibikova 等, 2011)。根据 Pubmed 和 GEO 的提交,450k 阵列已成为表观基因组关联研究的首选平台(Rakyan 等,2011)。

这项新技术的挑战在于分析。 450k 分析工具应包括几个重要步骤:标准化、批量效应分析、单核苷酸多态性 (SNP) 标记、拷贝数畸变 (CNA) 检测和甲基化可变位置 (MVP) 分割为生物学相关的 DMR。归一化尤其重要,因为 450k 平台结合了两种不同的检测,Infinium I 和 Infinium II(Bibikova 等人,2011 年;Sandoval 等人,2011 年)。现在有许多标准化方法可用,它们以略有不同的方式处理这个问题(Marabita 等,2013)。按照发展的时间顺序,它们是基于峰值的校正 (PBC)(Dedeurwaerder 等人,2011 年)、SQN(Touleimat 和 Tost,2012 年)、阵列归一化内的子集分位数(SWAN)(Maksimovic 等人,2012 年)和Beta 混合物分位数归一化 (BMIQ)(Teschendorff 等人,2013 年)。

描述[编辑]

芯片分析甲基化工具 (ChAMP) 包是一种流水线,它集成了当前可用的 450k 分析方法并提供了自己的新颖功能。它是在 R 中实现的,可以在任何具有现有 R(版本 >3.0)和 Bioconductor 安装的平台上运行。 ChAMP 将原始 IDAT 文件作为输入,使用 minfi 提供的数据导入、质量控制和标准化选项(Hansen 和 Ayree,2011 年)。默认情况下,对至少一个样品中检测 P > 0.01 的探针的原始数据进行过滤。如果原始数据不可用,用户可以上传 M-、β- 或原始强度值的矩阵。用户可以决定过滤掉单个探针或探针组,例如 X 和 Y 染色体。根据用户指定的次要等位基因频率在 1000 基因组项目(1000 基因组项目联盟,2012)定义的四个群体之一中过滤 SNP 的选项也可用。这可以防止由于下游统计分析中的遗传变异导致的偏差,旨在识别差异甲基化的 CpG。批量效应分析是对原始数据进行的,如果用户提供可用于特定研究的额外协变量信息(即年龄、性别等),则可以更彻底。在预处理之后,后续步骤包括归一化、DMR 调用和 CNA 检测,如图 1 所示。


ChAMP 包括用于调整 2 型偏差(正方形)的预处理和已发布方法以及用于批次效应评估、DMR 校正和 CNA 分析的新方法(圆圈)

type2偏差的调整[编辑]

在运行基本质量控制指标后,建议执行阵列内归一化以调整 Infinium 2 型探针设计引入的偏差数据。 ChAMP 提供了四种最近专门为 450k 数据开发的方法供您选择。默认情况下,ChAMP 实施 BMIQ(Teschendorff 等人,2013 年),这是由 Marabita 等人确定的。 (2013),作为一种有效的方法。用户还可以选择 SWAN (Maksimovic et al., 2012)、PBC (Dedeurwaerder et al., 2011) 或无归一化。

批量效果[编辑]

为了评估与生物变异相关的批次效应的大小,将奇异值分解应用于数据矩阵以获得变异的最重要组成部分(Teschendorff 等,2011)。渲染主成分和技术/生物因素之间关联强度的热图使用户能够轻松地可视化是否存在批次效应。如果存在,ChAMP 中有一个选项可以使用 ComBat 来纠正这些影响(Johnson 等,2007)。

MVP 和 DMR 调用[编辑]

对于 MVP 调用,ChAMP 使用 Bioconductor 包 Limma (Smyth, 2005) 来比较两组。 MVP 调用可以在 M 或 beta 值上执行。庄等人。 (2012) 建议将 M 值用于小样本量研究(每个表型 <10 个样本)。由于 DNA 甲基化与多达 1000 个碱基高度相关(Li 等人,2010 年),因此单向 MVP 可以按照生物学上更相关的 DMR 进行分组(Jaffe 等人,2012 年)。 ChAMP 结合了一种新的 DMR 狩猎算法“探针套索”,该算法考虑了注释的基因组特征及其相应的局部探针密度和甲基化(Li 等人,2010)。探针套索(Butcher 未出版)根据探针映射到的基因组特征改变给定区域中最近邻探针间距的要求。然后,适当大小的套索以每个重要的 CpG 探针为中心,如果套索捕获了用户指定的额外最小数量的重要探针,则保留该套索。

CNA分析[编辑]

最后,ChAMP 集成了一种分析 450k 强度值的方法,以识别给定数据集中的 CNA(Feber 等人,2013 年)。这具有对同一样本进行“二合一”分析的优势,这在癌症的背景下尤为重要,除非使用完全相同的样本,否则肿瘤异质性是主要的混杂因素。得到的 CNA 分析已与 SNP 数据进行了比较,并显示产生了可比较的结果(Feber 等人,2013 年)。

讨论[编辑]

使用 450k 平台作为系统和面向疾病项目的一部分的研究人员的瓶颈是需要集成的分析管道。通过开发 ChAMP 并将其公之于众来满足这一需求。 ChAMP 整合了已经发布的新工具,并补充了现有的 450k 分析管道,如 Illumina 甲基化分析仪(Wang 等人,2012)、RnBeads(Assenov 等人,2013 年)和 wateRmelon(Pidsley 等人,2013 年),为用户提供了一个为他们的分析选择。 ChAMP 的优势在于,除了标准功能之外,它还提供了三种额外的方法来分析批次效应、DMR 调用和 CNA 检测。 ChAMP 已经在具有 8 GB 内存的个人机器上对包含多达 200 个样本的研究进行了测试。对于更大的表观基因组范围关联研究,管道需要更多内存,并且按照小插图中描述的步骤运行它可以打破时间要求。

参考文献[编辑]

Assenov Y, et al. Comprehension Analysis of DNA Methylation Data with RnBeads, 2013 , http://rnbeads.mpi-inf.mpg.de

Bibikova M, et al. High density DNA methylation array with single CpG site resolution, Genomics, 2011, vol. 98 (pg. 288-295)

Google Scholar Crossref PubMed

Bock C. Analysing and interpreting DNA methylation data, Nat. Rev. Genet., 2012, vol. 13 (pg. 705-719)

Google Scholar Crossref PubMed

Dedeurwaerder S, et al. Evaluation of the infinium methylation 450k technology, Epigenomics, 2011, vol. 3 (pg. 771-784)

Google Scholar Crossref PubMed

Feber A, et al. CNA profiling using high density DNA methylation arrays, Genome Biol., 2013 in process

Google Scholar

Feinberg A. Phenotypic plasticity and the epigenetics of human disease, Nature, 2007, vol. 447 (pg. 433-440)

Google Scholar Crossref PubMed

Hansen K, Ayree M. minfi: Analyze Illumina's 450k methylation arrays. R package version 1.8.3, 2011

Jaffe A, et al. Bump hunting to identify differentially methylated regions in epigenetic epidemiology studies, Int. J. Epidemiol., 2012, vol. 41 (pg. 200-209)

Google Scholar Crossref PubMed

Johnson W, et al. Adjusting batch effects in microarray expression data using empirical bayes methods, Biostatistics, 2007, vol. 8 (pg. 118-127)

Google Scholar Crossref PubMed

Li Y, et al. The DNA methylome of human peripheral blood mononuclear cells, PLoS Biol., 2010, vol. 8 pg. e1000533

Google Scholar Crossref PubMed

Maksimovic J, et al. Swan: subset-quantile within array normalization for illumina infinium humanmethylation450 beadchips, Genome Biol., 2012, vol. 13 pg. R44

Google Scholar Crossref PubMed

Marabita F, et al. An evaluation of analysis pipelines for DNA methylation profiling using the illumina humanmethylation450 beadchip platform, Epigenetics, 2013, vol. 8 (pg. 333-346)

Google Scholar Crossref PubMed

Pidsley R, et al. A data-driven approach to preprocessing illumina 450k methylation array data, BMC Genomics, 2013, vol. 14 pg. 293

Google Scholar Crossref PubMed

Rakyan V, et al. Epigenome-wide association studies for common human diseases, Nat. Rev. Genet., 2011, vol. 12 (pg. 529-541)

Google Scholar Crossref PubMed

Sandoval J, et al. Validation of a DNA methylation microarray for 450,000 CPG sites in the human genome, Epigenetics, 2011, vol. 6 (pg. 692-702)

Google Scholar Crossref PubMed

Smyth GK. Limma: linear models for microarray data, Bioinformatics and Computational Biology Solutions Using R and Bioconductor, 2005Springer, NY(pg. 397-420)

Google Scholar

Teschendorff A, et al. Independent surrogate variable analysis to deconvolve confounding factors in large-scale microarray profiling studies, Bioinformatics, 2011, vol. 27 (pg. 1496-1505)

Google Scholar Crossref PubMed

Teschendorff A, et al. A beta-mixture quantile normalization method for correcting probe design bias in illumina infinium 450k DNA methylation data, Bioinformatics, 2013, vol. 29 (pg. 189-196)

Google Scholar Crossref PubMed

The 1000 Genomes Project ConsortiumAn integrated map of genetic variation from 1,092 human genomes, Nature, 2012, vol. 491 (pg. 56-65)

Crossref PubMed

Touleimat N, Tost J. Complete pipeline for infinium((r)) human methylation 450k beadchip data processing using subset quantile normalization for accurate DNA methylation estimation, Epigenomics, 2012, vol. 4 (pg. 325-341)

Google Scholar Crossref PubMed

Wang D, et al. IMA: an R package for high-throughput analysis of illumina’s 450k infinium methylation data, Bioinformatics, 2012, vol. 28 (pg. 729-730)

Google Scholar Crossref PubMed

Zhuang J, et al. A comparison of feature selection and classification methods in DNA methylation studies using the illumina infinium platform, BMC Bioinformatics, 2012, vol. 13 pg. 59

Google Scholar Crossref PubMed

Probe Lasso:一种寻找450K DNA 甲基化数据差异甲基化区域的新方法[编辑]

Butcher LM, Beck S (2015). “Probe Lasso: A novel method to rope in differentially methylated regions with 450K DNA methylation data.” Methods, 72, 21-28. doi: 10.1016%2Fj.ymeth.2014.10.036.

摘要[编辑]

在过去的 10 年中,搜索基因组中 DNA 甲基化变化的速度和分辨率有了不可估量的提高,而 Illumina 450K BeadChip 的出现使全表观基因组关联研究 (pigenome-wide association studies,EWAS) 成为现实。然而,所得数据集的格式很方便,可以轻松对齐基因和遗传特征的重要命中;将重要命中解析为谨慎的差异甲基化区域 (differentially methylated regions,DMR) 的方法仍然是实施的挑战。在本文中,介绍了一种新型 DMR 调用程序 Probe Lasso 的详细信息:一种基于灵活窗口的方法,它收集相邻的重要信号以定义清晰的 DMR 边界,以便进行后续的深入分析。该方法在 R 包 ChAMP(Morris 等,2014)中实现,并根据用户调整的探针过滤级别(例如,包含性染色体、多态性)和探针套索大小分布返回 DMR 集。使用来自 TCGA 的结肠癌和健康结肠样本的子样本,表明 Probe Lasso 将 DMR 调用从探针密集区域转移,并调用了从数十个碱基到数十个的 DMR 大小范围- 千碱基规模。此外,使用 TCGA 数据,表明 Probe Lasso 利用了来自阵列的更多信息,并突出了使用基本固定窗口方法无法发现的低甲基化转录因子结合基序的潜在作用。

关键词:差异甲基化区域 DNA 甲基化 表观遗传学 EWAS Illumina 450K BeadChip

引言[编辑]

DNA甲基化是正常哺乳动物发育必不可少的表观遗传修饰。它是指在胞嘧啶核苷酸 (C) 的 5' 位置添加甲基以形成 5-甲基胞嘧啶 (mC),并且在哺乳动物细胞中主要发生在 CpG 二核苷酸处。 CpG 二核苷酸在哺乳动物基因组中的代表性不足,但给定细胞群中的这些基因座中的大多数(70-80%)表现出高水平的甲基化(mClocus:>85%)。保持组成型未甲基化的 CpG 倾向于聚集成称为 CpG 岛 (CGI) 的富含 CpG 的区域。奇怪的是,多能干细胞在非 CG (CpH) 二核苷酸处含有额外 33% 的 mC;这种表观遗传标记不太稳定,因此,这些基因座通常以部分甲基化的形式存在(mClocus:25-50%)。尽管理论上每个甲基化胞嘧啶都有可能去甲基化,但只有不到 22% 的常染色体 CpG 受到动态调节 [2]。尽管如此,DNA 甲基化变异的普遍模式留下了细胞特异性印记,这与其他表观遗传改变如组蛋白修饰非编码 RNA 一起,促成了一系列精确协调的机制,这些机制在暂时和空间上控制基因表达。

增殖细胞中 DNA 甲基化的正确获取由 DNA 甲基转移酶 (DNMT) 控制,DNMT 是三种催化活性酶的家族,包括维持 (DNMT1) 和从头 (DNMT3a 和 DNMT3b) 功能。小鼠中这些基因的扰动会导致一系列有害的表型,这突出了 DNA 甲基化在正常发育中不可或缺的作用。这些表型包括全基因组部分甲基化缺失、发育延迟、错误的生殖系印记、不育和胚胎致死率。

鉴于 DNA 甲基化的明显重要性,目前正在共同努力以了解更细微的 DNA 甲基化差异对正常发育和疾病的影响。由于在过去 5 年中出现了许多高信息含量的甲基化技术(在 [3] 中进行了回顾),的理解逐渐成为焦点。这些包括全基因组亚硫酸氢盐测序(WGBS;[4][5])、甲基化免疫沉淀测序(MeDIP-seq;[6])、减少代表性亚硫酸氢盐测序(RRBS;[7])和 Illumina Infinium Human Methylation 450K BeadChip(此处称为“450K BeadChip”;[8])。所有这些平台都能够生成全基因组或全基因组甲基化图谱(“甲基化组”)并提供高信息内容,尽管具有不同的焦点 [9]。例如,尽管 WGBS 不适合研究大型队列(由于需要足够深度覆盖每个胞嘧啶所需的读数数量),但它可以以单核苷酸分辨率解析整个甲基化组;另一方面,450K BeadChip 仅测定约。 1.8% 的 CpG,但非常适合研究大型队列——这是统计功效的关键要求; MeDIP 和 RRBS 介于两者之间。除 MeDIP-seq 外,上述所有技术均使用亚硫酸氢盐转化的 DNA 以单碱基分辨率解析 mC;相比之下,MeDIP 使用抗体来富集基因组的甲基化部分,并提供基于区域的“共识”甲基化水平,分辨率与序列插入大小相一致 [10]

由于基于序列的方法通常提供广泛且不间断的甲基化覆盖,因此这些技术负责识别大量区分细胞、组织和疾病特异性表型的差异甲基化区域 (DMR),这并不奇怪。 DMR 是离散的基因组序列,其在多个 CpG(和/或非 CpG)中具有独特的甲基化特征,能够将一种表型与另一种表型区分开来。它们的识别和效用对临床应用具有深远的影响,因为它们最终将基因组的规模缩小到少数几个区域;一旦 DMR 得到验证和复制,它将为时间、成本和工作效率高的分析铺平道路,为后续的功能研究提供信息并提供诊断工具。

尽管大多数 DMR 是使用基于测序的方法鉴定的,但大多数甲基化组是使用 450K BeadChip 生成的;例如,最新版本的 MARMAL-AID 数据库 [11] 包含来自近 200 种不同组织和近 100 种不同疾病的 9000 多个样本的 450K 数据。但出于技术制造原因,必须限制 450K BeadChip 上 CpG 的覆盖范围。因此,可能由于历史原因,450K BeadChip 上的 CpG 分布偏向于 CGI 和基因。此外,并不总是涵盖连续的 CpG。因此,这开启了在 450K BeadChip 数据集上实现 DMR 调用的综合算法的挑战。一种简单的方法是计算从固定大小的滑动窗口发出的重要信号。如果特定大小的窗口(或连续窗口)捕获指定数量的显着相关探针,则可以通过这种方式定义 DMR。然而,如上所述,由于 CpG 的分布和将 DMR 调用限制在探测最多的区域的风险,这是有争议的。公共领域中有许多 DMR 调用方法适用于 450K BeadChip。其中包括“Bump Hunting”[12]、“Block Find”[13]、“AClust”[14] 和“DMRcate”[15]

在这里,介绍了另一种 DMR 调用方法,Probe Lasso。探针套索利用基于探针密度的灵活窗口(“探针套索”)来收集相邻的重要信号以定义清晰的 DMR 边界。开发该算法的主要动机是将后续分析从位于启动子/CGI 中的探针/区域重新定向,阵列倾向于并利用来自假定重要但在很大程度上被忽略的基因间区域的信息。为了说明这一点,针对固定窗口方法对 Probe Lasso 进行了基准测试。 Probe Lasso 与另一种 DMR 调用方法“Comb-p”[16] 有相似之处,尽管存在显着差异;特别是,Comb-p 使用自相关数据首先校正单个探针 p 值,然后根据校正 p 值的峰值定义 DMR。相比之下,Probe Lasso 从可以根据探针的基因组/表观基因组注释扩展的区域中的探针收集相邻的重要信号,然后使用自相关信息组合 DMR 内探针的 p 值。

材料和方法[编辑]

预处理和甲基化可变位置 (MVP) 调用[编辑]

Probe Lasso 在 Bioconductor 包 ChAMP [1] 中实现,并依赖于使用该包创建的一系列对象。下面简要介绍了使用 ChAMP 的典型工作流程。使用 champ.load 函数加载原始数据(.idat 文件)以派生一个列表对象,其中包含样品表 ('pd') 和检测中指定的样品的探针的甲基化水平 ('beta') 和其他内容每个探针的 p 值 ('detP')。删除调用率(即 detP <0.01)低于 98% 的样本,然后删除不能提供所有样本完整信息的探针。 Beta 值使用具有 champ.norm 函数的各种公开可用程序之一进行阵列间标准化,并使用 champ.svd 进行奇异变量分解 (SVD) 分析以识别潜在的混杂因素。然后使用 champ.mvp 确定 MVP 进行适当的对比,它实现了 limma 包 [17],结果对象用于使用 champ.lasso 的 DMR 调用。

依赖关系[编辑]

要有效地调用 DMR,champ.lasso 需要每个探针都具有遗传和表观遗传特征注释和多态性数据。 遗传和表观遗传特征注释保存在 Bioconductor 包 IlluminaHumanMethylation450kmanifest 中,包含染色体、映射位置、附近基因和/或 CGI 等信息; 多态性数据保存在 Bioconductor 包 Illumina450ProbeVariants.db 中,其中包含探针内、目标基因座 10 bp 内或目标基因座上四个不同祖先组(非洲、美洲、亚洲和欧洲)的变体的等位基因频率信息,来自 1000 基因组计划 [18] 数据。

探测lasso原理[编辑]

图 1A 说明 450K BeadChip 上的探针间距在基因特征方面不均匀:转录起始位点 (“TSS200”) 200 bp 内的探针间隔最密,而 3' UTR 和基因间区域 (“IGRs”) 中的探针间距最大 ”) 的间距最小。 不出所料,鉴于 CGI 及其衍生物 [8] 的定义,图 1B 显示探针密度随 CGI 的探针图越远(CGI → 海岸 → 大陆架 → 公海)而降低。 此外,特定基因特征的探针间距与其 CGI 关系(此处称为“遗传/表观遗传特征”)共变,这使探针间距更加多样化(图 1C)。 综上所述,这些数字表明在 450K BeadChip 上收集相邻的重要信号需要一个动态调用框架。

图 1. Illumina 450K BeadChip 上的探针间距。 (A) 探针以基因为中心,靠近转录起始位点 (TSS) 的探针间隔最密。 (B) 探针与 CpG 岛 (CGI) 的距离越远,探针间距就越稀疏。 (C) 结合遗传和表观遗传注释信息揭示了不同范围的探针间距。

探针套索工作流程[编辑]

为了解决探头间距不均匀的问题,Probe Lasso 生成了针对局部特征内容量身定制的动态灵活的窗口(“套索”)。图 2 总结了 Probe Lasso 如何调用 DMR。就像真实的东西一样,探针套索可以被设想为有一个中心和一个半径;一旦导出,探针套索就会围绕探针“抛出”,其半径向上游和下游延伸,以目标 CpG 本身为中心。 (由于非 CG 基因座在 450K BeadChip 上的分布很少,因此无法促进使用非 CG 基因座进行有意义的 DMR 调用。)重要的是,探针套索推导完全是数据集和用户特定的。例如,可以先验过滤数据集以用于映射到性染色体的探针(filterXY);还可以过滤数据集以包含/排除可能受所选群体 (popPol) 中特定次要等位基因频率 (mafPol.lower, mafPol.upper) 多态性影响的探针;此外,只有具有关联统计信息的探针才会通知探针间距计算以导出探针套索。

图 2. 说明 Probe Lasso 工作流程的示意图。 在为 28 个遗传/表观遗传特征中的每一个计算探针间距分布后,基于用户指定的最小/最大套索大小和套索半径设置分位数。 这个分位数产生了 28 个动态窗口大小('probe-lassos'),这些窗口大小被抛出到每个显着相关的探针周围。 如果这些套索捕获了用户指定数量的重要探针,则保留该探针的套索边界。 然后将小于用户指定距离的重叠和相邻套索边界合并以定义 DMR 边界。 然后将数据集中的所有探针分箱到 DMR 中,并将它们的 p 值组合为 DMR,由探针甲基化值的潜在相关结构加权。

在探针过滤之后,Probe Lasso 计算数据集中每个探针的探针间距; 这些数据被归入 28 个遗传/表观遗传类别之一(即 7 个基因特征 × 4 个 CGI 关系)并转换为分位数分布。 接下来,根据两个用户指定的参数 lassoStyle 和 lassoRadius 设置意外事件。 如果 lassoStyle = max,则探针套索大小最多为 2 × lassoRadius bp; 如果 lassoStyle = min,则探针套索将至少为 2 × lassoRadius bp。 由于每个遗传/表观遗传类别都有唯一的探针间距,因此 Probe Lasso 可识别符合用户指定的最大(或最小)套索半径的遗传/表观遗传类别,并推导出它出现的分位数。 然后将衍生的分位数应用于探针间距的每个遗传/表观遗传分布,以创建根据遗传/表观遗传特征而变化的探针套索(见图 3)。

图 3. 每个基因/CGI 特征的探针间距的示例分位数分布。 黑色水平和垂直虚线表示选择 2000 bp 的最大套索大小所产生的分位数(第 43 位)。

根据探针映射到的遗传/表观遗传特征,在每个探针周围抛出一个大小合适的探针套索,以目标基因座为中心。探针套索计算探针套索范围内捕获的重要探针的数量,如果该数量大于或等于用户指定的阈值 minSigProbesLasso,则选择一个探针。 Champ.lasso 生成探针套索边界图,以便重叠套索和相邻套索在它们之间的距离小于用户指定的阈值 minDmrSep 时合并。当探测套索边界停止合并时调用 DMR。 DMR 坐标由 DMR 中探针的探针-套索边界的最小和最大基因组坐标定义。还输出第二组坐标,称为“DMR 核心”,由 DMR 内探针的最小和最大基因组坐标定义。小于用户指定参数 minDMRsize 的 DMR 从后续分析中过滤掉。

接下来,估计 DMR 本身的 p 值。由于相邻探针的 DNA 甲基化水平可能具有显着相关性 [19],Fisher 组合 p 值的方法是不合适的。相反,Probe Lasso 使用 Stouffer 的方法 [20] 为单个 p 值分配权重,这些 p 值基于测量的 beta 值的潜在相关结构,然后再组合它们。为此,Probe Lasso 恢复了 DMR 中捕获的数据集中探针的所有归一化 beta 值(来自 champ.norm)和 p 值(来自 champ.MVP)。计算每个 DMR 内归一化 Beta 值的相关矩阵,然后将其用于通过其平方相关系数的倒数和对每个探针的 p 值进行加权。这具有降低高度相关(非独立)探针的 p 值和增加不相关(独立)探针的 p 值的权重的效果。使用错误发现率 (FDR) 方法 [21] 对 DMR 的 p 值进行多次测试校正。

最后,Probe Lasso 返回一个数据框,其中包含所有 DMR 中的所有探针,以及每个探针的基因组注释和 DMR 详细信息,例如 DMR 坐标、大小和 FDR 校正的 p 值。

探测lasso和滑动固定窗口参数[编辑]

作为原理证明,使用来自癌症基因组图谱(TGCA,http://cancergenome.nih.gov[22])的数据,针对 DMR 调用的滑动固定窗口方法对 Probe Lasso 算法进行了基准测试。为确保算法之间的 MVP 列表一致,在两种算法中保持以下探针过滤参数不变:filterXY = TRUE,mafPol.lower = 0,mafPol.upper = 0,popPol = “eur”。以下 DMR 分类器在两种算法中保持不变:minDmrSep = 1000 和 minDmrSize = 0。还使用 adjPVal = 0.05 设置了 lassos/windows 捕获的 MVP 的显着性阈值。最后,通过将套索/窗口中捕获的重要探针的最小数量更改为 3、5 和 7(即探针套索算法:minSigProbesLasso = 3|5|7),针对日益严格的 DMR 调用条件对算法进行了比较。控制探针套索尺寸动态特性的探针套索算法独有的参数设置如下:lassoStyle = “max”,lassoRadius = 2000。

对于滑动固定窗口方法,选择了三个窗口大小:250 bp,因为在使用具有上述参数的 Probe Lasso 时,这返回了相当数量的探针/DMR; 750 bp,因为这对应于使用带有上述参数的 Probe Lasso 的动态窗口的平均大小;和 2000 bp 的极端情况。连续的窗口重叠了 50%。滑动固定窗口方法在本文中称为“window.250”、“window.750”和“window.2000”。

结果和讨论[编辑]

数据集[编辑]

从 TCGA 下载了 38 个正常结肠癌和 40 个结直肠癌样本的原始强度数据(idat 文件),并通过 ChAMP 管道输入这些数据。 在过滤掉一个探针通过检测过滤器(p < 0.01)<98% 的正常结肠样本后,过滤掉了映射到性染色体的探针、非 CG 探针和具有至少 1 个低检测值的探针(N = 22,720)。 最终数据集包含 77 个样本中的 448,832 个常染色体探针。 没有发现使用 champ.SVD 存在技术混杂的证据(参见补充图 1)。

甲基化可变位置和 DMR 调用[编辑]

在实施 champ.MVP 后,发现了 192,981 个 MVP(FDR <0.05),并且使用 Probe Lasso('lasso DMRs')和滑动窗口方法('window DMRs')将这些提炼成 DMR。 将 Probe Lasso 作为 champ.lasso 的一部分实现会输出一系列图形,让用户可以判断他们选择的参数是否设置得当。 它们是: 由遗传/表观遗传特征分割的探针间距的分位数分布(图 3),显示了从用户指定参数得出的分位数; 显示围绕重要探针抛出的套索大小的图(补充图 2); 以及由遗传/表观遗传特征划分的特定于数据集的探针间距范围(补充图 3)。

DMR定位

Probe Lasso 的主要目的是缓和 DMR 调用,使其远离探针密集程度更高的区域。计算了 lasso DMR、窗口 DMR 和全局 MVP 分布中探针的遗传、表观遗传和遗传/表观遗传特征的富集。使用了先前发表的表观遗传关系定义[8]图 4补充图 4A 和 B 说明无论窗口大小如何,窗口 DMR 都严重偏向探针密集区域(例如,CGI 和一些 CGI 海岸内的大多数遗传特征)并远离探针稀疏区域(例如, 5' UTR、基因体、3' UTR 和发生在 CGI 岛和公共内的基因间区域)。所有三种基于窗口的方法(具有所有三种严格性)与仅 MVP(p 值范围:0.0015-0.0109,Kolmolgorov-Smirnov 检验)的特征丰富配置文件相比存在显着差异。相比之下,套索 DMR 富集概况与仅 MVP 的富集没有显着差异(p > 0.1,Kolmolgorov-Smirnov 检验),除了使用 7 探针严格性时(p = 0.026)。

图 4. 富集图说明了使用 Probe Lasso 算法(深灰色条)、滑动固定窗口方法(中灰色)和所有 MVP(浅灰色)捕获的探针的遗传/表观遗传特征分布。 正如预测的那样,滑动固定窗口方法丰富了转录起始位点 (TSS) 和 CGI 附近的探针。 相反,Probe Lasso 丰富了 CGI 货架和公海,这更符合所有 MVP 探针的遗传/表观遗传特征。

DMR 覆盖范围[编辑]

表 1 总结了针对三种不同严格性中的每一种使用两种算法调用的 DMR 数量。 比较同类窗口大小 (window.750),可以看到滑动固定窗口方法在所有三个严格条件下都比 Probe Lasso 更难识别:在最不严格的条件下 (minSigProbesLasso = 3),接近所有探针的五分之一 测试落入窗口 DMR。 将窗口大小减少三分之二 (window.250) 导致探针和 DMR 的输出与 Probe Lasso 相似,而增加窗口大小 (window.2000) 导致原始 MVP 列表的数据减少很少,超过三个 - 四分之一的重要探针和三分之一的所有测试探针被合并到 DMR 中。 正如预期的那样,增加严格性减少了被调用的 DMR 数量,以至于可以跟踪不到 1 Mb 的遗传和表观遗传多样性序列进行靶向分析(例如,探针套索,每个套索有 7 个显着探针)。

表 1. 使用探针套索和固定滑动窗口方法调用的 DMR 中的 DMR 和探针数量摘要。 序列重叠与 Probe Lasso DMR 中发现的序列数量有关。
Algorithm Stringency (# probes) # DMRs # Probes Total DMR sequence [Mb] DMR sequence overlap [%] Total DMR core sequence [Mb] DMR core sequence overlap [%]
Probe Lasso 3 7028 38,524 10.0 4.8
Window.250 7416 41,028 3.3 15.0 2.2 19.4
Window.750 13,458 92,470 16.7 43.5 10.2 46.2
Window.1000 16,178 148,323 52.3 81.3 28.2 82.9
Probe Lasso 5 1226 11,556 2.6 1.5
Window.250 1428 11,335 0.5 5.3 0.4 6.7
Window.750 4425 39,455 4.7 22.9 3.2 25.7
Window.2000 7385 84,610 22.2 67.9 13.8 70.2
Probe Lasso 7 395 5035 0.9 0.6
Window.250 400 4068 0.1 3.7 0.1 4.5
Window.750 1690 18,748 1.7 17.2 1.2 18.4
Window.2000 3840 52,443 11.0 58.6 7.4 61.4

接下来评估了窗口 DMR 和探针套索 DMR 的独特性。 将严格性降至最低并比较具有相似 DMR 数量的算法(窗口 250),所有 DMR 中有 24.3% 是 Probe Lasso 独有的,27.3% 是窗口 DMR 独有的(表 1图 5A)。 独特 DMR 的数量随着严格性而增加:使用 5 个显着探针时,31.6% 的套索 DMR 和 38.7% 的窗口 DMR 是独特的; 37.3% 的套索 DMR 和 37.7% 的窗口 DMR 是独特的,使用 7 个显着探针。 每个算法独有的探针比例高于独特 DMR 的比例(探针套索:37.8%;window.250:40.3%;图 5B)。

图 5. Probe Lasso 和 window.250 算法之间的 DMR、探针和序列共享。 大约 50% 的 DMR 在两种方法之间共享 (A),但共享的探针数量较少 (B)。 当分析 DMR 序列时,看到共享信息 (C) 急剧减少,这是由于 Probe Lasso DMR 利用了来自 IGR 的更多信息,这些信息以较低的 CpG 密度为代表。 即使在 (D) 中控制探针套索边界时,这种趋势也会保持。

当分析序列共享时,观察到更多的排他性:例如,在套索 DMR 覆盖的 9.95 Mb 序列中(使用 3 个显着探针),63.7% 是独特的(表 1图 5C)。此外,当严格性增加到 5 个探针(2.6 Mb 的独特序列的 78.7%)和 7 个探针(0.9 Mb 的独特序列的 83.8%)时,来自不同算法的 DMR 的序列排他性与 DMR 排他性不成比例。为了确认这不是由于“死空间”,即 DMR 边界延伸到没有数据的区域,将每个 DMR 边界限制为每个 DMR 中第一个和最后一个探针的基因组坐标(“DMR 核心” ”)。在这里,观察到严格性增加的类似趋势:对于 3 个探针,4.8 Mb DMR 核心序列中有 54.9% 是 Probe Lasso DMR 独有的;对于 5 个探针,1.53 Mb 的 75.4% 是唯一的;对于 7 个探针,81.5% 的 0.62 Mb 是唯一的。因此,尽管这两种算法选择了重叠近 50% 的 DMR,但可能跟进的序列可能会有很大差异。

这部分是由于 Probe Lasso 在一系列遗传和表观遗传特征中挑选 DMR,并反映在 DMR 大小的分布中。图 6 显示 Probe Lasso 调用的 DMR 范围从 19 bp 到 25 Kb。它还强调了固定窗口方法在某种程度上仅限于调用与窗口大小一样小的 DMR,尽管通过关注 DMR 内核可以改善这种情况(补充图 5)。尽管如此,Probe Lasso 在广泛的 DMR 大小和集中的 DMR 数量之间取得了不错的平衡。

图 6. 小提琴图展示了使用 Probe Lasso 和具有不同严格程度的滑动固定窗口方法的 DMR 大小分布。 通常,Probe Lasso 捕获更广泛的 DMR 大小,而基于滑动窗口的方法捕获的最小 DMR 通常受限于非重叠窗口的大小。 总的来说,Probe Lasso 完成了与各种尺寸滑动窗口的组合工作类似的工作,而不会产生大量的 DMR。

DMR 的生物学相关性[编辑]

由于 window.750 和 window.2000 与 Probe Lasso 定义的 DMR 数量之间存在差异,将注意力集中在比较 Probe Lasso DMR 与 window.250 DMR。对每个 DMR 集的分析表明,这两种方法都可以检测先前相关的结直肠癌基因(如 BMP3、EYA2、ALX4 和 VIM [23] 以及 MLH1 [24])中的高甲基化 DMR。然而,专注于每种算法独有的 DMR 中的重要探针(探针套索:N = 8947;window.250:N = 11,708)揭示了每种方法之间有趣的差异。首先,可能不出所料,在独特的窗口中发现了重要的探针。 250 DMR 最常见于 TSS 相关区域(TSS1500 = 21.5%;TSS200 = 36.7%)和 CGI​​(71.6%);另一方面,独特的 Probe Lasso DMR 中的重要探针最有可能在基因体 (30.3%) 和 IGR (48.7%) 中发现,并且极有可能在公海 (60%) 中发现。有趣的是,5'UTR 基因组特征(8.0% 对 6.9%)和 CGI​​ 海岸(20.4% 对 18.5%)的表示几乎没有差异。

作为表征独特 DMR 的一种手段,接下来试图确定与独特 DMR 相关的保守党生物学过程。使用 Discriminative Regular Expression Motif Elicitation (DREME; [25]) 工具使用以每个算法独有的 DMR 中重要探针的目标位点为中心的 16mer 进行了模体分析。在每个 DMR 集中发现的基序数量很小(window.250 vs. Probe Lasso:5 vs. 4),但与每个算法输入的探针基序数量成正比(11,708 vs. 8947)。然后将这些基序提交给 Tomtom [26] 以鉴定可能的 DNA 结合蛋白。总共 42 个潜在的 DNA 结合蛋白与两个 DMR 集中鉴定的 9 个基序相关。其中有九个是共同的,包括 STAT 成员、EGR2 和 N-MYC。有 11 种 DNA 结合蛋白与独特的 Probe Lasso DMR 相关,其中包括 PAX 家族成员、EHF 和 PPARG;其余 21 种蛋白质是 window.250 DMR 所独有的,包括 E2F1-、KLF- 和 SP-家族成员(详见补充表 2)。在独特的窗口中,更多的基序与 DNA 结合蛋白相关,这也许并不奇怪。 250 DMR 设置偏向于靠近转录起始位点的探针,在那里 DNA 结合活性更高;然而,有趣的是,在独特的 Probe Lasso DMR 集中发现的基序与更多样化的基因本体论预测相关,可能突出了以前由于关注基因启动子的历史偏好而忽略的新途径(见补充表 2) )。

最后,检查了与显着相关基序匹配的探针子集,以衡量独特的 DMR 是否可以通过独特的 DNA 甲基化模式来表征。奇怪的是,发现映射到 Probe Lasso 衍生基序的探针在结肠直肠样本中表现出强烈的低甲基化趋势(参见补充图 6A),可能使这些结合位点对转录因子的作用开放。相反,在 window.250 衍生的基序中发现了相反的模式,表明对推定的肿瘤抑制基因的转录亲和力增加(参见补充图 6B)。

结论[编辑]

在本文中,介绍了 Probe Lasso,这是一种使用 Illumina 450K 甲基化 BeadChip 阵列调用 DMR 的方法。 Probe Lasso 是作为 Bioconductor 包 ChAMP 中功能套件的一部分实施的,ChAMP 是一种一体化分析管道,可获取原始甲基化数据并导出 MVP 和 DMR 以供进一步研究。与更基本的 DMR 调用方法(例如滑动固定窗口方法)相比,Probe Lasso 具有相当大的优势。首先是 DMR 不偏向探针密集区域,并且能够利用来自阵列的更多信息。其次,使用一小部分 TCGA 数据,表明 Probe Lasso DMR 突出了低甲基化转录因子结合基序的作用,这些基序在潜在的新途径中起关键作用。最后,Probe Lasso 算法引入了一个框架,可以通过全基因组亚硫酸氢盐测序进行 DMR 调用;在这里,而不是使用探针间距,并且因为 WGBS 受益于完全覆盖,CpG 密度可用于标记 DMR 边界。

参考文献[编辑]

[1] T.J. Morris, L.M. Butcher, A. Feber, A.E. Teschendorff, A.R. Chakravarthy, T.K. Wojdacz, S. Beck Bioinformatics, 30 (3) (2014), pp. 428-430 CrossRef View Record in Scopus
[2] M.J. Ziller, H. Gu, F. Muller, J. Donaghey, L.T. Tsai, O. Kohlbacher, P.L. De Jager, E.D. Rosen, D.A. Bennett, B.E. Bernstein, A. Gnirke, A. Meissner Nature, 500 (7463) (2013), pp. 477-481 CrossRefView Record in Scopus
[3] C. Bock Nat. Rev. Genet., 13 (10) (2012), pp. 705-719

CrossRef View Record in Scopus

[4] Y. Li, J. Zhu, G. Tian, N. Li, Q. Li, M. Ye, H. Zheng, J. Yu, H. Wu, J. Sun, H. Zhang, Q. Chen, R. Luo, M. Chen, Y. He, X. Jin, Q. Zhang, C. Yu, G. Zhou, J. Sun, Y. Huang, H. Zheng, H. Cao, X. Zhou, S. Guo, X. Hu, X. Li, K. Kristiansen, L. Bolund, J. Xu, W. Wang, H. Yang, J. Wang, R. Li, S. Beck, J. Wang, X. Zhang PLoS Biol., 8 (11) (2010), p. e1000533 CrossRef View Record in Scopus
[5] R. Lister, M. Pelizzola, R.H. Dowen, R.D. Hawkins, G. Hon, J. Tonti-Filippini, J.R. Nery, L. Lee, Z. Ye, Q.M. Ngo, L. Edsall, J. ntosiewicz-Bourget, R. Stewart, V. Ruotti, A.H. Millar, J.A. Thomson, B. Ren, J.R. Ecker Nature, 462 (7271) (2009), pp. 315-322

CrossRef View Record in Scopus

[6] T.A. Down, V.K. Rakyan, D.J. Turner, P. Flicek, H. Li, E. Kulesha, S. Graf, N. Johnson, J. Herrero, E.M. Tomazou, N.P. Thorne, L. Backdahl, M. Herberth, K.L. Howe, D.K. Jackson, M.M. Miretti, J.C. Marioni, E. Birney, T.J. Hubbard, R. Durbin, S. Tavare, S. Beck Nat. Biotechnol., 26 (7) (2008), pp. 779-785

CrossRef View Record in Scopus

[7] A. Meissner, A. Gnirke, G.W. Bell, B. Ramsahoye, E.S. Lander, R. Jaenisch Nucleic Acids Res., 33 (18) (2005), pp. 5868-5877

CrossRef View Record in Scopus

[8] M. Bibikova, B. Barnes, C. Tsan, V. Ho, B. Klotzle, J.M. Le, D. Delano, L. Zhang, G.P. Schroth, K.L. Gunderson, J.B. Fan, R. Shen Genomics, 98 (4) (2011), pp. 288-295 Article Download PDF View Record in Scopus
[9] S. Beck Nat. Biotechnol., 28 (10) (2010), pp. 1026-1028

CrossRef View Record in Scopus

[10] O. Taiwo, G.A. Wilson, T. Morris, S. Seisenberger, W. Reik, D. Pearce, S. Beck, L.M. Butcher Nat. Protoc., 7 (4) (2012), pp. 617-636 CrossRef View Record in Scopus
[11] R. Lowe, V.K. Rakyan BMC Bioinformatics, 14 (2013), p. 359 View Record in Scopus
[12] A.E. Jaffe, P. Murakami, H. Lee, J.T. Leek, M.D. Fallin, A.P. Feinberg, R.A. Irizarry Int. J. Epidemiol., 41 (1) (2012), pp. 200-209 CrossRef View Record in Scopus
[13] M.J. Aryee, A.E. Jaffe, H. Corrada-Bravo, C. Ladd-Acosta, A.P. Feinberg, K.D. Hansen, R.A. Irizarry Bioinformatics (2014)
[14] T. Sofer, E.D. Schifano, J.A. Hoppin, L. Hou, A.A. Baccarelli Bioinformatics, 29 (22) (2013), pp. 2884-2891 CrossRef View Record in Scopus
[15] T. Peters, M. Buckley, DMRcate: Illumina 450K Methylation Array Spatial Analysis Methods [R Package Version 1.0.2], 2014.

Google Scholar

[16] B.S. Pedersen, D.A. Schwartz, I.V. Yang, K.J. Kechris Bioinformatics, 28 (22) (2012), pp. 2986-2988 CrossRef View Record in Scopus
[17] G.K. Smyth Stat. Appl. Genet. Mol. Biol., 3 (2004), pp. 397-420 View Record in Scopus
[18] The 1000 Genomes Project Consortium Nature, 467 (7319) (2010), pp. 1061-1073
[19] F. Eckhardt, J. Lewin, R. Cortese, V.K. Rakyan, J. Attwood, M. Burger, J. Burton, T.V. Cox, R. Davies, T.A. Down, C. Haefliger, R. Horton, K. Howe, D.K. Jackson, J. Kunde, C. Koenig, J. Liddle, D. Niblett, T. Otto, R. Pettett, S. Seemann, C. Thompson, T. West, J. Rogers, A. Olek, K. Berlin, S. Beck Nat. Genet., 38 (12) (2006), pp. 1378-1385 CrossRef View Record in Scopus
[20] S.A. Stouffer, E.A. Suchman, L.C. DeVinney, S.A. Star, R.M. Williams Jr. The American Soldier: Adjustment during Army Life, vol. 1, Princeton University Press, Princeton (1949)
[21] Y. Hochberg, Y. Benjamini Stat. Med., 9 (7) (1990), pp. 811-818 CrossRef View Record in Scopus
[22] J.N. Weinstein, E.A. Collisson, G.B. Mills, K.R. Shaw, B.A. Ozenberger, K. Ellrott, I. Shmulevich, C. Sander, J.M. Stuart Nat. Genet., 45 (10) (2013), pp. 1113-1120 CrossRef View Record in Scopus
[23] H. Zou, J.J. Harrington, A.M. Shire, R.L. Rego, L. Wang, M.E. Campbell, A.L. Oberg, D.A. Ahlquist Cancer Epidemiol. Biomarkers Prev., 16 (12) (2007), pp. 2686-2696

CrossRef View Record in Scopus

[24] D.J. Weisenberger, B.N. Trinh, M. Campan, S. Sharma, T.I. Long, S. Ananthnarayan, G. Liang, F.J. Esteva, G.N. Hortobagyi, F. McCormick, P.A. Jones, P.W. Laird Nucleic Acids Res., 36 (14) (2008), pp. 4689-4698 CrossRef View Record in Scopus
[25] T.L. Bailey Bioinformatics, 27 (12) (2011), pp. 1653-1659

CrossRef View Record in Scopus

[26] S. Gupta, J.A. Stamatoyannopoulos, T.L. Bailey, W.S. Noble Genome Biol., 8 (2) (2007), p. R24 CrossRef View Record in Scopus

ChAMP:更新了 Illumina BeadChip 的甲基化分析流程[编辑]

Tian Y, Morris TJ, Webster AP, Yang Z, Beck S, Andrew F, Teschendorff AE (2017). “ChAMP: updated methylation analysis pipeline for Illumina BeadChips.” Bioinformatics, btx513. doi: 10.1093/bioinformatics/btx513.

摘要[编辑]

Illumina Infinium HumanMethylationEPIC BeadChip 是用于高通量 DNA 甲基化分析的新平台,与旧的 450 K 阵列相比,覆盖率有效地提高了一倍。 在这里,展示了 Bioconductor 包 ChAMP 的显着更新和改进版本,可用于分析 EPIC 和 450k 数据。 添加了许多增强功能,包括校正细胞类型异质性、网络分析和一系列交互式图形用户界面。

ChAMP 是一个 BioC 包,可从 https://bioconductor.org/packages/release/bioc/html/ChAMP.html 获得。

引言[编辑]

DNA甲基化是研究最多的表观遗传修饰。 Illumina 的新型 EPIC BeadChip 可以以单核苷酸分辨率测量超过 850 000 个位点的甲基化。 EPIC BeadChip 包含 450 K 阵列上存在的超过 90% 的探针,显示出高重现性,并将成为表观基因组关联研究的常用工具(Moran 等,2016)。

ChAMP 是 2014 年发布的集成分析管道 (Morris et al., 2014),其中包括过滤低质量探针、调整 Infinium I 和 Infinium II 探针设计、批次效应校正、检测差异甲基化位置 (DMP)、发现差异甲基化区域 (DMR) 和检测拷贝数畸变 (CNA)。

新版本的 ChAMP 扩展并改进了这一分析流程,增加了新的和增强的功能,包括检测差异甲基化基因组块 (DMB)、基因集富集分析 (GSEA)、一种校正细胞类型异质性和检测差异的方法甲基化基因模块。值得注意的是,新软件包提供了一系列基于 Web 的图形用户界面 (GUI),可促进分析并增强用户体验。

描述[编辑]

ChAMP 是一个 R 包,目前需要 R(≥3.4)。 ChAMP 使用其新颖的加载功能或通过 minfi 加载功能从 IDAT 文件加载数据(Aryee 等,2014)。可以根据检测 P 值、染色体位置、探针序列中单核苷酸多态性的存在(Zhou 等,2016)和交叉杂交来过滤探针。多维标度、密度和聚类图允许探索性分析。对于归一化,功能归一化(Fortin 等人,2014 年)已作为选项与 β 混合分位数归一化(Teschendorff 等人,2013 年)一起添加。奇异值分解用于将主成分与生物和技术因素相关联,帮助用户决定是否存在需要调整的批次效应或混杂因素。

对于监督分析,除了基于 limma 的 DMP 和基于 ProbeLasso 的 DMR 分析功能(Butcher 和 Beck,2015),现在还增加了使用 Bumhunter(Jaffe 等,2012)和 DMRcate(Peters 等, 2015)。还可以识别大规模差异甲基化块 (DMB)。这些 DMB 是包含数百个基因间 CpG 位点的大规模基因组区域 (10 kb-Mb)(图 1B),并且在衰老和癌症中经常表现出低甲基化(Yuan 等,2015)。还添加了允许用户检测用户定义的基因网络中差异甲基化热点的功能(Jiao 等,2014)。此外,ChAMP 在 DMP 和 DMR 结果上结合了 GSEA 功能(Young 等,2010)。

ChAMP 管道。 (A) ChAMP 中包含的所有功能。 用于数据准备的蓝色函数。 用于生成分析结果的红色函数。 黄色函数是用于可视化的 GUI 函数。 带有浅绿色闪光的函数和边缘代表主管道(标记是使用 ChAMP 的步骤)。 虚线表示可能不一定需要功能。 (B) 用于 DMB 可视化的 GUI 功能。 左侧面板显示用于控制绘图和表格的参数

在 ChAMP 中,可以使用基于参考的 RefbaseEWAS 校正血液中的细胞类型异质性(Houseman 等,2012)。 ChAMP 的另一个独特功能是检测 CNA 的功能(Feber 等,2014)。由于所有这些功能,ChAMP 现在是一种更强大、更全面的 DNA 甲基化分析工具(图 1A)。

除了使上述所有功能适用于 EPIC BeadChip 外,还有两项技术改进将使用户受益。首先,ChAMP 接受多种数据输入格式,包括 IDATS、β 值矩阵和表型数据文件。其次,提供了一系列基于 javascript 的 GUI。这允许轻松检查结果,并为 DMR 或 DMB 生成数字。 Shiny 是 R 的 Web 应用程序框架,适用于创建简单的交互式网页,以及开源 JavaScript 图形库 Plotly 与 ChAMP 结果集成,允许用户查看、选择和放大和缩小 ChAMP 获得的结果。所有 GUI 都使用 ChAMP 函数的结果作为参数(图 1B)。

提供了完整的详细信息和 ChAMP 的示例工作流程(补充材料)。

结论[编辑]

总之,ChAMP 为 Illumina HumanMethylation BeadChip 分析提供了一个大大改进、功能强大且全面的流程。

参考文献[编辑]

Aryee M.J. et al.  (2014) Minfi: a flexible and comprehensive bioconductor package for the analysis of infinium DNA methylation microarrays. Bioinformatics, 30, 1363–1369.

Google Scholar Crossref PubMed

Butcher L.M., Beck S. (2015) Probe Lasso: a novel method to rope in differentially methylated regions with 450K DNA methylation data. Methods, 72, 21–28.

Google Scholar Crossref PubMed

Feber A. et al.  (2014) Using high-density DNA methylation arrays to profile copy number alterations. Genome Biol, 15, R30.

Google Scholar Crossref PubMed

Fortin J.P. et al.  (2014) Functional normalization of 450k methylation array data improves replication in large cancer studies. Genome Biol, 15, 503.

Google Scholar Crossref PubMed

Houseman E.A. et al.  (2012) DNA methylation arrays as surrogate measures of cell mixture distribution. BMC Bioinformatics, 13, 86.

Google Scholar Crossref PubMed

Jaffe A.E. et al.  (2012) Significance analysis and statistical dissection of variably methylated regions. Biostatistics, 13, 166–178.

Google Scholar Crossref PubMed

Jiao Y. et al.  (2014) A systems-level integrative framework for genome-wide DNA methylation and gene expression data identifies differential gene expression modules under epigenetic control. Bioinformatics, 30, 2360–2366.

Google Scholar Crossref PubMed

Moran S. et al.  (2016) Validation of a DNA methylation microarray for 850, 000 cpg sites of the human genome enriched in enhancer sequences. Epigenomics, 8, 389–399.

Google Scholar Crossref PubMed

Morris T.J. et al.  (2014) Champ: 450k chip analysis methylation pipeline. Bioinformatics, 30, 428–430.

Google Scholar Crossref PubMed

Peters T.J. et al.  (2015) De novo identification of differentially methylated regions in the human genome. Epigenetics Chromatin, 8, 6.

Google Scholar PubMed

Teschendorff A.E. et al.  (2013) A beta-mixture quantile normalization method for correcting probe design bias in Illumina Infinium 450 k DNA methylation data. Bioinformatics, 29, 189–196.

Google Scholar Crossref PubMed

Young M.D. et al.  (2010) Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biol, 11, R14.

Google Scholar Crossref PubMed

Yuan T. et al.  (2015) An integrative multi-scale analysis of the dynamic DNA methylation landscape in aging. PLoS Genet, 11, e1004996.

Google Scholar Crossref PubMed

Zhou W. et al.  (2016) Comprehensive characterization, annotation and innovative use of infinium DNA methylation Beadchip probes. Nucleic Acids Research.

Google Scholar