生物信息学/单细胞转录组上游分析
10x单细胞测序上游分析软件:Cell Ranger
[编辑]Cell Ranger 是一组的单细胞测序分析工具,用于处理 Chromium 单细胞数据read比对、生成特征barcode矩阵、进行细胞聚类和其他下游分析等。 Cell Ranger 包括与 3' 和 5' 单细胞基因表达解决方案及相关产品相关的分析流程:
- cellranger mkfastq 将 Illumina 测序仪生成的原始碱基call (BCL) 文件多路分解为 FASTQ 文件。 调用 Illumina 的 bcl2fastq 程序,生成具有特定于 10x 库的附加功能和简化的样本表格式。
- cellranger count 将 cellranger mkfastq 中获取 FASTQ 文件并执行比对、过滤、条形码计数和 UMI 计数。 使用 Chromium 细胞条形码生成特征barcode矩阵、确定聚类并执行基因表达分析。 count流程可以将同一 GEM 孔上的多次测序run作为输入。 cellranger count 还处理特征Barcode数据和基因表达read。
- cellranger aggr 可以整合多次cellranger count的输出,将这些结果归一化为相同的测序深度,然后重新计算特征barcode 矩阵并对组合数据进行分析。 aggr 管道可用于将来自多个样本的数据组合成实验范围的特征barcode 矩阵和分析(去除批次效应)。
- cellranger reanalyze 使用 cellranger count 或 cellranger aggr 生成的特征barcode矩阵,并使用可调参数设置重新运行降维、聚类和基因表达算法。
- cellranger multi 用于分析 Cell Multiplexing 数据。 从 cellranger mkfastq 输入 FASTQ 文件并执行比对、过滤、条形码计数和 UMI 计数。 使用 Chromium 细胞barcode生成特征barcode矩阵、确定聚类并执行基因表达分析。 cellranger multi 流程还支持特征Barcode数据的分析。
- cellranger vdj 分析FASTQ文件,以V(D)J文库进行测序的。
Space Ranger:Visium 空间基因表达分析
[编辑]- spaceranger mkfastq ,参考cell Ranger mkfastq参数。
- spaceranger count ,参考cell Ranger count参数。
- spaceranger aggr ,参考cell Ranger aggr参数。
- spaceranger targeted-compare 将起始输入库(称为父库)与其对应的靶向基因表达数据集进行比较。 与仅知道目标数据时相比,间隔器目标比较可用于更准确地评估目标性能。 提供质量控制指标来验证目标基因的富集程度和父样本数据的恢复程度。 此管道仅支持新鲜冷冻组织。
- spaceranger targeted-depth 在假设的靶向基因表达实验的背景下总结了整个转录组分析 (WTA) 数据集。 给定现有的 WTA 数据集和目标面板 CSV 文件,spaceranger 目标深度计算映射到面板中目标基因的读数的分数。 此管道仅支持新鲜冷冻组织。(计算测序深度)
Cell Ranger ATAC:ATAC-seq分析
[编辑]- cellranger-atac mkfastq , 参考cellranger mkfastq用法。
- cellranger-atac count 接收 cellranger-atac mkfastq 的FASTQ文件和执行 ATAC分析,参考cell Ranger count参数:
- Read过滤和比对
- Barcode计数
- 转座酶切割位点的鉴定
- 检测染色质峰
- 细胞类型分析
- 峰和转录因子的计数矩阵生成
- 降维
- 细胞聚类
- 聚类差异距离
- cellranger-atac aggr 整合多个 cellranger-atac count 的输出结果,参考cell Ranger aggr参数:
- 输入的归一化运行,以每小区相同位数的片段(灵敏度)
- 检测可接近的染色质峰
- 聚合数据的峰值和转录因子的计数矩阵生成
- 降维
- 细胞聚类
- 聚类差异距离
- cellranger-atac reanalyze 接收 cellranger-atac count 或 cellranger-atac aggr 进行下游分析,参考cell Ranger reanalyze参数:
- 细胞类型注释
- 降维
- 细胞聚类
- 聚类差异距离
Cell Ranger ARC:多组学ATAC和基因表达分析
[编辑]Cell Ranger ARC 是一组分析工具,可处理 Chromium Single Cell Multiome ATAC + 基因表达测序数据,以生成与基因表达、染色质可及性及其关联相关的各种分析。 此外,由于 ATAC 和基因表达测量是在同一个细胞上进行的,我们能够进行将染色质可及性和基因表达联系起来的分析。
- cellranger-arc mkfastq 多路分解原始碱基调用(BCL)通过Illumina测序仪生成到FASTQ文件的文件。它是围绕Illumina的bcl2fastq的包装,用另外的有用的功能,特定于10个库和一个简化的样品片材的格式。 相同的命令可用于解复用 ATAC 和 GEX 流通池。参考cellranger mkfastq用法。
- cellranger-arc count 从 cellranger-arc mkfastq 中获取 FASTQ 文件并执行对齐、过滤、条形码计数、峰值调用和 ATAC 和 GEX 分子的计数。 此外,它使用 Chromium 细胞条形码生成特征条形码矩阵、执行降维、确定聚类、对聚类进行差异分析并识别峰和基因之间的联系。 计数管道可以从同一 GEM 孔上的多次测序运行中获取输入。参考cell Ranger count参数:
- cellranger-arc aggr 聚合和分析多次运行 cellranger-arc 计数的输出(例如来自一个实验的多个样本)。 功能包括将输入运行归一化为每个细胞的相同中值片段(灵敏度)、检测可访问的染色质峰、生成峰值的计数矩阵和聚合数据的转录因子、降维、细胞聚类和聚类差异可访问性分析。参考cell Ranger aggr参数。
- cellranger-arc reanalyze 获取由 cellranger-arc count 或 cellranger-arc aggr 生成的分析文件并重新运行二次分析。 功能包括与细胞调用、降维、细胞聚类和聚类差异可访问性分析相关的可调参数设置。参考cell Ranger reanalyze参数。
Cell Ranger DNA:单细胞CNV分析
[编辑]Cell Ranger DNA includes five main pipelines:
- cellranger-dna mkfastq 包装 Illumina 的 bcl2fastq 以解析 Chromium 制备的测序样本并将条形码和读取数据转换为 FASTQ 文件。
- cellranger-dna cnv 从 cellranger-dna mkfastq 中获取 FASTQ 文件并执行参考对齐、细胞调用、拷贝数估计和层次聚类。
- cellranger-dna bamslice 从 cellranger-dna cnv 中获取 BAM 文件,并将其子集到指定的感兴趣的细胞。
- cellranger-dna aggr 聚合来自多次运行的 cellranger-dna cnv、aggr 或 reanalyze 的输出); 并重新进行二次分析,包括拷贝数估计和层次聚类。
- cellranger-dna reanalyze 获取现有 cellranger-dna cnv、aggr 或eanalyze运行的 HDF5 输出,仅限于选定的barcode或感兴趣的组,并重新执行拷贝数估计和层次聚类。
Supernova:De Novo从头组装
[编辑]Supernova 是用于从 Chromium Linked-Reads 进行从头组装的软件包,Chromium Linked-Reads 由来自单个 DNA 源的单个全基因组文库制成。 超新星的一个关键特征是它创建了二倍体组件,从而在很长的距离内分别代表母本和父本染色体。 几乎所有其他方法都将同源染色体合并为单个不正确的“共识”序列。 超新星是创建大型基因组二倍体组装的唯一实用方法。
Supernova 软件包包括两条处理流程和一条结果处理:
- supernova mkfastq 包装 Illumina 的 bcl2fastq 以正确解析 Chromium 制备的测序样本并将barcode和read数据转换为 FASTQ 文件。参考cellranger mkfastq用法。
- supernova run 从supernova mkfastq获取包含条形码读取的 FASTQ 文件,并构建基于图形的组件。 该方法是首先使用读取 kmers (K = 48) 构建一个程序集,然后使用读取对(K = 200)解析此程序集,然后使用条形码将这个程序集有效地解析为 K ≈ 100,000。 最后一步将同源染色体分离成相块,其长度通常为数兆碱基。
- supernova mkoutput 采用 Supernova 的基于图形的组件,并生成多种适用于下游处理和分析的 FASTA 格式。
Long Ranger:基因组和外显子组分析(SNP,indel,结构变异)
[编辑]Long Ranger 是一组分析工具,可处理 Chromium 测序输出以read比对和调用以及定相 SNP、插入缺失和结构变体。 有五个主要工具:
- longranger mkfastq 包装 Illumina 的 bcl2fastq 以解析 Chromium 制备的测序样本并将barcode和read数据转换为 FASTQ 文件。 参考cellranger mkfastq用法。
- longranger wgs 从全基因组样本中提取多路分解的 FASTQ 文件并执行比对、重复数据删除和过滤,并使用 Chromium 分子barcode调用和定相 SNP、插入缺失和结构变异。
- longranger targeted 从目标样本(例如外显子组)中获取 FASTQ 文件,并执行比对、重复数据删除和过滤,并使用 Chromium 分子barcode调用和定相 SNP、插入缺失和结构变体。 read与整个基因组对齐,但统计数据仅报告提供的靶向BED 文件中的 pulled-down区域。
- longranger basic 从 longranger mkfastq 获取 FASTQ 文件并执行基本的barcode处理,包括校正、条码白名单和将barcode附加到read。
- longranger align 执行比对。
这些工具将特定于 Chromium 的算法与广泛使用的组件相结合,例如 BWA(在 Lariat aligner 中使用)和 GATK。 输出以标准 BAM、VCF 和 BEDPE 格式提供,这些格式增加了远程信息。
其他原始数据处理软件和流程汇总
[编辑]BCL转换为FASTQ格式
[编辑]- ranger系列的mkfastq(用法参考前文)
质量评估和校正
[编辑]- 质量评估软件:FastQC
- 修剪Reads:trim_galore,Fastp
单细胞定量count
[编辑]- ranger系列软件的count命令
- STARsolo类似于ranger系列软件的count命令
- STAR比对(Subread,Hisat2)+FearureCounts(HT-seq)计数
- Kallisto/bustools,salmon/Alevin(10X and Drop-seq)直接从fatsq文件中定量
- 全长转录本:STAR -> featureCounts
- Tag-based数据集:Kallisto bus -> Bustools
参考文档和扩展学习
[编辑]关于本页面所有软件用法请参考:简介 - 生物信息软件参考文档 (gitbook.io)