生物信息學/trim galore
外觀
< 生物信息学
使用trim_galore進行質量控制
[編輯]官網:http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
參考文檔:https://github.com/FelixKrueger/TrimGalore/blob/master/Docs/Trim_Galore_User_Guide.md
trim_galore的安裝
[編輯]使用bioconda安裝
[編輯]conda install -y trim-galore
官網下載安裝
[編輯]cd ~/software
wget https://github.com/FelixKrueger/TrimGalore/archive/0.6.2.tar.gz
tar zxvf 0.6.2.tar.gz -C ~/software/
echo 'PATH=$PATH:~/software/TrimGalore-0.6.2/' >> ~/.bashrc
source ~/.bashrc
trim-galore的用法
[編輯]USAGE:
trim_galore [options] <filename(s)>
trim-galore的選項和參數
[編輯]-h/--help 打印帮助信息并退出。
-v/--version 打印版本信息并退出。
-q/--quality <INT> 去除低质量的碱基和接头。对RRBS样本,第一轮先进行去除低质量碱基,第二轮去除接头。其他类型样本,这两步是一起进行。算法与BWA一样(提取所有质量值转换为数值;计算从序列所有索引到末端的部分和;切除和最小的索引代表的序列)。默认为20。
--phred33 Cutadapt使用 ASCII+33 质量值分数体系(Sanger/Illumina 1.9+ encoding)作为Phred scores来进行序列修剪。默认:ON
--phred64 Cutadapt使用 ASCII+64 质量值分数体系(Illumina 1.5 encoding)作为Phred scores来进行序列修剪。可以从Fastqc的报告得到确定使用那种质量值体系。
--fastqc 质控完成后运行FastQC。
--fastqc_args "<ARGS>" 传递给FastQC的参数,如果需要传递的参数超过一个,使用 "arg1 arg2 etc."形式传递。一个示例:--fastqc_args "--nogroup --outdir /home/"。传递参数时,会自动调用 FastQC, --fastqc不需要再设置
-a/--adapter <STRING> 输入需要裁剪的adapter序列。如果不指定,Trim Galore会自动寻找可能性最高的平台对应的adapter,默认会从Illumina universal, Nextera transposase或Illuminasmall RNA adapter的三个平台中搜索最适合的,也可以直接使用参数指定这三种平台,即--illumina、--nextera和--small_rna。
如果在指定的第一个文件的前一百万个序列中未检测到adapter,或者在多个adapter序列之间没有关联,则Trim Galore默认为'--illumina'(默认是Illumina adapter, 否则“ --nextera”为默认值)。
单碱基也可以这样赋值:-a A{10}, 即-a AAAAAAAAAA
-a2/--adapter2 <STRING> 针对paired-end文件read 2的接头序列,该选项需要和 '--paired' 一起使用。该选项需要设置好,如果被裁剪的是smallRNA,a2会自动设置成Illumina small RNA 5' adapter(GATCGTCGGACT)。
单碱基也可以这样赋值:-a2 A{10}, 即-a2 AAAAAAAAAAA
--illumina 程序会裁剪read起始13bp是Illumian通用接头'AGATCGGAAGAGC'的序列,代替自动检测接头序列。
--nextera 程序会裁剪read起始12bp是Nextera adapter 'CTGTCTCTTATA'的序列,代替自动检测接头序列。
--small_rna 程序会裁剪read起始12bp是Illumina Small RNA 3' Adapter 'TGGAATTCTCGG'的序列,代替自动检测接头序列。设置--small_RNA接头也会将--length值降低到18bp。 如果smallRNA文库是配对末端,除非已明确定义-a2,否则a2将自动设置为Illumina samallRNA 5' adapter(GATCGTCGGACT)。
--consider_already_trimmed <INT> 在接头自动检测过程中,允许用户设置一个<INT> 阈值,来判断接头是否已被修剪。如果没有adapter序列超过该阈值, 不再执行额外的adapter修剪(从技术角度讲,相当于设置参数'-a X'来修剪adapter). 低质量值修剪会正常执行。默认:NOT SELECTED (运行自动检测接头程序)。
--max_length <INT> 高于此<INT> bp的read会被裁剪,仅建对smallRNA测序去除non-small RNA序列设置。
-s/--stringency <INT> 设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。即使一个碱基重叠也将修剪掉read的3'端,可以适当放宽,因为后一个adapter几乎不可能被测序仪读到。read.
-e <ERROR RATE> 运行的最大错误率(错配数除以匹配区域的长度),默认为0.1
--gzip 将输出结果压缩为GZIP格式。
--dont_gzip 不压缩文件,会覆盖--gzip选项。
--length <INT> 保留read的最小长度,由于质量或接头修剪后序列长度小于设定值会被修剪。设置成'0'表示关闭该参数。默认:20bp。对于双末端read,两条序列必须都大于 <INT> 才符合要求(详见--paired)。如果只有双末端序列中只有一条长度太短,可以保存成单末端的read(详见 --retain_unpaired)。
--max_n COUNT read包含N的最大数,在双末端中,read中N数目超过此限制的一对read都会被去除。
--trim-n 去除read中的N,不用于RRBS模式。
-o/--output_dir <DIR> 指定输出目录。需要提前建立目录,否则运行会报错。
--no_report_file 不输出报告。
--suppress_warn 不输出 STDOUT 或 STDERR 信息。
--clip_R1 <int> 从read(双末端的read 1或单末端read) 5'端切除<int> bp碱基,对于5'端质量值差的read,或需要切除5'端的碱基的情况设置此参数。默认: OFF
--clip_R2 <int> 从双末端的read2 5'端切除<int> bp碱基,对于双末端read 2 5'端质量值差的read,或需要切除5'端的碱基的情况设置此参数,只对双末端read生效。。对于双末端BS-Seq, 建议删除5'端前几个bp,因为末端修复反应可能产生低甲基化。请参考Bismark用户指南中的M-bias图部分。默认: OFF
--three_prime_clip_R1 <int> 在去除Adaptor序列和低质量序列后,从read(双末端的read 1或单末端read) 3'端切除<int> bp碱基,对于3'端质量值差的read,或需要切除3'端的碱基的情况(这些序列与接头序列、质控无关)设置此参数。默认: OFF
--three_prime_clip_R2 <int> 在去除Adaptor序列和低质量序列后,从双末端read 2 3'端切除<int> bp碱基,对于3'端质量值差的read,或需要切除3'端的碱基的情况(这些序列与接头序列、质控无关)设置此参数。默认: OFF
--2colour/--nextseq INT 该选项激活Cutadapt的 '--nextseq-trim=3'CUTOFF',设置一个质量控制的阈值(一般使用 -q 设置), 但忽略G碱基的质量值。该参数适用于NextSeq和NovaSeq平台, 因为在这些平台中,没有任何信号值的见解被称为高质量G碱基。该参数与 '-q INT'的功能不同,注意区分。
--path_to_cutadapt </path/to/cutadapt> 指定Cutadapt软件的安装路径,如/my/home/cutadapt-1.7.1/bin/cutadapt,如果不指定,默认Cutadapt存在与系统环境变量PATH中。
--basename <PREFERRED_NAME> 输出文件的前缀名PREFERRED_NAME,单末端数据的输出名类似PREFERRED_NAME_trimmed.fq(.gz), 双末端数据的输出名类似PREFERRED_NAME_val_1.fq(.gz) 和 PREFERRED_NAME_val_2.fq(.gz) for paired-end data. --basename只针对1个文件(单末端)或2个文件(双末端)有效,不能用于过长的列表。
-j/--cores INT 用于质控的线程数 [默认: 1]。 需要安装Python 3和多线程压缩命令pigz(parallel gzip)。Trim Galore可以从Cutadapt命令的配置信息中获得这些信息(Cutadapt命令所在路径可从环境变量或--path_to_cutadapt参数中获得)。如果检测到Python 2,--cores参数设置为1。如果没有找到pigz命令,Trim Galore使用gzip命令压缩,gzip压缩会减慢多线程的速度(https://github.com/FelixKrueger/TrimGalore/issues/16#issuecomment-458557103 for more info)。
实际使用的线程数:如果安装了Python 3和pigz, --cores 2表示使用2个线程读取输入文件,2个线程输出结果,Cutadapter使用2个线程并占用额外的两个线程,最后Trim Galore使用1个线程,可以达到9个线程,大部分时间并不同时使用9个线程。双末端序列在输出时使用两倍的线程数,--cores 4表示:4 (read) + 4 (write) + 4 (Cutadapt) + 2 (extra Cutadapt) + 1 (Trim Galore) = 15。
# 其他参数 - 不使用adapter/质量值进行质控
--hardtrim5 <int> 切除5'端的指定的 <int> bp碱基序列,一旦完成,Trim Galore会退出。输出文件名类似 .<int>_5prime.fq(.gz)。使用示例:
before: CCTAAGGAAACAAGTACACTCCACACATGCATAAAGGAAATCAAATGTTATTTTTAAGAAAATGGAAAAT
--hardtrim5 20:CCTAAGGAAACAAGTACACT
--hardtrim3 <int> 切除3'端的指定的 <int> bp碱基序列,一旦完成,Trim Galore会退出。输出文件名类似 .<int>_3prime.fq(.gz)。使用示例:
before: CCTAAGGAAACAAGTACACTCCACACATGCATAAAGGAAATCAAATGTTATTTTTAAGAAAATGGAAAAT
--hardtrim3 20:TTTTTAAGAAAATGGAAAAT
--clock 该模式下,会使用Mouse Epigenetic Clock (Multi-tissue DNA methylation age predictor in mouse, Stubbs et al.,Genome Biology, 2017 18:68 https://doi.org/10.1186/s13059-017-1203-5)方法来修剪reads。
dual-UMI RRBS reads的格式如下:
Read 1 5' UUUUUUUU CAGTA FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF TACTG UUUUUUUU 3'
Read 2 3' UUUUUUUU GTCAT FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF ATGAC UUUUUUUU 5'
UUUUUUUU是一个8-mer的UMI(unique molecular identifier),CAGTA是一个固定碱基序列,FFFFFFF...是RRBS片段测序得到的实际序列。Read 1 (R1)和Read 2 (R2)的UMI,以及fixed sequences (F1 or F2),写入read的ID,并从实际序列中去除。例如:
R1: @HWI-D00436:407:CCAETANXX:1:1101:4105:1905 1:N:0: CGATGTTT ATCTAGTTCAGTACGGTGTTTTCGAATTAGAAAAATATGTATAGAGGAAATAGATATAAAGGCGTATTCGTTATTG
R2: @HWI-D00436:407:CCAETANXX:1:1101:4105:1905 3:N:0: CGATGTTT CAATTTTGCAGTACAAAAATAATACCTCCTCTATTTATCCAAAATCACAAAAAACCACCCACTTAACTTTCCCTAA
R1: @HWI-D00436:407:CCAETANXX:1:1101:4105:1905 1:N:0: CGATGTTT:R1:ATCTAGTT:R2:CAATTTTG:F1:CAGT:F2:CAGT
CGGTGTTTTCGAATTAGAAAAATATGTATAGAGGAAATAGATATAAAGGCGTATTCGTTATTG
R2: @HWI-D00436:407:CCAETANXX:1:1101:4105:1905 3:N:0: CGATGTTT:R1:ATCTAGTT:R2:CAATTTTG:F1:CAGT:F2:CAGT
CAAAAATAATACCTCCTCTATTTATCCAAAATCACAAAAAACCACCCACTTAACTTTCCCTAA
结果写入.clock_UMI.R1.fq(.gz) 和 .clock_UMI.R2.fq(.gz)。如果需要切除read 3'端潜在可能包含UMI和fixed sequence大约15bp的序列,命令:trim_galore --paired --three_prime_clip_R1 15 --three_prime_clip_R2 15 *.clock_UMI.R1.fq.gz *.clock_UMI.R2.fq.gz
使用Bismark进行比对,UmiBam的'--dual_index'来去除重复 (https://github.com/FelixKrueger/Umi-Grinder)。
UmiBam UMI R1:(ATCTAGTT);UMI R2:(CAATTTTG)。
--polyA 实验功能:识别并去除序列中的poly-A序列。设置该参数,软件自动识别包含'AAAAAAAAAA'或'TTTTTTTTTT'的read。对于双末端Read 1或单末端文件,去除PolyA或PolyT。对于双末端Read2,使用互补碱基进行修剪。默认使用A{20}对Read1进行3'端修剪,T{150}对Read2进行5'端进行修剪。这些参数可以通过-a和-a2修改。使用 _ 代替空格,修剪后的信息储存在read ID中,用于后续识别PolyA修剪过的序列。在read ID前后分别添加"32:A:"和"_PolyA:32"标签,例如:
@READ-ID:1:1102:22039:36996 1:N:0:CCTAATCC
GCCTAAGGAAACAAGTACACTCCACACATGCATAAAGGAAATCAAATGTTATTTTTAAGAAAATGGAAAATAAAAACTTTATAAACACCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
@32:A:READ-ID:1:1102:22039:36996_1:N:0:CCTAATCC_PolyA:32
GCCTAAGGAAACAAGTACACTCCACACATGCATAAAGGAAATCAAATGTTATTTTTAAGAAAATGGAAAATAAAAACTTTATAAACACC
注意:在进行poly-A修剪之前,首先要进行adapter和质量值控制,建议的分析流程如下:
1) trim_galore file.fastq.gz
2) trim_galore --polyA file_trimmed.fq.gz
3) zcat file_trimmed_trimmed.fq.gz | grep -A 3 PolyA | grep -v ^-- > PolyA_trimmed.fastq
1) 第一步去除质量值和Illumina adapter的污染,2) 查找并去除PolyA污染,3) 如果需要的话,可以输出PolyA修剪的序列到特定的FastQ文件。
# RRBS选项 (针对MspI处理的样本):
--rrbs 指定输入文件类型为MspI降解的RRBS样本(识别位点: CCGG)。 裁剪单末端或双末端Read 1序列3'端的2bp序列。经过低质量裁剪的read不再处理。双末端Read 2文库会额外从5'端的前2bp的碱基(通过 '--clip_r2 2'选项设置)。避免测序片段中靠近3' MspI位点填充的胞嘧啶位点对后续甲基化分析的影响。不使用NuGEN ovation RRBS System 1-16 kit处理的样本(说明见下文)。
--non_directional 针对non-directional RRBS文库设置,修剪以 'CAA' 或 'CGA' 开头的read,去除这类read的前两个碱基。消除末端修复反应中使用胞嘧啶位点对后续甲基化分析的影响(参考'--rrbs' 选项)。'--non_directional' 需要和 '--rrbs'一起使用,注意在双末端模式时,不要设置 '--clip_r2 2'。
--keep 保留修剪过程中的中间文件。默认: off。不设置此参数,这些中间文件会在软件运行完成后删除。只对RRBS样本有效。
对于使用NuGEN Ovation RRBS System 1-16 kit的RRBS:由于NuGEN Ovation kit在每个MspI位点后添加了可变长度(0-3)的核苷酸序列,该模式不需要设置 --rrbs。这一步的去除在后续步骤中进行(查看NuGEN Ovation kit的参考手册)。
MseI RRBS:使用MseI(识别位点:TTAA)代替MspI对DNA进行降解的数据,不需要设置 --rrbs 或 --non_directional,基本所有的序列都使用'TAA'开头, 'TAA' 限制性位点的末端修复反应不涉及任何胞嘧啶cytosines,因此不需要特殊处理,以标准模式运行即可。
双末端参数:
--paired 指定输入文件是双末端测序序列(质量值/adapter/RRBS)。 双末端序列需要一个的最小长度作为阈值,通过 --length 选项指定。如果只有一个read长度达到阈值,参考 --retain_unpaired 选项,使用此参数去除较短的read对,不影响FastQ文件中的序列排序,对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样修剪,而不管是否达到标准。许多比对软件对FastQ的顺序有要求。Trim Galore输出成对的文件名,如 file1_1.fq file1_2.fq SRR2_1.fq.gz SRR2_2.fq.gz ... .
-t/--trim1 从每个read的3'端切除1bp。如果计划使用Bowtie1将FastQ文件作为双末端数据比对。需要设置此参数。
Bowtie (1) 比对如下图:
R1 --------------------------->
R2 <---------------------------
# 或者:
R1 ----------------------->
R2 <-----------------
起始/终止位点包含在其他read中。
注意: 如果你计划使用Bowtie2, BWA 等,不需要设置此参数
--retain_unpaired 对于双端测序结果,一对reads中,如果一个read变得很短,较长的read会被单独保存以'.unpaired_1.fq'或'.unpaired_2.fq'为后缀名的文件内。长度的阈值通过 -r1/--length_1 和 -r2/--length_2。 默认:OFF
-r1/--length_1 <INT> 保留Unpaired single-end read 1长度的阈值写入以'.unpaired_1.fq' 为后缀名的输出文件。这些序列可以以单末端形式比对到参考基因组上。默认: 35 bp.
-r2/--length_2 <INT> 保留Unpaired single-end read 2长度的阈值写入以 '.unpaired_2.fq' 为后缀名的输出文件。这些序列可以以单末端形式比对到参考基因组上。默认: 35 bp.
trim_galore的使用示例
[編輯]# 创建4.trim_galore的文件夹来存储修剪过的
mkdir ~/trim_galore/
# 切换到4.trim_galore的文件夹
cd ~/trim_galore/
# 将2.raw_fq目录下的fastq文件链接到4.trim_galore目录下
ln -s ~/raw_fq/*.fastq.gz ~/trim_galore/
# 使用for循环批量生成命令列表,并写入到trim_galore.command文件
for i in `ls *_1.fastq.gz`
do
i=${i/_1.fastq.gz/}
echo "trim_galore --phred33 -q 20 --length 36 --stringency 3 --fastqc --paired -o ~/4.trim_galore ${i}_1.fastq.gz ${i}_2.fastq.gz"
done > trim_galore.command
# 完成fastq文件质量控制后,整合修剪后的质量报告
echo "multiqc ~/trim_galore/*zip -o ~/trim_galore/" >> trim_galore.command
# 检查生成的命令列表是否正确
cat trim_galore.command
# 批量运行质量控制
sh trim_galore.command
# 查看生成的结果
ls -l ~/4.trim_galore/