跳至內容

生物信息學/salmon

維基教科書,自由的教學讀本

使用salmon進行alignment-free的定量[編輯]

Salmon可以快速從fastq快速得到基因表達

Patro R , Duggal G , Love M I , et al. Salmon provides fast and bias-aware quantification of transcript expression[J]. Nature Methods, 2017, 14(4):417-419.

salmon的下載安裝[編輯]

conda install -y salmon

salmon的使用[編輯]

$ salmon
Usage:  salmon -h|--help or 
        salmon -v|--version or 
        salmon -c|--cite or 
        salmon [--no-version-check] <COMMAND> [-h | options]

Commands:
     index 构建salmon index
     quant 对一个样本进行定量
     alevin 单细胞分析
     swim  软件开发者命令
     quantmerge 将多个定量文件合并成单个文件

首先構建cDNA序列的索引,salmon index構建索引的參數:

-v [ --version ]       		 打印版本号
-h [ --help ]           	 打印帮助信息
-t [ --transcripts ] arg   转录本fasta文件
-k [ --kmerLen ] arg (=31) quasi索引的kmers大小 
-i [ --index ] arg         salmon index
-p [ --threads ] arg (=2)  计算bias特征时使用的线程数
--perfectHash              [quasi index only] 
  												 使用perfect hash(而非dense hash)构建index
  												 对内存需求小(尤其定量时), 
  												 但需要更长的时间来构建index
-d [ --decoys ] arg        将这些序列是为一些已知转录本的同源序列
--type arg (=quasi)        构建index的类型; 该版本下的参数只有 "quasi"

salmon quant包括兩種定量模式 --- 使用原始FastQ格式的read和比對後的BAM/SAM格式read,如果設置-a [ --alignments ]參數,salmon quant執行基於比對的定量模式,不設置則執行原始read的定量模式。使用salmon quant --help-reads命令查看quasi-mapping-based模式的幫助文檔,使用salmon quant --help-alignment命令查看alignment-based模式定量的幫助文檔。 salmon Quasi-mapping模式的参数:

## mapping 输入选项:
  -l [ --libType ] arg                  描述文库类型的字符串,A代表自动搜索
  -i [ --index ] arg                    salmon index
  -r [ --unmatedReads ] arg             非mate文库,如单末端测序
  -1 [ --mates1 ] arg                   双末端1 mates
  -2 [ --mates2 ] arg                   双末端2 mates
  
## Quasi-mapping 模式选项,以下参数只支持Quasi-mapping模式:
  --discardOrphansQuasi                 [只支持Quasi-mapping模式] :quasi-mapping模式下,只有双末端的两个read都比对上的read对用于表达量评估。如果没有检测到双末端序列,则对单个read进行计数,使用 --writeOrphanLinksThis 可以将双末端只有一个read比对上的转录本计数结果输出到文件中。
  --validateMappings                    [Quasi-mapping模式] :使用比对来验证Quasi-mapping,保证结果合理。
  --consensusSlack arg (=0)             [Quasi-mapping模式] : The amount of slack allowed in the quasi-mapping  consensus mechanism.  一般情况下,一个转录本所有的hits都被认为是mapping,如果设置成分数X,区间在[0,1)之间,表示一个transcript有(100 * X)%的hits没有mapping,使用 --validateMappings 选项时,该选项的默认值是0.2,0表示所有hits都是mapping。
  --minScoreFraction arg                [Quasi-mapping模式 (w / mapping validation)] : 达到 "valid" 的最小比对分数,区间为(0,1]。Salmon默认0.65,Alevin模式下默认0.87。
  --maxMMPExtension arg (=7)            [Quasi-mapping模式 (w / mapping 
                                        validation) ] : 设置最大的MMP值,防止出现过大的MMSP(maximum mappable safe prefix),该值越小越敏感,但会降低mapping的速度。
  --ma arg (=2)                         [Quasi-mapping mode (w / mapping validation) ] : read比对到参考序列的match值。
  --mp arg (=-4)                        [Quasi-mapping mode (w / mapping validation) only] : read比对到参考序列的mis-match值。
  --go arg (=4)                         [Quasi-mapping mode (w / mapping validation) only] : 比对中允许gap数。
  --ge arg (=2)                         [Quasi-mapping mode (w / mapping 
                                        validation) only] : 比对中gap延伸数。
  --bandwidth arg (=15)                 [Quasi-mapping mode (w / mapping 
                                        validation) only] : 传递给ksw2的bandwidth的值,bandwidth值越小,比对验证的越快,也有可能会错过有效的比对
  --allowDovetail                       [Quasi-mapping mode] : 允许dovetailing mapping。
  --recoverOrphans                      [Quasi-mapping mode] : 尝试使用edlib修复mate文库的只比对上一个的orphan read,增加了计算时间,提高了敏感性。
  --mimicBT2                            [Quasi-mapping mode (w / mapping  validation)] : 类似于Bowtie2的 --no-discordant  --no-mixed 选项,不允许dovetailing reads并去除orphans read。和RSEM+Bowtie2的模式下的更严格筛选参数不同,如无gap比对参数,详见 --mimiStrictBT2 选项。
  --mimicStrictBT2                      [Quasi-mapping mode (w / mapping  validation)] : 设置用于RSEM+Bowtie2的严格过滤参数, --minScoreFraction会被提高到0.8,比对中不允许dovetailing read和gap,并去除未配对read。
  --hardFilter                          [Quasi-mapping模式 (w / mapping 
 validation)] : 不考虑次优的比对结果,默认是根据比对打分进行soft-filtering,如果想要得到更精确的丰度评估结果,而非一个区间值,需要设置此参数。
  --allowOrphansFMD                     [FMD-mapping模式] : 执行轻量级比对时,将未配对的read视为有效的hits。该选项能提高软件的敏感性(比对上更多的read、检测到更多的转录本),可能会降低准确性,未配对的比对可能是不正确的。
  -z [ --writeMappings ] [=arg(=-)]     将quasi-mapping的结果写入到SAM格式中,默认情况下,结果会直接输出到屏幕上,可以自定义输出文件名。
  -c [ --consistentHits ]               quasi-mapping下,强制将hits聚集(如共线性和) gathered during quasi-mapping to be "consistent" (i.e. co-linear and approximately the right distance apart).
  --fasterMapping                       [Developer]: 关闭quasi-mapping的额外检查。会加快mapping的速度,但可能会为某些read返回过多的映射(一些次优的mapping)。
  -x [ --quasiCoverage ] arg (=0)       [实验]: 被MMP(长度大于31)覆盖到的read分值,read “mapped”的阈值。帮助避免"spurious"比对。默认值0表述不设置覆盖阈值,精确match的覆盖度,较大MMP是一个严格条件,使用时设置为较小的值。

salmon alignment模式的参数:

## alignment输入选项:
--discardOrphans                      [Alignment-based模式] : 只对成对的比对进行表达量评估,默认:如果没有成对的mapping存在,则统计不成对的比对。
  -l [ --libType ] arg                  描述文库类型的字符串,A代表自动搜索
  -a [ --alignments ] arg               指定输入为BAM格式文件
  -t [ --targets ] arg                  用于定量的FASTA格式的转录本序列文件

## alignment模式选项,只支持alignment模式:
  --noErrorModel                        关闭alignment误差模型,该模型会统计比对中不同mismatch/indel类型的频率。启用该选项可加速alignment模式下salmon的运行,可能会降低定量的准确性。
  --numErrorBins arg (=6)               应用error模型时,将每个read分成的区间数。例如,10表示error模型将read分成10个区段进行高效处理,3表示将read分成read起始三分之一,中间三分之一,最后三分之一进行处理。
  -s [ --sampleOut ]                    根据统计的转录本丰度对比对结果进行抽样,并写入"postSample.bam"。该选项会过滤掉一些有歧义的片段。
  -u [ --sampleUnaligned ]              对比对的read进行额外的抽样,将未比对的read写入"postSample.bam"  --gencode                             指定输入格式为GENCODE,转录本名称通过第一个 '|' 字符提取,这些名称用于输出,以及在GTF文件的基因中,搜索这些转录本。
  --mappingCacheMemoryLimit arg (=2000000)
                                        如果文件中包含的read数低于此值,则会将文件中所有数据读入内存中用于计算。如果不想消耗过多内存,该值不要设置过大。对于只有几百万的read文件,可以将该值设置为文件read数,可以加快软件的运行速度。

salmon quant的選項,兩種模式下的通用選項

# salmon quant选项:
## 基础选项:
  -v [ --version ]                      打印版本信息
  -h [ --help ]                         打印帮助信息
  -o [ --output ] arg                   输出结果文件夹
  --seqBias                             执行序列偏好性校正
  --gcBias                              执行fragment GC偏好校正(单末端read的测序版)
  -p [ --threads ] arg (=8)            	使用的线程数
  --incompatPrior arg (=0)              特定文库类型(--libType)下,比对结果与实际fragment来源不同的先验概率,设置为0表示比对结果与实际文库相同,不存在比对错误的情况,设置为1表示比对结果与文库类型完全不对应
  -g [ --geneMap ] arg                  基因和转录本的对应关系。使用该选项,salmon在结果中提供quant.sf和quant.genes.sf文件,quant.genes.sf文件中包含了gene水平的丰度评估结果。输入文件可以是GTF或制表符分隔的文件(每行包含一个transcript和gene的对应关系,以制表符分隔),文件的扩展名用于判断文件的处理方式。以'.gtf', '.gff' '.gff3'按照GTF格式处理;其他扩展名的文件都被当作制表符分隔文本文件处理。GTF/GFF格式中, "transcript_id" 包含transcript名,"gene_id"包含对应的gene名。
  --meta                                如果使用Salmon分析metagenomic数据集,可以考虑设置此参数,禁用对metagenomic数据意义不大的分析。

## 高级选项:
  --alternativeInitMode                 [实验]: 使用其他可选策略(不同于简单插入法)初始化EM/VBEM程序,用于online和归一化丰度的评估。
  --auxDir arg (=aux_info)              输出结果的子文件夹中输出辅助信息如 bootstraps, bias parameters等。
  --skipQuant                           跳过transcript定量(包括Gibbs抽样或bootstrap)  --dumpEq                              quasi-mapping下统计equivalence class的数目。
  -d [ --dumpEqWeights ]                在输出的文件中,包含更丰富的equivalence class 权重信息。
  --minAssignedFrags arg (=10)          用于转录组定量的最小fragment数。
  --reduceGCMemory                      降低用于计算片段GC含量的内存数,但会降低运行速度,结果不变。
  --biasSpeedSamp arg (=5)              评估序列特异和GC fragment bias时,fragment长度PMF下采样的值。值越大,有效长度校正速度越快,但会降低bias模型的可靠性。
  --fldMax arg (=1000)                  用于计算经验分布的最大fragment长度。
  --fldMean arg (=250)                  用于计算fragment长度分布的平均值
  --fldSD arg (=25)                     fragment长度分布的标准偏差
  -f [ --forgettingFactor ] arg (=0.65000000000000002)
                                        online学习策略下遗忘因子。值越小,学习速度越快,但不稳定,会产生更高的方差。较大的值会减慢学习的速度,但结果更稳定,该值的区间为(0.5, 1.0]  --initUniform                         offline推断前,初始化使用的归一化参数。
  -w [ --maxReadOcc ] arg (=200)        比对上的区域数超过此值的read不用于计算。
  --noLengthCorrection                  [experimental] : 在进行转录本丰度评估时,禁用长度校正,该选项用于不需要考虑目标片段长度的测序技术,如QuantSeq。
  --noEffectiveLengthCorrection         在计算片段是否来自转录本时,关闭有效长度校正,设置该参数后,不在考虑fragment长度分布。
  --noFragLengthDist                    [experimental] : 在判断某个fragment是否来源于特定位置时,不考虑fragment的长度分布。fragment长度观测值对fragment的鲜艳概率没有影响。
  --noBiasLengthThreshold               [experimental] : 不设置bias校正有效长度的最小阈值,会提高bias校正的正确性,但会降低鲁棒性。默认会执行有阈值的校正。
  --numBiasSamples arg (=2000000)       构建序列特异bias模型时使用的fragment数。
  --numAuxModelSamples arg (=5000000)   用于auxiliary模型参数训练的样本数(如片段长度分布,bias等),第一次训练后,这些模型参数收敛并固定。
  --numPreAuxModelSamples arg (=5000)   在不使用上个选项提供的auxiliary模型参数的情况下,评估分配的可能性和对转录本丰度计算的贡献。该选项的目的是:在确定auxiliary模型参数被充分训练之前,避免使用该模型。
  --useEM                               使用常规EM程序优化批处理过程。
  --useVBOpt                            使用Variational Bayesian EM[默认]
  --rangeFactorizationBins arg (=0)     基于不同转录本fragment的条件概率,使用新的equivalence class,将定量过程中的可能性分解为区间。默认值0对应标准富集,值越大,分解的区间会更多更细。如果启用此参数,该参数值为4。
  --numGibbsSamples arg (=0)            Gibbs抽样执行的次数。
  --noGammaDraw                         Gibbs抽样时,该参数会关闭的Gamma分布的统计transcript分数的操作。取样不考虑shot-noise,只考虑assignment ambiguity。
  --numBootstraps arg (=0)              bootstrap样本数,与Gibbs抽样互斥。 
  --bootstrapReproject                  从每个样本的bootstrap计数中学习参数分布,但会将这些学习的参数重新用原始equivalence class计数。
  --thinningFactor arg (=16)            Gibbs链中每个样本丢弃的步骤数,该数字越大,后续样本相关的计划越小,但会减慢取样速度。
  -q [ --quiet ]                        不打印提示信息,除非软件运行出错
  --perTranscriptPrior                  transcript水平的prior (使用默认或--vbPrior,每个transcript都会有prior值的read)
  --sigDigits arg (=3)                  输出EffectiveLength和NumReads列时要写入的有效位数
  --vbPrior arg (=1.0000000000000001e-05)
  																			VBEM程序中使用的prior值,用于per-nucleotide prior,如果设置--perTranscriptPrior选项,该值则用于transcript水平 prior值
  --writeOrphanLinks                    输出双末端中只有一个read支持的transcript。
  --writeUnmappedNames                  在auxiliary文件中输出unmapped_names.txt,其中是未map的read的统计信息。

使用salmon alevin模式進行單細胞定量分析[編輯]

Alevin - Salmon 1.5.2 documentation

alevin选项:

mapping输入参数:
  -l [ --libType ] arg                  指定文库类型
  -i [ --index ] arg                    salmon index
  -r [ --unmatedReads ] arg             非mate文库read(单末端read)
  -1 [ --mates1 ] arg                   包含 #1 mates 的文件
  -2 [ --mates2 ] arg                   包括 #2 mates 的文件
alevin-specific Options:
  -v [ --version ]                      打印版本信息
  -h [ --help ]                         打印帮助信息
  -o [ --output ] arg                   指定定量输出结果储存的文件夹
  -p [ --threads ] arg (=2)             使用的线程数
  --tgMap arg                           tsv格式的转录本和基因的对应关系
  --hash arg                            Alevin使用Big freaking Hash (bfh.txt)文件作为二级输入。必须与 --chromium选项一起使用
  --dropseq                             处理DropSeq单细胞文库
  --chromiumV3                         	处理10x chromium v3单细胞文库
  --chromium                            处理10x chromium v2单细胞文库
  --gemcode                             处理0x gemcode v1单细胞文库
  --celseq                              处理CEL-Seq单细胞文库
  --celseq2                             处理CEL-Seq2单细胞文库
  --whitelist arg                       包含white-list barcodes的文件
  --noQuant                             不运行下游的barcode-salmon模型
  --numCellBootstraps arg (=0)          计算cell x基因矩阵定量的平均值和方差
  --forceCells arg (=0)                 指定细胞的数目
  --expectCells arg (=0)                定义细胞的期望数目
  --mrna arg                            线粒体RNA基因文件的路径,每行一个
  --rrna arg                            核糖体RNA文件的路径,每个一行
  --keepCBFraction arg (=0)             CB保留的分值,范围在(0,1], 
  																			 1 定量所有CB
  --dumpfq                              多比对使用coin toss,为下游分析,
  																			保留barcode修正后的fastq 文件     
	--dumpBfh                             保留所有barcode和UMI序列的big hash
  --dumpUmiGraph                        保留细胞水平的UmiGraph
  --dumpFeatures                        保留whitelist和下游分析
  --dumpMtx                             以mtx格式保存cell v转录本计数矩阵
  --lowRegionMinNumBarcodes arg (=200)  CB最小值作为学习的最低执行区域 
                                        (Default: 200)
  --maxNumBarcodes arg (=100000)        处理细胞barcode的最大值
  																			(Default: 100000)

使用salmon quantmerge模式對多個定量文件進行合併[編輯]

salmon quantmerge 选项:

基础选项:
  -v [ --version ]            打印版本号
  -h [ --help ]               打印帮助信息
  --quants arg                列出定量文件夹
  --names arg                 可选的样本名
  -c [ --column ] arg (=TPM)  需要合并的列名,
  														可选参数:{len, elen, tpm, numreads}
  --genes                     使用基因定量代替转录本定量
  --missing arg (=NA)         NA代替缺失值The value of missing values.
  -o [ --output ] arg         输出定量文件

salmon運行示例[編輯]

salmon quant -i hg38_salmon -l A -1 ${i}_1_val_1.fq.gz -2 ${i}_2_val_2.fq.gz -p 5 -o ${i}_quant

salmon結果解析[編輯]

quant.sf結果文件:

Name    Length  EffectiveLength TPM     NumReads
ENST00000631435.1       12      13.000  0.000000        0.000
ENST00000434970.2       9       10.000  0.000000        0.000
ENST00000448914.1       13      14.000  0.000000        0.000
ENST00000415118.1       8       9.000   0.000000        0.000
ENST00000604446.1       23      24.000  0.000000        0.000

各列含義解析:

  • Name:target transcript 名稱,由輸入的 transcript database (FASTA file)所提供。
  • Length:target transcript 長度,即有多少個核苷酸。
  • EffectiveLength:target transcript 計算的有效長度。此項考慮了所有建模的因素,這將影響從這個轉錄本中取樣片段的機率,包括片段長度分佈和序列特異性和gc片段偏好
  • TPM:估計轉錄本的表達量
  • NumReads:估計比對到每個轉錄本的reads數。

Salmon輸出其他文件:

  • cmd_info.json: JSON格式文件,記錄salmon程序運行的命令和參數
  • lib_format_counts.json: Observed library format counts。當運行salmon是 mapping-based mode時,則 會生成改文件。 JSON格式文件,記錄有關文庫格式和reads比對的情況。
  • eq_classes.txt: Equivalence class file。當Salmon運行時,應用參數--dumpEq,則會生成此文件。
  • aux_info: 輔助文件夾,內含多個文件
    • fld.gz:在輔助文件夾中,該文件記錄的是觀察到的片段長度分佈的近似值
    • observed_bias_3p.gz: Sequence-specific bias files
    • expected_gc.gz, observed_gc.gz: 當Salmon運行時,應用fragment-GC bias correction,在輔助文件夾中則會生成這兩個文件。記錄Fragment-GC bias。
    • meta_info.json: JSON格式文件,記錄salmon程序運行的統計信息
    • ambig_info.tsv: tab分隔符的文本文件,含有兩列。記錄的是每個轉錄本對應的唯一mapping的read數和模糊mapping的read總數