使用salmon進行alignment-free的定量

Salmon可以快速從fastq快速得到基因表達

Patro R , Duggal G , Love M I , et al. Salmon provides fast and bias-aware quantification of transcript expression[J]. Nature Methods, 2017, 14(4):417-419.

salmon的下載安裝

conda install -y salmon

salmon的使用

$ salmon
Usage:  salmon -h|--help or 
        salmon -v|--version or 
        salmon -c|--cite or 
        salmon [--no-version-check] <COMMAND> [-h | options]

Commands:
     index 构建salmon index
     quant 对一个样本进行定量
     alevin 单细胞分析
     swim  软件开发者命令
     quantmerge 将多个定量文件合并成单个文件

首先構建cDNA序列的索引，salmon index構建索引的參數：

-v [ --version ]       		 打印版本号
-h [ --help ]           	 打印帮助信息
-t [ --transcripts ] arg   转录本fasta文件
-k [ --kmerLen ] arg (=31) quasi索引的kmers大小 
-i [ --index ] arg         salmon index
-p [ --threads ] arg (=2)  计算bias特征时使用的线程数
--perfectHash              [quasi index only] 
  												 使用perfect hash（而非dense hash）构建index
  												 对内存需求小（尤其定量时）, 
  												 但需要更长的时间来构建index
-d [ --decoys ] arg        将这些序列是为一些已知转录本的同源序列
--type arg (=quasi)        构建index的类型; 该版本下的参数只有 "quasi"

salmon quant包括兩種定量模式 --- 使用原始FastQ格式的read和比對後的BAM/SAM格式read，如果設置-a [ --alignments ]參數，salmon quant執行基於比對的定量模式，不設置則執行原始read的定量模式。使用salmon quant --help-reads命令查看quasi-mapping-based模式的幫助文檔，使用salmon quant --help-alignment命令查看alignment-based模式定量的幫助文檔。 salmon Quasi-mapping模式的参数：

## mapping 输入选项:
  -l [ --libType ] arg                  描述文库类型的字符串，A代表自动搜索
  -i [ --index ] arg                    salmon index
  -r [ --unmatedReads ] arg             非mate文库，如单末端测序
  -1 [ --mates1 ] arg                   双末端1 mates
  -2 [ --mates2 ] arg                   双末端2 mates
  
## Quasi-mapping 模式选项，以下参数只支持Quasi-mapping模式:
  --discardOrphansQuasi                 [只支持Quasi-mapping模式] :quasi-mapping模式下，只有双末端的两个read都比对上的read对用于表达量评估。如果没有检测到双末端序列，则对单个read进行计数，使用 --writeOrphanLinksThis 可以将双末端只有一个read比对上的转录本计数结果输出到文件中。
  --validateMappings                    [Quasi-mapping模式] :使用比对来验证Quasi-mapping，保证结果合理。
  --consensusSlack arg (=0)             [Quasi-mapping模式] : The amount of slack allowed in the quasi-mapping  consensus mechanism.  一般情况下，一个转录本所有的hits都被认为是mapping，如果设置成分数X，区间在[0,1)之间，表示一个transcript有(100 * X)%的hits没有mapping，使用 --validateMappings 选项时，该选项的默认值是0.2，0表示所有hits都是mapping。
  --minScoreFraction arg                [Quasi-mapping模式 (w / mapping validation)] : 达到 "valid" 的最小比对分数，区间为(0,1]。Salmon默认0.65，Alevin模式下默认0.87。
  --maxMMPExtension arg (=7)            [Quasi-mapping模式 (w / mapping 
                                        validation) ] : 设置最大的MMP值，防止出现过大的MMSP（maximum mappable safe prefix），该值越小越敏感，但会降低mapping的速度。
  --ma arg (=2)                         [Quasi-mapping mode (w / mapping validation) ] : read比对到参考序列的match值。
  --mp arg (=-4)                        [Quasi-mapping mode (w / mapping validation) only] : read比对到参考序列的mis-match值。
  --go arg (=4)                         [Quasi-mapping mode (w / mapping validation) only] : 比对中允许gap数。
  --ge arg (=2)                         [Quasi-mapping mode (w / mapping 
                                        validation) only] : 比对中gap延伸数。
  --bandwidth arg (=15)                 [Quasi-mapping mode (w / mapping 
                                        validation) only] : 传递给ksw2的bandwidth的值，bandwidth值越小，比对验证的越快，也有可能会错过有效的比对
  --allowDovetail                       [Quasi-mapping mode] : 允许dovetailing mapping。
  --recoverOrphans                      [Quasi-mapping mode] : 尝试使用edlib修复mate文库的只比对上一个的orphan read，增加了计算时间，提高了敏感性。
  --mimicBT2                            [Quasi-mapping mode (w / mapping  validation)] : 类似于Bowtie2的 --no-discordant 和 --no-mixed 选项，不允许dovetailing reads并去除orphans read。和RSEM+Bowtie2的模式下的更严格筛选参数不同，如无gap比对参数，详见 --mimiStrictBT2 选项。
  --mimicStrictBT2                      [Quasi-mapping mode (w / mapping  validation)] : 设置用于RSEM+Bowtie2的严格过滤参数， --minScoreFraction会被提高到0.8，比对中不允许dovetailing read和gap，并去除未配对read。
  --hardFilter                          [Quasi-mapping模式 (w / mapping 
 validation)] : 不考虑次优的比对结果，默认是根据比对打分进行soft-filtering，如果想要得到更精确的丰度评估结果，而非一个区间值，需要设置此参数。
  --allowOrphansFMD                     [FMD-mapping模式] : 执行轻量级比对时，将未配对的read视为有效的hits。该选项能提高软件的敏感性（比对上更多的read、检测到更多的转录本），可能会降低准确性，未配对的比对可能是不正确的。
  -z [ --writeMappings ] [=arg(=-)]     将quasi-mapping的结果写入到SAM格式中，默认情况下，结果会直接输出到屏幕上，可以自定义输出文件名。
  -c [ --consistentHits ]               quasi-mapping下，强制将hits聚集（如共线性和） gathered during quasi-mapping to be "consistent" (i.e. co-linear and approximately the right distance apart).
  --fasterMapping                       [Developer]: 关闭quasi-mapping的额外检查。会加快mapping的速度，但可能会为某些read返回过多的映射（一些次优的mapping）。
  -x [ --quasiCoverage ] arg (=0)       [实验]: 被MMP（长度大于31）覆盖到的read分值，read “mapped”的阈值。帮助避免"spurious"比对。默认值0表述不设置覆盖阈值，精确match的覆盖度，较大MMP是一个严格条件，使用时设置为较小的值。

salmon alignment模式的参数：

## alignment输入选项:
--discardOrphans                      [Alignment-based模式] : 只对成对的比对进行表达量评估，默认：如果没有成对的mapping存在，则统计不成对的比对。
  -l [ --libType ] arg                  描述文库类型的字符串，A代表自动搜索
  -a [ --alignments ] arg               指定输入为BAM格式文件
  -t [ --targets ] arg                  用于定量的FASTA格式的转录本序列文件

## alignment模式选项，只支持alignment模式:
  --noErrorModel                        关闭alignment误差模型，该模型会统计比对中不同mismatch/indel类型的频率。启用该选项可加速alignment模式下salmon的运行，可能会降低定量的准确性。
  --numErrorBins arg (=6)               应用error模型时，将每个read分成的区间数。例如，10表示error模型将read分成10个区段进行高效处理，3表示将read分成read起始三分之一，中间三分之一，最后三分之一进行处理。
  -s [ --sampleOut ]                    根据统计的转录本丰度对比对结果进行抽样，并写入"postSample.bam"。该选项会过滤掉一些有歧义的片段。
  -u [ --sampleUnaligned ]              对比对的read进行额外的抽样，将未比对的read写入"postSample.bam"。
  --gencode                             指定输入格式为GENCODE，转录本名称通过第一个 '|' 字符提取，这些名称用于输出，以及在GTF文件的基因中，搜索这些转录本。
  --mappingCacheMemoryLimit arg (=2000000)
                                        如果文件中包含的read数低于此值，则会将文件中所有数据读入内存中用于计算。如果不想消耗过多内存，该值不要设置过大。对于只有几百万的read文件，可以将该值设置为文件read数，可以加快软件的运行速度。

salmon quant的選項，兩種模式下的通用選項

# salmon quant选项:
## 基础选项:
  -v [ --version ]                      打印版本信息
  -h [ --help ]                         打印帮助信息
  -o [ --output ] arg                   输出结果文件夹
  --seqBias                             执行序列偏好性校正
  --gcBias                              执行fragment GC偏好校正（单末端read的测序版）
  -p [ --threads ] arg (=8)            	使用的线程数
  --incompatPrior arg (=0)              特定文库类型(--libType)下，比对结果与实际fragment来源不同的先验概率，设置为0表示比对结果与实际文库相同，不存在比对错误的情况，设置为1表示比对结果与文库类型完全不对应
  -g [ --geneMap ] arg                  基因和转录本的对应关系。使用该选项，salmon在结果中提供quant.sf和quant.genes.sf文件，quant.genes.sf文件中包含了gene水平的丰度评估结果。输入文件可以是GTF或制表符分隔的文件（每行包含一个transcript和gene的对应关系，以制表符分隔），文件的扩展名用于判断文件的处理方式。以'.gtf', '.gff'或 '.gff3'按照GTF格式处理；其他扩展名的文件都被当作制表符分隔文本文件处理。GTF/GFF格式中， "transcript_id" 包含transcript名，"gene_id"包含对应的gene名。
  --meta                                如果使用Salmon分析metagenomic数据集，可以考虑设置此参数，禁用对metagenomic数据意义不大的分析。

## 高级选项:
  --alternativeInitMode                 [实验]: 使用其他可选策略（不同于简单插入法）初始化EM/VBEM程序，用于online和归一化丰度的评估。
  --auxDir arg (=aux_info)              输出结果的子文件夹中输出辅助信息如 bootstraps, bias parameters等。
  --skipQuant                           跳过transcript定量(包括Gibbs抽样或bootstrap)。
  --dumpEq                              quasi-mapping下统计equivalence class的数目。
  -d [ --dumpEqWeights ]                在输出的文件中，包含更丰富的equivalence class 权重信息。
  --minAssignedFrags arg (=10)          用于转录组定量的最小fragment数。
  --reduceGCMemory                      降低用于计算片段GC含量的内存数，但会降低运行速度，结果不变。
  --biasSpeedSamp arg (=5)              评估序列特异和GC fragment bias时，fragment长度PMF下采样的值。值越大，有效长度校正速度越快，但会降低bias模型的可靠性。
  --fldMax arg (=1000)                  用于计算经验分布的最大fragment长度。
  --fldMean arg (=250)                  用于计算fragment长度分布的平均值
  --fldSD arg (=25)                     fragment长度分布的标准偏差
  -f [ --forgettingFactor ] arg (=0.65000000000000002)
                                        online学习策略下遗忘因子。值越小，学习速度越快，但不稳定，会产生更高的方差。较大的值会减慢学习的速度，但结果更稳定，该值的区间为(0.5, 1.0]。
  --initUniform                         offline推断前，初始化使用的归一化参数。
  -w [ --maxReadOcc ] arg (=200)        比对上的区域数超过此值的read不用于计算。
  --noLengthCorrection                  [experimental] : 在进行转录本丰度评估时，禁用长度校正，该选项用于不需要考虑目标片段长度的测序技术，如QuantSeq。
  --noEffectiveLengthCorrection         在计算片段是否来自转录本时，关闭有效长度校正，设置该参数后，不在考虑fragment长度分布。
  --noFragLengthDist                    [experimental] : 在判断某个fragment是否来源于特定位置时，不考虑fragment的长度分布。fragment长度观测值对fragment的鲜艳概率没有影响。
  --noBiasLengthThreshold               [experimental] : 不设置bias校正有效长度的最小阈值，会提高bias校正的正确性，但会降低鲁棒性。默认会执行有阈值的校正。
  --numBiasSamples arg (=2000000)       构建序列特异bias模型时使用的fragment数。
  --numAuxModelSamples arg (=5000000)   用于auxiliary模型参数训练的样本数（如片段长度分布，bias等），第一次训练后，这些模型参数收敛并固定。
  --numPreAuxModelSamples arg (=5000)   在不使用上个选项提供的auxiliary模型参数的情况下，评估分配的可能性和对转录本丰度计算的贡献。该选项的目的是：在确定auxiliary模型参数被充分训练之前，避免使用该模型。
  --useEM                               使用常规EM程序优化批处理过程。
  --useVBOpt                            使用Variational Bayesian EM[默认]
  --rangeFactorizationBins arg (=0)     基于不同转录本fragment的条件概率，使用新的equivalence class，将定量过程中的可能性分解为区间。默认值0对应标准富集，值越大，分解的区间会更多更细。如果启用此参数，该参数值为4。
  --numGibbsSamples arg (=0)            Gibbs抽样执行的次数。
  --noGammaDraw                         Gibbs抽样时，该参数会关闭的Gamma分布的统计transcript分数的操作。取样不考虑shot-noise，只考虑assignment ambiguity。
  --numBootstraps arg (=0)              bootstrap样本数，与Gibbs抽样互斥。 
  --bootstrapReproject                  从每个样本的bootstrap计数中学习参数分布，但会将这些学习的参数重新用原始equivalence class计数。
  --thinningFactor arg (=16)            Gibbs链中每个样本丢弃的步骤数，该数字越大，后续样本相关的计划越小，但会减慢取样速度。
  -q [ --quiet ]                        不打印提示信息，除非软件运行出错
  --perTranscriptPrior                  transcript水平的prior (使用默认或--vbPrior，每个transcript都会有prior值的read)
  --sigDigits arg (=3)                  输出EffectiveLength和NumReads列时要写入的有效位数
  --vbPrior arg (=1.0000000000000001e-05)
  																			VBEM程序中使用的prior值，用于per-nucleotide prior，如果设置--perTranscriptPrior选项，该值则用于transcript水平 prior值
  --writeOrphanLinks                    输出双末端中只有一个read支持的transcript。
  --writeUnmappedNames                  在auxiliary文件中输出unmapped_names.txt，其中是未map的read的统计信息。

使用salmon alevin模式進行單細胞定量分析

Alevin - Salmon 1.5.2 documentation

alevin选项:

mapping输入参数:
  -l [ --libType ] arg                  指定文库类型
  -i [ --index ] arg                    salmon index
  -r [ --unmatedReads ] arg             非mate文库read（单末端read）
  -1 [ --mates1 ] arg                   包含 #1 mates 的文件
  -2 [ --mates2 ] arg                   包括 #2 mates 的文件
alevin-specific Options:
  -v [ --version ]                      打印版本信息
  -h [ --help ]                         打印帮助信息
  -o [ --output ] arg                   指定定量输出结果储存的文件夹
  -p [ --threads ] arg (=2)             使用的线程数
  --tgMap arg                           tsv格式的转录本和基因的对应关系
  --hash arg                            Alevin使用Big freaking Hash (bfh.txt)文件作为二级输入。必须与 --chromium选项一起使用
  --dropseq                             处理DropSeq单细胞文库
  --chromiumV3                         	处理10x chromium v3单细胞文库
  --chromium                            处理10x chromium v2单细胞文库
  --gemcode                             处理0x gemcode v1单细胞文库
  --celseq                              处理CEL-Seq单细胞文库
  --celseq2                             处理CEL-Seq2单细胞文库
  --whitelist arg                       包含white-list barcodes的文件
  --noQuant                             不运行下游的barcode-salmon模型
  --numCellBootstraps arg (=0)          计算cell x基因矩阵定量的平均值和方差
  --forceCells arg (=0)                 指定细胞的数目
  --expectCells arg (=0)                定义细胞的期望数目
  --mrna arg                            线粒体RNA基因文件的路径，每行一个
  --rrna arg                            核糖体RNA文件的路径，每个一行
  --keepCBFraction arg (=0)             CB保留的分值，范围在(0,1], 
  																			用 1 定量所有CB
  --dumpfq                              多比对使用coin toss，为下游分析，
  																			保留barcode修正后的fastq 文件     
	--dumpBfh                             保留所有barcode和UMI序列的big hash
  --dumpUmiGraph                        保留细胞水平的UmiGraph
  --dumpFeatures                        保留whitelist和下游分析
  --dumpMtx                             以mtx格式保存cell v转录本计数矩阵
  --lowRegionMinNumBarcodes arg (=200)  CB最小值作为学习的最低执行区域 
                                        (Default: 200)
  --maxNumBarcodes arg (=100000)        处理细胞barcode的最大值
  																			(Default: 100000)

使用`salmon quantmerge`模式對多個定量文件進行合併

salmon quantmerge 选项:

基础选项:
  -v [ --version ]            打印版本号
  -h [ --help ]               打印帮助信息
  --quants arg                列出定量文件夹
  --names arg                 可选的样本名
  -c [ --column ] arg (=TPM)  需要合并的列名，
  														可选参数：{len, elen, tpm, numreads}
  --genes                     使用基因定量代替转录本定量
  --missing arg (=NA)         NA代替缺失值The value of missing values.
  -o [ --output ] arg         输出定量文件

salmon運行示例

salmon quant -i hg38_salmon -l A -1 ${i}_1_val_1.fq.gz -2 ${i}_2_val_2.fq.gz -p 5 -o ${i}_quant

salmon結果解析

quant.sf結果文件：

Name    Length  EffectiveLength TPM     NumReads
ENST00000631435.1       12      13.000  0.000000        0.000
ENST00000434970.2       9       10.000  0.000000        0.000
ENST00000448914.1       13      14.000  0.000000        0.000
ENST00000415118.1       8       9.000   0.000000        0.000
ENST00000604446.1       23      24.000  0.000000        0.000

各列含義解析：

Name：target transcript 名稱，由輸入的 transcript database (FASTA file)所提供。
Length：target transcript 長度，即有多少個核苷酸。
EffectiveLength：target transcript 計算的有效長度。此項考慮了所有建模的因素，這將影響從這個轉錄本中取樣片段的機率，包括片段長度分佈和序列特異性和gc片段偏好
TPM：估計轉錄本的表達量
NumReads：估計比對到每個轉錄本的reads數。

Salmon輸出其他文件：

cmd_info.json： JSON格式文件，記錄salmon程序運行的命令和參數
lib_format_counts.json： Observed library format counts。當運行salmon是 mapping-based mode時，則會生成改文件。 JSON格式文件，記錄有關文庫格式和reads比對的情況。
eq_classes.txt： Equivalence class file。當Salmon運行時，應用參數--dumpEq，則會生成此文件。
aux_info：輔助文件夾，內含多個文件
- fld.gz：在輔助文件夾中，該文件記錄的是觀察到的片段長度分佈的近似值
- observed_bias_3p.gz： Sequence-specific bias files
- expected_gc.gz, observed_gc.gz：當Salmon運行時，應用fragment-GC bias correction，在輔助文件夾中則會生成這兩個文件。記錄Fragment-GC bias。
- meta_info.json： JSON格式文件，記錄salmon程序運行的統計信息
- ambig_info.tsv： tab分隔符的文本文件，含有兩列。記錄的是每個轉錄本對應的唯一mapping的read數和模糊mapping的read總數