生物信息學/單細胞轉錄組上游分析
10x單細胞測序上游分析軟件:Cell Ranger
[編輯]Cell Ranger 是一組的單細胞測序分析工具,用於處理 Chromium 單細胞數據read比對、生成特徵barcode矩陣、進行細胞聚類和其他下游分析等。 Cell Ranger 包括與 3' 和 5' 單細胞基因表達解決方案及相關產品相關的分析流程:
- cellranger mkfastq 將 Illumina 測序儀生成的原始鹼基call (BCL) 文件多路分解為 FASTQ 文件。 調用 Illumina 的 bcl2fastq 程序,生成具有特定於 10x 庫的附加功能和簡化的樣本表格式。
- cellranger count 將 cellranger mkfastq 中獲取 FASTQ 文件並執行比對、過濾、條形碼計數和 UMI 計數。 使用 Chromium 細胞條形碼生成特徵barcode矩陣、確定聚類並執行基因表達分析。 count流程可以將同一 GEM 孔上的多次測序run作為輸入。 cellranger count 還處理特徵Barcode數據和基因表達read。
- cellranger aggr 可以整合多次cellranger count的輸出,將這些結果歸一化為相同的測序深度,然後重新計算特徵barcode 矩陣並對組合數據進行分析。 aggr 管道可用於將來自多個樣本的數據組合成實驗範圍的特徵barcode 矩陣和分析(去除批次效應)。
- cellranger reanalyze 使用 cellranger count 或 cellranger aggr 生成的特徵barcode矩陣,並使用可調參數設置重新運行降維、聚類和基因表達算法。
- cellranger multi 用於分析 Cell Multiplexing 數據。 從 cellranger mkfastq 輸入 FASTQ 文件並執行比對、過濾、條形碼計數和 UMI 計數。 使用 Chromium 細胞barcode生成特徵barcode矩陣、確定聚類並執行基因表達分析。 cellranger multi 流程還支持特徵Barcode數據的分析。
- cellranger vdj 分析FASTQ文件,以V(D)J文庫進行測序的。
Space Ranger:Visium 空間基因表達分析
[編輯]- spaceranger mkfastq ,參考cell Ranger mkfastq參數。
- spaceranger count ,參考cell Ranger count參數。
- spaceranger aggr ,參考cell Ranger aggr參數。
- spaceranger targeted-compare 將起始輸入庫(稱為父庫)與其對應的靶向基因表達數據集進行比較。 與僅知道目標數據時相比,間隔器目標比較可用於更準確地評估目標性能。 提供質量控制指標來驗證目標基因的富集程度和父樣本數據的恢復程度。 此管道僅支持新鮮冷凍組織。
- spaceranger targeted-depth 在假設的靶向基因表達實驗的背景下總結了整個轉錄組分析 (WTA) 數據集。 給定現有的 WTA 數據集和目標面板 CSV 文件,spaceranger 目標深度計算映射到面板中目標基因的讀數的分數。 此管道僅支持新鮮冷凍組織。(計算測序深度)
Cell Ranger ATAC:ATAC-seq分析
[編輯]- cellranger-atac mkfastq , 參考cellranger mkfastq用法。
- cellranger-atac count 接收 cellranger-atac mkfastq 的FASTQ文件和執行 ATAC分析,參考cell Ranger count參數:
- Read過濾和比對
- Barcode計數
- 轉座酶切割位點的鑑定
- 檢測染色質峰
- 細胞類型分析
- 峰和轉錄因子的計數矩陣生成
- 降維
- 細胞聚類
- 聚類差異距離
- cellranger-atac aggr 整合多個 cellranger-atac count 的輸出結果,參考cell Ranger aggr參數:
- 輸入的歸一化運行,以每小區相同位數的片段(靈敏度)
- 檢測可接近的染色質峰
- 聚合數據的峰值和轉錄因子的計數矩陣生成
- 降維
- 細胞聚類
- 聚類差異距離
- cellranger-atac reanalyze 接收 cellranger-atac count 或 cellranger-atac aggr 進行下游分析,參考cell Ranger reanalyze參數:
- 細胞類型注釋
- 降維
- 細胞聚類
- 聚類差異距離
Cell Ranger ARC:多組學ATAC和基因表達分析
[編輯]Cell Ranger ARC 是一組分析工具,可處理 Chromium Single Cell Multiome ATAC + 基因表達測序數據,以生成與基因表達、染色質可及性及其關聯相關的各種分析。 此外,由於 ATAC 和基因表達測量是在同一個細胞上進行的,我們能夠進行將染色質可及性和基因表達聯繫起來的分析。
- cellranger-arc mkfastq 多路分解原始鹼基調用(BCL)通過Illumina測序儀生成到FASTQ文件的文件。它是圍繞Illumina的bcl2fastq的包裝,用另外的有用的功能,特定於10個庫和一個簡化的樣品片材的格式。 相同的命令可用於解復用 ATAC 和 GEX 流通池。參考cellranger mkfastq用法。
- cellranger-arc count 從 cellranger-arc mkfastq 中獲取 FASTQ 文件並執行對齊、過濾、條形碼計數、峰值調用和 ATAC 和 GEX 分子的計數。 此外,它使用 Chromium 細胞條形碼生成特徵條形碼矩陣、執行降維、確定聚類、對聚類進行差異分析並識別峰和基因之間的聯繫。 計數管道可以從同一 GEM 孔上的多次測序運行中獲取輸入。參考cell Ranger count參數:
- cellranger-arc aggr 聚合和分析多次運行 cellranger-arc 計數的輸出(例如來自一個實驗的多個樣本)。 功能包括將輸入運行歸一化為每個細胞的相同中值片段(靈敏度)、檢測可訪問的染色質峰、生成峰值的計數矩陣和聚合數據的轉錄因子、降維、細胞聚類和聚類差異可訪問性分析。參考cell Ranger aggr參數。
- cellranger-arc reanalyze 獲取由 cellranger-arc count 或 cellranger-arc aggr 生成的分析文件並重新運行二次分析。 功能包括與細胞調用、降維、細胞聚類和聚類差異可訪問性分析相關的可調參數設置。參考cell Ranger reanalyze參數。
Cell Ranger DNA:單細胞CNV分析
[編輯]Cell Ranger DNA includes five main pipelines:
- cellranger-dna mkfastq 包裝 Illumina 的 bcl2fastq 以解析 Chromium 製備的測序樣本並將條形碼和讀取數據轉換為 FASTQ 文件。
- cellranger-dna cnv 從 cellranger-dna mkfastq 中獲取 FASTQ 文件並執行參考對齊、細胞調用、拷貝數估計和層次聚類。
- cellranger-dna bamslice 從 cellranger-dna cnv 中獲取 BAM 文件,並將其子集到指定的感興趣的細胞。
- cellranger-dna aggr 聚合來自多次運行的 cellranger-dna cnv、aggr 或 reanalyze 的輸出); 並重新進行二次分析,包括拷貝數估計和層次聚類。
- cellranger-dna reanalyze 獲取現有 cellranger-dna cnv、aggr 或eanalyze運行的 HDF5 輸出,僅限於選定的barcode或感興趣的組,並重新執行拷貝數估計和層次聚類。
Supernova:De Novo從頭組裝
[編輯]Supernova 是用於從 Chromium Linked-Reads 進行從頭組裝的軟件包,Chromium Linked-Reads 由來自單個 DNA 源的單個全基因組文庫製成。 超新星的一個關鍵特徵是它創建了二倍體組件,從而在很長的距離內分別代表母本和父本染色體。 幾乎所有其他方法都將同源染色體合併為單個不正確的「共識」序列。 超新星是創建大型基因組二倍體組裝的唯一實用方法。
Supernova 軟件包包括兩條處理流程和一條結果處理:
- supernova mkfastq 包裝 Illumina 的 bcl2fastq 以正確解析 Chromium 製備的測序樣本並將barcode和read數據轉換為 FASTQ 文件。參考cellranger mkfastq用法。
- supernova run 從supernova mkfastq獲取包含條形碼讀取的 FASTQ 文件,並構建基於圖形的組件。 該方法是首先使用讀取 kmers (K = 48) 構建一個程序集,然後使用讀取對(K = 200)解析此程序集,然後使用條形碼將這個程序集有效地解析為 K ≈ 100,000。 最後一步將同源染色體分離成相塊,其長度通常為數兆鹼基。
- supernova mkoutput 採用 Supernova 的基於圖形的組件,並生成多種適用於下游處理和分析的 FASTA 格式。
Long Ranger:基因組和外顯子組分析(SNP,indel,結構變異)
[編輯]Long Ranger 是一組分析工具,可處理 Chromium 測序輸出以read比對和調用以及定相 SNP、插入缺失和結構變體。 有五個主要工具:
- longranger mkfastq 包裝 Illumina 的 bcl2fastq 以解析 Chromium 製備的測序樣本並將barcode和read數據轉換為 FASTQ 文件。 參考cellranger mkfastq用法。
- longranger wgs 從全基因組樣本中提取多路分解的 FASTQ 文件並執行比對、重複數據刪除和過濾,並使用 Chromium 分子barcode調用和定相 SNP、插入缺失和結構變異。
- longranger targeted 從目標樣本(例如外顯子組)中獲取 FASTQ 文件,並執行比對、重複數據刪除和過濾,並使用 Chromium 分子barcode調用和定相 SNP、插入缺失和結構變體。 read與整個基因組對齊,但統計數據僅報告提供的靶向BED 文件中的 pulled-down區域。
- longranger basic 從 longranger mkfastq 獲取 FASTQ 文件並執行基本的barcode處理,包括校正、條碼白名單和將barcode附加到read。
- longranger align 執行比對。
這些工具將特定於 Chromium 的算法與廣泛使用的組件相結合,例如 BWA(在 Lariat aligner 中使用)和 GATK。 輸出以標準 BAM、VCF 和 BEDPE 格式提供,這些格式增加了遠程信息。
其他原始數據處理軟件和流程匯總
[編輯]BCL轉換為FASTQ格式
[編輯]- ranger系列的mkfastq(用法參考前文)
質量評估和校正
[編輯]- 質量評估軟件:FastQC
- 修剪Reads:trim_galore,Fastp
單細胞定量count
[編輯]- ranger系列軟件的count命令
- STARsolo類似於ranger系列軟件的count命令
- STAR比對(Subread,Hisat2)+FearureCounts(HT-seq)計數
- Kallisto/bustools,salmon/Alevin(10X and Drop-seq)直接從fatsq文件中定量
- 全長轉錄本:STAR -> featureCounts
- Tag-based數據集:Kallisto bus -> Bustools
參考文檔和擴展學習
[編輯]關於本頁面所有軟件用法請參考:簡介 - 生物信息軟件參考文檔 (gitbook.io)