生物信息學/單細胞轉錄組在線分析工具
IRIS3:單細胞轉錄組細胞類型分析
[編輯]IRIS3(單細胞RNA-Seq的特定細胞類型調控因子推斷伺服器)是一個集成的Web伺服器,根據人或小鼠單細胞RNA-Seq數據預測特定細胞類型的調控因子(CTSR,cell-type-specific regulon)。 CTSR能夠可靠地識別和區分細胞類型,用於生物醫學研究的計算或與實驗分析相結合。 這些CTSR可以幫助闡明調節機制,並允許可靠地構建以特定細胞類型編碼的全局轉錄調節網絡。 IRIS3包括複雜疾病的層次結構和異質性,基因調節網絡構建以及藥物治療的開發。
IRIS3在線工具:IRIS3。
IRIS3的功能
[編輯](1)它是一個提供CTSR識別的多合一框架,並結合了細胞類型特異性基因模塊檢測的雙聚類分析和從頭motif預測潛在的新型調節子;
(2)提供信息豐富的註釋,支持對異質性調控機制進行深入分析;
(3)用戶友好的Web界面,無需編程知識,具有簡單的提交過程,全面的scRNA-Seq數據分析功能和高度交互的可視化效果。
(4)改善了調控機制的闡明,並允許可靠地構建以特定細胞類型編碼的全局轉錄調控網絡。
輸入文件
[編輯]- scRNA-Seq基因表達矩陣(必需)和有三個配套的文件(由cell ranger生成),建議使用壓縮文件減少上傳時間。
- 單個txt,tsv或csv格式的基因表達矩陣,可接受gzip格式壓縮文件。
- HDF5格式的特徵barcode矩陣。
- 三個gzip格式的壓縮文件記錄了10X基因組輸出的barcode,特徵和基因表達信息。
標識符可以表示為Gene Symbol(例如HSPA9),Ensembl Gene ID(例如ENSG00000113013)或Transcript ID(例如ENSMUST00000074805)。分別使用org.HS.eg.db R包和org.Mn.eg.db包對人和小鼠的參考基因組的基因進行註釋。
- 細胞標籤文件(可選):一個兩列的矩陣,第一列是與基因表達文件完全匹配的細胞名稱,第二列是真實的細胞簇。聚類標識符可以是術語(例如2_cell_stage,4_cell_stage)或數字(例如1,2)。細胞標籤文件將用於評估預測的細胞類型(否則省略評估)和規律推斷(或使用預測的細胞類型)。
- 自定義基因模塊文件(可選):一個文本文件,每一列應包含一個基因列表。對於基因模塊(從文獻中收集或通過其他工具生成),這些結果被視為「模塊特異標籤」,並且在最後一個細胞類型旁邊具有單獨的選項卡,以顯示熱圖和結果。除了調控子發現功能外,用戶還可以將感興趣的調控子與上傳的基因模塊的調控子進行比較,尋找相似性。
輸入文件示例:單細胞轉錄組在線分析工具IRIS3_示例數據。
分析流程
[編輯]整個流程包括七個步驟:
IRIS3集成了多種最新工具,包括DrImpute,scran,Seurat,QUBIC2,DMINDA2和MEME。這些工具在分析領域中享有盛譽或已被證明具有最佳性能。
步驟一:數據預處理
[編輯]首先通過提交頁面加載基因表達數據,然後創建Seurat對象。去除超過99.9%的細胞中具有零值的基因和具有少於200個非零表達基因的細胞,以提高分析性能。數據標準化狀態是通過將整數視為未標準化的值自動檢測的,而十進制已標準化。未標準化的數據將由scran標準化。缺失數據補全步驟可以根據用戶的選擇進行。最後,將表達式值進行對數log歸一化log(x + 1)以重新縮放數據。
第二步:細胞聚類
[編輯]在Seurat(版本3.1)中可以預測細胞類型,並且大多數參數都設置為默認值。根據Seurat教程的建議,將主成分的數量設置為10,並為每個測試數據集繪製圖形。通常,前十個主要成分可以覆蓋數據變異的85%-95%,這些信息足夠進行特徵選擇。然後,使用前十個主要成分進行聚類,聚類解像度為0.8(Seurat中均為默認值)。值得注意的是,本研究以下各節中提到的細胞類型稱為計算預測的細胞聚類。此步驟的輸出是兩列單細胞標籤,將在步驟IV和其他軌跡分析中使用。
第三步:基因模塊檢測
[編輯]使用QUBIC2對來自步驟I的預處理數據進行分析,來檢測基因模塊。 QUBIC的先前版本已被證明是有效和高效地捕獲高比例的二聚類(通過功能性生物通路富集的二聚類)中表現最好的方法之一。與QUBIC相比,QUIBIC2的性能有所提高。每個已識別的二聚體代表在特定細胞子集下的一組共表達的基因。
QUBIC2中解決了兩個獨特的功能:(1)它可以識別所有具有統計意義的雙聚類,包括具有所謂「縮放模式」的雙聚類,這個問題是相當具有挑戰性的; (2)算法有效地解決了一般的雙聚類問題,能夠在幾分鐘內在數千種條件下解決成千上萬個基因的雙聚類問題。
三個主要參數控制IRIS3中的雙聚類:
- 雙聚類的重疊程度(從0到1)。 0表示沒有重疊,而1表示完全重疊。默認值為0.7。
- 雙簇識別的最大數量。默認值為500。較小的值可以充分減少運行時間,但可以標識較少的類別。
- 最小細胞數是雙聚類塊的最小列寬。預設值為20。
步驟四:確定活性基因模塊
[編輯]如果雙簇中的細胞與細胞類型簇中的細胞高度一致,認為雙簇的組成基因會響應特定細胞類型中的調節信號。為了一致性,使用步驟II中識別出的二聚體的細胞成分(或上傳的細胞類型)和步驟III中識別出的二聚體的細胞成分進行超幾何富集測試。通過乘以N(cell type)x N(bicluster)將Bonferroni調整為與特定細胞類型相對應的bicluster的p值,其中N(cell type)表示細胞類型的數量,N(bicluster)表示bicluster的總數。如果超幾何檢驗結果顯著(adj.p <0.05),則認為雙峰在相應的細胞類型中是活躍的。在雙細胞群中的基因為該細胞類型的活性基因模塊。
步驟五:主題查找和比較
[編輯]對於每種細胞類型,然後通過MEME和DMINDA2中的從頭motif預測功能在活性基因模塊中鑑定motif。使用hg38 / mm10參考基因組提取每個基因的上游啟動子序列(默認為1,000 bp,可在提交頁面上由用戶設置)。人和小鼠的參考基因組分別整合在BSgenome.Hsapiens.UCSC.hg38和BSgenome.Mmusculus.UCSC.mm10 R程序包中。
第六步:調節Regruon
[編輯]使用TOMTOM將特定細胞類型中識別出的motif聚類,並用HOCOMOCO數據庫(V11)中最匹配的已知motif進行註釋。刪除q值大於0.05的HOCOMOCO目標來過濾匹配的條目。 q值是最小的錯誤發現率,在該標準下,觀察到的相似性是重要的。對於每個motif簇,相應的非冗餘基因列表被命名為regulon。
第七步:CTSR推論
[編輯]對於每個調節子,細胞中的調節子活性得分(RAS)是基於所有相關基因在細胞中表達值的水平計算的。然後可以根據細胞類型內部細胞與外部細胞類型相比的RAS熵來計算細胞類型的regulon特異性評分(RSS)。 RSS的範圍是0到1,值越高,表示此regulon在細胞類型中的特異性越高。通過將regulon的RSS與相同細胞類型中隨機選擇的基因集(通過bootstrap方法在regulon中具有相同數目的基因)的RSS進行比較10,000次,可以估算出regulon的RSS的經驗p值。通過將細胞類型中所有已識別的調節子的數目乘以Bonferroni,可以調節Regulon p值。調整後的p值小於0.05的調節子是CTSR。有關調節調節子特異性得分的更多詳細信息,請參見此處。
分析和可視化
[編輯]可以通過計算silhouette分數來評估預測的細胞類型(來自步驟II),該分數表示與其他聚類相比該細胞與其類型的相似程度。
如果用戶提供了細胞類型,則預測標籤還將通過調整後的蘭德指數(ARI),蘭德指數(RI),福克斯和馬洛斯指數(FMI)和Jaccard指數(JI)進行評估。生成Sankey圖來顯示兩個細胞組的收斂和發散(與Seurat預測對比)。箭頭的寬度與flow成比例顯示。有關細胞類型預測評估計算的更多詳細信息。
針對不同的功能註釋數據庫執行富集分析,識別富集的GO功能,生物學通路等。富集測試由Enrichr執行。 Clustergrammer是由Ma'ayan Lab新開發的功能強大且用戶友好的熱圖繪製工具,支持調控熱圖和相應的基因表達模式。
SC1:scRNA-Seq分析工具
[編輯]SC1是一個單細胞在線分析工具,包括質控,尋找Top基因,聚類,差異分析,基因富集分析,可視化(互動3D可視化,基因對,小提琴/柱狀圖,熱圖),細胞類型,TCR分析功能。
網址
[編輯]參考文獻:M. Moussa and I.I. Mandoiu, SC1: A Tool for Interactive Web-Based Single Cell RNA-Seq Data Analysis, Proc. 16th International Symposium on Bioinformatics Research and Applications, pp. 389–397, 2020, pdf preprint, publisher url, bibtex
輸入文件
[編輯]- 第一種格式:10x genomics的三個gzip格式的壓縮文件(由cell ranger生成)。
- 第二種格式:單細胞基因表達矩陣,行為基因名,列為細胞類型。
示例數據
[編輯]SCANNER:單細胞轉錄組數據的註釋,可視化,分享
[編輯]官網:SCANNER
輸入數據的製作:Seurat流程
參考文獻:SCANNER: A Web Resource for Annotation, Visualization and Sharing of Single Cell RNA-seq Data
alona:單細胞轉錄組在線工具
[編輯]網址:alona
alona是基於adobo包構建,該包基於Python語言構建了一套單細胞RNA-seq的分析框架。
細胞類型註釋使用的標籤基因來自PanglaoDB數據庫。
參考文獻:O. Franzén & J. Björkegren, alona: a web server for single cell RNA-seq analysis, Bioinformatics (2020), doi:10.1093/bioinformatics/btaa269
scQuery:綜合單細胞轉錄組分析工具
[編輯]網址:scQuery
數據處理流程:sc-rna-seq-pipeline,將數據處理成HDF5格式的表達矩陣。
參考文獻:A web server for comparative analysis of single-cell RNA-seq data