GeoTcgaData
GeoTcgaData 是一個用來處理 GEO 和 TCGA 數據的R軟體包。
功能:
[編輯]包含了基因 ID (symbol","RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID) 的相互轉換,合併 TCGA 中下載的甲基化數據、拷貝數變異數據,計算拷貝數差異基因,RNA-seq的差異表達基因,count 轉換 FPKM,count 轉 TPM,FPKM 轉換 TPM,處理 GEO晶片數據中一個 ID 對應多個基因的表達譜數據等功能。
安裝方法:
[編輯]方法一:在 CRAN 上安裝
install.packages("GeoTcgaData")[1]
方法二:在 github 上安裝[2]
if(!requireNamespace("devtools", quietly = TRUE))
install.packages("devtools")
devtools::install_github("huerqiang/GeoTcgaData")
其中,github 上的版本是實時更新的,CRAN 上是攢夠了再一起更新。
應用:
[編輯]RNA-seq數據差異分析
[編輯]classify_sample 和diff_gene通過調用DESeq2包來表達譜數據進行差異基因的處理。
其中「kegg_liver」是此R包提供的示例數據。
library(DESeq2)
profile2 <- classify_sample(kegg_liver)
jieguo <- diff_gene(profile2)
DNA甲基化數據的整合
[編輯]這個函數可以整合從TCGA中獲取的甲基化數據。
dirr = system.file(file.path("extdata","methy"),package="GeoTcgaData")
merge_result <- Merge_methy_tcga(dirr)
拷貝數變異數據的整合與差異基因獲取
[編輯]ann_merge函數可以將直接從TCGA所獲取的拷貝數變異數據進行整合,得到一個矩陣,便於後續分析。
prepare_chi 和differential_cnv 可以使用卡方檢驗對拷貝數變異矩陣數據進行差異基因的獲取。
GEO晶片數據分析
[編輯]gene_ave 函數可以處理一個基因對應多個ID的情況,處理方式是將多個ID取均值後作為這個基因的表達值。
GEO 的晶片數據匹配完 gene symbol 之後,會出現多個基因對應一個 ID 的情況。
rep1的結果就是把這個ID 的表達值賦予每個基因,rep2 就是把這個表達值刪掉。
其他下游分析
[編輯]1、id_conversion_vector 函數可以進行"symbol", "RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID"之間的相互轉換。
id_conversion_vector("symbol", "Ensembl_ID", c("A2ML1", "A2ML1-AS1", "A4GALT", "A12M1", "AAAS"))
id_conversion 函數則是專門為TCGA數據所準備的,它可以將表達譜中的ENSEMBL gene id 轉換成 gene symbol。
2、countToFpkm_matrix函數可以將count矩陣轉化為FPKM矩陣。
類似的,fpkmToTpm_matrix函數可以將FPKM矩陣轉化為TPM矩陣
3、tcga_cli_deal函數可以對下載得到的臨床信息進行處理,從而獲得生存數據,便於進行生存分析。
tcga_cli <- tcga_cli_deal(system.file(file.path("extdata","tcga_cli"),package="GeoTcgaData"))