跳至內容

GeoTcgaData

維基教科書,自由的教學讀本

GeoTcgaData 是一個用來處理 GEO 和 TCGA 數據的R軟體包。

功能:

[編輯]

包含了基因 ID (symbol","RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID) 的相互轉換,合併 TCGA 中下載的甲基化數據、拷貝數變異數據,計算拷貝數差異基因,RNA-seq的差異表達基因,count 轉換 FPKM,count 轉 TPM,FPKM 轉換 TPM,處理 GEO晶片數據中一個 ID 對應多個基因的表達譜數據等功能。

安裝方法:

[編輯]

方法一:在 CRAN 上安裝

install.packages("GeoTcgaData")[1]

方法二:在 github 上安裝[2]

if(!requireNamespace("devtools", quietly = TRUE))

install.packages("devtools")

devtools::install_github("huerqiang/GeoTcgaData")

其中,github 上的版本是實時更新的,CRAN 上是攢夠了再一起更新。

應用:

[編輯]

RNA-seq數據差異分析

[編輯]

classify_sample 和diff_gene通過調用DESeq2包來表達譜數據進行差異基因的處理。

其中「kegg_liver」是此R包提供的示例數據。

library(DESeq2)

profile2 <- classify_sample(kegg_liver)

jieguo <- diff_gene(profile2)

DNA甲基化數據的整合

[編輯]

這個函數可以整合從TCGA中獲取的甲基化數據。

dirr = system.file(file.path("extdata","methy"),package="GeoTcgaData")

merge_result <- Merge_methy_tcga(dirr)

拷貝數變異數據的整合與差異基因獲取

[編輯]

ann_merge函數可以將直接從TCGA所獲取的拷貝數變異數據進行整合,得到一個矩陣,便於後續分析。

prepare_chi 和differential_cnv 可以使用卡方檢驗對拷貝數變異矩陣數據進行差異基因的獲取。

GEO晶片數據分析

[編輯]

gene_ave 函數可以處理一個基因對應多個ID的情況,處理方式是將多個ID取均值後作為這個基因的表達值。

GEO 的晶片數據匹配完 gene symbol 之後,會出現多個基因對應一個 ID 的情況。

rep1的結果就是把這個ID 的表達值賦予每個基因,rep2 就是把這個表達值刪掉。

其他下游分析

[編輯]

1、id_conversion_vector 函數可以進行"symbol", "RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID"之間的相互轉換。

id_conversion_vector("symbol", "Ensembl_ID", c("A2ML1", "A2ML1-AS1", "A4GALT", "A12M1", "AAAS"))

id_conversion 函數則是專門為TCGA數據所準備的,它可以將表達譜中的ENSEMBL gene id 轉換成 gene symbol。

2、countToFpkm_matrix函數可以將count矩陣轉化為FPKM矩陣。

類似的,fpkmToTpm_matrix函數可以將FPKM矩陣轉化為TPM矩陣

3、tcga_cli_deal函數可以對下載得到的臨床信息進行處理,從而獲得生存數據,便於進行生存分析。

tcga_cli <- tcga_cli_deal(system.file(file.path("extdata","tcga_cli"),package="GeoTcgaData"))

  1. CRAN
  2. Github