GeoTcgaData
GeoTcgaData 是一个用来处理 GEO 和 TCGA 数据的R软件包。
功能:
[编辑]包含了基因 ID (symbol","RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID) 的相互转换,合并 TCGA 中下载的甲基化数据、拷贝数变异数据,计算拷贝数差异基因,RNA-seq的差异表达基因,count 转换 FPKM,count 转 TPM,FPKM 转换 TPM,处理 GEO芯片数据中一个 ID 对应多个基因的表达谱数据等功能。
安装方法:
[编辑]方法一:在 CRAN 上安装
install.packages("GeoTcgaData")[1]
方法二:在 github 上安装[2]
if(!requireNamespace("devtools", quietly = TRUE))
install.packages("devtools")
devtools::install_github("huerqiang/GeoTcgaData")
其中,github 上的版本是实时更新的,CRAN 上是攒够了再一起更新。
应用:
[编辑]RNA-seq数据差异分析
[编辑]classify_sample 和diff_gene通过调用DESeq2包来表达谱数据进行差异基因的处理。
其中“kegg_liver”是此R包提供的示例数据。
library(DESeq2)
profile2 <- classify_sample(kegg_liver)
jieguo <- diff_gene(profile2)
DNA甲基化数据的整合
[编辑]这个函数可以整合从TCGA中获取的甲基化数据。
dirr = system.file(file.path("extdata","methy"),package="GeoTcgaData")
merge_result <- Merge_methy_tcga(dirr)
拷贝数变异数据的整合与差异基因获取
[编辑]ann_merge函数可以将直接从TCGA所获取的拷贝数变异数据进行整合,得到一个矩阵,便于后续分析。
prepare_chi 和differential_cnv 可以使用卡方检验对拷贝数变异矩阵数据进行差异基因的获取。
GEO芯片数据分析
[编辑]gene_ave 函数可以处理一个基因对应多个ID的情况,处理方式是将多个ID取均值后作为这个基因的表达值。
GEO 的芯片数据匹配完 gene symbol 之后,会出现多个基因对应一个 ID 的情况。
rep1的结果就是把这个ID 的表达值赋予每个基因,rep2 就是把这个表达值删掉。
其他下游分析
[编辑]1、id_conversion_vector 函数可以进行"symbol", "RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID"之间的相互转换。
id_conversion_vector("symbol", "Ensembl_ID", c("A2ML1", "A2ML1-AS1", "A4GALT", "A12M1", "AAAS"))
id_conversion 函数则是专门为TCGA数据所准备的,它可以将表达谱中的ENSEMBL gene id 转换成 gene symbol。
2、countToFpkm_matrix函数可以将count矩阵转化为FPKM矩阵。
类似的,fpkmToTpm_matrix函数可以将FPKM矩阵转化为TPM矩阵
3、tcga_cli_deal函数可以对下载得到的临床信息进行处理,从而获得生存数据,便于进行生存分析。
tcga_cli <- tcga_cli_deal(system.file(file.path("extdata","tcga_cli"),package="GeoTcgaData"))