跳转到内容

GeoTcgaData

维基教科书,自由的教学读本

GeoTcgaData 是一个用来处理 GEO 和 TCGA 数据的R软件包。

功能:

[编辑]

包含了基因 ID (symbol","RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID) 的相互转换,合并 TCGA 中下载的甲基化数据、拷贝数变异数据,计算拷贝数差异基因,RNA-seq的差异表达基因,count 转换 FPKM,count 转 TPM,FPKM 转换 TPM,处理 GEO芯片数据中一个 ID 对应多个基因的表达谱数据等功能。

安装方法:

[编辑]

方法一:在 CRAN 上安装

install.packages("GeoTcgaData")[1]

方法二:在 github 上安装[2]

if(!requireNamespace("devtools", quietly = TRUE))

install.packages("devtools")

devtools::install_github("huerqiang/GeoTcgaData")

其中,github 上的版本是实时更新的,CRAN 上是攒够了再一起更新。

应用:

[编辑]

RNA-seq数据差异分析

[编辑]

classify_sample 和diff_gene通过调用DESeq2包来表达谱数据进行差异基因的处理。

其中“kegg_liver”是此R包提供的示例数据。

library(DESeq2)

profile2 <- classify_sample(kegg_liver)

jieguo <- diff_gene(profile2)

DNA甲基化数据的整合

[编辑]

这个函数可以整合从TCGA中获取的甲基化数据。

dirr = system.file(file.path("extdata","methy"),package="GeoTcgaData")

merge_result <- Merge_methy_tcga(dirr)

拷贝数变异数据的整合与差异基因获取

[编辑]

ann_merge函数可以将直接从TCGA所获取的拷贝数变异数据进行整合,得到一个矩阵,便于后续分析。

prepare_chi 和differential_cnv 可以使用卡方检验对拷贝数变异矩阵数据进行差异基因的获取。

GEO芯片数据分析

[编辑]

gene_ave 函数可以处理一个基因对应多个ID的情况,处理方式是将多个ID取均值后作为这个基因的表达值。

GEO 的芯片数据匹配完 gene symbol 之后,会出现多个基因对应一个 ID 的情况。

rep1的结果就是把这个ID 的表达值赋予每个基因,rep2 就是把这个表达值删掉。

其他下游分析

[编辑]

1、id_conversion_vector 函数可以进行"symbol", "RefSeq_ID", "Ensembl_ID", "NCBI_Gene_ID", "UCSC_ID", "UniProt_ID"之间的相互转换。

id_conversion_vector("symbol", "Ensembl_ID", c("A2ML1", "A2ML1-AS1", "A4GALT", "A12M1", "AAAS"))

id_conversion 函数则是专门为TCGA数据所准备的,它可以将表达谱中的ENSEMBL gene id 转换成 gene symbol。

2、countToFpkm_matrix函数可以将count矩阵转化为FPKM矩阵。

类似的,fpkmToTpm_matrix函数可以将FPKM矩阵转化为TPM矩阵

3、tcga_cli_deal函数可以对下载得到的临床信息进行处理,从而获得生存数据,便于进行生存分析。

tcga_cli <- tcga_cli_deal(system.file(file.path("extdata","tcga_cli"),package="GeoTcgaData"))

  1. CRAN
  2. Github