跳转到内容

生物信息学/富集分析原理

维基教科书,自由的教学读本

富集分析的定义

[编辑]

基因功能富集分析是一种利用基因功能分类系统来解释基因集的技术。基因分类系统是指将基因按照先验知识,也就是基因组注释信息,对基因进行分类的过程。基因经过分类后,能够帮助认知寻找到的基因是否具有某方面的共性(如功能、组成等等)。

基因富集分析已成为芯片平台和高通量组学数据分析的常规手段,对于揭示生物医学分子机制具有重要意义。目前已有上百种基因富集分析的方法和工具。

基因功能分类系统

[编辑]

基因功能富集分析中的基因功能分类系统指的是众多代表一定的基因功能特征和生物过程的基因功能集 (gene set)。由这些基因功能集构成的常用基因功能数据库有:

  1. 基因本体论(Gene ontology ,GO)数据库:http://geneontology.org/
  2. 生物学通路:
  3. 网络基因集(Network)
  4. 疾病基因集(Disease)
  5. 药物基因集(Drug)
  6. 表型(Phenotype)
  7. 染色体定位(Chromosomal location)
  8. 其他个性化自定义数据集

GO数据库

[编辑]

基因本体数据库,简称GO。基因本体论(Gene ontologyGO)是一种系统地对物种基因及其产物属性进行注释的方法和过程。目标是:1)维护和发展有限的基因及其产物属性描述的词汇;2)注释基因及其产物,同化和传播注释数据;3)提供方便的工具访问数据;4)实现在实验数据的基础上,使用GO进行程式解析,例如基因富集组分分析。

基因本体论也是一个更大的系统分类项目的一部分,这个项目是开放生物医学系统注释(Open Biomedical Ontologies, OBO)。

与基因命名法不同,除了维护和控制发展基因及其产物性质描述的词汇,基因本体论也致力于使用机器学习可以理解的标记语言来进行基因标注,这样统一所有物种的基因注释(而基因命名法注释会根据不同的生物系统分类而有不同的注释)。

随着生物技术的发展越来越快,人们得到的数据越来越多。需要寻找一种方法来组织整理这些信息。基因本体论提供了一个省时省力的解决方案,基因产物在数据库中被赋上GO的词条,进而科学家们可以到数据库中去查询这些生物学的相关信息。基因本体是一个有向无环图(DAG)型的本体。目前,GO中使用了is_a、part_of和regulates三种关系。

GO数据库提供了一个分类系统,将基因或基因产物分层分类为基于图(本体)结构组织的术语,主要包括三大分支:细胞组件、分子功能和生物过程。

  • 细胞组件(cellular component),简称CC,包括细胞的每个部分和细胞胞外环境。
  • 分子功能(molecular function),简称MF,包括基因产物在分子级别的主要活动,比如结合以及酶催化。
  • 生物过程(biological process),简称BP,包括分子事件的过程或集合,可以定义开始和结束的事件或行动,在集成的活的单位中发生,例如,细胞,组织,器官,和生物中。

GO不是静止不变的,它是由一些研究和注释社区以及与GO项目直接相关人士提出建议或请求来进行的添加、修正或改动的。例如,一个注释者可能要求用某一个条目来表示一个代谢通路,或者在社区专家的帮助下可以修改注释的某个部分。建议的修改通过GO的编辑评审后,会被整合到合适的地方。

生物学通路

[编辑]

KEGG

[编辑]

KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是一套日本于1995年制定的人类基因组计划,此为关于基因组、酶催化通路以及生物化学产物的在线数据库。其中通路数据库PATHWAY之中记录的是细胞之中的分子相互作用网络以及具体生物所特有的变化形式。 但是它有一个缺点‘无法由网页界面作进一步的计算,例如建立复杂的调控网,或是找出反应之间可能的交互作用’。

KEGG是生物系统的“电脑表达形式”(computer representation)。KEGG将生物系统的零件与线路综合为一,具体而言,其所整合的是基因与蛋白质的遗传部件、小分子及化学反应的化学部件、以及分子互动与反应网络的线路图。此概念于KEGG的数据库之下,系统、基因组学、化学、健康资讯的分类下得以实现。

生物学通路:WikiPathways

[编辑]

WikiPathways的建立是为了促进生物学界对通路信息的贡献和维护。WikiPathways是一个基于维基百科系统的开放的协作平台,致力于生物途径的管理。因此,WikiPathways为pathway数据库提供了一种新的模型,可以增强和补充正在进行的工作,例如KEGG,Reactome和Pathway Commons。

WikiPathways格式大大降低了参与Pathway整理的障碍。更重要的是,WikiPathways的开放,公开的方法允许整个网络社区更广泛地参与,从学生到每个领域的高级专家。

生物学通路:PANTHER

[编辑]

Reactome项目成立于2003年,是一个开源的生物学通路关系数据库,编辑方式类似于WikiPathways。

数据库中包含信号和代谢分子及其关系,这些关系被组织成生物学通路和过程。Reactome数据模型的核心单元是反应。参与反应的实体(核酸,蛋白质,复合物,疫苗,抗癌治疗剂和小分子)形成生物相互作用网络,并被分组为通路。

生物学通路:PANTHER

[编辑]

PANTHER(Protein ANalysis THrough Evolutionary Relationships)分类系统的目标是对蛋白质(及其基因)进行分类,以促进高通量分析。蛋白质已根据以下标准分类:

  • 家族和亚家族:家族是进化相关蛋白质的群体;亚家族是相关的蛋白质,也具有相同的功能。
  • 分子功能:蛋白质本身或与直接相互作用的蛋白质在生化水平上的功能,例如蛋白质激酶。
  • 生物过程:蛋白质在更大的蛋白质网络环境中的功能,这些蛋白质相互作用以在细胞或生物体的水平上完成一个过程,例如有丝分裂。
  • 通路:类似于生物过程,但途径也明确规定了相互作用分子之间的关系。

网络基因集

[编辑]

网络(Network)基因集的来源包括对已发表的芯片和高通量测序数据使用层次聚类方法得到的共表达和相互作用网络模块,包括:

疾病基因集

[编辑]

与疾病相关的功能基因集:

药物基因集

[编辑]

与药物相关的功能基因集

表型基因集

[编辑]

人类表型本体论HPO(https://hpo.jax.org/app/)提供了人类疾病中遇到的表型异常的标准化词汇表。HPO中的每个术语都描述了表型异常,例如房间隔缺损。HPO目前包含超过13,000个术语和超过156,000个遗传性疾病注释。

小鼠及哺乳动物表型数据库(http://www.informatics.jax.org/)包括遗传、人类癌症小鼠模型等信息。

染色体定位

[编辑]

染色体定位基因集:MSigDB数据库(http://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp)C1数据集。

自定义数据集

[编辑]

MSigDB分子标签数据库

[编辑]

MSigDB(Molecular signatures database,http://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp)分子标签数据库:

  • C1基因定位集:来源NCBI和ENSEMBL BioMart;
  • C2基因集:公开数据集的分析结果,KEGG等生物学通路基因集
  • C3基因集:模体基因集
  • C4癌症基因集
  • C5:GO基因集
  • C6:致癌基因集
  • C7:免疫标签基因集
  • C8:细胞类型标签基因集

其他自定义基因集

[编辑]
  • 肌肉病理学和生理学的基因特征:https://www.sys-myo.com/muscle_gene_sets/
  • 人猪同源标签基因集PorSignDB:https://vetvirology.ugent.be/PorSignDB/
  • 人脑细胞类型基因集BrainCortex_CellTypeSpecificGenes:https://sites.google.com/a/umich.edu/megan-hastings-hagenauer/home/bioinformatics-tools/cell-type-analysis

根据特定研究构建的自定义数据集

[编辑]

基因富集方法

[编辑]

当前,功能富集分析的方法基于数据来源和算法大致可以分为 4 大类:

  • 过代表分析方法(over-representation analysis, ORA)
  • 功能集打分(functional class scoring, FCS)
  • 基于通路拓扑结构(pathway topology, PT)
  • 基于网络拓扑结构(network topology, NT)

过代表分析方法ORA

[编辑]

ORA富集分析是最早出现的一类基因功能富集方法,ORA 针对的数据是一组感兴趣的基因(基因列表),其目的是在这组基因中发现有明显统计学上富集的基因功能集。

ORA基本步骤包括先将给定的基因列表与待测功能集做交集,找出其中共同的基因并进行计数(统计值), 最后利用统计检验的方式来评估观察的计数值是否显著高于随机,即待测功能集在基因列表中是否显著富集。常见的统计学方法有卡方检验,Fisher 精确检验和二项分布检验,而其中最为广泛使用的是Fisher 精确检验,即利用2×2的列联表, 根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集。

功能集打分(FCS)方法

[编辑]

相比于针对一组感兴趣的基因通过计数来进行富集分析的ORA 方法,第二代功能富集分析方法FCS 的输入数据不仅是全基因组基因, 并且还考虑到每个基因的表达水平或表达差异值等基因属性信息。此外, ORA 的检验对象是感兴趣的基因列表与待测基因功能集的共同基因,而FCS 的检验对象则是待测基因功能集中的所有基因。

FCS 方法的基本步骤包括:首先根据案例和对照状态下的基因表达谱对基因组中所有基因表达水平的差异值进行打分或排序,或直接输入排序好的基因表达谱;其次是把待测基因功能集中的每个基因的分数通过特定的统计模型转换为待测基因功能集的分数或统计值;最后利用随机抽样获得的待测基因功能集统计值的背景分布来检验实际观测的统计值的显著水平,并判断待测基因功能集在案例和对照实验状态下是否发生了统计上的显著变化。

基于通路拓扑结构(PT)的方法

[编辑]

ORA 和FCS 方法在进行通路的富集分析时,都将通路中的每个基因视作独立个体,而实际上通路内的基因需要通过调控、被调控、相互作用等复杂的关系一起来影响细胞的发育、分化或疾病等生物学过程。因而,在进行通路的富集分析时,尤其是基因表达的通路富集分析时,有必要考虑到通路中基因的生物学属性。例如,在一个调控通路中,上游基因的表达水平改变显然要远大于下游基因的表达水平改变对整个通路的影响。基于通路拓扑结构的PT 富集分析方法就是把基因在通路中的位置(上下游关系),与其他基因的连接度和调控作用类 型等信息综合在一起来评估每个基因对通路的贡献并给予相应的权重,然后再把基因的权重整合入功能富集分析。不同的PT方法在具体的权重打分时,采用了不同的方式。

基于网络拓扑结构(NT)的方法

[编辑]

PT 方法利用了通路的拓扑结构来把基因的生物学属性整合入功能的富集分析。但目前在基因功能注释数据库中仅有KEGG 提供了通 路的拓扑结构,而最常用的GO 等注释数据库中基因功能集中不包含任何拓扑结构信息,仅提供了可能属于同一通路的所有基因列表。因而,PT 方法不能被用于GO 通路的富集分析。目前,已有一些基于生物网络拓扑结构的富集分析方法,它们利用数据库中的基因相互作用关系来间接地把基因的生物学属性整合入功能的富集分析。

这些方法的主要思路是利用前面提到的全基因组生物大分子互作数据库,来提取基因间的相互作用关系,包括基因的连接度及基因在网络中的距离等,来计算一给定的基因列表与一待测的基因功能数据集在网络中的连接关系,从而来推测待测基因功能集是否与给定基因列表紧密相关。

四种富集分析算法的对比及优缺点

[编辑]

ORA 方法基于完备的统计学理论,具有结果稳健、可靠的优点。但目前常用的基于统计检验的ORA 方法也有一定的局限性, 包括:

  1. 在对基因进行计数时,丢失了基因的表达水平或表达差异值等基因属性信息;
  2. 把通路中的所有基因进行同等对待,忽视了基因在通路内部生物学意义的不同(如调控和被调控基因的不同)及基因间复杂的相互作用;
  3. 在获得感兴趣的基因时,往往需要选取合适的阈值,而这样有可能会丢失显著性较低但比较关键的基因, 导致检测灵敏性的降低。

FCS 相较于ORA 方法在理论上有明显突破,考虑到了基因表达值的属性信息,而且以待测基因功能集为对象来进行检验,也使得检验结果更加灵敏。但FCS 方法仍然把待测基因功能集中的每个基因作为独立的个体,忽略了基因的生物学属性和基因间的复杂相互作用关系。

对于研究较完善、拓扑结构完整的通路,基于PT 的基因功能富集算法会有更强的显著性;由于原理上对于通路拓扑结构存在 依赖性,该类方法对于研究较少、信息不完善的通路稳健性较差,因此目前通路注释的不完善也是限制基于PT 的基因功能富集分析方法进一步发展的重要因素。

与传统方法相比,基于网络的基因功能富集分析方法加入了系统层面的基因重要性程度及关联信息,使得预测结果更加准确可靠。但是,更多信息的加入也容易导致算法过于复杂,计算速度较慢。

参考文献

[编辑]

王潇, 尹天舒, 李柏逸, 江熹霖, 孙慧, & 窦亚光等. (2016). 基因功能富集分析的研究进展. 中国科学:生命科学, 46(4), 363.:http://www.cnki.com.cn/Article/CJFDTotal-JCXK201604003.htm