跳至內容

生物信息學/富集分析原理

維基教科書,自由的教學讀本

富集分析的定義

[編輯]

基因功能富集分析是一種利用基因功能分類系統來解釋基因集的技術。基因分類系統是指將基因按照先驗知識,也就是基因組注釋信息,對基因進行分類的過程。基因經過分類後,能夠幫助認知尋找到的基因是否具有某方面的共性(如功能、組成等等)。

基因富集分析已成為晶片平台和高通量組學數據分析的常規手段,對於揭示生物醫學分子機制具有重要意義。目前已有上百種基因富集分析的方法和工具。

基因功能分類系統

[編輯]

基因功能富集分析中的基因功能分類系統指的是眾多代表一定的基因功能特徵和生物過程的基因功能集 (gene set)。由這些基因功能集構成的常用基因功能資料庫有:

  1. 基因本體論(Gene ontology ,GO)資料庫:http://geneontology.org/
  2. 生物學通路:
  3. 網絡基因集(Network)
  4. 疾病基因集(Disease)
  5. 藥物基因集(Drug)
  6. 表型(Phenotype)
  7. 染色體定位(Chromosomal location)
  8. 其他個性化自定義數據集

GO資料庫

[編輯]

基因本體資料庫,簡稱GO。基因本體論(Gene ontologyGO)是一種系統地對物種基因及其產物屬性進行注釋的方法和過程。目標是:1)維護和發展有限的基因及其產物屬性描述的詞彙;2)注釋基因及其產物,同化和傳播注釋數據;3)提供方便的工具訪問數據;4)實現在實驗數據的基礎上,使用GO進行程式解析,例如基因富集組分分析。

基因本體論也是一個更大的系統分類項目的一部分,這個項目是開放生物醫學系統注釋(Open Biomedical Ontologies, OBO)。

與基因命名法不同,除了維護和控制發展基因及其產物性質描述的詞彙,基因本體論也致力於使用機器學習可以理解的標記語言來進行基因標註,這樣統一所有物種的基因注釋(而基因命名法注釋會根據不同的生物系統分類而有不同的注釋)。

隨著生物技術的發展越來越快,人們得到的數據越來越多。需要尋找一種方法來組織整理這些信息。基因本體論提供了一個省時省力的解決方案,基因產物在資料庫中被賦上GO的詞條,進而科學家們可以到資料庫中去查詢這些生物學的相關信息。基因本體是一個有向無環圖(DAG)型的本體。目前,GO中使用了is_a、part_of和regulates三種關係。

GO資料庫提供了一個分類系統,將基因或基因產物分層分類為基於圖(本體)結構組織的術語,主要包括三大分支:細胞組件、分子功能和生物過程。

  • 細胞組件(cellular component),簡稱CC,包括細胞的每個部分和細胞胞外環境。
  • 分子功能(molecular function),簡稱MF,包括基因產物在分子級別的主要活動,比如結合以及酶催化。
  • 生物過程(biological process),簡稱BP,包括分子事件的過程或集合,可以定義開始和結束的事件或行動,在集成的活的單位中發生,例如,細胞,組織,器官,和生物中。

GO不是靜止不變的,它是由一些研究和注釋社區以及與GO項目直接相關人士提出建議或請求來進行的添加、修正或改動的。例如,一個注釋者可能要求用某一個條目來表示一個代謝通路,或者在社區專家的幫助下可以修改注釋的某個部分。建議的修改通過GO的編輯評審後,會被整合到合適的地方。

生物學通路

[編輯]

KEGG

[編輯]

KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書)是一套日本於1995年制定的人類基因組計劃,此為關於基因組、酶催化通路以及生物化學產物的在線資料庫。其中通路資料庫PATHWAY之中記錄的是細胞之中的分子相互作用網絡以及具體生物所特有的變化形式。 但是它有一個缺點『無法由網頁界面作進一步的計算,例如建立複雜的調控網,或是找出反應之間可能的交互作用』。

KEGG是生物系統的「電腦表達形式」(computer representation)。KEGG將生物系統的零件與線路綜合為一,具體而言,其所整合的是基因與蛋白質的遺傳部件、小分子及化學反應的化學部件、以及分子互動與反應網絡的線路圖。此概念於KEGG的資料庫之下,系統、基因組學、化學、健康資訊的分類下得以實現。

生物學通路:WikiPathways

[編輯]

WikiPathways的建立是為了促進生物學界對通路信息的貢獻和維護。WikiPathways是一個基於維基百科系統的開放的協作平台,致力於生物途徑的管理。因此,WikiPathways為pathway資料庫提供了一種新的模型,可以增強和補充正在進行的工作,例如KEGG,Reactome和Pathway Commons。

WikiPathways格式大大降低了參與Pathway整理的障礙。更重要的是,WikiPathways的開放,公開的方法允許整個網絡社區更廣泛地參與,從學生到每個領域的高級專家。

生物學通路:PANTHER

[編輯]

Reactome項目成立於2003年,是一個開源的生物學通路關係資料庫,編輯方式類似於WikiPathways。

資料庫中包含信號和代謝分子及其關係,這些關係被組織成生物學通路和過程。Reactome數據模型的核心單元是反應。參與反應的實體(核酸,蛋白質,複合物,疫苗,抗癌治療劑和小分子)形成生物相互作用網絡,並被分組為通路。

生物學通路:PANTHER

[編輯]

PANTHER(Protein ANalysis THrough Evolutionary Relationships)分類系統的目標是對蛋白質(及其基因)進行分類,以促進高通量分析。蛋白質已根據以下標準分類:

  • 家族和亞家族:家族是進化相關蛋白質的群體;亞家族是相關的蛋白質,也具有相同的功能。
  • 分子功能:蛋白質本身或與直接相互作用的蛋白質在生化水平上的功能,例如蛋白質激酶。
  • 生物過程:蛋白質在更大的蛋白質網絡環境中的功能,這些蛋白質相互作用以在細胞或生物體的水平上完成一個過程,例如有絲分裂。
  • 通路:類似於生物過程,但途徑也明確規定了相互作用分子之間的關係。

網絡基因集

[編輯]

網絡(Network)基因集的來源包括對已發表的晶片和高通量測序數據使用層次聚類方法得到的共表達和相互作用網絡模塊,包括:

疾病基因集

[編輯]

與疾病相關的功能基因集:

藥物基因集

[編輯]

與藥物相關的功能基因集

表型基因集

[編輯]

人類表型本體論HPO(https://hpo.jax.org/app/)提供了人類疾病中遇到的表型異常的標準化詞彙表。HPO中的每個術語都描述了表型異常,例如房間隔缺損。HPO目前包含超過13,000個術語和超過156,000個遺傳性疾病注釋。

小鼠及哺乳動物表型資料庫(http://www.informatics.jax.org/)包括遺傳、人類癌症小鼠模型等信息。

染色體定位

[編輯]

染色體定位基因集:MSigDB資料庫(http://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp)C1數據集。

自定義數據集

[編輯]

MSigDB分子標籤資料庫

[編輯]

MSigDB(Molecular signatures database,http://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp)分子标签数据库:

  • C1基因定位集:來源NCBI和ENSEMBL BioMart;
  • C2基因集:公開數據集的分析結果,KEGG等生物學通路基因集
  • C3基因集:模體基因集
  • C4癌症基因集
  • C5:GO基因集
  • C6:致癌基因集
  • C7:免疫標籤基因集
  • C8:細胞類型標籤基因集

其他自定義基因集

[編輯]
  • 肌肉病理學和生理學的基因特徵:https://www.sys-myo.com/muscle_gene_sets/
  • 人豬同源標籤基因集PorSignDB:https://vetvirology.ugent.be/PorSignDB/
  • 人腦細胞類型基因集BrainCortex_CellTypeSpecificGenes:https://sites.google.com/a/umich.edu/megan-hastings-hagenauer/home/bioinformatics-tools/cell-type-analysis

根據特定研究構建的自定義數據集

[編輯]

基因富集方法

[編輯]

當前,功能富集分析的方法基於數據來源和算法大致可以分為 4 大類:

  • 過代表分析方法(over-representation analysis, ORA)
  • 功能集打分(functional class scoring, FCS)
  • 基於通路拓撲結構(pathway topology, PT)
  • 基於網絡拓撲結構(network topology, NT)

過代表分析方法ORA

[編輯]

ORA富集分析是最早出現的一類基因功能富集方法,ORA 針對的數據是一組感興趣的基因(基因列表),其目的是在這組基因中發現有明顯統計學上富集的基因功能集。

ORA基本步驟包括先將給定的基因列表與待測功能集做交集,找出其中共同的基因並進行計數(統計值), 最後利用統計檢驗的方式來評估觀察的計數值是否顯著高於隨機,即待測功能集在基因列表中是否顯著富集。常見的統計學方法有卡方檢驗,Fisher 精確檢驗和二項分布檢驗,而其中最為廣泛使用的是Fisher 精確檢驗,即利用2×2的列聯表, 根據超幾何分布來檢驗基因列表中的基因在待測功能集中是否顯著富集。

功能集打分(FCS)方法

[編輯]

相比於針對一組感興趣的基因通過計數來進行富集分析的ORA 方法,第二代功能富集分析方法FCS 的輸入數據不僅是全基因組基因, 並且還考慮到每個基因的表達水平或表達差異值等基因屬性信息。此外, ORA 的檢驗對象是感興趣的基因列表與待測基因功能集的共同基因,而FCS 的檢驗對象則是待測基因功能集中的所有基因。

FCS 方法的基本步驟包括:首先根據案例和對照狀態下的基因表達譜對基因組中所有基因表達水平的差異值進行打分或排序,或直接輸入排序好的基因表達譜;其次是把待測基因功能集中的每個基因的分數通過特定的統計模型轉換為待測基因功能集的分數或統計值;最後利用隨機抽樣獲得的待測基因功能集統計值的背景分布來檢驗實際觀測的統計值的顯著水平,並判斷待測基因功能集在案例和對照實驗狀態下是否發生了統計上的顯著變化。

基於通路拓撲結構(PT)的方法

[編輯]

ORA 和FCS 方法在進行通路的富集分析時,都將通路中的每個基因視作獨立個體,而實際上通路內的基因需要通過調控、被調控、相互作用等複雜的關係一起來影響細胞的發育、分化或疾病等生物學過程。因而,在進行通路的富集分析時,尤其是基因表達的通路富集分析時,有必要考慮到通路中基因的生物學屬性。例如,在一個調控通路中,上游基因的表達水平改變顯然要遠大於下游基因的表達水平改變對整個通路的影響。基於通路拓撲結構的PT 富集分析方法就是把基因在通路中的位置(上下游關係),與其他基因的連接度和調控作用類 型等信息綜合在一起來評估每個基因對通路的貢獻並給予相應的權重,然後再把基因的權重整合入功能富集分析。不同的PT方法在具體的權重打分時,採用了不同的方式。

基於網絡拓撲結構(NT)的方法

[編輯]

PT 方法利用了通路的拓撲結構來把基因的生物學屬性整合入功能的富集分析。但目前在基因功能注釋資料庫中僅有KEGG 提供了通 路的拓撲結構,而最常用的GO 等注釋資料庫中基因功能集中不包含任何拓撲結構信息,僅提供了可能屬於同一通路的所有基因列表。因而,PT 方法不能被用於GO 通路的富集分析。目前,已有一些基於生物網絡拓撲結構的富集分析方法,它們利用資料庫中的基因相互作用關係來間接地把基因的生物學屬性整合入功能的富集分析。

這些方法的主要思路是利用前面提到的全基因組生物大分子互作資料庫,來提取基因間的相互作用關係,包括基因的連接度及基因在網絡中的距離等,來計算一給定的基因列表與一待測的基因功能數據集在網絡中的連接關係,從而來推測待測基因功能集是否與給定基因列表緊密相關。

四種富集分析算法的對比及優缺點

[編輯]

ORA 方法基於完備的統計學理論,具有結果穩健、可靠的優點。但目前常用的基於統計檢驗的ORA 方法也有一定的局限性, 包括:

  1. 在對基因進行計數時,丟失了基因的表達水平或表達差異值等基因屬性信息;
  2. 把通路中的所有基因進行同等對待,忽視了基因在通路內部生物學意義的不同(如調控和被調控基因的不同)及基因間複雜的相互作用;
  3. 在獲得感興趣的基因時,往往需要選取合適的閾值,而這樣有可能會丟失顯著性較低但比較關鍵的基因, 導致檢測靈敏性的降低。

FCS 相較於ORA 方法在理論上有明顯突破,考慮到了基因表達值的屬性信息,而且以待測基因功能集為對象來進行檢驗,也使得檢驗結果更加靈敏。但FCS 方法仍然把待測基因功能集中的每個基因作為獨立的個體,忽略了基因的生物學屬性和基因間的複雜相互作用關係。

對於研究較完善、拓撲結構完整的通路,基於PT 的基因功能富集算法會有更強的顯著性;由於原理上對於通路拓撲結構存在 依賴性,該類方法對於研究較少、信息不完善的通路穩健性較差,因此目前通路注釋的不完善也是限制基於PT 的基因功能富集分析方法進一步發展的重要因素。

與傳統方法相比,基於網絡的基因功能富集分析方法加入了系統層面的基因重要性程度及關聯信息,使得預測結果更加準確可靠。但是,更多信息的加入也容易導致算法過於複雜,計算速度較慢。

參考文獻

[編輯]

王瀟, 尹天舒, 李柏逸, 江熹霖, 孫慧, & 竇亞光等. (2016). 基因功能富集分析的研究進展. 中國科學:生命科學, 46(4), 363.:http://www.cnki.com.cn/Article/CJFDTotal-JCXK201604003.htm