生物信息學

維基教科書,自由的教學讀本

生物醫學組學背景知識及測序原理[編輯]

1.生物大分子與中心法則

2.生物信息學簡介與測序技術的發展歷程、技術原理、測序策略與基本流程:一代,二代,三代測序,單細胞測序

3.測學原理:基因組,轉錄組,表觀組,宏基因組,宏轉錄組,蛋白質組,代謝組

生物信息數據格式與數據庫[編輯]

1.生物信息格式:fastq/fasta,SAM/BAM,vcf,gtf/gff,bed,maf,測序數據的格式

2.生物信息數據庫:序列數據庫(NCBI、UCSC、Ensembl),綜合數據庫(ENCODE),癌症數據庫(TCGA)

3.常用專業功能數據庫使用方法:GO、COG、UniProt、KEGG、PubMed、OMIM

生物信息分析基本技能[編輯]

linux操作與生物信息

Perl語言在生物信息學的應用

R語言在生物信息學的應用

Python語言在生物信息學的應用

學習資源:https://zh.wikiversity.org/wiki/School:生物信息學

生物信息分析方法與流程及常用軟件[編輯]

  • 生物信息分析流程的結構與功能概述

高通量測序數據的質量控制[編輯]

高通量測序技術主要指第二代測序技術(Next Generation Sequencing Technology)和第三代測序技術。第二代測序包含了 454測序、Illumina測序和SOLiD測序這3種測序技術;第三代測序技術一般指PacBio單分子實時測序技術。8年以前,主要的測序數據來自 454測序現今;而後,Illumina測序成為主流,到如今不斷發展,成為主要的測序平台;近年來,PacBio測序也不斷發展,成為了主流的第三代測序,特別在微生物基因組測序方面發展迅速。因此,本章重點講述Illumina數據的質量控制。

序列比對[編輯]

高通量測序數據比對[編輯]

高通量測序數據比對,就是將測序得到的reads定位到基因組序列上。由於測序 的數據量比較大,因此比對軟件需要能快速將reads比對到參考序列上,並且能並行化運 行。對lllumina測序或454測序得到的short reads進行比對的常用軟件有Bowtie、BWA、(基因組、原核轉錄組) HISAT和Tophat(真核轉錄組)。對PacBio測序得到的long reads進行比對的常用軟件是Blasr。

有參考基因組的轉錄組分析[編輯]

甲基化分析方法與流程[編輯]

HumanMethylation晶片[編輯]

全基因組甲基化測序 (WGBS)分析流程[編輯]

WGBS(Whole-genome bisulfite sequencing)被視為甲基化測序的「金標準」,其原理是用 Bisulfite 處理,將基因組中未發生甲基化的 C 鹼基轉換成 U,進行PCR擴增後變成T,與原本具有甲基化修飾的 C 鹼基區分開來,再結合高通量測序技術,與參考序列比對,即可判斷 CpG/CHG/CHH 位點是否發生甲基化,特別適用於繪製單鹼基解像度的全基因組 DNA 甲基化圖譜。

Methyl RAD[編輯]

Methyl RAD技術(Wang et al,Open Biol,2015)使用甲基化修飾依賴性內切酶如FspEI、MspJL、LpnPI、AspBHI等,此類內切聘識別DNA上發生甲基化的胞曉淀在識別位置的下游隔一定距離切割雙鏈,若DNA雙鏈具有中心對稱甲基化狀態

則可以切割產生一個固定長度的雙鏈DNA片段,對酶切產生的標籤建庫測序,即可進行甲基化位點的定性和相對定量分析。

m6A 甲基化測序(針對轉錄mRNA水平)分析流程[編輯]

m6A(N6-methyladenosine,6-甲基腺嘌呤)是真核生物mRNA最常見的一種轉錄後修飾佔到RNA甲基化修飾的80%。已知絕大部分真核生物中mRNA在5' Cap處存在的甲基化修飾,作用包括維持mRNA穩定性、mRNA前體剪切、多腺苷酸化、mRNA運輸與翻譯起始等,而3' polyA發生的甲基化修飾有助於出核轉運翻譯起始以及與polyA結合蛋白一起維持mRNA的結構穩定。

目前,在全轉錄組範圍檢測m6A修飾的主流技術是MeRIP-seq(m6A-seq),該技術使用N6-甲基腺嘌呤抗體富集高甲基化的RNA片段,然後結合高通量測序,在全轉錄組範圍檢測m6A修飾。

單細胞數據分析方法與流程[編輯]

單細胞轉錄組數據分析[編輯]

Single cell RNA-Seq workflow

單細胞測序是指在單個細胞水平上進行測序。單細胞轉錄組測 序(single cell RNA Seq,scRNA-seq)是指對於單個細胞水平上 將mRNA反轉錄擴增後進行高通量測序的技術。

單細胞測序通過在單個細胞水平上進行測序,解決了用組織樣本無法獲得不同細胞間的異質性信息樣本量太少無法進行常規測序的難題,為科學家研究單個細胞的行為、機制等提供了新的方向。 單細胞基因組測序主要包括四個步驟:單細胞分離→擴增→高 通量測序→數據分析

目前常規的測序主要是數百萬甚至更多細胞的混合DNA樣本。這種方法能 夠得到基因表達信息,但是對其進行研究得到的結果只是一群細胞中信號的平 均值,或者只代表其中佔優勢數量的細胞信息,單個細胞獨有的特性被忽視。 單細胞RNA-seq能夠獨立地提供每個細胞的RNA表達譜,並鑑定異質細胞 群中的稀有細胞。儘管腫瘤異質性可歸因於累積突變,但即使是遺傳上相同的 細胞在相同環境下也可能表現出基因和蛋白表達水平的差異,單細胞RNA-seq 就能夠發現這些稀有個體。比如在腫瘤組織中,腫塊中心的細胞,腫塊周圍的 細胞,淋巴轉移灶的細胞,以及遠端轉移的細胞,其基因組和轉錄組等遺傳信息,是存在差異的。

單細胞scATACseq分析[編輯]

  • Cicero:scATACseq分析(結合Monocle),cis-調控網絡構建和但細胞染色體發育軌跡

單細胞甲基化分析[編輯]

單細胞分析工具匯總[編輯]

生物序列比對及典型軟件的使用方法[編輯]

bwa、muscle、MUMmer,核酸、蛋白數據庫介紹與blast搜索

4.基因組denovo組裝分析流程:常用軟件使用方法:SOAPdenovo、Canu等

5.基因組組裝及基因組註釋分析流程:重複序列、基因結構與功能、ncRNA、細胞器基因組註釋

6.轉錄組組裝常用軟件使用方法:Trinity、Cufflinks、Tophat

7.轉錄組表現組的差異表達分析流程及差異表達分析軟件使用方法

8.高通量數據可視化常用軟件使用方法

9.分子進化分析常用軟件使用方法

10.重測序變異檢測與註釋分析常用軟件使用方法