生物信息学

维基教科书,自由的教学读本
跳到导航 跳到搜索

生物医学组学背景知识及测序原理[编辑]

1.生物大分子与中心法则

2.生物信息学简介与测序技术的发展历程、技术原理、测序策略与基本流程:一代,二代,三代测序,单细胞测序

3.测学原理:基因组,转录组,表观组,宏基因组,宏转录组,蛋白质组,代谢组

生物信息数据格式与数据库[编辑]

1.生物信息格式:fastq/fasta,SAM/BAM,vcf,gtf/gff,bed,maf,测序数据的格式

2.生物信息数据库:序列数据库(NCBI、UCSC、Ensembl),综合数据库(ENCODE),癌症数据库(TCGA)

3.常用专业功能数据库使用方法:GO、COG、UniProt、KEGG、PubMed、OMIM

生物信息分析基本技能[编辑]

linux操作与生物信息

Perl语言在生物信息学的应用

R语言在生物信息学的应用

Python语言在生物信息学的应用

统计学在生物信息学的应用

生物信息分析方法与流程及常用软件[编辑]

  • 测序数据的预处理原理、方法及流程
  • 生物信息分析流程的结构与功能概述

高通量测序数据的质量控制[编辑]

高通量测序技术主要指第二代测序技术(Next Generation Sequencing Technology)和第三代测序技术。第二代测序包含了 454测序、Illumina测序和SOLiD测序这3种测序技术;第三代测序技术一般指PacBio单分子实时测序技术。8年以前,主要的测序数据来自 454测序现今;而后,Illumina测序成为主流,到如今不断发展,成为主要的测序平台;近年来,PacBio测序也不断发展,成为了主流的第三代测序,特别在微生物基因组测序方面发展迅速。因此,本章重点讲述Illumina数据的质量控制。

序列比对[编辑]

高通量测序数据比对[编辑]

高通量测序数据比对,就是将测序得到的reads定位到基因组序列上。由于测序 的数据量比较大,因此比对软件需要能快速将reads比对到参考序列上,并且能并行化运 行。对lllumina测序或454测序得到的short reads进行比对的常用软件有Bowtie、BWA、(基因组、原核转录组) HISAT和Tophat(真核转录组)。对PacBio测序得到的long reads进行比对的常用软件是Blasr。

有参考基因组的转录组分析[编辑]

甲基化分析方法与流程[编辑]

HumanMethylation芯片[编辑]

甲基化是基因组 DNA 的一种主要的表观遗传修饰形式,与人类的癌症、衰老、老年痴呆等许多疾病密切相关,Illumina 甲基化芯片是有效的甲基化高通量筛选技术,可捕捉到单个碱基的甲基化变化。

该芯片不仅实现基因区域和 CpG 岛的全面覆盖,还包括 CpG 岛之外的甲基化位点,在人类干细胞中鉴定出了非 CpG 甲基化位点、miRNA 启动子区域以及肿瘤和正常组织中差异表达的甲基化位点等。

Illumina Human Methylation 450K BeadChip芯片可 检测人全基因组近450,000个甲基化位点,具有单碱 基的分辨率。全面覆盖了96%的CpG岛,并根据需 求加入了CpG岛以外的CpG位点、人类干细胞非 CpG甲基化位点、正常组织与肿瘤(多种癌症)组 织差异甲基化位点、编码区以外的CpG岛、miRNA 启动子区域和GWAS疾病相关区域的位点,同时覆 盖了Human Methylation27 BeadChip的90%的位 点。

  1. A探针(非甲基化)的数目U
  2. B探针(甲基化)的数目M
  3. β值或者m值
  4. β值反映了能够和给定被甲基化的序列匹配的寡核苷酸的比率,序列中的甲基化率
  5. M值可以消除探针不同而造成的影响

  • HumMeth27QCReport:用于HumanMethylation27k芯片的质控和标准化,后续分析与450k芯片相同。
  • ChAMP:用于HumanMethylation27k,HumanMethylation450k,HumanMethylation850k芯片的idat格式的原始数据分析流程,综合了多个经典的甲基化分析R包。也可用于EPIC芯片的分析。

全基因组甲基化测序 (WGBS)分析流程[编辑]

WGBS(Whole-genome bisulfite sequencing)被视为甲基化测序的“金标准”,其原理是用 Bisulfite 处理,将基因组中未发生甲基化的 C 碱基转换成 U,进行PCR扩增后变成T,与原本具有甲基化修饰的 C 碱基区分开来,再结合高通量测序技术,与参考序列比对,即可判断 CpG/CHG/CHH 位点是否发生甲基化,特别适用于绘制单碱基分辨率的全基因组 DNA 甲基化图谱。

Methyl RAD[编辑]

Methyl RAD技术(Wang et al,Open Biol,2015)使用甲基化修饰依赖性内切酶如FspEI、MspJL、LpnPI、AspBHI等,此类内切聘识别DNA上发生甲基化的胞晓淀在识别位置的下游隔一定距离切割双链,若DNA双链具有中心对称甲基化状态

则可以切割产生一个固定长度的双链DNA片段,对酶切产生的标签建库测序,即可进行甲基化位点的定性和相对定量分析。

m6A 甲基化测序(针对转录mRNA水平)分析流程[编辑]

m6A(N6-methyladenosine,6-甲基腺嘌呤)是真核生物mRNA最常见的一种转录后修饰占到RNA甲基化修饰的80%。已知绝大部分真核生物中mRNA在5' Cap处存在的甲基化修饰,作用包括维持mRNA稳定性、mRNA前体剪切、多腺苷酸化、mRNA运输与翻译起始等,而3' polyA发生的甲基化修饰有助于出核转运翻译起始以及与polyA结合蛋白一起维持mRNA的结构稳定。

目前,在全转录组范围检测m6A修饰的主流技术是MeRIP-seq(m6A-seq),该技术使用N6-甲基腺嘌呤抗体富集高甲基化的RNA片段,然后结合高通量测序,在全转录组范围检测m6A修饰。

单细胞数据分析方法与流程[编辑]

单细胞转录组数据分析[编辑]

Single cell RNA-Seq workflow

单细胞测序是指在单个细胞水平上进行测序。单细胞转录组测 序(single cell RNA Seq,scRNA-seq)是指对于单个细胞水平上 将mRNA反转录扩增后进行高通量测序的技术。

单细胞测序通过在单个细胞水平上进行测序,解决了用组织样本无法获得不同细胞间的异质性信息样本量太少无法进行常规测序的难题,为科学家研究单个细胞的行为、机制等提供了新的方向。 单细胞基因组测序主要包括四个步骤:单细胞分离→扩增→高 通量测序→数据分析

目前常规的测序主要是数百万甚至更多细胞的混合DNA样本。这种方法能 够得到基因表达信息,但是对其进行研究得到的结果只是一群细胞中信号的平 均值,或者只代表其中占优势数量的细胞信息,单个细胞独有的特性被忽视。 单细胞RNA-seq能够独立地提供每个细胞的RNA表达谱,并鉴定异质细胞 群中的稀有细胞。尽管肿瘤异质性可归因于累积突变,但即使是遗传上相同的 细胞在相同环境下也可能表现出基因和蛋白表达水平的差异,单细胞RNA-seq 就能够发现这些稀有个体。比如在肿瘤组织中,肿块中心的细胞,肿块周围的 细胞,淋巴转移灶的细胞,以及远端转移的细胞,其基因组和转录组等遗传信息,是存在差异的。

单细胞scATACseq分析[编辑]

  • Cicero:scATACseq分析(结合Monocle),cis-调控网络构建和但细胞染色体发育轨迹

单细胞甲基化分析[编辑]

单细胞分析工具汇总[编辑]

生物序列比对及典型软件的使用方法[编辑]

bwa、muscle、MUMmer,核酸、蛋白数据库介绍与blast搜索

4.基因组denovo组装分析流程:常用软件使用方法:SOAPdenovo、Canu等

5.基因组组装及基因组注释分析流程:重复序列、基因结构与功能、ncRNA、细胞器基因组注释

6.转录组组装常用软件使用方法:Trinity、Cufflinks、Tophat

7.转录组表现组的差异表达分析流程及差异表达分析软件使用方法

8.高通量数据可视化常用软件使用方法

9.分子进化分析常用软件使用方法

10.重测序变异检测与注释分析常用软件使用方法

在线综合分析工具[编辑]

生物信息的应用领域的原理、流程及常用软件[编辑]

动植物方向[编辑]

  • 1.动植物基因组学研究概论
  • 2.动植物基因组denovo组装
  • 3.动植物基因组注释
  • 4.动植物基因组比较基因组和进化分析
  • 5.动植物基因组重测序分析
  • 6.动植物基因组研究技术-RNA水平
  • 7.基于高通量测序技术的动(植)物基因组研究应用
  • 8.动(植)物基因组研究技术-表观遗传学水平

微生物方向[编辑]

  • 1.微生物基因组研究
  • 2.环境多样性研究
  • 3.宏基因组分析
  • 4.微生物经典案例分享

癌症方向[编辑]

  • 1.肿瘤基因组研究概论
  • 2.肿瘤基因组分析一:体细胞突变的寻找和归类
  • 3.肿瘤基因组分析二:转录组分析
  • 4.肿瘤基因组分析三:甲基化分析
  • 5.肿瘤的单细胞研究

复杂疾病方向[编辑]

  • 1.基于二代测序的复杂疾病分析
  • 2.外显子和目标区域测序
  • 3.GWAS基础知识介绍及案例分析
  • 4. de novo mutation的检测与分析

遗传咨询[编辑]

遗传咨询(孕前,新生儿,遗传病)