生物化学与分子生物学/疾病相关基因鉴定克隆的策略和方法

基因结构功能分析和疾病相关基因鉴定克隆 - 基因结构分析 - 基因功能研究 - 疾病相关基因鉴定和克隆原则 - 疾病相关基因鉴定克隆的策略和方法
鉴定和克隆疾病相关基因的策略和方法主要包括，不依赖染色体定位的疾病相关基因克隆策略、定位克隆法、常见病的基因需要全基因组关联分析和全外显子测序法，以及生物信息数据库贮藏丰富的疾病相关基因信息检索法。

疾病相关基因鉴定和克隆可采用不依赖染色体定位的策略

不依赖染色体定位的疾病相关基因克隆策略包括功能克隆、表型克隆及采用位点非依赖的DNA序列信息和动物模型来鉴定和克隆疾病基因。

从已知蛋白质的功能和结构出发克隆疾病基因

在掌握或部分了解基因功能产物蛋白质的基础上，鉴定蛋白质编码基因的方法，称之为功能克隆(functional cloning) 。这是相对于利用基因位置克隆基因的定位克隆而言的。该方法采用的是从蛋白质到 DNA 的研究路线，针对的是一些对影响疾病的功能蛋白具有一定了解的疾病，如血红蛋白病、苯丙酮尿症等出生缺陷引起的分子病可以采用这个方法定位和克隆疾病基因。
1、依据蛋白质的氨基酸序列信息鉴定克隆疾病相关基因 如果疾病相关的蛋白质在体内表达丰富，可分离纯化得到一定纯度的足量蛋白质，就可用质谱或化学方法进行氨基酸序列分析，获得全部或部分氨基酸序列信息。在此基础上设计寡核苷酸探针，用于筛查 cDNA 文库，可筛选出目的基因。使用这种策略时，必须考虑到密码子的简并性特点，即除了甲硫氨酸和色氨酸仅有1个密码子外，其余氨基酸均有2个或2个以上的密码子。设计探针时应尽量避开有简并密码子的区域，但实际上往往难以做到。为此可以设计1套可能含有全部简并密码子信息的寡核苷酸探针，用此混合探针去筛查 cDNA 文库，“钓出”目的基因克隆。除 cDNA 文库筛查技术外，目前还可采用部分简并混合寡核苷酸作为 PCR 引物，采用多种的 PCR 引物组合，以获得候选基因的 PCR 产物。
上述方法曾成功地用于锄状细胞贫血的基因克隆。首先，免疫电泳等方法已经显示出锦状细胞贫血病入的珠蛋白异常，获得部分氨基酸残基序列后，设计了简并寡核苷酸探针，筛选有核红细胞系的 cDNA 文库，得到了α珠蛋白基因的 cDNA，与正常人的 cDNA 比较，发现了α珠蛋白基因变异。进而找出 cDNA 探针与染色体 DNA 序列间的同源互补关系，将人的α珠蛋白基因定位于第16 号染色体上，并在此基础上，提出了分子病 (molecular disease) 的概念。
2、用蛋白质的特异性抗体鉴定疾病基因 有些疾病相关的蛋白质在体内含量很低，难以纯化得到足够纯度的蛋白质用于氨基酸序列测定。但是少量低纯度的蛋白质仍可用于免疫动物获得特异性抗体，用以鉴定基因。获得的抗体一方面可用于直接结合正在翻译过程中的新生肽链，此时会获得同时结合在核糖体上的 mRNA 分子，最终克隆未知基因；另外，特异性抗体也可用来筛查可表达的 cDNA 文库，筛选出可与该抗体反应的表达蛋白质的阳性克隆，进而可获得候选基因。
功能克隆仍然是单基因疾病基因克隆的常用策略。其缺点是特异功能蛋白质的确认、鉴定及其纯化都相当困难，微量表达的基因产物在研究中难以获得，因而几乎不能用于多基因疾病的基因分离。

从疾病的表型差异出发发现疾病相关基因

表型克隆(phenotype cloning)是疾病相关基因克隆领域中一个新的策略。该策略的原理是基于对疾病表型和基因结构或基因表达的特征联系已经有所认识的基础上来分离鉴定疾病相关基因。
依据 DNA 或 mRNA 的改变与疾病表型的关系，可有几种策略：
第一种策略是从疾病的表型出发，比较病人基因组 DNA 与正常人基因组 DNA 的不同，直接对产生变异的 DNA 片段进行克隆，而不需要基因的染色体位置或基因产物的其他信息。例如，在一些遗传性神经系统疾病中，病人基因组中含有的三联重复序列的拷贝数可发生改变，并随世代的传递而扩大，称为基因的动态突变。此时，采用基因组错配筛选(genome mismatch scanning) 、代表性差异分析(representative difference analysis, RDA)等技术即可检测病人的 DNA 是否有三联重复序列的拷贝数增加，从而确定患病原因。
第二种策略是针对已知基因。如果高度怀疑某种疾病是由于某个特殊的已知基因所致，可通过比较病人和正常对照间该基因表达的差异，来确定该基因是否为该疾病相关基因。常用分析方法有Northern 印迹法、RNA 酶保护试验、RT-PCR 及实时定量 RT-PCR 等。
第三种策略是针对未知基因的，可通过比较疾病和正常组织中的所有mRNA的表达种类和含量间的差异，从而克隆疾病相关基因。这种差异可能源于基因结构改变，也可能源于表达调控机制的改变。常用的技术有mRNA差异显示(mRNA differential display, mRNA-DD)、抑制消减杂交 (suppressive subtractive hybridization, SSH)基因表达系列分析(SAGE)、cDNA微阵列 (cDNA microarray)和基因鉴定集成法 (integrated procedure for gene identification)等。这里仅分别介绍RDA和mRNA-DD技术。
1、RDA技术是建立在核酸差异杂交基础上的PCR技术 RDA是通过对正常和疾病组织的 cDNA差异片段（即代表性片段）的扩增，从而使其被检测和捕获的技术。基本原理是，首先用PCR方法从拟比较的疾病和正常组织获得足够量的DNA或cDNA片段；然后进行差异杂交，杂交后再用不同引物进行第二次PCR反应；在第二次PCR反应中，只有两个样品中结构或表达量有差异的DNA片段可以得到扩增。
其基本步骤是：①DNA片段制备：分别提取正常人基因组DNA(检测DNA)和病人基因组DNA （驱动DNA),用限制性内切酶消化DNA,获得长度在150～lOOObp之间的片段；②获得扩增子：在两组的所有DNA片段上加上接头，以接头的互补序列为引物，进行第一步PCR扩增，所获得扩增产物称扩增子(amplicon) ; ③更换接头：切去所有扩增子的接头，仅在检测扩增子上加上新的接头；④筛选扩增产物：按 1:100 的比例混合检测扩增子和驱动扩增子，进行液相杂交。取少量杂交反应物为模板，以新的接头为引物再进行第二次PCR扩增，即可筛选出两组DNA样品间的差异片段。
检测DNA和驱动DNA间片段在第二次PCR反应中依据两者间是否有差异，主要可以出现两种情况:①两组间相同的DNA片段不会得到大量扩增。这是因为在杂交反应中，驱动DNA片段的数目远大于检测DNA,将优先结合检测DNA,使得检测DNA分子间几乎没有机会形成同源复性双链。因此，利用新接头进行的二次PCR反应过程将不会有扩增产物。②两者的差异片段可得到扩增。如果检测DNA中存在的某一片段在驱动DNA中缺失，或由于突变而失去了互补结合能力，在杂交反应中就不存在来自驱动DNA中的同源片段的竞争，检测DNA自身可以发生复性，且由于复性的双链DNA两端都具有新接头，因而可以实现PCR 的大量扩增。该片段即为候选的疾病相关DNA序列。虽然反应中无差异片段还会存在一些被扩增的可能，但产物量较小，可以被排除。
RDA也可用于mRNA差异表达基因的克隆，只是需要先将mRNA逆转录成 cDNA片段。RDA技术对正常和异常的DNA片段区分能力强、富集效率高、对起始材料要求低，利用 RDA人们已经发现了多个疾病相关新基因。
2、mRNA-DD是RT-PCR技术和聚丙烯酰胺凝胶电泳技术的结合 mRNA-DD又称为差异显示逆转录PCR(mRNA differential display reverse transcription PCR, DDRT-PCR)方法。该法利用可以扩增所有哺乳类生物 mRNA 的几条 5'-端随机引物和几条 3'-端铀定引物组合，用 PCR 的方法扩增正常人和患病个体的相应组织的 cDNA。用聚丙烯酰胺凝胶电泳分离扩增产物，比较两组间产物的差异。依据理论计算，该方法所设计的组合引物可以与所有 mRNA 的 poly(A) 尾匹配，因而对于种类和含量相同的cDNA样品，PCR产物的种类多少和分布应该是完全一样的。如果在正常和病人的cDNA标本中扩增出一些不同长度的cDNA片段，它们所代表的cDNA就有可能与疾病状态相关。这一方法的优点在于所需 mRNA 量少、较快速、可同时显示多种生物性状的差异、可同时获得高表达和低表达的基因等。这种方法同时也存在许多严重的缺陷，如假阳性率高达70%、获得的片段太短等，很难直接判断其功能和意义。尽管有上述缺陷，但因其步骤较简单，可获得较大量信息，在实际工作中该法应用仍较多。

采用动物模型鉴定克隆疾病相关基因

人类的部分疾病，已经有相应的动物模型。如果动物某种表型的突变基因定位于染色体的某一部位，而具有相似人类疾病表型的基因很有可能存在于人染色体的同源部位。另外，当疾病基因在动物模型上已完成鉴定，还可以采用荧光原位杂交来定位分离人的同源基因。肥胖相关的瘦蛋白（leptin）基因的克隆就是一个成功例证。利用突变的肥胖近交系小鼠通过定位克隆分离得到了位于小鼠6号染色体的瘦蛋白基因，依据小鼠瘦蛋白基因侧翼标记，将人的瘦蛋白基因定位于人染色体7q31区。小鼠和人的瘦蛋白基因有84%的同源性，编码167个氨基酸残基的分泌性蛋白——瘦蛋白，其主要功能是控制食物的摄入，促进能量的消耗。肥胖小鼠和一些遗传性肥胖症病人均具有该基因的缺损，导致基因功能丧失。

定位克隆是鉴定疾病相关基因的经典方法

仅根据疾病基因在染色体上的大体位置，鉴定克隆疾病相关基因，称之为定位克隆(positional cloning)。定位克隆的起点是基因定位，即确定疾病相关基因在染色体上的位置，然后根据这一位置信息，应用 DNA 标记将经典的遗传学信息转换为遗传标记所代表的特定基因组区域，再以相关基因组区域的相连重叠群(contig)筛选候选基因，最后比较病人和正常人这些基因的差异，确定基因和疾病的关系。人类基因组计划后所进行的定位候选克隆，是将疾病相关位点定位于某一染色体区域后，根据该区域的基因、EST或模式生物对应的同源区的已知基因等有关信息，直接进行基因突变筛查，通过多次重复，最终确定疾病相关基因。

基因定位的方法有多种

基因定位(gene location) 是基因分离和克隆的基础，目的是确定基因在染色体的位置以及基因在染色体上的线性排列顺序和距离。可从家系分析、细胞、染色体和分子水平等几个层次进行基因定位，由于使用手段的不同可派生出多种方法，不同方法又可联合使用，相互补充。
1、体细胞杂交法通过融合细胞的筛查定位基因 体细胞杂交 (somatic cell hybridization) 又称细胞融合(cell fusion), 是将来源不同的两种细胞融合成一个新细胞。大多数体细胞杂交是用人的细胞与小鼠、大鼠或仓鼠的体细胞进行杂交。这种新产生的融合细胞称为杂种细胞(hybrid cell), 含有双亲不同的染色体。杂种细胞有一个重要的特点是在其繁殖传代过程中出现保留啮齿类一方染色体而人类染色体逐渐丢失，最后只剩一条或几条，其原因至今不明。Miller 等运用体细胞杂交，结合杂种细胞的特征，证明杂种细胞的存活需要胸苷激酶 (thymidine kinase, TK) 。含有人的第17号染色体的杂种细胞在特殊的培养基中，都因有 TK 活性而存活，反之则死亡，从而推断 TK 基因定位于第17 号染色体上。利用这一方法定位了许多人的基因。肿瘤抑制基因也是应用体细胞杂交技术而被发现的。
2、染色体原位杂交是在细胞水平定位基因的常用方法 染色体原位杂交(chromosome in situ hybridization) 是核酸分子杂交技术在基因定位中的应用，也是一种直接进行基因定位的方法。其主要步骤是获得组织培养的分裂中期细胞，将染色体 DNA 变性，与带有标记的互补 DNA 探针杂交，显影后可将基因定位于某染色体及染色体的某一区段。如果用荧光染料标记探针，即为荧光原位杂交 (fluorescence in situ hybridization, FISH)。1978 年首次用α及β珠蛋白基因的 cDNA 为探针，与各种不同的人/鼠杂种细胞进行杂交，从而将人α及β珠蛋白基因分别定位于第16号和第11号染色体上。这种染色体原位杂交技术特别适用于那些不转录的重复序列，这些重复序列很难用其他方法进行基因定位。如利用原位杂交技术将卫星 DNA 定位于染色体的着丝粒和端粒附近。
3、染色体异常有时可提供疾病基因定位的替代方法 从基因定位克隆的角度来看，对于任何已知与染色体异常(chromosome abnormalities) 直接相关的疾病来说，染色体的异常本身就成为疾病定位基因克隆的一个绝好的位置信息。染色体的异常有时可替代连锁分析，用于定位疾病基因。在一些散发性、严重的显性遗传病，染色体变异分析是获得候选基因的唯一方法。有时可直接获得基因的正确位置，而无需进行连锁分析，例如染色体的平衡易位和倒位等。诸如多囊肾、巨肠症、假肥大型肌营养不良基因的定位在很大程度上借助于染色体的异常核型表现。
如果细胞学观察的染色体异常与某一基因所表达的异常同时出现，即可将该基因定位于这一染色体的异常区域内。例如对一具有6号染色体臂间倒位的家系分析表现，凡是有此倒位者，同时也都有某一HLA 等位基因的表达；而家族中无此倒位者，也无该等位基因的表达，因此将该HLA 基因定于6号染色体短臂的远侧区。
染色体非整倍体分析中，可通过基因剂量法进行基因定位。在 Down 综合征（核型47,+21)的病人中过氧化物歧化酶-1的活性比正常人高1.5倍，因此将该酶基因定位于21号染色体上。但是并非所有基因的拷贝数都有明显的剂量效应作用。
4、连锁分析是定位疾病未知基因的常用方法 基因定位的连锁分析(linkage analysis) 是根据基因在染色体上呈直线排列，不同基因相互连锁成连锁群的原理，即应用被定位的基因与同一染色体上另一基因或遗传标记相连锁的特点进行定位。如果待定基因与标记基因呈连锁遗传，即可推断待定基因与标记基因处于同一染色体上，并且依据和多个标记基因连锁的程度（用两者间的重组率度量），可确定待定基因在染色体的排列顺序以及和标记基因间的遗传距离（用 cM表示）。例如已知血型基因 Xs 定位于X染色体上，普通鱼鳞病和眼白化病基因与其连锁，因此判定这两个基因也在X染色体上，计算病人子代的重组率，即可确定这些基因间的相对距离。

定位克隆疾病相关基因的过程包括三大步骤

定位克隆疾病相关基因是鉴定遗传性疾病基因的主要手段，在早期的疾病基因鉴定工作中发挥了不可替代的作用，也获得了巨大的成功。随着人类基因组计划的完成，采用定位克隆疾病基因的方法，更加容易实施，其主要的过程包括三个步骤。

尽可能缩小染色体上的候选区域 定位克隆疾病基因困难的大小取决于染色体候选区域的宽窄。为此要尽可能地缩小疾病相关基因在染色体上的候选区域。在单基因疾病基因的遗传制图时，需要选择更多的遗传标记，找出遗传距离最近的标记，增加更多的家系、建立所有个体的单倍体型等，以增加发现重组机会，结合寻找更多连锁不平衡，精确疾病相关基因的候选区域。
构建目的区域的基因列表 由于人类基因组计划的完成，各种 DNA 分子水平上物理图谱的建立，已经使得疾病相关基因的克隆变得较为容易。现在已无需建立 DNA 重叠群，直接使用人类基因组的数据库，如基因组阅览器Ensembl (http://www.ensemble.org) 或者 the Santa Cruz阅览器 (http://genome.cse.ucsc.edu) 就可直接显示候选区域已肯定或可能的基因，但也不能完全依赖这些信息，要仔细检查重叠的拼装是否正确。当然，还要结合 ENCODE 计划的结果、非编码序列、选择性转录本等表达谱，获得更多候选区域的基因信息。
候选区域优先考虑基因的选择及突变检测 为了鉴定突变，对无血缘关系的病人要进行 DNA 测序。可以测定候选区域所有的外显子，也可测定优先考虑基因的外显子，取决于研究策略、人力和财力的投入。可根据下列清况考虑该基因为优先考虑的基因：①合适的表达：一个好的候选基因的表达模式应该和疾病表型相一致，该基因不一定特征性表达于病变组织，但至少在疾病发生前或发生时，疾病组织表达该基因，如神经管缺损的基因应该在神经管闭锁前，即人胚胎发育的3～4周表达。②合适的功能：候选区域的基因功能，如果已知，就易于作出决定。如 fibrillin 和结缔组织疾病 Marfan综合征的关系。一个新基因序列的分析提示有某种功能，如有跨膜基序或酪氨酸激酶基序等，就可和疾病的发病机制联系起来，作出判断。③同源性和功能关系：如果候选区域一个基因和已知的基因同源，不管是与人的间接同源(paralog) , 还是与其他种的直接同源(ortholog) , 而且也知道同源基因突变引起的相类似表型，该基因就有可能是疾病基因。候选基因的确定也可基于密切的功能关系，如受体和配体的关系，同一代谢或发育途径的组分等。近年来，对模式生物基因功能的认识，更多的同源基因的表型被鉴定，极大地促进了人类致病基因的鉴定克隆工作。

假肥大型肌营养不良基因的克隆是定位克隆的成功例证

采用定位克隆策略鉴定的第一个疾病相关基因是X连锁慢性肉芽肿病基因。而假肥大型肌营养不良(Duchenne muscular dystrophy, DMD)基因的成功克隆，更彰显了基因定位克隆的优势。这项工作主要分两个阶段。首先，根据患病女性 X 染色体与第 21 号常染色体的易位，以及男患儿发生小的Xp21.2 缺失并伴发三种其他 X 连锁隐性遗传病，再运用 RFLP 连锁分析将 DMD 基因定位于 Xp21。然后，分别克隆得到了基因的2个不同的片段，分别命名为XJ系列探针和 pERT87 系列探针，根据两片段的比较，证明 DMD 基因约为 2300kb, 占 X 染色体的 1% 以上，该基因编码肌营养不良蛋白 (dystrophin) , 影响横纹肌和心肌的结构和收缩功能。

确定常见病的基因需要全基因组关联分析和全外显子测序

基因连锁分析在定位克隆遗传性疾病的基因取得了成功，尽管鉴定复杂性疾病的易感基因采用了如罹患姊妹对(affected sib pair，ASP)分析方法，也取得一些成功的例子，但总体来说，并不理想。从 2005 年以来，基于连锁不平衡(linkage disequilibrium) 理论发展而来的全基因组关联研究 (genome-wide association study, GWAS), 在复杂疾病的基因定位克隆中，发挥了巨大的作用。 GWAS方法是一种在无假说驱动的条件下，通过扫描整个基因组观察基因与疾病表型之间关联的研究手段。具体操作中，通常收集成千上万个病人和对照的 DNA 标本，利用高通量芯片进行 SNP 的基因定型，进一步通过统计学分析，确定分子 SNP 位点和疾病表型的关系。该方法已成功鉴定了常见多发病的多种基因位点，不仅有效简化了常见病的相关基因鉴定过程，而且为研究疾病的发病机制和干预靶点提供了极有价值的信息。不过该技术对研究团队的经济实力，合作性，生物信息学水平以及庞大假阳性数据排查能力都有很高的要求，且只涉及常见等位基因的变异。
全外显子测序(whole exon sequencing)技术则可对全基因组外显子区域 DNA 富集从而进行高通量测序，它选择性地检测蛋白质编码序列，可实现定位克隆，对常见和罕见的基因变异都具有较高灵敏度，仅对约1%的基因组片段进行测序就可覆盖外显子绝大部分疾病相关基因变异，其高的性价比使其在复杂疾病易感基因的研究中颇受推崇。

生物信息数据库贮藏丰富的疾病相关基因信息

人类基因组计划和多种模式生物基因组测序的完成，生物信息学的发展，计算机软件的开发应用和互联网的普及，人们通过已获得的序列与数据库中核酸序列及蛋白质序列进行同源性比较，或对数据库中不同物种间的序列比较分析、拼接，预测新的全长基因等，进而通过实验证实，从组织细胞中克隆该基因，这就是所谓的电子克隆(in silica cloning)。
人类新基因克隆大都是从同源 EST 分析开始的。应用同源比较，在人类 EST 数据库中，识别和拼接与已知基因高度同源的人类新基因的方法包括：①以已知基因 cDNA 序列对 EST 数据库进行搜索分析，即 BLAST(Basic Local Alignment Search Tool), 找出与已知基因 cDNA 序列高度同源的 EST；②用Seqlab 的 Fragment Assembly 软件构建重叠群，并找出重叠的一致序列；③比较各重叠群的一致序列与已知基因的关系；④对编码区蛋白质序列进行比较，并与已知基因的蛋白质的功能域进行比较分析，推测新基因的功能；⑤用新基因序列或 EST 序列对序列标签位点(sequence-tagged site, STS)数据库进行 BLAST 分析，如果某一 EST(非重复序列）与某一种 STS 有重叠，那么，STS 的定位即确定了新基因的定位。电子克隆充分利用网络资源，可大大提高克隆新基因的速度和效率。由于数据库的不完善、错误信息的存在及分析软件的缺陷，电子克隆往往难以真正地克隆基因，而是一种电子辅助克隆。