重庆医科大学汪凯的科学博客分享 http://blog.sciencenet.cn/u/Kwang02 重医感染性疾病分子生物学教育部重点实验室——汪凯的个人主页

博文

引物和探针的设计原则及技巧

已有 1983 次阅读 2023-12-19 13:16 |系统分类:科研笔记

    引物和探针的核苷酸序列至关重要,因为目标识别和后续步骤是通过杂交过程启动的。平均而言,引物的长度为19~25个核苷酸。引物可以在每个需要的位置上进行标记,例如用荧光素或生物素。另外,长度相当的探针,无论是否标记,都可以用化学方法合成。

1、引物设计

引物在诊断学中主要用于扩增技术、cDNA合成、第二代测序和某些微阵列技术。只有PCR使用引物对组合,即两个可以在目标上下游退火的引物。这样,合成的核酸的大小就被确定了。可以使用以下引物的变体:

➤  独特的引物使用独特的序列识别某个目标,在基因组或基因表达产物的其他位点上没有出现过。独特引物可用于PCR、测序和cDNA合成。独特引物可分为两类;完全匹配的引物和不匹配到一定程度的引物。后者可以专门设计,例如区分野生型和突变型基因组(错配鉴别)或能够检测一个(亚)物种或更高层次如家族的基因型中出现的一个或多个SNPs(错配耐受)。由于SNPs可以在复制过程中从新形成,特定的引物会失去其独特性。3′末端或附近的错配将在PCR中产生假阴性。

➤  非唯一引物可用于各种类型。重复引物粘附在多个位点上。突出的目标序列是微卫星,如(CACA)n-repeat、UTR或RE位点。Oligo-dT-引物用于真核生物的cDNA合成。这些引物与真核生物mRNA的3′-聚A-序列杂交。随机六聚体是用于cDNA合成、「缺口」翻译和微阵列的比较基因组杂交的通用引物。

➤  特殊引物,主要是独特引物的变体,在设计独特的引物时,世界范围内可用的数据库,主要是GenBank,和搜索工具(例如BLAST-基本局部比对搜索工具)是必不可少的资源。现在,越来越多的物种、基因型、甚至个体基因组的完整序列都是已知的。

对于开发新的诊断性PCR,诊断问题的定义是至关重要的:

➤   需要识别哪个目标?

➤   目标是一个基因、一个非编码片段、一个特定的突变甚至是一个易位?

➤   是想识别一个病原体、一个抗性基因还是一组相关病毒的毒力因子?

➤   是否需要确定一个肿瘤的表型或基因型或一个偏离的甲基化?

    对于所有这些目标,重要的是至少要知道独特引物退火点的序列。随后,重要的是了解目标的性质,包括开放阅读框架(ORFs)的存在、组成(GC含量、保守片段的存在(有少量碱基变化)、二级结构和限制位点)、遗传(进化)稳定性,以及与突出序列的同源性,最好是BLAST控制。

   随后,可以使用特定的(免费)(基于网络的)软件工具选择引物。更复杂的软件工具可在市场上买到,一般来说,不基于网络。

2、引物设计原则

    独特的引物需要根据一些标准来设计,这些标准涉及引物的统一性、杂交条件下的线性、与目标物杂交时的稳定性、减少合成非特异性产物的变化等。许多这些标准被纳入独立的或在线的软件中;当引物不理想时给予惩罚,或对最佳引物给予高分。在此,以下要求是非常重要的:

➤  引物内没有碱基配对(引物在杂交过程中是「开放卷曲」的)。

➤  没有GC-, GG-或CC-重复。

➤  应避免有超过3个相同碱基的重复(同聚物运行)。

➤  与3′端部的目标完美匹配。

➤  一个最佳的引物序列包含分布良好的核苷酸;即在位置和类型上都是如此。

➤  应防止正向引物和反向引物之间因互补碱基而杂交形成双联,特别是不应该有3′互补(图3a)。DNA聚合酶将产生引物二聚体,也被称为自体二聚体或交叉二聚体,从两个引物甚至小的双联区的3′-OH末端开始。即使没有3′-互补性,在反应物的不利比例下,如没有目标,也可能形成二聚体(图3b)。由于引物内其他核苷酸位置的互补性,引物之间的碱基配对也必须避免,因为这也可能导致引物二聚体的尺寸较小,熔化温度较低。虽然引物二聚体很容易被识别,但特异性扩增的效率会降低。

➤  Tm值需要相似;最好在60℃左右,不低于56℃。

➤  引物的GC含量最好保持在45%以下,但应与完整的目标序列保持一致。

➤  优选的是,引物序列由分布广泛的核苷酸组成,并避免同聚物的运行。

➤  目标的引物退火位点必须是可接触的,最好不要位于稳定的发夹内。

➤  引物序列的理想长度为18-25个核苷酸,与所需的Tm和特异性有关。当使用LNA核苷酸或MGB时,要求的长度可能短至12个核苷酸。

➤  对于某些DNA,有可能设计出与两个连续外显子退火的引物,以防止与含有内含子序列的基因组DNA杂交。在这种策略中,基于内含子序列的引物设计是检测基因组目标的一种选择。然而,对假基因的鉴别是不可能的。由于许多细菌和线粒体DNA缺乏内含子,因此不可能设计出跨越内含子的引物。

➤  一对引物必须对其互补的目标序列有相当的亲和力(即Tm)。这将促进聚合过程中生长的新DNA链的稳定性。

➤  当测试样品含有目标DNA时,设计的引物需要产生正确长度的扩增物,而在非目标DNA样品中,不应该形成扩增物。

➤  探针检测中使用的引物对的Tm需要与探针的Tm一致,例如水解探针要低5-10℃(见第3.6.1节)。

➤  离子强度(Na+;Mg2+)、缓冲液(容量)、寡聚物的浓度以及如果有的话,PCR混合物中的DMSO必须作为新引物设计的参数。

如果在某些位置可能出现错配,可以将错配容忍度作为引物设计的标准。

一般来说,引物被设计成与目标序列上的互补碱基完全杂交。 


3、探针设计原则

    探针需要与一个互补的目标序列进行唯一的杂交。探针所针对的序列取决于(诊断)问题。例如,需要检测的是什么?为什么?检测的结果意味着什么?是基因组DNA、mRNA或rRNA还是具有诊断作用的miRNA之一?探针的大小和类型以及相应的杂交方法都存在很大的差异。

    每种变体都是可能的;双链和单链的DNA或RNA探针,可以与DNA或RNA杂交。这意味着DNA:DNA、

DNA:RNA或RNA。RNA的组合可能发生。根据GC比率的不同,形成稳定的杂交体所需的最小长度是13-20个核苷酸。理论上,没有设定最大长度;有时,大于400个碱基的探针会被分解。

    一般来说,反应条件要根据每个特定的探针-目标组合以及反应发生的基质来调整。需要在大小、核苷酸序列和目标物浓度,以及产生足够信号所需的探针量之间取得平衡。

   探针的杂交能力描述了探针与目标结合的能量。简而言之,两个互补的(多/寡)核苷酸链内和之间的所有非共价相互作用的总和表示为ΔG(吉布斯自由能),单位为kcal/mol。这个数值越负,探针与目标的结合就越强。

   正值表示需要添加能量,不会自发发生反应。促进探针杂交能力的因素是探针的G/C含量和大小。富含A/T的寡头探针将更容易从其目标上解离。最好是探针的G/C含量与目标序列周围的区域相似,特别是在基于探针的PCR中。

    如前所述,对探针的最大长度没有限制。在分子诊断中,探针用于鉴定原始或纯化的样品、细胞或组织样品中的目标DNA,无论是否在扩增目标(s)之后。用于PCR的探针的正常长度约为15-30bp。

  如果在PCR反应中使用,这些探针通过杂交确认扩增物的存在。特别是,实时PCR的引入导致了水解探针、「双」探针和分子信标的大规模使用,成为确认扩增物身份的重要工具。这尤其适用于微生物学和突变检测研究。

   适用于筛选DNA数据库和染色体分析的探针可能有数千个核苷酸长。几乎在所有情况下,碱基序列都需要知道。然而,「全染色体」杂交、SNP阵列或比较染色体杂交(CGH)则不需要。当序列已知时,探针的设计与引物的设计是相同的。


一般来说,PCR引物设计需要遵循以下原则:

1. 引物的长度一般为15-30 bp,常用的是18-27 bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适于Taq DNA聚合酶进行反应。

2. 引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发机率增加。

3. 引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基A。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。

4. 引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。

5. 引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有多种方法,如按公式Tm=4(G+C)+2(A+T)。

6. ΔG值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端ΔG值较低(绝对值不超过9),而5’端和中间ΔG值相对较高的引物。引物的3’端的ΔG值过高,容易在错配位点形成双链结构并引发DNA聚合反应。

7. 引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。

8. 对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。

    但是在实际设计过程中,往往很难同时满足以上条件,因此只需要在设计引物时尽可能满足即可,没必要太过纠结。

    同时需要注意,各种模板的引物设计难度不一,具体情况需要具体看待。有的模板本身GC含量偏高或偏低,导致找不到各种指标都十分合适的引物;在用作克隆目的的PCR因为产物序列相对固定,引物设计的选择自由度较低。在这种情况只能退而求其次,尽量去满足条件。


实时荧光定量qPCR引物设计

Q:qPCR引物设计的问题点:

A:SYBR Green与双链DNA结合后会产生荧光,如果反应体系中有非特异性扩增或者引物二聚体存在,也将被检测到,导致实验结果的不准确。

因此设计合适的qPCR引物就很关键。

qPCR引物设计的一般原则:

引物应在核酸系列保守区内设计并具有特异性。

扩增产物长度在80-150 bp。最长不要超过300 bp。

产物不能形成二级结构。

引物长度:一般在17-25碱基之间,上下游引物不宜相差太大。

引物自身避免形成发卡结构。

引物之间避免形成引物二聚体。

引物 G+C含量在40%~60%之间,45-55%最好。

引物Tm值在58-62度之间,上下游引物Tm值不宜相差太大,最好不要超过5度。

其实这里qPCR引物的设计和常规PCR的设计也是大同小异。和常规引物设计一样,并不能死磕原则,灵活选择更为重要。


——基因启动子序列查询网站:
https://epd.epfl.ch 
https://epd.expasy.org/epd 

This resource allows the access to several databases of experimentally validated promoters: EPD and EPDnew databases. They differ by the validation technique used and the coverage. EPD is a collection of eukaryotic promoters derived from published articles. Instead, the EPDnew databases (HT-EPD) are the result of merging EPD promoters whith in-house analysis of promoter-specific high-throughput data for selected organisms only. This process gives EPDnew high precision and high coverage.

—— ChIP qPCR引物设计原则 ——

问:要设计PCR引物检测富集的DNA片段的话,引物设计在转录起始位点上游多少范围合适?

答:一般是在上下游100-150个碱基左右设计pcr引物的,不知道你这个和别的pcr引物有什么不同,你也可以自己适当加减一些试试,看看下面的那些值,比如是否形成二聚体了,错配等等。

问:已知序列,预测到某个转录因子,ChIP中PCR引物如何设计? 是否根据已知序列转录因子结合位点两端设计引物,还是只要接近该位点都行?

答:不需要那么精确的,首先你要找到目的基因启动子区,也就是转录起始位点上游2000bp以内(也有说1000bp以内的),理论上说,转录因子就是结合在这段序列上的,,然后你在这段序列上设计引物,你可以在不同位置设计3、4对引物,产物的长度不要太大,基本上是设计在转录因子结合位点两端,长度大概在100-200bp左右。

—— 引物设计技巧——

1. TF结合的区域通常是启动子,UTR这些A/T比例比较高的区域,因而如果设计出来的引物Tm值略低,也是正常的,只要可以保证引物的特异性,不必强求退火温度比Tm低5度。

2. qPCR的产物长度一般不要太长,80-150bp就可以,因为在ChIP实验中染色质被片段化,你的PCR扩增的片段越长,这段DNA被打断的可能性就越大,丢失的信息也就越多。

3. 在使用珍贵的ChIP样品前,先用genomic DNA做个qPCR来检验引物的效率和特异性吧。

1、引物/探针的设计

最佳的引物和探针设计是开发可靠PCR的最关键步骤之一。最初,设计是手工进行的。目前,使用的是基于网络的免费软件或商业化的软件。过去制定的准则仍然适用,但它们被更新为现代的见解,并被纳入目前的工具中。

因此,可以根据各种参数计算出特定目标序列的最佳引物-探针组合。对目标序列的良好特异性是至关重要的,可以用核苷酸BLAST(基本局部比对搜索工具,NCBI网站)来定义。

每个工具都有自己的策略,但与此同时,自由能(DG)总是被用来评估引物、探针和目标物内部和之间所有可能的相互作用。如果相互作用,即碱基配对,是非常可行的,自由能将导致一个负值。

DG值越负,相互作用的风险越高,由于引物二聚体或探针与引物和/或目标物之间的杂交,PCR反应的效率就越低。

多重PCR策略中引物/探针设计的软件包也可以使用,如AlleID®和Beacon Designer™,或免费工具Multiplex 2.1。大多数引物和探针是用Primer3或Primer3Plus设计的,这是互联网上的一个用户友好界面。获得引物/探针序列后,需要通过核苷酸BLAST检查数据库中的唯一性。

互联网上有各种指导性、教育性的文本,例如,成功的qPCR实验的步骤,讨论引物设计的连续步骤[8]或设计PCR引物和探针,侧重于正确的标准。

2、引物/探针设计的挑战

2.1、引物/探针序列中的错配对使用(RT)-qPCR进行定量分析的影响

尽管在设计独特的引物时,要求引物与目标物之间完全匹配,但这两者之间的错配可能是目标物本身的固有属性,在某些情况下是不可避免的。因此,重要的是要知道哪些错配是可以预期的,它们对(q)PCR和反应效率的潜在影响是什么。换句话说,要知道哪些错配是可以容忍的(错配容忍度),哪些错配会损害qPCR。

错配耐受性在qPCR设计中是众所周知的,用于检测非100%保守的目标,如(RNA)病毒及其各种亚型(如甲型和乙型肝炎病毒,流感病毒),白血病细胞和携带SNP的目标。

另一方面,引物、探针和目标序列之间的这些错配可以旨在区分人群中的遗传变体(错配识别;即突变、SNP或遗传变体)。此后,将讨论这两种情况。

2.2、错配容忍度

错配容忍度是引物设计的一个问题。在某些情况下,可能无法找到100%的保守区域来设计引物和探针。尽管位置不同,引物和目标序列之间的每一个错配都会导致Tm的降低。取决于所涉及的碱基(AT或GC),引物的Tm可能会降低数度,同时降低旨在完全匹配的循环方案中的qPCR效率。

考虑到陡峭的熔解曲线,只要错配不在引物的3′端,Tm下降几℃仍然可以进行qPCR。例如,如果引物的Tm是72℃,退火温度是62℃,那么引物序列中大约2-3个错位不会影响扩增本身,但动态反应平衡会变差,导致效率降低(引物设计程序可以用来计算Tm相对于目标的降低)。

这种降低的Tm可以接受,不需要额外的措施。然而,有几种改进是可能的。一种是在引物的5′端增加几个匹配的核苷酸,这将提高Tm值;另一种是在错配位置设计带有碱基变体的混合引物。

最后,可以通过增加浓度来推动反应平衡,使之与引物结合,仔细滴定以避免产生不必要的PCR产物。

如前所述,在PCR反应中,引物序列3′端的错配比5′端的错配更难容忍。用十倍稀释系列的校准曲线与许多可能的引物错配进行的模型研究显示了量化参数的明显差异。例如,一个单一的G-A错配(引物序列中的G残基与目标序列中的C残基相对应)对引物的3′端位置有3log10的欠定量影响,只要qPCR能够运行。

如果G-A错配位于第二个位置,将发现大约2log10的定量不足。当第三个位置可以出现1log10的影响时,引物序列的第5位几乎没有任何影响。一些错配也可分为高影响或低影响的错配。

A-C、C-A、T-G和G-T错配几乎没有任何影响,甚至在引物的远3′位也没有影响(定量下的2至4倍)。然而,T-C、C-T和T-T对PCR的效率有很大的影响(在引物的3′端位置上是定量的10至30倍)。A-A、C-C、G-G、G-A和A-G错配确实对PCR效率有最大的影响(在PCR反应中对目标的定量不足100倍以上)。

由于在RNA病毒中观察到的遗传变异性造成了引物设计上的问题,现有的引物集可能会遗漏新的变体。因此,必须定期对照基因组数据库检查引物(核苷酸BLAST),如果有新的基因型公布,而目前的引物又不能检测到,则要对其进行修正。

如果在一步RT-qPCR中使用耐错配的基因特异性引物,同样的错配会损害逆转录酶步骤的效率。不同的反应类型(一步/两步方案)和酶都有自己的技术挑战,特别是当目标的基因变异可以预期时。

检测RNA病毒的分子诊断通常使用MuMLV逆转录酶衍生物在大约48℃下进行一步RT-qPCR反应,特定的qPCR-primers作为RT反应的起点,Taq-DNA聚合酶作为PCR酶。值得注意的是,cDNA的合成是单向的,以RNA链为模板进行。

参考原始的DNA-模板链(如mRNA检测中的情况),RT反应因此只需要相应的反义/反向引物。反向引物中的错配也会影响RT反应的效率。尽管RT反应中较低的退火温度会补偿不严格的匹配,但cDNA合成的效果可能会降低。

然而,即使是反向引物序列远3′端位置的双错配也会被MuMLV以合理的方式延长。在这种低温下,对PCR本身影响最大的3′-C-C错配对逆转录几乎没有任何影响。

虽然在整个反应混合物中存在,但正向引物并不参与cDNA的合成,有义/正向引物中的3'-C-C错配只会与PCR反应本身不相容。当AMV衍生物(RT反应在55℃)用于反转录酶步骤时,反转录更加严格,反转录引物中的错配将对RT-qPCR结果产生更大影响。

其他规则适用于rTtH,一种具有RNA依赖性DNA聚合酶活性的热稳定DNA聚合酶,可以在60-62℃的单一温度下用于一步RT-qPCR反应。因此,与MuMLV相反,反向引物中的错配对Taq DNA聚合酶的PCR效率有很大影响,也会影响Tth的反转录酶步骤。在这种情况下,(基因)特异性引物的严格规则与引物设计一样适用。

使用随机六聚体启动逆转录酶反应的两步RT-qPCR超越了基因特异性引物的错配问题,但PCR反应本身仍然受到影响。

2.3、错位歧视

错配鉴别意味着(q)PCR反应检测基因变异(如SNP)的能力,并且与诸如识别遗传性疾病或变异的病毒和细菌基因组有关。

用分子诊断法准确确定这些碱基变异是非常重要的。引起感染的病毒或细菌中存在的一个单一突变可能导致抗病毒或抗菌的耐药性,或成为血红蛋白病的原因(如镰状细胞病和ß-地中海贫血)或药物的不同代谢。

传统的Sanger测序是一种相当缓慢的、劳动密集型的和昂贵的方法,此外还相当不敏感。一个突变应该存在于20%以上的人群中,才能达到常规Sanger测序的检测水平。

为了通过PCR检测目标的点突变,错配必须位于引物的远3′端。如前所述,这并不总是可能的,而且分辨力也不总是100%。一般来说,用RFLP或PCR-RFLP检测突变是比较敏感的,但非常耗费人力和时间。因此,这些技术不适合用于诊断目的。

RT-qPCR使用特殊的探针来检测特定的变异。分子信标、MGB/LNA探针和双探针是一般用于检测错配的探针。

分子信标是具有茎环结构的寡核苷酸。当环与同源目标退火时,茎会展开,从而增加报道者和猝灭者之间的距离,停止FRET-猝灭。一个分子信标可以识别一个单碱基突变。

水解探针如果在RT-qPCR的退火阶段与目标杂交,将在延伸阶段被DNA聚合酶的5-3′外切酶活性水解(见图3.23)。一般来说,对于正常水解探针的长度来说,需要三个突变来区分错配。

Minor Groove Binding(MGB)探针是带有3′-prime bond二氢环吡咯三肽的水解探针。这将增加探针与目标DNA螺旋结构的小沟的亲和力,允许减少探针的长度。因此,突变的影响比正常长度的水解探针要大得多,它可以将鉴别力提高到小于3个突变的程度。锁定核酸(LNA)探针也有这个原理。

LNA是RNA,其核糖部分的2′-O和4′-C相互连接,改变构象。LNA的特定定位将增加探针的亲和力,因此,LNA探针可以比正常的水解探针短得多。与MGB探针一样,突变对探针的亲和力有很大影响。

MGB和LNA探针可被设计用于RT-qPCR,以识别仅存在于1-5%人群中的变异体,其灵敏度与正常水解探针检测相同(取决于程序,最高可达20-500拷贝/mL)。

双探针被设计用来检测目标物中间的一个单碱基错配。两个探针串联杂交,而下游的探针在3′端有一个野生型或错配的碱基。


其他工具:

【分子生物学工具网址】氨基酸密码子优化等工具网站推荐:

https://blog.sciencenet.cn/blog-446272-1322620.html 




https://m.sciencenet.cn/blog-446272-1414476.html

上一篇:虎头岩公园夜晚的红叶
下一篇:Cancer Research:天津医科大学牛瑞芳/张飞团队发现果糖促进胰腺癌进展的分子机制

5 宁利中 郑永军 杨正瓴 孙颉 谢钢

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-8 17:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部