lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

第二代测序技术原理精讲

已有 5600 次阅读 2022-11-25 18:57 |系统分类:科研笔记


(一)   文库(library)构建

1.       末端修复(3‘末端添加碱基A)

建库第一步是使用Taq聚合酶补齐不平的断裂末端,并在两个末端添加突出的碱基A,从而产生粘性末端(若使用Taq酶扩增,则无需末端修饰),产生粘性末端的片段可以添加接头(adaptor)。

2.       添加接头

经过末端修饰后的PCR片段末端具有突出的A尾,而接头具有突出的T尾,可以使用连接酶将接头添加到DNA片段两端。

adaptor含有碱基U连接的环状结构。还需要将碱基U删除从而形成“Y”形接头。每一端接头是两条不互补的序列(每一端都是Rd1 SP与Rd2 SP交错)。

3.       磁珠纯化

添加接头后的文库体系中含有聚合酶、连接酶等各种酶以及辅助物质,接头的添加也是过量的,而且由于末端的不稳定性,容易形成自连片段,鸟枪法打断的片段中也可能有大片段存在,所以需要特殊磁珠(AMPure XP Beads)纯化来去除大片段以及各种杂质,从而获得成功添加接头的文库片段。其原理为磁珠可以通过氢键等作用力来吸附DNA片段,磁珠本身不具有片段大小选择的能力,但其储存的buffer里面含有20%的PEG 8000,PEG浓度越大则可以吸附的DNA片段越小。因此磁珠纯化的时候要根据文库片段不同严格控制磁珠添加量(其实是PEG添加量)来实现片段选择。

4.       PCR扩增

添加了接头的DNA片段,可以使用与接头互补的引物来扩增。这个过程非常重要,因为目前所有片段其两端是不互补的Y形结构,不能直接进行测序;此外,片段还需要添加用于区分不同文库的特异性index,以及与测序仪芯片互补的两种寡核苷酸序列(P5/P7)。

5.       第二次磁珠纯化

PCR后需要将产物DNA片段与聚合酶等杂质分离,因此再次进行磁珠纯化,之后进行质量检测,包括DNA浓度检测、琼脂糖凝胶电泳和片段长度检测,完成建库。

第2,4步骤过程详见下图:

image.png

image.png

建库完成后的每条DNA的单链均一端连有测序引物Rd1SP、Index2和P5;

另一端为Rd2SP、Index1和P7。

image.png

(二)   上机测序

1.       以寡核苷酸为引物、文库片段为模板进行DNA复制

因为文库稀释后浓度足够低,可以认为文库片段均匀的结合在流通池表面,每个片段结合的位置相距足够远(即每条文库模板有足够的成簇空间),这很重要,否则测序时会导致信号叠加而不能识别。复制完成后解链,将文库片段洗去,留在流通池表面的为与文库模板互补的DNA序列。

image.png

2.       “桥”式扩增成簇(cluster)

假如第1步结合的为寡核苷酸链P5’,则复制完成洗脱模板后顶端可以与相邻的寡核苷酸链P7互补结合形成“桥”,并以寡核苷酸链P7为引物进行复制,完成后再次解链并与相邻不同种接头结合来进行复制,如此类推,过程如下图。25-28个循环完成后,原来散布在表面的单核苷酸序列变成散布的DNA簇,这一步主要是为后续测序做准备,因为测序时单分子产生的光信号很弱,难以检测。

image.png

3.       测序要保证每个片段一致性(都是正向或都是反向),切割并洗去P5’上的DNA链,只留P7上的DNA单链。

Illumina巧妙地利用了甲酰胺基嘧啶糖苷酶Fpg对8-氧鸟嘌呤糖苷8-oxo-G的选择性切断作用,在合成的引物链上加入了一个8-oxo-G,用Fpg处理,就把带8-oxo-G基团切掉,并把DNA链切断,留下一带不完整糖基的磷酸基。这个磷酸基在接下来的过程中,起到了阻止P5’延伸的作用。此后的双末端测序中需要恢复3'-OH,则用脱嘌呤嘧啶内切核酸酶AP-endonuclease把带不完整糖基的那个磷酸基切掉。

4.       加入测序引物Read1 SP(Read1测序引物结合位)和修饰过的DNA聚合酶,则在测序引物3’端开始DNA复制。

在流通池加入可逆终止荧光dNTP,其3'-OH被阻隔(糖基3'连接有叠氮基团,在链延伸时起到了阻止添加下一个dNTP作用,因此在除去阻隔前只能添加一个碱基),4种dNTP在碱基上分别连接有不同颜色的荧光基团(也可以相同颜色荧光标记,但是测序会更慢,每次只能添加一种碱基)。之后洗掉多余的dNTP,使用激光扫描,收集留在流通池表面的荧光信号(如图1-6所示)。用巯基试剂去掉3’位阻断的叠氮基团,用TCEP(Tris(2-carboxyethyl)phosphine,三(2-羧乙基)膦)去掉荧光基团,进入下一个碱基的测序反应。因为每条DNA单链扩增形成的DNA簇均固定在表面,随着反应进行根据相同位置出现的荧光信号情况,就逐渐读出了改位点DNA链的序列。

5.       读取index信息。

Read1测序结束后,解链并洗掉测序中已经合成的部分,加入测序引物Index引物(也即Read2 SP互补的寡核苷酸),这时会继续在3’端进行复制,读出接头中Index序列,从而可以确定出每个DNA簇属于哪个文库。

6.       双末端测序,加入测序引物Read2 SP,进行另一端的序列读取。

洗掉前面复制合成的片段,DNA单链继续在流通池表面形成桥式连接,这时要用脱嘌呤嘧啶内切核酸酶处理修复P5’的3’-OH末端,加入聚合酶,则在P5’末端开始DNA复制。十几个循环后,将P7上的DNA切割并洗掉。Illumina通过在P7核酸链中加入一个U碱基,用USER酶(Uracil Specific Excision Reagent,尿嘧啶链特定切断试剂)来切隔断链。这时只留下P5’上的DNA链,与Read中方向相反。加入测序引物Read2 SP,进行另一端的序列读取。

第4,5,6步骤过程如下:

image.png

(三)   测序数据

一般我们接触到的测序数据为fastq格式的碱基序列,然而早期Illumina平台直接下机数据为bcl格式文件,其储存的是显微拍摄得到的荧光信号信息,如下所示(此图为不同碱基使用相同荧光标记的扫描结果)。将相同区域不同时间拍摄的荧光图片按照时间顺序叠加处理,就可以获得该位点结合的DNA序列的碱基顺序。


【补充】

基因组DNA 随机打断片段化(DNA Fragment或DNA insert)

DNA 打断方法:机械打断、超声波打断,酶解法打断等。常见的文库长度有 170bp 文库、350bp 文库、500、800、2k、5k、6k 甚至更长的 10K,20K 等,一般 1000bp 以下,称为小片段文库,否则是大片段文库。

注意,我们说 500bp 文库,这个 500 只是一个峰值。也就是里面大部分的片段在 500bp 附近,并不是每条片段都刚好是 500bp,可能有 300, 的,也可能有 800 的。在打断之后会有一个电泳的过程,将在一定范围内的回收。如果是 500bp 文库,可以回收 300-800bp 长度的片段。这个文库大小特别重要,也叫做插入片段长度 insert_size。在后面序列拼接,短序列比对的过程中会大量用到这个值。

鸟枪法:将大分子的目标DNA随机地处理成大小不同的小片段进行测序,并在后续的生物信息学分析中将这些短序列组装成目标DNA的技术方法。

传统方法:使用限制性内切酶对目标DNA上的限制性内切酶识别位点进行切割,从而形成小片段。

常用方法:使用机械法(例如超声波DNA破碎)使大分子DNA形成在一定长度范围内分布的短序列片段。

Adaptor

(接头)

 

包括P5/P7、Index以及R1 SP/R2 SP序列。一般结构呈“Y”字型。“Y”型接头保证了每条单序列两端均为不同的测序引物,从而可以通过后续的PCR扩增形成两端带有不同核苷酸序列(P5/P7)的文库。

长接头(完整的Y型)和短接头(不完整的Y型接头)。长接头通过TA连接的方式连接到待测DNA片段两端,在文库产量足够的情况下,可不进行PCR扩增直接上机测序;而短接头通过TA连接的方式连接到待测DNA片段两端后,必须使用与短接头互补的Indexing Primers进行PCR扩增成为完整接头后,才能上机测序。

image.png

P5/P7

Illumina测序使用的微阵列芯片叫做流通池(flow cell),其表面固定了无数条寡核苷酸oligo(P5’和P7),分别可以与P5、P7’互补结合。这样,当样品文库中的DNA单链进入流通池后,就通过其3’端的P5结合到了附着在流通池表面的P5’上。

Flowcell 上随机分布了两种不同的寡核苷酸oligo,分别与 P5 互补(即 P5') , 与 P7 相同(即   P7)。待测 DNA 文库加入后,接头上的 P5 与 flowcell 上的寡核苷酸P5’互补,以待测序列为模板进行互补链(即 reverse strand)的延伸,扩增DNA两端为 P5’和 P7’。

Index

barcodes(BC)

或者Barcode(BC),一般6-8bp,用于区分来自不同样本的DNA片段的标签序列就叫做index。

index1和index2也是不同的,与P5相连的是index2(i5),与P7相连的是index1 (i7)。

Index用来区分不同的文库,因为测序仪一个run产生数据量巨大,由于实际情况不同,一次上机常会进行多个文库测序,因此需要加上Index来区分。

Rd1SP/Rd2SP

SP1/SP2

分别是第一轮测序引物和第二轮测序引物结合位点。双端测序就是从两端相向读取DNA的序列,需要在待测DNA的两端都加上引物了,是Read1和Read2测序引物结合的区域(sequencing primer binding   site1/2<测序引物结合位点>)。

单端Index文库指文库结构中只有一端(一般是在P7端)含Index结构;双端Index文库指文库P5和P7端都含Index。

单端Index和双端Index能够影响最终混库数量。

双端index接头

单端index接头


常用的建库试剂盒型号:NEBNext®Ultra™ II DNA Library Prep Kit for Illumina®

【参考】

高通量测序中的接头(adapter)到底是什么 - 卖萌控的博客 (maimengkong.com)

第二代测序原理的详细解析! - 知乎 (zhihu.com)

什么是NGS和建库的接头? (360doc.com)

二代测序-上机篇 - 知乎 (zhihu.com)

干货 | 测序入门:接头家族大揭秘! - 知乎 (zhihu.com)

头条文章 (weibo.com):干货 | Index这件小事,你get了吗?

illumina SBS测序详解_sixu_9days的博客-CSDN博客

二代测序原理的初步了解 - 简书 (jianshu.com)

illumina 二代测序原理及过程_taotaotao7777777的博客-CSDN博客_illumina二代测序原理

illumina测序接头类型 - 知乎 (zhihu.com)




https://m.sciencenet.cn/blog-994715-1365305.html

上一篇:QIIME 2教程之双端序列合并
下一篇:MMseqs2软件cluster(聚类)

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 23:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部