科学网

 找回密码
  注册

tag 标签: 测序

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]FASTQ文件,也许有你不知道的东西...
bioseq 2012-9-6 16:42
[转载]FASTQ文件,也许有你不知道的东西...
FASTQ 文件格式最初是被桑格中心开发的用来储存测序序列及其质量的一种文件格式。现在被 Illmina 来储存测序仪 产生的测序数据。【来自:中国测序论坛】 FASTQ 文件格式包括四行:例如 @HWUSI-EAS100R:6:73:941:1973#0/1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT +HWUSI-EAS100R:6:73:941:1973#0/1 !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCFCCCCCCC6 其中第一行以 @ 开头,后面是 reads 的 ID 以及其他信息,例如上例中 HWUSI-EAS100R 代表 Illmina 设备名称, 6 代表 flowcell 中的第六个 lane , 73 代表第六个 lane 中的第 73 个 tile , 941:1973 代表该 read 在该 tile 中的 x : y 坐标信息; #0 ,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的 reads ; /1 代表 paired end 中的前一个 read 。【来自:中国测序论坛】 补充说明: Illmina 测序仪一个 flowcell 中包含 8 个 lane 每个 lane 可以测一个样本或多样本的混合物,其中一个 lane 包含 2 列,每一列又包含 60 个 tile ,每一个 tile 又会种下不同的 cluster ,如下图所示。 【来自:中国测序论坛】 第二行为read 的序列,不用多说! 紧接着下面两行代表该 read 的质量。【 来自:中国测序论坛】 第三行以“ + ”开头,跟随者该 read 的名称(一般于 @ 后面的内容相同),但有时可以省略,但“ + ”一定不能省。 第四行代表 reads 的质量。这一行可以详细说一下! Illumina 测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应 ATCG ,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。 起初 sanger 中心用 Phred quality score 来衡量该 read 中每个碱基的质量,既-10lgP ,其中P 代表该碱基被测序错误的概率,如果该碱基测序出错的概率为 0.001 ,则 Q 应该为 30 ,那么 30+33=63 ,那么 63 对应的 ASCii 码为“?”,则在第四行中该碱基对应的质量代表值即为“?”, ASCii 参考如下。 一般地,碱基质量从 0-40 ,既 ASCii 码为从 “!”( 0+33 )到“ I ” (40+33 )。以上是 sanger 中心采用记录 read 测序质量的方法, Illumina 起初没有完全依照 sanger 中心的方法来定义测序质量,而是 把P 换成了 p/(1-p). 其他完全按照 sanger 的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。 因此, Illumina 有更换了好几种版本,从 1.3 版本升级到 1.5 版本再到1.8,最后完全采用 sanger 中的规则来做。因此,现在 Illumina 给出的测序质量值完全可以参考刚说的 sanger 方法。 【来自:中国测序论坛】
5757 次阅读|0 个评论
测序质量评估软件汇总
bioseq 2012-9-4 15:43
FASTX-Toolkit 主页: http://hannonlab.cshl.edu/fastx_toolkit/ 下载: http://hannonlab.cshl.edu/fastx_ ... it-0.0.13.2.tar.bz2 截图 常用程序:fastx_quality_stats;fastq_quality_boxplot_graph.sh;fastx_nucleotide_distribution_graph.sh 程序说明:顾名思义 备注:易用,推荐;帮助文件简明易懂 SolexaQA 主页: http://solexaqa.sourceforge.net/ 下载: http://sourceforge.net/projects/ ... wnload?source=files 截图 程序:SolexaQA.pl 备注:易用,推荐;帮助文件清晰 Picard 主页: http://picard.sourceforge.net/ 下载: http://sourceforge.net/projects/ ... wnload?source=files 常用程序:FastqToSam.jar;MeanQualityByCycle.jar;QualityScoreDistribution.jar;CollectGcBiasMetrics.jar;CollectInsertSizeMetrics.jar 备注:一般;帮助文件一般一般 FastQC 主页: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ 下载: http://www.bioinformatics.babrah ... ownload.html#fastqc 手册 示例: good_sequence_short_fastqc bad_sequence_fastqc 备注:功能多,直观简便;貌似不错 PRINSEQ (PReprocessing and INformation of SEQuences) 主页: http://prinseq.sourceforge.net/ 下载: http://sourceforge.net/projects/ ... wnload?source=files FAQ 手册 备注:使用在线版对样本数据进行了测试,很好很强大!不过上传自己的数据绝对是个大问题!单机命令行版的,只能给出统计数据、无法直接输出统计图,而且非常耗系统资源;单机网页版的,没安装测试……
7232 次阅读|0 个评论
已测序物种汇总
热度 4 bioseq 2012-9-3 17:46
已测序物种已测序的生物指其基因组已经被完全测序的生物。其中部分生物的DNA序列已经被完全注释,功能性的片段(如基因等)已作图。 欢迎大家补充! 动物 Homo sapiens - 人 Pan troglodytes - 黑猩猩 Mus musculus - 小鼠(模式生物) Rattus norvegicus - 大鼠 Zebrafish - 斑马鱼(模式生物) Drosophila melanogaster - 黑腹果蝇(模式生物) Caenorhabditis elegans - 秀丽隐杆线虫(模式生物) Caenorhabditis briggsae - 一种线虫 Gallus gallus - 鸡 Bos taurus cattle - 牛 Bubalus bubalis - 水牛 Canis lupus familiaris dog - 狗 Felis catus - 猫 Platypus - 鸭嘴兽 Fugu rubripes - 河豚 Apis mellifera - 蜜蜂 Anopheles gambiae - 疟蚊 Panda – 熊猫 植物 Arabidopsis thaliana - 拟南芥(模式生物) Guillardia theta - 一种隐藻 Oryza sativa - 水稻 Glycine max – 大豆 拟南芥 Arabidopsis thaliana, 近缘种Arabidopsis lyrata也已测序 短柄草 Brachypodium distachyon (Brachypodium) 油菜 Brassica napus (Rape) 白菜 Brassica rapa (Cabbage) 番木瓜 Carica papaya (Papaya) 衣藻 Chlamydomonas reinhardtii (Chlamydomonas) 西瓜 Citrullus lanatus (Thunb.) (Watermelon) 甜橙 Citrus sinensis (Sweet orange) 甜瓜 Cucumis melo (Melon) 黄瓜 Cucumis sativus (Cucumber) 草莓 Woodland strawberry (Fragaria vesca) 大豆 Glycine max (Soybean) 大麦 Hordeum vulgare (Barley) 莲花 Lotus japonicus (Lotus) 苹果 Malus × domestica (Domesticated apple) 木薯 Manihot esculenta (Cassava) 猴面花 Mimulus guttatus (Monkey flower) 苜蓿 Medicago truncatula (Barrel medic) 香蕉 Musa acuminata (Banana) 水稻 Oryza sativea (Rice)。粳稻(ssp. japonica)、籼稻(ssp. indica)两个亚种均已测序 小立碗藓 Physcomitrella patens (Moss) 北美黑杨 Populus trichocarpa (Poplar) 桃 Prunus persica (Peach) 蓖麻 Ricinus communis (Castor bean) 高粱 Sorghum bicolor (Sorghum) 粟 Setaria italica (Foxtail millet) 番茄 Solanum lycopersicum (Tomato) 马铃薯 Solanum tuberosum (Potato) 卷柏 Selaginella moellendorffii (Spike Moss) 可可 Theobroma cacao (Cocoa) 小麦 Triticum aestivum (Wheat) 葡萄 Vitis vinifera (Wine Grape) 玉米 Zea mays (maize) 真菌 Ashbya gossypii - 感染柑橘类和棉花的真菌 Aspergillus fumigatus - 烟曲霉,人类致病菌 Aspergillus nidulans - 构巢曲霉 Debaryomyces hansenii - 耐盐的酵母 Encephalitozoon cuniculi - 一种单细胞微孢子虫 Kluyveromyces lactis - 具有潜在药用生产价值的酵母 Kluyveromyces waltii - 一种酵母 Magnaporthe grisea - 稻瘟病病菌 Neurospora crassa - 粗糙脉孢菌,橙色的面包霉,模式生物 Phanerochaete chrysosporium - 白腐病病菌 Saccharomyces cerevisiae - 酿酒酵母(模式生物) Schizosaccharomyces pombe - 粟酒裂殖酵母 Yarrowia lipolytica - 一种酵母 Candida albicans - 白色念珠菌,人类致病菌 原生生物 Leishmania infantum - 一种利什曼原虫 Leishmania major - 一种利什曼原虫 Plasmodium falciparum - 恶性疟原虫 Plasmodium yoelii yoelii - 约氏疟原虫,引起啮齿动物疟疾 Thalassiosira pseudonana - 一种海洋硅藻 Trypanosoma brucei - 一种锥体虫 Trypanosoma congolense - 一种锥体虫 Trypanosoma cruci - 一种锥体虫 Trypanosoma vivax - 一种锥体虫 http://www.genomesonline.org/cgi-bin/GOLD/index.cgi
7693 次阅读|8 个评论
2012,关于测序市场
flysui 2012-3-8 09:57
地处张江药谷的美吉生物也一直致力于基因测序方面的服务。据公司合伙人张祥林向记者介绍,公司成立于2年前,主要从事两方面业务,针对某片段DNA的解读和对整个基因组的测序。就在去年公司在全国12个省市开展业务,到今年8月份,业务版图已经拓展到20个城市。张祥林认为,公司的发展速度很快,“去年的营业收入为1600万元,今年就达到了3000万。”目前正在与一些城市的医院合作,在拿到相关的资格认证后,将向医院提供基因测序服务。 在张江药谷服务平台投资经理李桢林看来,基因测序将对人们的生活带来重大转变,主要将体现两个方面,一是个体诊断化治疗;二是对未来疾病的预防。他详细解释了一下这两方面的功用,在个体化治疗方面,通过用药后对病人的基因进行测序,可以了解到最新的药效情况,方便医生及时做出调整。特别是针对肿瘤类的疾病,做过基因测序后,帮助医生了解该病人对哪一类的药更敏感更有效,从而有助于指导用药;另外,通过对个体的基因测序,可了解人们未来会罹患哪一类疾病的风险更大,从而做出预防。 据盘古医疗基金合伙人徐天宏向上海证券报介绍,基因测序的医学价值已经明确,将对未来疾病风险给出判断。在美国的很多医院都已经向病人开始提供基因测序的检测服务,并出现了一些独立的诊断服务实验室。从美国的经验来看,基因检测的费用在几百元-数千元之间,消费者的接受度较高。而在国内,技术已经越来越成熟,成本也降低了。但截止目前只有少数几家三级甲等医院也开始尝试此项工作,还未到大规模商业化推广的阶段。 (http://www.majorbio.com/News/Announce/2468) 权威人士向记者透露,在即将公布的战略性新兴产业规划之一《生物产业发展“十二五”规划》中,明确提出,“十二五”期间,我国的生物产业要完成10000种微生物、100种动植物组基因测序、发现约500个新的功能基因、转化应用5个以上有重大经济价值的基因或蛋白。中国的基因测序市场由此启动。按照每种微生物进行“基因组完成图”测序的费用为30万—50万元来看,基因测序带来的市场规模将达千亿元。 (http://finance.eastmoney.com/news/1350,20110920164168881.html) 新一代基因组测序仪可应用于临床遗传风险的筛选和遗传疾病的诊断。在科研经费削减所导致的基础研究机构的采购订单令人忧心、未来不容乐观的情形下,许多测序公司将目光对准了生物医学的新市场。比如,荧光公司设立了商业部,促进其工具在临床诊断中的应用。与此同时,生命技术公司宣布将推出一项帮助预测患者对一种新癌症药物个体反应的基因试验,该药由总部位于英国的制药公司葛兰素史克研制,已进入第三期临床试验;生命技术公司还表示将在俄罗斯开展一个900万美元的医学分析仪器系统销售计划。 LifeTechnologies公司期望IonProton能在诊断测序市场分得一杯羹,因此他们计划于年底向美国食品和药物管理局提出申请, 以求能把IonProton列入医疗器械名单。诊断性测序市场规模虽小,但发展迅速,目前被Illumina公司垄断着。 基因测序服务业务达到高潮的时间,在曼哈顿资本执行董事王进看来,至少需要5~10年的时间。“虽然我们已经在基因功能研究、蛋白基因组学、药物基因组学等领域取得不少成就和突破,但在临床应用和疾病诊治预测等方面并未取得令人折服的实质性进展。所以基因测序的全面个性化推广应用,应该在基因功能和基因标记物与疾病诊断治疗及预后分析方面取得全面突破时,才能得到药政管理部门的推荐、医疗服务机构和医生的认可、保险公司和个人的买单。” 如何化解基因测序与数据解读、临床指导之间的鸿沟,也是作为国内基因测序的领军者——深圳华大基因研究院面临的挑战。“得出基因测序的数据已经不是问题,如何对数据进行转化和解读才是问题。”该研究院新闻发言人杨碧澄博士在接受《中国科学报》记者采访时说。 对此,王进给出的建议是,基因测序机构应该加强与临床医学界合作,需要有系统生物研究,药物基因组学以及生物统计的思维、手段和工具,要特别注重吸纳复合型高端人才,开展更多开放式的合作与探索。另外政府和投资界要扶植支持有核心技术的测序服务公司。并与第三方临床检测公司进行合作。 中科院北京基因组研究所副所长于军建议,国家应该对基因测序的工作实施准入许可制度,从质量控制、隐私保护等方面加强监管。但遗憾的是,目前国内并没有相关法律法规对此进行明确规定。 ——这方面如果有可能的话,不妨加入到建言和最早申请许可的队伍中去。 Life Technologies公司的Sanger测序产品为“人类基因组计划”提供了强大的技术支持,并因其准确性、可靠性和易用性成为基因测序领域的“金标准”。3500Dx基因分析仪已于2011年10月通过国家食品药品监督管理局(SFDA)的批准,在中国应用于临床诊断。 2011年销售额达19亿美元的分析仪器制造商珀金埃尔默(PerkinElmer)宣布进入DNA测序市场,此举宣示着DNA测序在医学研究乃至医疗诊断中的应用正变得越来越重要。珀金埃尔默并不和大型DNA测序仪器制造商竞争,该公司创立了一套商业服务模式,让研究者在不具备测序仪器或超级电脑的情况下也能获取人体基因数据。客户们将能访问一个加密保护的云端计算中心,在其上分析DNA数据。所有这些DNA测序和数据分析都将遵循针对实验室制定的标准,同时也会遵守《健康保险流通与责任法案》(HIPAA),以保护医疗隐私。 珀金埃尔默并不是第一家提供商业测序服务的公司,完整染基因公司(Complete Genomics)几年前就已经涉足该领域,其客户包括辉瑞(Pfizer)、礼来(Eli Lily)和系统生物学研究所(ISB),公司迄今已完成数百例人类全基因组测序。Illumina公司和位于马萨诸塞州剑桥市的Knome公司也有各自的商业测序服务,中国的北京基因组研究所(Beijing Genomics Institute)也为其他研究者提供测序服务。完整染基因公司提供的基因组测序价格已经低至每组5000美元。 在2012年2月召开的基因组生物学技术进展年会(AGBT)上,英国Oxford Nanopore Technologies公司(简称Oxford)宣布推出一款便携式的基因组测序仪,约摸只有U盘大小,立即引起市场轰动。比GridION更小的MinION产品,U盘大小,基于新一代DNA测序技术,价格在$900以下。有望带来高达100 kb的读长,而原始错误率大约在1%左右。然而,以上皆为Oxford公布的数据,目前尚未发表文章,也还没有客户试用过。因此,可能要等到早期试用客户使用过,或有论文发布,才能真正确定该平台的性能是否如此出色。强大竞争对手的出现,让本来就不平静的测序市场再次掀起波澜。各大测序公司的股价应声齐跌。Life Technologies跌6%,Illumina跌3%,PacBio跌5%,Complete Genomics跌3%。 (http://www.nanoporetech.com/,http://www.labbase.net/News/ShowNewsDetails-1-22-25DC7C8C181B5EF0.html,http://www.gizmag.com/minion-disposable-dna-sequencer/21513/)
0 个评论
个人基因组测序成本降到1000美元
热度 3 awenxu 2012-2-14 19:08
生命技术公司承诺个人基因组测序成本降到 1000 美元 2012 年 1 月 10 日,生命技术公司( Life Technologies ) CEO Gregory Lucier 宣布了一项随离子质子测序仪( Ion Proton Sequencer )的推出而实现的测序技术最新突破。离子质子测序仪是离子个人基因组仪器( Ion Personal Genome Machine, PGM )的更快速版本。这款最新的仪器是 Ion Torrent 公司前 CEO Jonathan Rothberg 的心血之作, Ion Torrent 公司在 2010 年被位于加州卡尔斯巴德的生命技术公司收购。新的测序仪采用半导体技术进行 DNA 序列阅读,同时极大提高了芯片的孔网密度 (well density) 。 Rothberg 介绍说“采用旧的芯片,人类的一根头发丝可能覆盖 400 个孔 (well) ,但是使用新的芯片,却可能覆盖 10000 个孔。而且,新的芯片上集成了氢气传感器(当一个核苷酸整合到 DNA 中时,会释放出氢气)。光检技术会因为孔网密度的增加而降低速度,而新的半导体技术则相对运行更快。 Rothberg 说第一张芯片在两个小时内可读完 100 万个孔,更新的芯片将会读到 1 亿个孔。尽管通过这张芯片获得的数据到 2 月中旬才会公布,但是该公司宣称一个人类基因组的测序将会在两个小时内完成,而且材料成本将仅有 $1000 。新的仪器成本为 $149,000 。在 Lucier 宣布数小时后,位于 San Diego 的 Illumina 公司宣布将升级他们的 HiSeq 2000 ,这将会在 1 天内完成一个人类基因组的测序。 消息来自 Nature Biotechnology, 2012(February), 30:126. 英文原文: On January 10, Life Technologies' CEO Gregory Lucier announced the latest breakthrough in sequencing technology with the launch of the Ion Proton Sequencer, a faster version of its Ion Personal Genome Machine (PGM). The machine is the brainchild of Jonathan Rothberg, former CEO of Ion Torrent, which was bought by Life Technologies of Carlsbad, California, in 2010. The new sequencer uses semi-conductor technology to read DNA sequences, coupled with a dramatic ramp-up in the chip's well density. “ if you took out a human hair and put it over a well, you would cover 400 wells. our new chip, you'll cover 10,000 wells,” says Rothberg. In addition, the new chip moves the hydrogen ion sensor (hydrogen is released when a nucleotide is incorporated into DNA) onto the chip. Unlike light detection technologies that slow down as density increases, with semi-conductors, the rate is faster. “The first chip did a million wells in two hours, the new one will do a billion,” says Rothberg. Although data obtained from the chip won't be released until mid-February, the company reports that a human-sized genome can be sequenced in two hours, at a cost of $ 1,000 in materials. The new machine will cost $ 149,000. Within hours of Lucier's announcement, Life Technology's main competitor, Illumina of San Diego, announced an upgrade to their HiSeq 2000 that will sequence a human genome in a day.
个人分类: 科技进展|5055 次阅读|3 个评论
第六种耳聋基因检测方法有望应用于临床
热度 1 hapy1 2011-9-6 10:28
第六种耳聋基因检测方法有望应用于临床 我国每年有近 3 万新生儿先天性耳聋,其中 60% 是遗传造成的。目前临床上常用的耳声发射检测新生儿听力,有很大的局限性,假阳性率高,一般需要至少检测 3 次,给患者父母造成极大的精神和心理负担。 而耳聋基因检测就成为一种有效的补充检测手段, 可作为部分病例常规测听或影像技术的辅助和补充检测技术,并实现远程检测;可以早于症状以及常规测听技术或影像技术发现耳聋易感人群,也可以用于婚前、产前耳聋基因检测,真正做到了早发现、早干预。相比较物理听力检查和拍 X 线片、 CT 、 MRI 等影像学检查,耳聋基因检测有更强的针对性和特异性,且取材方便,适用范围广。 1 .遗传性耳聋相关基因 遗传性耳聋具有很高的异质性,与耳聋相关的基因至少 138 个,已确定的基因至少 44 个。流行病学资料显示,在中国人群中常见的耳聋基因突变主要有 3 个,分别是 GJB2 基因、 PDS 基因和线粒体 12S rRNA 基因,也是目前耳聋基因检测的主要目标基因。 GJB2 基因 (位于 13q11-12 ,编码间隙连接蛋白 26 ,其分子量为 26KDa ,因此得名)突变导致的耳聋为语前、双侧、对称性耳聋,听力损失程度变异较大,可由轻度到极重度,但 多数为重度或极重度耳聋 , GJB2 基因和先天性聋有着密切关系,中国先天性聋患者中携带有 GJB2 基因突变的约占 20% 。 GJB2 基因突变位点有很多,在中国人群中最常见的为 235delC 。间隙连接蛋白(connexin),是整合膜蛋白, 6 分子蛋白形成一个连接子,中间有 2-3mm 亲水性孔道,允许钾离子、钙离子和小的信号分子通过。在声音传导的过程中,进入毛细胞的钾离子会通过间隙链接重新回到耳蜗血管纹;如果间隙连接蛋白突变,离子交换受到影响,毛细胞的离子梯度失衡,从而引起听力损失,干预措施有配戴助听器和电子耳蜗移植,进行早期听力恢复。 PDS 基因又名 SLC26A4 ,位于 7q22-31.1 ,在内淋巴管和内淋巴囊、 Corti 氏器外沟细胞、甲状腺中高表达,基因突变与弧立的 大前庭水管综合征 ( LVAS )和 Pendred 氏综合征(前庭水管扩大或伴内耳畸形、神经性聋和甲状腺肿)有密切关系,临床上表现为先天性或后天性耳聋,耳聋发生或加重与外伤、感冒有关。 PDS 基因突变的个体应尽量避免剧烈运动,防止头部受伤,避免听力突然下降。 线粒体 12S rRNA 基因 突变(发生频率最高的为 A1555G 突变)与链霉素、庆大霉素、卡那霉素等氨基糖甙类药物引起的 药物性耳聋 有着密切关系。线粒体基因主要呈母系遗传,携带有该突变患者的母系亲属都应避免使用氨基糖苷类等耳毒性药物。线粒体 12S rRNA 基因 1555 位突变为 G 后,能够和与之相对的 1494 位点上的 C 配对,导致该部位空间结构发生改变,形成类似于氨基糖苷类药物靶标——细菌 16SrRNA 的空间构象,从而促进了氨基糖苷类药物与 12S rRNA 的结合。 12S rRNA 是参与构成线粒体 rRNA 30S 亚基的分子,与氨基糖苷类药物结合的 12S rRNA 就无法构成具有完全活性的 30S 亚基,阻碍了线粒体核糖体蛋白的合成,氧化磷酸化过程受阻,影响了 ATP 的合成,使内耳毛细胞内依靠 ATP 供能的一系列胜利过程受阻,膜两侧的离子梯度失衡,结果造成细胞内离子浓度毒性水平积累,逐渐导致毛细胞萎缩、死亡、最终造成永久性听力损失。 2 . 遗传性耳聋基因检测的常规检测手段 2.1 直接测序 直接测序( direct sequencing , DS )是将聚合酶链式反应( polymerase chain reaction , PCR )扩增产物纯化、变性后,在测序仪上进行测序,为寻找突变的金标准。但其仪器设备昂贵,且操作复杂、耗时较长。此外,杂合突变、胶压缩、 GC 富集区的存在等问题使得很难通过一次测序获得精确的数据。 2.2 限制酶切指纹 - 单链构象多态性分析( restriction endonuclease fingerprinting-single strand conformation polymorphism , REF-SSCP ) 限制性核酸内切酶切割目标基因的 PCR 扩增产物,琼脂糖凝胶电泳检测梅切产物,根据异常构象带进行目标基因有无突变的判断。该方法最主要的问题是不能检测到所有的突变,由各实验室报道的突变检出率冲 99% 到 35% 不等。同时该方法要求多次摸索条件,如电泳温度,胶中甘油浓度以及胶联度等均可影响检测的灵敏度。此外,该方法也不能确定突变的精确位置。 2.3 限制性片段长度多态性分析( restriction fragment length polymorphism , RFLP ) 是用特定的限制性内切酶水解目标基因的 PCR 扩增产物,然后分析酶解产物的电泳图谱特征,根据与正常对照的比对结果来判断待检样品是否存在某个基因突变,其弱点操作繁琐,检出率低,因为并非所有的基因突变都恰好位于某个内切酶的识别区 。 2.4 变性高效液相色谱分析( denaturing high performance liquid chromotography , DHPLC ) 此技术是一项在单链构象多态性分析和变性梯度凝胶电泳基础上发展起来的新的杂合双链突变检测技术。它能对大批量 PCR 扩增产物进行筛查,其在检测大量致病基因的不同序列方面显示出高度的敏感性,适合做快速的基因筛查。但它也有一些不尽如人意之处:( 1 )它只是提供了定性的信息,而无法得出具体的突变类型和突变位点。尚需测序等后续方法证实;( 2 )其结果判断通常是由操作者进行的,容易产生观察差异,不利于各实验室之间的灵敏度比较;( 3 )许多片段有多个主要解链温度,需要筛查的温度较多,增加的工作量。目前该技术主要用来检测 200~300bp 大小的 DNA 片段,长的 DNA 片段的检测尚未见报道。 2.5 基因芯片 基因芯片是指将许多特定的寡核苷酸片段或基因片段作为探针,有规律地排列固定于支持物上,然后与待测的标记样品的基因按碱基配对原理进行杂交,再通过激光共聚焦荧光检测系统等对芯片进行扫描,并配以计算机系统对每一探针上的荧光信号作出比较和检测,从而迅速得出所要的信息。基因芯片技术因其具有微型化、集约化和标准化的特点,在感染性疾病、遗传性疾病、重症传染病和恶性肿瘤等疾病的临床诊断方面具有独特的优势,可将对应于突变热点的寡核苷酸探针合成点或点加于 DNA 芯片上,通过一次杂交完成对待测样品多种突变可能性的筛查,实现对疾病的高效快速诊断。 基因检测芯片技术具有高效率、高通量等特点,由 博奥生物和301医院 联合推出的耳聋检测基因芯片 已经在国内率先取得国家食品药品监督管理局医疗器械证书, 将有助于改变我国许多地区遗传性耳聋缺乏早期诊断的状况。可以提供从孕前、产前到出生的基因检测,帮助生育父母及时获知新生命的遗传信息并采取措施,降低新生儿患遗传性耳聋的概率。 3 .第六种耳聋基因检测方法——飞行时间质谱( MALDI-TOF-MS ) 质谱方法检测基因是首先进行 PCR 扩增目的片断区域,然后加入多对特异性引物,进行单碱基延伸,再将单碱基延伸产物纯化后打质谱,根据不同引物扩增产物的质荷比不同,判断有无碱基突变。 深圳华大基因临床检验中心 利用质谱平台进行耳聋基因检测,快速准确的检测中国耳聋人群常见的3个基因突变热点,也可以根据需要加测其他位点。与基因芯片方法比较,价格更低,在新生儿听力筛查中应用前景广阔,可以及早发现听障儿童,及早诊断、干预。此外,该技术还可用于耳聋病人的病因诊断,为有耳聋患者或亲属的家庭提供生育指导,也适用于正常听力人群的婚前、孕前、产前筛查等。 综上,随着基因组学和分子诊断技术的发展,耳聋基因检测技术的优势也突显出来,高通量,高灵敏度和特异性,成本也越来越低,有望大规模应用于听力筛查或临床检测。
个人分类: 耳聋|8806 次阅读|1 个评论
《Nature》马铃薯块茎基因组序列分析
bioyong 2011-8-8 10:16
The Potato Genome Sequencing Consortium,Genome sequence and analysis of the tuber crop potato,doi:10.1038/nature10158 大部分的马铃薯栽培种为同源四倍体(2n=4x=48),高度杂合。 测序样本:  DM:双单倍体  RH:杂合二倍体 测序平台: Illumina GA、Roche 454、Sanger DM基因组分析技术流程 利用GAII平台,构建16个200-811bp文库,共产生70.6Gb测序数据,构建2-10Kb mate pair文库,共产生18.7Gb测序数据 利用454建普通片段库、8Kb和20Kb mate pair文库,分别产生7.2Gb、0.7Gb和1Gb测序数据 构建3个fosmid文库,对90407个克隆进行了末端测序 构建了1个插入片段为100Kb的BAC文库,对71375个克隆进行了末端测序 DM 基因组序列图谱的完成大小为727Mb,93.9%为non-gap序列,contig N50为31429bp 流式细胞仪和17-mer frequency结果显示DM基因组大小为844Mb,大部分为比对上的序列为重复序列。 约96%的序列测序覆盖度超过20倍 通过对1Mb区段的序列进行相应的BAC克隆测序,结果显示没有大的组装错误出现 对DM和DI杂交的180个后代进行4836个STS遗传标记的分析,构建DM的遗传图谱。2603个STS标记具有多态性,产生了12个连锁群,2037个STS标记被唯一定位到DM序列图谱的superscaffold上,通过遗传图谱、物理图谱和序列图谱的比较表明DM基因组序列组装的错误率小于0.12%。 对32个DM不同组织、发育阶段和抗性处理的RNA材料进行测序,共产生824.6M reads,对基因组进行注释、分析可变剪切。 RH基因组分析技术流程 利用GAII平台,构建16个200-10Kb文库,共产生144Gb测序数据 利用454建20Kb mate pair文库,产生581Mb测序数据 构建BAC文库,对17228个克隆利用Sanger和454进行了测序 对16个RM不同组织、发育阶段和抗性处理的RNA材料进行测序,共产生140.4M reads 预测马铃薯基因组含有39031个编码蛋白的基因,其中利用DM和RH的RNA数据验证的基因有87.9%,比较DM的BAC序列与RH两个单倍体的差异性,显示马铃薯基因组具有很大的变异性,同时还进行了进化上的分析,块茎形成及抗性相关基因的分析。
个人分类: 科研文献|4765 次阅读|0 个评论
一篇2011年的Nature article——通过群体基因组测序精细定位CNV
bioyong 2011-7-22 11:34
Mills RE, et al., Zhang Y , et al., Korbel JO. Mapping copy number variation at fine scale by population scale genome sequencing. Nature 470:59-65 (2011). 此篇文章由毅新兴业公司技术总监、英国Sanger中心学者张玉军博士作为共同作者在《Nature》上发表。 http://www.nature.com/nature/journal/v470/n7332/full/nature09708.html?WT.ec_id=NATURE-20110203 摘要: 基因组结构变化(SVs)在程度、起源和功能影响上都不同于其它突变类型,并且这种突变方式广泛的存在于人类基因组中。尽管目前对SV的研究取得了一定进展,但是许多SV的核苷酸序列结构仍然处在未知当中。本次研究中,基于185个人的基因组数据,并结合精确实验验证这种互补性SV发现方法得到的证据,我们构建了一幅非平衡性SVs图谱(就是说,拷贝倍数存在差异)。在我们的图上一共包括了22025个缺失突变,同时有6000个其它类型的SVs,包括:插入突变和串联复制。大部分SVs(53%)可以被定位到核苷酸序列上,这方便了分析这些突变的起源和功能影响。我们用基因分型的方法检测了许多整体和部分的基因缺失突变,发现一种基因中断型缺失突变,在缺失突变中具有很高的频率。而且我们还发现,通过不同机制产生的SVs在大小上存在着差异。通过一些共同机制形成的SVs在SV图上就成为热点。本次研究的分析框架和绘制的SV图谱可以作为以后进行基因测序相关研究的资源。 内容概述: 采用千人基因组计划中 185 个人基因组测序数据,包括 2 个家系中的 6 个样本平均测序深度为 4 2 ×,和 179 个散发样本的低覆盖度测序平均测序深度为 3.6 ×。 将五种 SV 的算法( RP 、 RD 、 SR 、 AS 、 combining RP and RD )整合 , 共产生 36 种 call-sets 用于预测 50bp 的 SV 。为了评估不同 call-sets 预测的 SV 的准确性,运用 PCR 分析了 3000 个可能的 SV ,运用芯片分析了 50000 个可能的 SV ,结果显示 FDR ( false discovery rate )≤ 10% 的 call-sets 有 8 种。共检测出 22025 个 deletion 、 501 个 tandem duplication 、 5371 个 MEI 和 128 non-reference deletion ,其中 15556 个为新发现的 SV 。检测到的 SV 大小的中值为 729bp ,平均大小为 8Kb 。鉴定了约 15000 个 SV 在基因组序列上的具体位置,其中 48% 的 SV 为新发现的 SV 。 分析 SV 分布在基因内或基因间: 分析 SV 的形成机制,主要包括 NAHR (non-allelic homologous recombination ,在 SV 的断点具有相似的长的序列 ) 、 VNTR (variable number of tandem repeats ,由于简单序列的滑动导致 ) 、 NH ( non-homologous, 由于 DNA 修复引入)和 MEI (moblie element insertion) 四种机制。
个人分类: 科研文献|3348 次阅读|0 个评论
破除法老DNA的咒语
热度 16 GumpForrest 2011-4-29 15:58
破除法老 DNA 的咒语 古埃及法老(国王)的尸体都被做成木乃伊,保存在金字塔里,据传说,冒犯了法老王的干尸,就会中法老的咒语。在美国电影的渲染下,这个咒语被传得充满玄机,神秘莫测。似乎在埃及北部第六代塞加拉王朝的法老墓外,或内侧出现类似“咒语”的文字,据说也只是针对祭司的,好让其尽职保护墓地,而非防盗墓贼设定的神秘“咒语”或机关。考古学家其实并未在法老墓内发现任何咒语。 既然法老的咒语不一定有,那也就不存在打破一说。不过,法老的 DNA却 是一个实实在在的技术上的“咒语”,它让国际考古学界分成两派,闹得剑拔弩张,快要老死不相往来了。大家的分歧主要在于古生物化石或遗体中的 DNA 能不能用来做考古鉴定,最终呢,还是技术的进步打破了了这个咒语,如今两派也该抛弃成见握手言欢了吧。 故事要从上个世纪 80 年代说起。 1983 年, Kary Mullis 发明了聚合酶链式反应( polymeras chain reaction, PCR ) , 简称 PCR ,用来扩增 DNA ,该技术突破了分子克隆的技术瓶颈,让分子生物学的研究与应用都进入快车道。 PCR 技术刚一出现,一些考古研究人员就敏感地意识到,他们可以用这项技术从极少的古遗骸样品中扩增 DNA ,用于考古鉴定。瑞典 Uppsala 大学(德语的意思是“水果沙拉” )一个年轻的博士生, Svante Pbo ,在导师的支持下,成了第一个吃螃蟹的人,他声称从 2400 年前的木乃伊中克隆出了 DNA 。于是乎,这项技术迅速被传开,一时发现各种古生物遗骸或化石 DNA 的报道蜂拥而至,令大家亢奋不已,其中也有我们北大陈章良先生的杰作,声称从恐龙蛋中克隆出了恐龙基因片段。 稍微有些年龄的朋友可能还记得上个世纪 90 年代初陈章良搞的那个从恐龙蛋化石中克隆恐龙基因的项目,据说是时任科技部长宋健亲自批示,由基金委拨款 50 万。我们首先还是得佩服陈先生的敏锐,但是,他太急功近利了点,打着为国争光的旗号,却碰了一鼻子灰。 那场古生物 DNA 克隆热很快降温,成为一场笑话。不信,你试试和陈先生聊聊恐龙蛋,估计他得跟你急。为什么?后来发现,那些所谓克隆出来的片段,有些是环境微生物的基因片段,有些是说不清来源的基因,也就是说,可能都是污染信号。 有点分子生物学经验的人可能都明白, PCR 反应对原始信号是个指数扩增放大反应,极其敏感,理论上可以检测到一个 DNA 分子片段!但是这里有一个信噪比的问题。古老 DNA (如果还残存)和周围空气、尘埃中,甚至样品附着的尘土、微生物等来源的现存的新鲜 DNA 相比,无论数量上还是质量上都已无法比拟。信号完全淹没在噪音的海洋里,你看到的究竟是信号还是噪音?这也是出现一些荒唐结论的原因,比如“恐龙属于现代人,因为基因序列一样”。 这场失利对DNA测序用于考古鉴定可是一个沉重的打击。大家总是以异常挑剔的眼光去评判,即使在领域内,就古生物遗骸能否进行 DNA 鉴定问题,很快就分成了水火不相容的两派。挺 DNA 派认为没问题,甚至可以作为常规;而反对一派则认为完全不可能,对待涉及 DNA 分析的论文,他们也百般挑剔,批评严厉,使其根本无法发表。认识上的对立不知不觉地演变成派别斗争,两排干脆连发表论文的杂志都分开了。 古生物遗骸中的 DNA 究竟能不能克隆和进行测定? 这确实是个难题。生物学界的冷眼旁观,似乎普遍不看好。 DNA 就像两股绳子,主体骨架是由一个个 5- 碳糖通过磷酸二酯键连起来,每一个糖上带着个小挂件 - 碱基,两条链间的碱基一一对应互补,靠氢键维持配对关系。有分子生物学实验经验的人一般会感到, DNA 相对还是比较稳定,我们提取的 DNA 可以溶液中放置数周,如果零下 20 ℃ 可以保存数月到 1 年,如果出去水分,晾干保存,可以放置数年或更长(没有试过更长时间)。但是,实验室提取的 DNA 一般都经历一步酚 : 氯仿抽提(或萃取)过程,这两个有机溶剂都是强烈的蛋白变性溶剂,目的是将所有酶类灭活。这就容易理解为什么实验室提取的 DNA 那么稳定了,一是除掉了攻击它的的酶,二是除去水分。但即使是就这样,能放置几千年吗?没人知道。 在自然条件下, DNA 可不是那么安全的。DNA储存在细胞核内,生物体在死亡过程中,细胞会逐渐发生自溶,大量酶类如蛋白酶、 DNA 酶等释放,细胞的DNA很快会被降解,即便是细胞没来得及自溶,但是天长日久,微生物进驻组织或细胞,就像寄居蟹一样,在哪里吃喝拉撒,生老病死,他们产生的蛋白酶也会把原细胞内的 DNA 破坏掉;另外,在高温和潮湿的条件下自身容易发生水解、断裂,因此,一般死亡的动物和人的遗体, DNA 很难完整保存下来。当然,酶对 DNA 的破坏作用是需要水分,而且跟温度成正相关,如果能保证绝对干燥,或许能保存得相对时间长些。另外,在个别特殊情况,如在极端寒冷的情况下被冻死的人活动物,这些组织来源的 DNA 或许能避免降解,或发生的极其慢,或许还有机会测得其 DNA 序列。 但是,对于古埃及的木乃伊,似乎有些特殊。木乃伊的制作过程显然对 DNA 的保存十分有利。首先,在人死亡之后尸体周围加大量的天然的盐类,包括碳酸钠盐类,使尸体快速脱水、变干,减少 DNA 的降解,避免自发水解;然后干尸上覆盖一层防腐剂,外层再涂上厚厚的隔离才材料,主要由沥青、植物油和蜂蜡等,主要作用是防潮和防止空气氧化。上述涂抹材料都深深地渗入身体内部,组织都没染成了黑色,这些材料其实对尸体的 DNA 形成特殊的保护。当然,这还只是理论推测,究竟如何,要看实际结果。 挺 DNA 派的一些考古学家有股“咬定青山不放松”的劲,坚持不懈,想方设法寻找解决问题的办法,其中就包括那个第一个吃螃蟹的人: Svante Pbo 。当然,也有些彻底放弃了,如我们原北大的陈章良先生,在一片批评声中草草收场,回去做植物发育。此后,考古 DNA 测序也经历了沉沉浮浮、起起落落,此处不做细表。 经过了多方尝试,条件优化、方法改进,其实始终难以获得理想的结果,难逃对手激烈的批评。 事情的转机开始出现,这要归功与埃及官方批准的一项“图坦卡蒙(古埃及法老)研究项目”。在埃及大概到处都是木乃伊,质量不一,而这次供研究用的可是王家木乃伊,制作技术水平应该是最高的,保存也应该是更完好的。在于国际同行的合作参与下,对对公元前 1400 年左右古埃及法老图坦卡蒙和周边几个金字塔内其它的 10 名王室成员进行分析 DNA 指纹分析,当然也结合了其它常规的考古分析方法,推测出他们的亲属关系和可能的死因,论文发表在 2010 年《美国医学协会杂志》的发现专栏上。尽管做了严格的对照,甚至多方独立重复,但是,仍然难逃批评和质疑。批评的问题主要集中两点: 1 )不能排除是污染了现代人的 DNA; 因为古埃及人的 DNA 和现代人没有多大区别。 2 )用的只是 DNA 指纹分析,给的信息太粗糙,不能说明问题。 事情出现真正的转机还是有赖于第二代测序技术的出现和及时应用。木乃伊保存得再完好,也不可能让 DNA 保存完整无损,就像我们马王堆出土的“帛”,其实已经脆弱不堪,很多已经是碎片了。常规测序需要基因片段达到一定大小,一般最佳的大小为 600-800 个核苷酸这么长,最低也要上百个核苷酸,显然古 DNA 标本满足不了这个要求。新一代测序技术对 DNA 长短要求减低了很多,只要大于 35 个核苷酸就可以; 另外,对DNA量的要求也比较低,整个基因组测下来,几个微克 DNA 就够了。新技术大大降低了 DNA 材料质量数量要求的门槛, 使得古 DNA 样品测序成为可能。 2010 年,这项新技术终于在古 DNA 分析鉴定领域开花结果,古DNA测序这个“咒语”终于被破除。 4000 年前古爱基斯摩人的全基因组学列得到测定( Rasmussen, M. et al. Nature 463, 757-762 (2010). );当年第一个吃螃蟹的人, Svante Pbo博士, 也率领他在德国马普所的进化考古团队成功测定了 3 万 8 千年前尼按特穴居人 (Green, R. E. et al. Science 328, 710-722 (2010). 和南西伯利亚一个前所未知的新人种的全基因组序列( Reich, D. et al. Nature 468, 1053-1060.), 也终于以清晰和无可争辩的结果令对手无话可说,毕竟科学相信证据,即使有再强的立场,但在solid的科学证据面前还是不堪一击的。学术隔阂就像柏林墙一样顷刻倒塌。 对科学探索既要要求苛刻,也需要些宽容啊。 技术推动科学,技术弥合了分歧。 好奇地问问,陈先生现在在哪里?(不需要回答^^)
个人分类: 憨人的科学|7568 次阅读|33 个评论
百岁老人的秘密
songshuhui 2011-4-27 12:44
seren 发表于 2011-04-17 16:15 “个人基因测序服务又添新产品:想知道您能否长命百岁?只需要刮取少量口腔上皮细胞,我们将为您解读命运的天书!” 面对这样的广告,你是急不可待,跃跃欲试?还是绞着手帕,万般纠结?若属后者,令人心安的是这样的产品远未上市;而对于前者,则有捷报传来——科学家们向此目标大大迈进了一步。 波士顿大学生物统计系的保拉·萨巴斯蒂亚尼(Paola Sebastiani)与医学院的托马斯·波尔斯(ThomasPerls)所领导的研究团队在《科学》杂志上发表论文,声称通过分析150个遗传基因的 记号,可以预测个人活过百岁的概率。“预测模型的正确率达到77%。”这是否意味着已经炙手可热的个人基因测序业务将很快提供该项服务?波尔斯澄清:“作 为文章作者,我们并不认为时机已经成熟。”此外,除了预测,我们还能做些什么?这项研究是否意味着科学家们成功定位一百五十个“长寿基因”,进而很快就能 弄清了长寿的生物机制,甚至可以利用医药或者基因工程的方式来促使人人长寿?萨巴斯蒂亚尼却冷静地告诉记者:“此刻所做的一切只是统计分析而已,若想要了 解其中的生物机制,以及这些基因记号究竟为(人类长寿)做出了多大贡献,还有许多工作要做。所以,这只是第一步。”那么,我们究竟应该怎样解读这项科研的 意义?且从这150个遗传基因的记号从头说起。 百里挑一的差异 我们绝大部分的遗传密码,记载在细胞核内二十三对长链般的DNA上,而每条长链由四种核苷酸分子组成。你可以将核苷酸看做四色的珠子,千万颗乃至上 亿颗这样的珠子串在一起,它们的颜色和顺序,记载了我们从双亲那里继承而来的遗传信息。如果从北京街头随便抓来两个毫无亲缘关系的陌生人,他们体内每条长 链99.5%以上的部分都是完全一致的。也就是说,这俩人之间,平均每上百颗珠子里,只有一颗的颜色不同。 如果在在一小段DNA里,只有一颗珠子在人群中有不同颜色(通常只有两种颜色),这颗珠子所在的位置,就被称作“单核苷酸多态性” (singlenucleotide polymorphism, 缩写SNP,读音snip)位点。纵观人类基因组,平均每一百到三百个核苷酸里会出现一个SNP位点,而我们个体基因组中90%的花样,都以SNP的形态 存在。可以说,每人都有一套颜色特异的SNP珠子,它们虽然相对数量不大,却使得我们遗传密码个性鲜明,并为个体差异起到可观的决定作用。 既然SNP如此关键,近年来,运用一种叫做全基因组关联(genomewide association, 缩写GWA,读音giwa)分析的特殊研究手段,从众多SNP位点中找到与特定健康状况“有关”的那些,成为遗传界炙手可热的领域。简而言之,这样的研究 通常找来两组人群,一组有特定健康状况——譬如患有某种疾病,而另一组没有。科学家们通过分子生物学的手段,确定每个被试个体体内一组SNP珠子的颜色是 红是绿,再通过统计方法,计算红色(或绿色)珠子是否特别容易出现在患有疾病的被试体内,如果答案卫士,该SNP就被判为与这种疾病“相关”。 预示长寿的密文 过 去五年里,利用GWA,科学家们已经先后发现成百上千个SNP,分别与四十多种疾病相关——其中包括心血管疾病、糖尿病、自闭症、癌症等常见疾病。而本文 开头所提到的研究者,则找来两组已过世的老人的血样:一组特别高寿,终年在95岁到119岁;而另一组则与广大群众差别不大,终年在53岁到90岁之间。 研究者先从二十六万个SNP中,找出数十个各自与长寿相关的单个SNP位点;又建立统计模型,找到一套“具有预测性的”SNP,共有150个。通过确定每 一个被试体内这套SNP的颜色,他们可以计算出该个体活过百岁的概率——如果超过一半,就被定义为“很可能高寿”。由于被试的寿命都已知,把计算机算出来 的结果和实际情况一比较,发现77%的百岁老人都确实被模型预测为高寿者,这,就是“准确性达到77%”的来源。 那这是否意味着,如果有人对你体内这150个SNP进行测定,就能以77%的准确度预测你能否活到百岁呢?显然并不是这么简单。首先,GWA手段很 容易受到被试的特定遗传背景(譬如所属人种)的影响,利用GWA手段所得到的类似研究结果,都需要在不同人群中得到多次重复确认,才能被学界认可。而预测 的准确性,也很容易受到影响。事实上,波尔斯他们也在研究中重复过两次,每次的准确性都不相同。 其次,“统计是最大的谎言”虽然是一句行内人的笑话,但也说明对统计结果的解释,需要格外谨慎:用任何统计方法计算出来的、代表概率或准确性的结 果,严格来说,都只在统计学本身的范畴里有意义。在科学家们做出进一步的功能性实验和分析之前,这些结果并没有显著的生物学意义。事实上,GWA所找到的 大多数SNP,都很可能与长寿毫无关系,只是因为误差、实验设计的特点,或者这些SNP正巧和导致长寿的基因做了近邻,才被找了出来。另外,这150个 SNP远未涵盖所有与长寿相关的遗传密码——在异常高寿的老人中,有三十位被模型判断为“活到百岁希望渺茫”,而他们之中不少人却有着悠久的长寿家族史, 这就暗示着还有其他促进长寿的遗传因素并未被发现。 最后,科学家们最担心的,则是如果这项研究被直接用于个人基因测序,会对每个接受测序的顾客产生什么样的心理暗示——如果你知道自己基因优良,会不 会纵容自己抽烟酗酒?又或者如果你发现自己活过百岁的可能性不大,会不会自暴自弃,变成一只沙发土豆?事实上,虽然遗传密码对我们的健康起到至关重要的作 用,但外界环境的影响却绝对不容忽视——在很多情况下,环境的作用甚至远远大于基因。过于强调基因的作用,而忽略健康生活习惯的重要性,对于任何人,都将 是一场灾难。有研究表明,基因对我们是否能活到85岁,只起到20-30%的作用。而就在这项研究之中,有15%的未活到百岁的被试却被计算机定位为“高 寿者”。换言之,他们很可能继承了优秀的长寿密码,却因为其他因素而无缘高寿。 刚刚起步的探索 对于生物医学研究者,统计概率固然重要,但最关键的,恐怕是怎样利用这些统计结果,来摸清生命现象之下的生理基础,并进一步探索能为人类健康服务的 道路。这些年来,GWA研究之所以风起云涌,则在于科学家们认为,它能有效地为进一步的研究指明方向,提供枪靶。在GWA之前,为了找到疾病的遗传根源, 遗传学家往往需要做大量的家族连锁分析。这样的工作,相当费时费力,并需要研究者提出预设猜想——猜测致病基因在DNA上的大致位置。而且,大多数常见疾 病的罪魁祸首都可归结于多个基因的共同作用,可传统的遗传连锁分析却对多基因分析效果不佳。而GWA相对简便快捷,不需要任何关于基因位置的预设,可以同 时分析数以十万计的遗传基因位点,一举找出多个与疾病有统计相关性的基因密码,自然备受研究者的青睐。 GWA找到的与健康状况相关的SNP位点中,有两种对生物医学研究意义重大:一种能直接影响基因功能的SNP位点。这些位点是红是绿,往往可以决定 该基因所制造出来的蛋白质的序列、功能,直接影响生理。2005年,科学家们曾经利用GWA一举发现导致老年性黄斑变性(age- relatedmacular degeneration,一种在老人中极为常见的致盲因素)的基因“补体因子H”(ComplementFactor H)。这个基因与炎症相关,似乎和视力风马牛不相及,若非GWA研究,恐怕很少有人会想到它是重要嫌犯之一。另一种SNP位点,本身并不影响到任何基因的 功能,可是却因为与嫌犯在DNA上位置接近,被GWA发现。科学家们于是可以顺藤摸瓜,通过这些地图标识般的SNP,找到真正的罪魁祸首。恐怕大多数的 GWA研究所能找到的SNP,还是属于这后一种情况。 萨巴斯蒂亚尼和波尔斯的研究中所找到的与长寿相关的SNP,有一些似乎确实在衰老机制中有着一席之地。这些SNP曾在过去的遗传相关性研究中被发 现,与老年痴呆、肌肉萎缩、骨骼代谢、免疫应激等方面相关。今后,它们将会作为备选基因,供研究衰老的科学家细细省视。另外,当这篇文章的作者们分析那些 两千多个已知的、与老年疾病相关的SNP位点时,他们惊讶地发现,这些SNP的分布,在长寿组与对照组之间,并没有任何区别。这可能预示着,长寿的秘诀不 在于免于继承那些致病基因,而在于拥有一批“健康基因”,能延缓老年疾病的发作——事实上,大多数百岁老人,在他们九十来岁时,还相当健康,少有病痛。 不过,这样研究结果的复杂性意味着:想通过一两个基因来全面解释为何有人能特别长寿?这样的努力不太可能“结出硕果”,英国纽卡斯特大学衰老与健康 研究中心的主任托马斯·柯克伍德(ThomasKirkwood)说,“我们不是在寻找那几个设定生命时钟的基因。事实的真相,当它被揭露时,将会异常繁 杂。” 参考文献: 原文: Sebastianiet al., Genetic Signatures of Exceptional Longevity in Humans,Science DOI: 10.1126/science.1190532, http://www.sciencemag.org/cgi/content/abstract/science.1190532v1 其他参考论文: Cordell HJ, Clayton DG. Geneticassociation studies. 2005 Lancet366:1121-31. Dawn Teare M, Barrett JH. Geneticlinkage studies. 2005 Lancet 366:1036-1044 Klein RJ et al., Complement Factor HPolymorphism in Age-Related Macular Degeneration 2005 Science 308:385-389 Pearson TA How to Interpret aGenome-wide Association Study. 2008 JAMA 299:1335-1344 Psychiatric GWAS ConsortiumCoordinating Committee, Cichon S et al., Genomewide association studies:history, rationale, and prospects for psychiatric disorders. 2009 Am JPsychiatry. 166:540-556 参考网站: http://www.nature.com/news/2010/100701/full/news.2010.328.html http://www.npr.org/templates/story/story.php?storyId=128239173ps=cprs http://www.genome.gov/20019523 http://health.mytelus.com/channel_health_news_details.asp?news_id=21758news_channel_id=2104channel_id=2104 http://en.wikipedia.org/wiki/Genome-wide_association_study http://en.wikipedia.org/wiki/International_HapMap_Project 6 您也可能喜欢: 红猩猩基因组测序完成 从单基因糖尿病的故事看科普的意义 “科学松鼠会”的秘密 基因决定工作效率? 当科普的科幻尝起来是文学的 无觅
个人分类: 健康|1484 次阅读|0 个评论
k-mer信息
lry198010 2011-3-27 22:24
实际问题是这样的: 在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)? 概念解释: reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads 测序深度:测序的reads的总大小 /基因组大小,叫测序深度 之前,生物信息估计基因组大小的方法 我的实验过程是这样的 1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT 2、统计相同K-mer出现的次数(叫K-mer的深度) 3、统计相同深度出现的次数(叫深度的频数) 4、作深度与深度的频数的图 假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值) 我的问题: 在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。 那么, 1、这样的图是符合什么数学公式了? 2、能否区分出基因组中重复的区域? 另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。; ^* g [1 t3 b* w: | 那么, 1、这个可以用数学公式表示吗? 2、能否区分出污染的数据? 第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx); 自我介绍 我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。 希望得到数学同志们的帮助 我的邮箱是:jingyc01@163.com,qq是51178182 http://www.madio.net/thread-101207-1-1.html
个人分类: 生物信息|1 次阅读|0 个评论
[转载]关于外显子组
Bearjazz 2011-2-14 09:09
关于外显子组 外显子是人类基因的一部分,包含着合成蛋白质所需要的信息。全部外显子,称为 “ 外显子组 ” ( exome ),只占人类基因组的百分之一。测定外显子序 列只需针对外显子区域的 DNA 即可,因此远比进行全基因组序列测序更简便、经济,已成为现阶段基因测序工作的重心。   新闻公告称,为了 验证外显子测序的实用性,由美国国立卫生研究院资助的一个研究小组选取了 12 名测序对象进行外显子测序。其中 8 人( 4 个非洲约鲁巴人、 2 个东亚人、 2 个欧 裔美国人)的 DNA 图谱已由国际人类基因组单体图计划确认;另 4 人无亲缘关系,同为弗里曼谢尔登综合征患者,该症是由 MYH3 基因变异引起的一种罕见遗传性疾病。引入这 4 人参与测序的目的,就是确认外显子测序是否能检测到他们 DNA 中的 MYH3 基因突变。   研究人员首先将 12 个基因组 DNA 样本制成片段,再使用特殊探针选出其中仅含有外显子的片段。经过对 12 组外显子组的测序和分析,总计确定了 3 亿个 DNA 序列碱基,这是到目前为止使 用第二代测序技术获取的人类基因编码序列的最大数据。   与常用的人类基因组测序相比,外显子测序在检测基因变异方面,无论是普通变异还是罕见变异,都表现出很高的灵敏度。通过这种测序,研究人员能够识别出一系列 DNA 错拼,如单核苷酸多态性变异( SNPs ),以及基因序列的插入和删除。   而通过采用多步骤分类检测法,滤掉普通变异和个人独具的变异后,研究人员从 4 名弗里曼谢尔登综合征患者的 DNA 中准确找出了致病基因 变异。他们的研究表明,对于单个基因变异引起的疾病,外显子测序同样可以准确找到致病基因,与全基因组测序无异。研究人员认为,外显子测序也可用于多重基因变异引起的常见疾病,如糖尿病和癌症的研究中,来揭示该种疾病的致病基因。   美国国家心肺血液研究所主任伊丽莎白 ·G· 诺贝尔博士指 出,进行外显子测序,可以得到关于疾病遗传基础的相关信息,希望这种指向性的目标测序有朝一日能用于大量人群,以帮助发现常见疾病如高血压、高胆固醇的遗传学基础。   该研究由美国国立卫生研究院资助,美国华盛顿大学、安捷伦科技公司(该公司得到国家心肺血液研究所资助),国家人类基因组研究所以及尤尼斯 · 肯尼迪 · 施赖弗国家儿童健康与人类发育研究所的科学家共同参与。该研究也是国家心肺血液研究所和国家人类基因组研究所的合作项目 —— 外 显子组计划的一部分,旨在开发、验证并应用一种低成本、高效率的外显子测序方法。 原文地址: http://hi.baidu.com/nacoo2000/blog/item/54e50e44ef2f8f33869473ff.html
2678 次阅读|0 个评论
苹果基因组被测序
zls111 2010-10-12 10:06
种植的苹果基因组被测序,发在最新的一期的Nature genetics。苹果基因组测序对研究果实的发育有着重要的意义,其中参与花与果实发育的mads基因在一些小枝上有着扩张。 有意思的是苹果在发生一次基因组重复后丢掉一对染色体,早期的时候是9对染色体,在后来复制一次应该有18对,但最后只有17对染色体。 苹果基因组也不是很大,大约有742M,比水稻400M与拟南芥125M要大些,但比大豆1G的基因组要小。其总的基因数目倒是现在已经被测序的10几种植物最大的,差不多有60000个。 Reference: 1。 Velasco, R. et al. The genome of the domesticated apple。Nat. Genet. 42, 833839 (2010). 2。James Giovannoni。Harvesting the apple genome 。Nat. Genet. 42, The genome of the domesticated apple
个人分类: 转载和评述|11263 次阅读|3 个评论
[转载]第三代测序技术简介
wchao612 2010-9-29 00:51
如果有人告诉你用显微镜实时观测单分子DNA聚合酶复制DNA,并用它来测序,你一定会认为他异想天开,没有一点生物的sense。 我最初就是这样认为的,然而它不仅可以实现,而且已经实现了!这个就是被称为第三代的测序技术,Pacific Biosciences公司推出的Single Molecule Real Time (SMRT) DNA Sequencing(单分子实时DNA测序)。 我有幸在NIH听到了这个技术发明人Stephen Turner博士的讲座,根据自己粗浅的理解记录整理一下。 要实现单分子实时测序,有三个关键的技术。 第一个是荧光标记的脱氧核苷酸。显微镜现在再厉害,也不可能真的实时看到单分子。但是它可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入 DNA链的时候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱 氧核苷酸不会影响DNA聚合酶的活性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。 第二个是纳米微孔。因为在显微镜实时记录DNA链上的荧光的时候,DNA链周围的众多的荧光标记的脱氧核苷酸形成了非常强大的荧光背景。这种强大的荧光背 景使单分子的荧光探测成为不可能。Pacific Biosciences公司发明了一种直径只有几十纳米的纳米孔 ,单分子的DNA聚合酶被固定在这个孔内。在这么小的孔内,DNA链周围的荧光标记的脱氧核苷酸有限,而且由于A,T,C,G这四种荧光标 记的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信号。而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色 的荧光会持续一小段时间,直到新的化学键形成,荧光基团被DNA聚合酶切除为止(见图)。 第三个是共聚焦显微镜实时地快速地对集成在板上的无数的纳米小孔同时进行记录。由于我对显微原理的物理知识匮乏,而Pacific Biosciences公司又没有非常强调在这方面的发明,不做进一步探讨。 他们还对这一技术进行进一步的优化。 第一个是把双链DNA环化反复测序。人们可以在双链DNA的两头连上发夹结构的DNA adaptor,从而使DNA环化。而DNA聚合酶就能够以环化的DNA作为模板滚环复制,反复测一段DNA序列。这种反复测序,纠正了偶尔出现的复制错误,从而使测序精度非常高。 第二个是激发光中断测序法。DNA聚合酶虽然很稳定,但是在强大的激发光作用下酶也是有一定寿命的。如果把激发光中断一段时间,在这段时间内DNA聚合酶继续复制DNA,当激发光重新开启以后,人们就可以测到长DNA链后面的序列。 第三代测序技术非常可怕。1、它实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍。2、它实现了DNA聚合酶 内在自身的processivity(延续性,也就是DNA聚合酶一次可以合成很长的片段),一个反应就可以测非常长的序列。 二代测序现在可以测到上百个碱基,但是三代测序现在就可以测几千个碱基。这为基因组的重复序列的拼接提供了非常好的条件。3、它的精度非常高,达到 99.9999%。 此外,它还有两个应用是二代测序所不具备的。 第一个是直接测RNA的序列。既然DNA聚合酶能够实时观测,那么以RNA为模板复制DNA的逆转录酶也同样可以。RNA的直接测序,将大大降低体外逆转录产生的系统误差。 第二个是直接测甲基化的DNA序列。实际上DNA聚合酶复制A、T、C、G的速度是不一样的。正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同。根据这个不同的时间,可以判断模板的C是否甲基化。 Pacific Biosciences公司预计2010年或者2011年就会推出商业化的测序仪器。在不远的将来,如果他们能和二代测序一样集成100万个纳米微孔,那 么一台仪器15分钟就能够准确地测出一个人的基因组。以后每个人的基因组测序成本将变成100美元,人人都可以消费得起。想想人类基因组计划耗资30亿美 元,费时十几年,无数科学家参与其中,技术的革新意义是多么重大啊!
个人分类: SCI|1457 次阅读|0 个评论
[转载]浅谈de novo assembly(通俗易懂)
热度 1 qqsvery 2010-7-16 11:12
短序列组装几乎是近年来next-generation sequencing最热门的话题。简单来说,就是把基因组长长的序列打断(shotgun sequencing),因为我们不知道基因组整条序列是如何排列(成一条链,最后成为一条染色体)组合(如何区分不同染色体)的,而我们又无法实现一次把整条长序列完整测序(现在有单子测序可能是一个新的sunlight)。然后,我们通过算法,计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列。 就好比我们有这样一句话: it is just a hypothesis, so don't be seriously! 假设,我们现在不知道这句话到底是什么,就像我们有一个box,我们抽到一张纸,但没打开,我们把这张纸撕成pieces,当然可能还发生了变化,所有的空格和标点都消失了(魔术!)我们得到: itis ypo stah the sodo eriou siss ju ntbes sly 因为我们测了几次,为了增加覆盖度,这样我们能通过高覆盖度而提高置信度: itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju 另外,我们又发明了一种称作为paired-ends的序列测序方法,即两头定长,中间插入片段一定的序列,像这样: iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly 这样我们根据如下图的方法,我们可以把这句话拼回来: itisjustahypothesissodontbeseriously 但它不是最终结果,我们根据我们的现有的语法习惯,我们给它们加上空格(gap)和标点(遗漏的关键东西),我们能够还原原话! 但事实它并不简单,因为基因组中含有大量的重复序列(Repeats),多态性变异(Polymorphism),测序错误(Sequencing error),所以我们可能会把一条序列连成很多路(图论),或者回环等,如velvet: 它们有时不但只是通过简单的统计学算个N50就能得出最佳路线,可能会涉及到复杂的纠错和线性化过程。 现有有两条路子,一参考原有参考基因组,我们用map resequencing的方法,来找出consensus,当然我们可以结合RNA sequencing, ChIP sequencing, SNA detection,methyl-seq,CNV detection(以前我认为这是一个不错的出路,但后来因为工作搁置没进一步研究),我们可参考lh3大哥的Maq策略: 当然,并不是所有的基因组都有参考序列,所以我们还有 图论 的策略,如velvet,当然现有很多算法和程序已经得到比较满意的结果,如: * MIRA2 - MIRA (Mimicking Intelligent Read Assembly) is able to perform true hybrid de-novo assemblies using reads gathered through 454 sequencing technology (GS20 or GS FLX). Compatible with 454, Solexa and Sanger da ta. Linux OS required. * SHARCGS - De novo assembly of short reads. Authors are Dohm JC, Lottaz C, Borodina T and Himmelbauer H. from the Max-Planck-Institute for Molecular Genetics. * SSAKE - Version 2.0 of SSAKE (23 Oct 2007) can now handle error-rich sequences. Authors are Ren Warren, Granger Sutton, Steven Jones and Robert Holt from the Canada's Michael Smith Genome Sciences Centre. Perl/Linux. * VCAKE - De novo assembly of short reads with robust error correction. An improvement on early versions of SSAKE. * Velvet - Velvet is a de novo genomic assembler specially designed for short read sequencing technologies, such as Solexa or 454. Need about 20-25X coverage and paired reads. Developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute (EMBL-EBI). 但,我们的数学家生物信息学家完全沉溺在算法改进,可改来改过,从未见过一个版本的short reads assembly能站出来说,这个版本是最准确的! 其实,我认为算法不是瓶劲,而是计算资源,计算成本,并行计算的实现!当然人们说,我们有Grid,有super computer,有集群,有cloud,可这些战斗机,并没有而且没必要用在只用跑车就能运行的基因组组装上。 从物理的角度上思考,我们并不需要建立复杂的模型,就比我们去学一门外星语言,of course我们不能与之交流,这就是一个解码过程。我们可以通过统计,了解并发现其中的自然规律(只要是事件都有固有规律,语言更是),我们可以知道其单词(当然可能是声音、光、触觉、肢体语言、脑电波,anyway不管什么表达方式)的出现频率,停顿时间,语调(可能是光强度,色度等),然后,通过外部事物的接触,我们就能知道其语意,并创造我们的单词、句子,好比婴儿学语(人工智能范畴)。它们其实就是个熵、焓计算,因为自然本身是有规律的,只期待着我们去发现!那么,我们可以把这样的统计模型放在assembly上,应该是通用的,我们可以建立一个并行计算中心,我们不用什么for(){}语句,就一个计算交由一个CPU(GPU)让它去运行,算出我们的最大似然值,熵极值,那就是答案!
个人分类: 生活点滴|4131 次阅读|1 个评论
测序结果的分析
Best2009 2010-6-4 13:23
测序结果的分析 测序都是从 5' 端进行的,正向和反向测序是指对 DNA 的两条互补链分别测序,通常两个方向测序结果经校读后完全一致才能认为得到可靠结果。生工测序结果一般都提供两个文档,一个是 TEXT 的序列文档,一个是用 Chromas 软件打开的 ABI 文档。 1. 寻找引物 http://blast.ncbi.nlm.nih.gov/Blast.cgi 比对,去除引物序列,找到目的片段。 在 DNAMan 上进行比对,看引物能不能比对上(一个不变,一个反向互补),如果比不上,那可能就不是你要的序列,如果能比上,上游以引物第一个为分界线,去除前面的;下有一最后一个为分界线,去除后面的,剩下的就是目的序列。然后在 NCBI 上 Blast. 就 OK 了。 批注: PCR 产物进行测序的结果可能不包含引物序列 2. 将找到的对应目的片段转成 *.txt 格式 3. 下载 BioEdit 软件 第一:打开 Bioedit 软件,导入拼接好的样品序列与标准亚型参考序列 File New Alignment Sequence New Sequence 导入拼接好的样品序列和标准参考序列(从 TEXT 文档利用复制粘贴工具) Apply and close 保存结果关闭窗口 第二:点击菜单栏上按钮 Accessory Application ,选择 Clustalw Multiple Alignment File Open Accessory Application Clustalw Multiple Alignment 第三:比对结束后,删除比对序列两端的多余序列,使所有序列等长 选择需要编辑的序列 Sequence Edit Sequence 进行序列的编辑保存修改后结果 第四:选择 Sequence 菜单下的 Gaps ,点击 Lock Gaps 第五:将比对后的序列保存为 Fasta 格式文档 4. 下载 MAGE4.0 软件 1) 打开 MEGA 软件,选择 File 菜单栏中的 Convert To MEGA Format ,把序列文件的格式转换为 meg 文档保存; 2) 双击序列的 meg 文档,选择 Nucleotide Sequences ,点击 OK ; 3) 程序运行中询问是否为蛋白编码序列,选择 NO ; 4) 在 MEGA 操作界面选择 Phylogeny 菜单栏下 Bootstrap Test of Phylogeny 中的 Neibour-Joining ; 5) 选择 Test of Phylogeny 栏中的 Bootsrap , Replications 设定为 1 000 ;在 Options Summary 栏中的 Model 项中,设定参数为 Kimura 2-Paramete r ,最后选择 Compute ; 6) 将分析结果采用 Los Alamos HIV 序列库提供的 HIV-BLAST 和 Subtyping 工具进行验证。
个人分类: 未分类|22925 次阅读|0 个评论
关于杂种优势的超显现假说的一种可能
lry198010 2010-5-26 00:12
今天开seminar,有一个报告关于杂种优势的。说现在有结果表明,超显现假说可能是显现效应的一种表现。这个需要文章来说明。
个人分类: genetic association breeding|16 次阅读|0 个评论
从一个四代家庭分析基因遗传全基因组测序
penny227 2010-4-27 13:37
最近《自然》上发表一篇由美国科学家近期完成的一项基因遗传方面最新成果 。 他们分析了一个四口之家全基因组序列,这个家庭有两兄弟和他们的家长组成。家庭为基础的测序使我们能够精确地确定重组位置,辨认 70 %重组错误(结果 99.999 %是准确的)。还有确定了非常罕见的单核苷酸的多态性。 我们也直接估计人类发生代际突变率 为 每单倍体基因组中 1.110 -8 。在这个家族的后代有两个隐性障碍――米勒症候群,该基因被同时确定。并原发性纤毛运动障碍,此致病基因已被确认。 家庭为基础的基因组分析,使我们能够缩小对这些孟德尔疾病的候选基因的分析,只考虑有限的 4 个。我们的研究结果证明了基因组测序完成家庭的独特价值。 该发现已发表在 2010 年 3 月 5 日 的《自然》上。 原文地址: http://www.sciencemag.org/cgi/content/abstract/science.1186802v1
个人分类: 未分类|3377 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 19:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部