科学网

 找回密码
  注册
科学网 标签 宏基因组 相关日志

tag 标签: 宏基因组

相关日志

[转载]宏基因组的一些坑和解决方案
niuneat 2020-10-20 12:15
近年来,随着测序技术的发展,对微生物群(微生物组)的研究逐渐加深,研究热点越来越多集中于环境和生物体相互作用的微生物群。加之测序成本降低,分析技术不断提升,都使得宏基因组测序技术得到广泛应用。 为什么要做宏基因组 宏基因组相对16S来说其物种分辨率会更高,随着物种测序完成越来越多,数据库更加完善,在肠道菌群方面基本能实现97%以上的菌都能鉴定到种,90%以上到菌株层面。 而且可以同时获得除RNA病毒外的所有物种的分布。此外包括菌基因组CNV等方法的出现,可以直接通过大规模宏基因组测序不仅找到可能的菌,进一步还能鉴定出特定候选基因区段。 对16s而言,宏基因组可挖掘的空间更大,如果想提高文章深度,发更高分的文章,宏基因组是个不错的选择。 有人说,宏基因组虽然有深度,但相应也更加复杂化。比如同样是做某类疾病,别人通过实验测序分析可以得出结论写出文章,到自己去研究怎么就遇到各种困难?完全没差异?出不了结果? ...... 而等到所有分析完重新回头去找问题,也很难发现问题所在,一遍遍重新做耗时耗力... 其实这类文章并不只是测序而已,重点在于理解这个过程,研究方向的思考,分析策略的选择,包括其中要注意的因素等。 本文将从一个例子开始,为你打开研究思路,绕过某些 易踩的坑 ,让你的数据更有利用价值,处理具体的问题也更加得心应手。 宏基因组文章解析 下面是利用已发表的宏基因组文章中的数据,用我们自己的流程进行一次全面的分析。在这个过程中,我们发现很多有意思的点,分享给大家。 这是一篇做精神分裂症患者粪便菌群宏基因组的文章。文中分析了90名未经药物治疗的精神分裂症患者和81名健康对照者的粪便菌群,确定了一种能够区分患者和对照者的微生物物种分类器。 研究发现与精神分裂症相关的功能代谢方面的差异主要体现在 短链脂肪酸合成 、 色氨酸 代谢以及 神经递质的合成/降解 。还发现了一种在精神分裂症中比较富集的物种Streptococcus vestibularis,在小鼠的粪移植实验中,它引起了小鼠的社交行为缺陷,并改变了小鼠外周组织中神经递质的水平。 我们对这篇文章中的肠-脑模块(GBM)部分的分析比较感兴趣。为此,下载了文中使用的宏基因组原始数据,原计171个样本,但有一个无法下载成功(所以结果方面可能会与原作有细微的差异)。 元数据的收集 在宏基因组分析之前通常要先收集元数据,那么什么是元数据? 元 数 据 元数据主要是对数据的属性进行描述的数据,也是实验数据的重要组成部分。 人体样本 :主要包括个人基本生理信息(例如身高、体重、年龄、性别等)、生活行为方式、地理位置、膳食结构、营养状况、既往病史、抗生素使用情况等信息。 环境样本 :指样本获取过程中的信息,例如采集地点、大气、水文、温度、pH值、压力、季节、运输方法、存储媒介等。 在数据分析之前我们首先对这批样本的群体构成和一些已有的元数据进行统计和特征分析: 其中,SCZ是精神分裂症患者,HC是健康对照。 一共170例样本,其中精神病患者90例。 年龄、性别以及BMI还有食物构成的分布情况如下: 从上图中可以看出有些元信息在分组间就存在明显差异,如年龄,血清素指标,而有些元信息如性别没有明显差异。 进一步对这些元信息做统计分析,发现健康组(HC)和精神病患者(SCZ)存在显著差异(如下图的年龄信息,P值为0.117)。在 我们的宏基因组分析流程中 ,分析前会将客户提供的所有样本元信息做统计分析,作为进一步分析的基础。 其中除了性别数据,其他几个主要因素还是存在差异的,这就要求后续分析的时候需要 考虑这些因素的影响 ,这个在后面会提到。 研究中同时检测了血清中主要神经递质的水平,可以从中看出精神病患者的神经递质差异特征,其中多项神经递质存在极其明显的差异: 上图中框出的色氨酸、谷氨酸、酪氨酸、苯丙氨酸都存在显著差异。 数据库的选择和完善程度 我们使用的是kraken2以及谷禾自建的基于Reseq 99版本的微生物基因组数据库。需要注意的是Kraken2自带的物种数据库,其中肠道菌群中非常重要的 Prevotella copri 由于不在Refseq的完整测序基因组中,数据库没有包括,直接使用这个自带数据库会导致肠道菌群分析存在 严重偏差 ,个别样本甚至95%以上都是该菌,如下面的这个样本: 可以看到红色箭头指向的Prevotella copri菌占比很高;假如数据库没有包含该菌注释,那么在后续分析的时候会错过一些重要信息。 谷禾数据分析使用了包括RefSeq 最近的99版本基因组数据,涵盖 细菌、病毒、古菌、原生动物 , 不仅是完成的基因组还涵盖了基因组框架的物种 。另外加入了 IMG的真菌和细菌的 基因组数据,以及 真核寄生生物 的数据库。 数据比对和统计分析结果如下,报告使用Pavian展示: 可以看到图中的红色框内,结果中能比对上数据库的比例大部分在90%以上,不能比上的只有不到10%的比例。 对应的 物种构成表 : 红色箭头指向的Max列,是后面列出样本reads数的总和。点击可以排序,简单方便。这个在线软件在谷禾报告中会给出相应的使用说明。 对应的每一个样的 物种构成丰度 : 以上的两张桑基图能将菌属构成,层级关系展示出来,更加直观。 接着看分析,下图是统计检验结果,共找到85个显著差异的菌,结果如下: 菌株部分发现42个差异菌株: 基于差异物种,使用spearmanCC,我们同样构建了精神病患者与健康对照两组差异菌的网络构成。 接着进一步分析了功能代谢,重点关注 肠道菌群产生的神经递质和脑肠轴相关的代谢途径 ,也就是GBM模块与疾病分组和血清神经递质的关联关系。 前面已经提到,肠道菌群受年龄、饮食方式以及身体状况等影响,这些因素本身会导致肠道菌群状况产生偏差,如果不对这些因素进行统计控制,会对统计结果尤其是统计效力产生很大影响。 控制环境因素的影响 一般在统计上可以通过 控制样本分组 这些因素的分布,使其分组之间的因素基本一致或增加样本群体数量来增加统计效力。也可以通过统计方法如 偏相关或加入协变量控制的GLM模型 等方式来控制这些环境因素的影响。 这里的例子很好的显示了对这些因素 控制 和 不做控制 带来的统计分析结果的差异。 不 做 控 制 下图为不做控制的菌群总体GBM代谢模块与血清神经递质以及样本元数据的相关情况: 上图可以看到完全没有显著相关。 控 制 协 变 量 对 性别、年龄 以及 食物摄入特点 进行 协变量控制 之后的偏相关分析结果: 在这张图,可以找到显著的相关了。 可以看到有没有控制协变量对结果会造成影响,因此这里强调下 协变量控制的重要性 。 那么这里就意味着很多 关联性被性别、年龄和饮食特点干扰了。 可以看到其中与是否患病的诊断(Diagnosis)相关的仅有 DOPAC synthesis 这一项,其他的大部分都不相关,该代谢通路同样在抑郁症人群中被发现存在显著相关,且与 抑郁程度直接相关 。 进一步的问题来了。 是否是菌群产生的神经递质直接影响了血清神经递质的量,并引发精神病呢? 我们发现整体 菌群的主要神经递质代谢 虽然 部分与 精神病患者异常的 血清神经递质 存在 相关 ,但是 关联性较弱 ,且差异并不明显。这就带来了一个思考: 差异菌 是否参与了这些神经递质的代谢异常。 我们仅分析了85个差异菌对应的GBM模块的代谢通路水平与血清神经递质的关联性(同样使用了偏相关): 除了与诊断分组全部强相关之外, 与神经递质也有大量相关 。但是当我们直接比对GBM模块代谢与相应神经递质的关系时发现, 并不直接对应 ,也不存在单纯的菌群的合成途径升高对应血清神经递质的升高,甚至出现 相反 的情况。 差异菌可能是对神经递质敏感的菌 基于上面的结果,我们推测, 这些差异菌实际上并不是直接导致神经递质异常的原因 ,很可能是对神经递质 异常敏感的菌 ,当精神病患者出现特定神经递质水平异常时,会通过 代谢或底物 变化诱导 这些菌的生长 或 抑制这些菌生长 。 另一个证据是论文中提及这些患者中的一部分经过治疗或用药后3个月又进行了一次检测,其中一半以上的差异菌和健康对照相比都不再显著。 虽然没有直接找到菌群作为精神病发病因素的证据,但 精神病患者确实存在特征菌群的变化。 那么这些特征变化的菌群是否能帮助我们对精神病进行诊断或区分呢? 使用随机森林,我们提取了最重要的10个菌作为区分特征,其分布如下: ROC的结果如下: 没有达到论文中提及的 89.56% 的水平,但显示确实可以 一定程度上区分 。 需要注意的是,该研究中仅招募急性复发精神分裂症(ARSCZ)和首发精神分裂症(FESCZ)患者。该文中分析内容都是基于这个前提。因此我们认为对于部分用药后的精神分裂症患者菌群还有待研究。 另外使用热图决策树对所有元数据和菌群特征对精神病进行区分分析,发现仅使用 血清色氨酸 和 MSCEIT 量表 两个指标就可以较好的区分精神病患者。 以上是我们结合自己构建的数据库,综合考虑多种因素,加入协变量控制分析得出的结果。 以上内容是对于该文章数据进行的分析。当然不同的文章,对应的分析可能会有些不同。 其他分析 以下图表为谷禾宏基因组分析网页报告的部分截取。谷禾宏基因组报告的形式在原先的基础上有所优化,采用网页报告的形式便于大家浏览,方便快捷。 bining分箱及评估 比如说想要拼出未知菌的基因组就要用到 bining分箱及评估: 基 因 预 测 物 种 分 析 功 能 分 析 测序深度的选择 目前宏基因组相较于16s,样本测序费用还是较高,除了建库费用主要原因来自于宏基因组样本测序量大,测序成本高相应分析成本也高(前面案例提到的文章测序数据量达到3000万reads,成本可想而知)。 除一些样本来源构成复杂的样本或者后续需要做分箱分析(主要获得样本里一些菌的基因组草图)的样本还有以基因序列和变异为目标的需要比较高的测序深度以外,大部分研究微生物群落以及其与环境互作等,其实不需要那么高的测序数据量。 下面我们从该案例文章170个样本中随机抽取100万reads做beta多样性PCA图。 左侧是使用了完整所有序列的PCA图,右侧是每个样本随机抽取100万reads的PCA图。 可以看到随机抽样100万reads之后的菌群分布情况和完整序列的完全相同 。 既然100万reads数的菌群分布情况和完整序列没什么差异,我们也可以直接拿100万reads数进行后续分析。 而其他分析各个结果 均显示在100万reads的基础上进行后续分析并没有影响最后的结论 。 浅 宏 基 因 组 可能有人还没听过浅宏基因组,这里稍微介绍下。其实浅宏基因组跟宏基因组类似,最大的差别在于数据量。浅宏基因组测序深度相对较低(100万reads),但是物种的分辨率并没有低于一般宏基因组(5-6G)。 谷禾经过几个月的研发的测试,推出 浅宏基因组测序分析服务 ,每个样本数据量不低于100万reads,不通过拼接组装,直接基于kraken2等kmer,或MetaPhlAn2等标记基因的参考基因组方法进行种属丰度分类。 结合其到菌株的物种分类和丰度数据可较16s方案下的PICRUST更加准确的预测基因构成。周期在: 2-3周 左右,尤其 适合粪便样本 ,价格比16s测序价格稍高一点。 更高性价比,最大程度满足大家不同的需求。 有些同学可能还有疑惑,做这个真的可以发文章吗?在你犹豫的时候,已经有浅宏基因组的文章发表了。 近日,美国梅奥诊所消化内科和肝病科 Purna C. Kashyap研究团队和明尼苏达大学生物科学学院 Dan Knights团队合作在 Cell 上发表了题为 Longitudinal Multi-omics Reveals Subset-Specific Mechanisms Underlying Irritable Bowel Syndrome 的文章。 该文章在菌群方面研究采用了宏基因组和16S,对粪便样本采用宏基因组,对黏膜样本采用16S,因为黏膜样本含有较高的人体DNA,16S更为合适。 粪便样本的宏基因组直接采用和RefSeq89版本进行比对注释,基因部分同时结合了序列比对和利用基因组数据直接提取注释相结合。 宏基因组测序能够提供菌株层面的分辨率,同时也是后续结构变异关联分析的必要条件,随着参考基因集的完善,中等测序深度的 浅宏基因组 将可以大量应用于这类研究中。 此外,对于这类文章的把握,实验方案的设计也很重要。 如何设计实验方案 这里我们提供一个 谷禾参与设计 的利用宏基因组技术,研究帕金森疾病与肠道菌群的研究方案示例。 帕金森与肠道菌群研究方案 帕金森氏病(PD)可能始于肠道中α-突触核蛋白原纤维的积聚,这可能与肠道营养不良有因果关系。 在帕金森氏病(PD)中,胃肠道功能很常见,通常先于运动征兆出现。PD可能是由病原体触发的肠道中起始,然后扩散到大脑。 已有多个人群队列研究显示PD患者人群和健康对照人群的肠道菌群Beta多样性存在显著差异。在Wallen等2020年的研究中发现有三个聚类的菌。 簇1由机会性病原体组成,所有PD均升高。 簇2是产生短链脂肪酸(SCFA)的细菌,PD均降低。 簇3是碳水化合物代谢的益生菌,并且PD升高。消炎产生SCFA的细菌的消耗和益生菌水平的升高是确定的。 目前在开展的帕金森队列研究中以荷兰DUPARC前瞻性队列研究为代表,临床试验注册于2019.11.28日。 研 究 方 案 招募150名从头开始研究PD的受试者。参加者将在1年和3年后接受随访评估,以期每3年进行一次扩展随访。 受试者具有广泛的特征,可以主要评估PD的三个主要领域内的目标: 认知,胃肠功能 和 视觉 。 这包括 脑磁共振成像(MRI); 脑胆碱能PET显像与氟乙氧基苯甲酸(FEOBV-PET); 具有氟多巴的脑多巴胺能PET成像(FDOPA-PET); 详细的神经心理学评估,涵盖所有认知领域;肠道微生物组组成; 肠壁通透性光学相干断层扫描(OCT); 基因分型运动和非运动症状; 总体临床状况和生活方式因素,包括饮食评估; 血液和粪便的储存,用于进一步分析炎症和代谢参数。 DUPARC是第一个在一段时间内将数据合并但不限于PD受试者认知,胃肠功能和视力的非运动领域数据的研究。作为一个从头开始的PD队列研究,以未接受过治疗的受试者作为基础,DUPARC为生物标志物的发现和验证提供了独特的机会,而不会造成多巴胺能药物的混杂影响。 现有的研究已经明确发现,多巴胺能药物会对菌群和代谢造成干扰,此外如儿茶酚-O-甲基转移酶抑制剂会显著增加乳杆菌科的含量。 另一项关联研究显示儿茶酚-O-甲基转移酶抑制剂(P = 4E-4),抗胆碱能药(P = 5E-3)和可能的卡比多巴-左旋多巴(P = 0.05)均对肠道菌群产生独立显著影响。 因此在构建研究队列时需要区分接受过治疗和未接受过治疗患者,对于接受治疗患者需要采集完整的用药记录信息。 研 究 方 向 目前帕金森与肠道菌群的研究有两种研究方向: 01 向菌群代谢产物,免疫信号,神经递质等方向探索 进一步深入解析肠道菌群在帕金森疾病进展和形成过程中扮演的角色,从已有的菌群构成向 菌群代谢产物,免疫信号 以及 神经递质 等方向探索。 单纯的纳入100例左右患者与相应对照人群检测菌群构成已有较多研究,只能从中国人群方面提供人群特异性变化,预期应该会有显著差异,但高水平研究论文较为困难。 研究方法上的改进可以纳入更加完善的临床和生理指标,如 药物、认知,胃肠功能和视觉, 以及更细化的 脑磁共振成像 (MRI)和 代谢组特征 进行组合统计分析。 另外可以从16S改为使用宏基因组测序,从更深和菌株层面发现关键群体以及基因关联。样本人群可以在100例左右,如果有可能尽量选择 多中心 或 多个时间点 ,作为独立验证队列,以提高研究可信度。 02 解决现有治疗和疾病进展的个体化差异与菌群之间的关联和机制 另一个方向是从 药物和疾病进展 评估 角度,这个方向需要从持续的样本收集和追踪,并纳入更多的临床和治疗信息,从而 解决现有治疗和疾病进展的个体化差异与菌群之间的关联和机制 。 这类研究纳入患者数量可以在50~100例之间,以病人为主,但需要持续跟踪,研究方案可以选择16S或宏基因组。 上述两个方向可根据临床患者招募和临床条件自行选择或组合。如果对照人群较难招募,建议以第二方向为主。 以上信息与大家分享交流, 希望可以对即将或正在开展宏基因组研究的同仁们有所帮助。 技术在不断进步,有价值的东西变得更好的方法就是不断更新迭代它,欢迎大家留言和交流。 本文转载在谷禾健康
2692 次阅读|0 个评论
[转载]多快好省的宏基因组研究技巧 — 资深专家分享
niuneat 2020-4-27 13:34
谷禾健康 原创 近年的研究热点集中于环境和生物体相互作用的微生物群体,而大量复杂的微生物群体存在培养困难,构成复杂(包括细菌、古菌、真菌、原生生物、病毒甚至小型真核生物)。因此 如何用高通量精准的了解这些群体的构成,基因功能分布以及具体的表达活性和代谢状况 成为首要问题。 高通量测序技术的发展,让我们可以不经过培养,一次性了解微生物群落构成甚至基因代谢组成。 随着技术的进步, 检测方法 也逐渐丰富,对应的 分析手段和软件算法 也逐步完善,使我们可以根据研究需要选择不同的检测和分析策略来获得海量的数据并进行相应的研究分析。 01 简 介 免于培养的微生物学研究方法主要基于测序,高通量测序使我们 一次可以获得整个微生物群体的数据信息 ,简单来说包括两种策略: 1、基于特定标记基因的扩增测序方案(常见的16s,ITs,18s或特定功能基因) 2、对整个群落DNA进行测序,获取全部微生物基因组进而进行分类和功能分析的策略(鸟枪法宏基因组测序shotgun metagenomics)。 基于16s基因的分析方法 由于其极低的成本,对于样本DNA的低要求非常适合于大规模群体样本的调查和分析,随着DADA2等分析方法的改进,物种分类精度和准确度也有所提升,加上PICRUST等功能预测方法一定程度上弥补了基因信息的缺失,因此 16s 这类基于基因的微生物研究方法 仍然是不可或缺 的方案。 下表列了16s常见的分析软件,目前 QIIME2 作为整合包使用最为方便, VSEARCH 也作为UPARSE的开源版本使用也非常广泛。 16s测序的分析流程如下图,获得序列经过聚类后获得OTU或ASV,并得到相对丰度。 经过 PICRUSt 可以得到预测的基因分类丰度,进而进行alpha多样性和Beta多样性以及组间差异和相关性分析。 PICRSt的工作原理如下图,将OTU表内16s序列进行对应物种16s拷贝数标准化后,将物种丰度乘以已经整理好的物种的基因注释数表就获得基因的预测丰度。 02 浅宏基因组 浅宏基因组测序方案是去年knights-lab在msystems上发表的针对16s分辨率和宏基因组高成本之间的一个 折中方案 ,通过 降低测序深度 ,每个样本 50万 reads,但是物种的分辨率 并没有低于 一般宏基因组(普遍5~10G数据量)。 不通过拼接组装,直接基于kraken2等kmer,或MetaPhlAn2等标记基因的参考基因组方法进行种属丰度分类。结合其到菌株的物种分类和丰度数据可较16s方案下的PICRUST更加准确的预测基因构成。 Hillmann B, Al-Ghalith GA, Shields-Cutler RR, Zhu Q, Gohl DM, Beckman KB, Knight R, Knights D. 2018. Evaluating the information content of shallow shotgun metagenomics. mSystems 3:e00069-18. https://doi.org/10.1128/mSystems.00069-18. 我们发现有些小伙伴的需求是: 想要获得 更全 和 更精细 分类精度同时 不需要获得完整基因组序列和重建菌群基因 的。 那么这时候,我们提供的 浅宏基因组测序 就可以成为很好的选择,其 成本低(快要接近16s测序分析的价格了,文末有福利) ,分析 简便快速 ,同样 能获得宏基因组 的 基本丰度数据 。不过浅宏基因组也有其适用范围,根据样品类型的不同,一些样品可能包含 99%的人类宿主DNA,这不仅增加了序列成本,而且给测量带来了不确定性。 在许多研究中也会采取在进行宏基因组测序文库的准备之前去除宿主DNA的方法。但是,在去除宿主DNA后,可能没有足够的微生物基因组DNA用于宏基因组测序,这通常需要最少50ng的输入。因此浅宏基因组较适合于 宿主DNA含量较低 的样本,如 人类粪便、水体、土壤 等;而如口腔唾液、肺泡灌洗液、血液等人体体液类样本就不太适合。 下图是宏基因组测序数据中比对到人类基因组的序列比例,根据 样本类型 不同而不同。 我们可以免费提供针对粪便及环境样本助力临床/科研取样。 人体口腔 、 痰液 、 腹水 、 脑脊液 、 尿液 、 皮肤 、 阴道分泌物 等高寄主细胞含量样本可根据我们的处理方案简单处理后大幅降低宿主DNA比例。 处理方案如下: 高宿主含量DNA样本(包括唾液、血液、肺泡灌洗液、腹水、阴道分泌物和黏膜类样品)的取样前处 将200微升唾液等体液样本以10,000g离心8分钟 弃去上清液,通过移液将细胞沉淀重悬于200μl无菌水中,短暂涡旋,然后在室温下静置5分钟,以渗透压裂解哺乳动物细胞 添加终浓度为10μm的PMA(叠氮溴化丙锭)(向200μl样品中添加10μl的0.2 mM PMA溶液),并将样品短暂涡旋,然后在黑暗中于室温温育5分钟 然后将样品从标准台式荧光灯放置在20cm的冰上水平放置25分钟,短暂离心并每5分钟旋转一次 完成后,可将样品冷冻在−20°C或转移到取样管的储存液中 Marotz CA, Sanders JG, Zuniga C, Zaramela LS, Knight R, Zengler K. Improving saliva shotgun metagenomics by chemical host DNA depletion. Microbiome. 2018;6(1):42. Published 2018 Feb 27. doi:10.1186/s40168-018-0426-3 本处理方案以后宿主DNA可以降低8%以下。 03 宏基因组 说起宏基因组,对于熟悉宏基因组或者打算做宏基因组的同学可能已经迫不及待想知道这个怎么分析啊,怎么看结果啊之类的问题... 但在这之前,首先你应该了解的是宏基因组是什么,做宏基因组你能得到什么。 此外,对于缺乏深度研究和高质量参考基因组的样本,如土壤和特殊环境下的样本,宏基因组获得的较为完整的基因组不仅可以 丰富参考基因组数据库 ,同时可以 提供更加准确的物种分类 。 因此,深度宏基因组测序是 解析新环境样本 的核心方法,不过从单一样本中重建出完整的菌株基因组有相当困难,一般需要 较多样本 或 设置梯度样本 从而利用更高深度和共同变化来获取分箱信息,当然对应测序和分析成本会更高。 至此,我们了解了16s、浅宏基因组、宏基因组三种方式,我们将它们各自的特点总结如下表,便于你更直观地去了解( 文末有福利~ )。 宏基因组报告中有哪些分析内容? 上图可以快速预览一下我们报告中的分析内容。 接下来,我们会详细介绍这些内容是如何从原始数据开始一步步实现的,同时也会选取一些文章案例来给大家做详细解读,希望给大家带来一些思路。 数据分析流程 测序数据需要经过 质检 , 去除 接头和低质量序列,一般还会进行一步 过滤 人的基因组序列,然后分为两个路径,使用 参考 数据的比对方法和 从头组装 的方法,下图是一个 完整的宏基因组分析流程 : 看完上图,可以对宏基因组测序的基本流程有个大致了解。 对于宏基因组测序而言, 最重要的 就是获得微生物群 准确的 物种构成及其丰度 。 一、 物种构成 首先你需要了解的是无论16S测序还是宏基因组测序获得的均是 相对丰度 ,即 每种菌占所有菌属的比例 。 要获得绝对的丰度需要在取样时做好取样量的计量,并在提取和建库中加入已知绝对量的参照DNA。 宏基因组测序获得物种构成及其丰度有以下两条路可以走: 我们先讲其中之一: 直接比对 。 直接比对是基于参考数据的,那么基于参考数据的物种构成分析主要有两类方法: 一类是基于Kmer和LCA 比对特征 来分析对应物种丰度,如kraken2等。 另一类是基于 特征标记基因 进行分析的,如MetaPhlAn2等。 基于参考基因组的分析工具如下表: 除了上面表中列出来的,另外还有 Centrifuge :比kraken2慢2x,内存使用少很多 Sourmash :类似CLARK,可以使用整个refseq作为数据库。 主流的kraken2——快速、准确度高、内存要求高 目前 主要使用kraken2为主 ,因为 快速 , 准确度 也相当不错。不过,对于 内存 的要求较高,另外受 数据库本身质量 影响较大,默认kraken2的参考数据库只包括了细菌、古菌、病毒和人,还需要添加其他域的参考基因组。但涵盖的测序参考种仍然有限,对于菌株水平的鉴定受一定影响。 后续使用 Bracken 可以针对kraken2的比对结果进行 计算相对丰度 。 MetaPhlAn2——物种跨度大、实用 MetaPhlAn2首先从全基因组数据库中找出clade-specific marker genes,然后利用这个marker genes的数据库对高通量测序得到的shotgun序列进行注释,目前主要用于后面 直接使用reads获得基因和代谢通路丰度的HUMANn2的流程中 ,其物种跨度较大,速度也可以接受。 以上我们了解了直接使用reads获得丰度。 如果有 足够测序深度 和 样本数量 还可以通过组装出参考基因组来鉴定获得。该部分我们在下面的组装和分箱流程部分详细讲。 接下来,看一下我们报告中获得的结果和图: 使用Kraken2对其中的微生物进行物种注释 。我们的Kraken2使用的数据库是由Refseq(2020.04.20)细菌,古细菌、真菌、原生动物和病毒库以及GRCh38人类基因组构建的。 通过查询数据库序列中的每个k-mer,然后使用所得的LCA分类单元集确定序列的适当标签,对序列进行分类。数据库中没有k-mers的序列不会被Kraken2分类。这里我们是在使用k-mer=35的条件下进行物种注释。 使用Bracken对物种注释结果计算相对丰度 。Bracken是一种高度精确的统计方法,可从宏基因组学样本计算DNA序列中物种的丰度。Braken使用Kraken2分配的分类标签来估计源自样本中每种物种的读数数量。 对物种注释结果使用 KRONA 进行可视化展示。 注:圆圈从内到外依次代表不同的分类级别(界门纲目科属种),扇形的大小代表不同注释结果的相对比例。 上面的是使用KRONA对单个样本的构成图形化,所有样本合并使用柱状图就可以了解具体的样本构成丰度,从门-纲-目-科-属-种-甚至菌株每个层次都可以进行显示(下面是截取我们报告中的相关图)。 如果嫌柱状图的展示方式单一,当然也可以有别的选择。比如说以 Circos的环图 形式展现: 也可以进行 聚类分析 : 有了这些数据我们就可以进行 alpha多样性 (指每个样本内部菌群多样性)的分析了。 各样本和多组之间也可以进行 Beta多样性 的比较分析: 计算样本之间的 菌属构成相似度 : 组间的差异分析 :寻找差异或代表性菌属,如下: Trukey多组间检验 LefSe分析 其中LEfSe基于线性判别分析(Linear discriminant analysis,LDA)的分析方法,筛选组与组之间生物标记物Biomarker(基因、通路和分类单元等),即 组间差异显著物种或基因 。当分组较多时较难获得每个分组独特的Biomarker。 以上是关于物种组成部分,但是有些小伙伴会有这样一些疑惑:物种构成变化很大怎么办?个体差异也很大?之类的诸多疑问。 是的,微生物群落一般对应特定的环境,其物种构成有时候变化迅速,而且个体或不同地点的构成差异极大。如人体的肠道菌群,个体之间的菌群构成差异很大,仅少量核心菌在绝大部分人的肠道内出现,个体特异性菌株也非常常见。那么如此多样性和复杂的构成如何应对相似的环境呢? 研究显示不同的菌属可能有着相似的基因或代谢能力, 差异极大的种属在基因功能层面可能有着相似的构成 。因此,获得微生物群的基因和功能代谢构成及分布对于解释和了解微生物如何响应和适应环境就尤为重要。 二、功能构成 下图可以帮你更好地理解上面这段话。从图中我们可以看到,舌背样本和粪便样本虽然在种属上有很大差异,但它们在基因功能层面却有着相似的构成。 与物种构成丰度的分析类似,基因功能构成分析也同样可以包括两种方法: 方法一、通过 直接 基于reads的参考数据库方法获得 方法二、通过 组装 后预测注释基因并得到丰度 在具体展开方法之前,我们需要先了解关于基因功能的基本概念。 基因功能 每个菌的基因组中都包含大量的编码基因(ORF)以及非编码的RNA。这些基因之间又存在同源或序列相似性,达到一定相似程度的称为同源基因(一般通过CD-hit聚类为unigene,gltA这类基因名称,而数据库中一般聚类为如uniref90,eggNOG_ortholog等不同相似度的非冗余基因),这些同源基因除了序列相似同样也有着相似的功能,基于其功能或具备的蛋白功能域可以进一步分类为基因家族(Pfam),酶(EC 1.4.1.13),代谢通路(ko:K00266),更进一步层层分类为GO或顶层代谢通路Metacyc或COG等。 我们先来看方法一 , 具体是如何操作的? 主流的HUMAnN2——获得基因和代谢通路丰度的同时可直接进行下游分析 基于测序原始序列 直接获得基因构成丰度 的软件目前 最主要的是HUMAnN2 ,其首先使用MetaPhlAn2进行物种分类(关于这个软件我们在前面物种组成部分已经讲过),并提取相应物种参考基因组用于比对,未比对上的用于进一步和uniref数据库进行蛋白质序列比对。原理见下图: HUMAnN2的便利之处在于 获得基因和代谢通路丰度 的同时可以 直接进行下游分析 ,将导出的表用于如LEFSE等差异分析,此外还可以 反向给出 不同样本中每个基因或代谢通路里的物种贡献。 下图是基于HUMAnN2的不同代谢通路的菌贡献比例图: 在我们的宏基因组报告中获得的是这样的: 而另外一种方法是通过组装获得,我们在前面物种构成小节也已经提到过组装分析,那么这里我们就组装拼接分析这部分展开讲解一下。 三、基于组装拼接的分析 什么样的条件下可以进行组装分析? 当 测序深度足够 的情况下,目前illumina二代和Pacbio以及Nanopore等长片段测序技术已经足以组装出高质量的细菌基因组草图,结合 Binning方法 可以一次性获得大量物种的 高质量 接近完成基因组。此外还有Hi-C等手段可以进一步完成基因组以及对应质粒的完整拼接。 组装的流程是什么样的? 来看一下整个基于组装的流程: ① 提取、测序 首先从样本中 提取 基因组DNA,进行 测序 ,可以使用Illumina的段片段深度测序也可以辅助三代长片段测序。 ② 获得contig序列 接着对序列经过质检过滤处理后直接使用序列进行拼接, 获得contig序列 ,这时通常每个菌的基因组会有几十到数千个contig片段,由于构成复杂,很多近缘菌之间的基因组存在大量相似序列,以及每种菌丰度都不一致,所以contig阶段的片段仍然较多。 ③ Binning分析 基于序列构成特征 如GC含量、核苷酸多态性、覆盖度以及基因的物种相似度等多种数据,如果有多个样本或梯度可以同时 结合样本丰度变化 来进行 分箱 也就是Binning分析,将 具有相同特征和变化的contig聚类归为同一个来源的箱 ,每个bins通常来自单一菌也就是一个菌株的基因组(我们的数据分析中包含这部分分析内容)。 ④ 进一步质检评估 之后会进行进一步的质检,如checkM等评估每个Bin的完整度(核心基因以及rRNA等的完整性)和污染比例(如错误拼接,不同物种来源等)。一般要求50%以上的完整度以及10%以下的污染,当然样本数量越多,测序深度越高,测序读长越长理论上binning的质量也会更好,能获得更多高质量的单一菌完整基因组。 借用一张分箱的说明PPT: 目前组装contig方面比较好的软件主要是 SPAdes和MegaHIT 。分箱方面 MetaWRAP流程 可以将整个组装和分箱优化全部完成,包括前期质检到组装以及使用三种分箱方法concoct, metabat2和maxbin2,并最终进行合并提纯优化,输出最终的分箱。 同时还可以对每个分箱bins进行 物种鉴定和定量 ,这样我们就可以获得基于拼接组装后的物种丰度构成表,开展上述的物种多样性和样本差异统计分析。 ⑤ 注释 最后使用PROKKA进行基因预测,获得的编码序列我们经过进一步 CD-Hit 聚类去冗余 ,然后使用 eggNOG-mapper 对其进行进一步的 功能比对注释 。使用 salmon 完成基因的 定量 ,这样我们就得到基于组装注释的基因丰度数据了。之后就可以进行基因和功能层面的 多样性 、 构成 以及 样本和组间差异分析 。 我们获得的最基础的uniref,eggNOG,KEGG和GO等注释如下: KEGG COG eggNOG 组间差异分析,如KEGG途径: 除此之外,还可以使用 其他的 功能基因数据库 来进行进一步的基因注释和分析。比如: CAZy: VFDB毒力因子注释: 抗性基因注释: TCDB数据库注释: PHI数据库注释: BCGs分析: 以及基于antiSMASH和BiG-SCAPE来对代谢物的合成生物基因簇BCGs进行分析。 固定代谢能力评估: 或更聚焦于特定代谢的如下图中的氮、磷、硫和碳固定代谢能力和水平的评估: 当有了大量样本的 菌群构成丰度 信息,以及各种基因和 代谢丰度数据 后,我们需要根据样本的meta信息,基于不同分组,时间或环境因子等数据进行 统计分析和检验 , 进而发现和探索可能的关联以及背后的生物学意义 。 四、统计检验 那么在面对宏基因组这类数据时在进行统计检验分析时 需要注意什么呢,应该采用哪些分析,并如何解读这些结果呢? 首先,微生物组数据分析分为四大类: 在对所有数据进行统计检验前一般建议 对数据进行基本的质量过滤 。一类是 去除绝大部分样本都不存在的物种和基因 ,如Prevalence in samples (20%),还有一类是 去除变异度过小 的Percentage to remove (10%)基于Inter-quantile range。 为什么可以过滤这两类? 上述的两类由于其携带的信息量和变化过小在进行组间比较统计检验的时候都建议过滤,因为要么是污染,要么与差异无关。 宏基因组数据具有一些独特的特征,例如 测序深度的巨大差异 , 稀疏性 (包含许多零)和 分布的巨大差异 (过度分散)。在进行后续的统计检验之前建议针对不同的分析方法进行相应匹配的标准化处理。标准化包括: Rarefaction和缩放方法:这些方法通过将样本放到相同的比例进行比较来处理不均匀的测序深度; 转换方法:包括处理稀疏性,组成性和数据中较大变化的方法。 那么各种标准化方法是什么,应该选择哪种方法? 参考MicrobiomeAnalyst网站提供的信息,以下是一个简短的介绍: 请注意,数据标准化主要用于 可视数据探索 ,例如beta多样性和聚类分析。有时候 不使用标准化也能获得最佳结果 ,比如:单变量统计和LEfSe。 同时,其他比较分析将使用其自己的 特定标准化方法 。例如,对metagenomeSeq使用累积总和定标(CSS)标准化,对edgeR应用M值的修剪均值(TMM)。 经常有小伙伴问,这个数据是用的什么标准化?没有做标准化怎么办?这类问题。 目前, 尚无关于应使用标准化的共识性指南 。建议大家可以探索不同的方法,然后目视检查分离模式(即PCoA图)以评估不同标准化程序对实验条件或其他感兴趣的宏基因组数据的影响。 有关这些方法的详细讨论,请参考使用者最近发表的两篇论文 ① Paul J. McMurdie等 ( https://doi.org/10.1371/journal.pcbi.1003531) ② Jonathan Thorsen等 ( http://doi.org/10.1186/s40168-016-0208-8 ) 以上是关于标准化的这部分内容需要了解的知识,接下来我们来看 具体如何操作,怎么得到那些图表?它们分别代表什么? 一般我们需要先进行 探索性分析 ,也就是不设预订的假设, 首先从主成分分析结果中了解样本的菌属和基因的大概分布 。 主成分分析是根据不同距离算法计算样本之间的距离矩阵,然后进行降维,最终形成一个三维的空间分布。样本之间在空间上分隔越远表明样本之间的差异越大。 比如我们报告中的下图,疾病和正常样本可以较好的区分,一般此处我们还会进行一个统计检验,来判别PC1和PC2这几个维度上两组之间是否真的存在统计差异。 基于丰度图来 评估各样本和分组的基本构成 ,如: 之后我们可以 针对不同分组或处理之间的样本进行统计检验 ,可以使用的检验方法包括两组间的非参数统计检验T-test/ANOVA,3组以上组间统计检验可以使用Tukey test,其直接生成各组将的统计差异,并提供字母标注,直观简便,如: 具体的统计方法选择可以参考下表: 除了常规的非参数检验外,包括metagenomeSeq和DEseq以及edgeR等统计方法包可以很好的分析组间差异特征。LEfSe则一般用于寻找特征标志物。 那么有了大量的差异特征菌属或基因之后, 我们是否能基于这些差异菌属有效的区分不同的分组呢,或构件一个模型来预测或分类呢? 这时候可以使用 随机森林 (Random Forest)一类的决策树机器学习模型,来利用这些差异特征构建分类模型,并使用AUC等指标来评估基于这些模型的预测有效性和准确度(我们报告中如下图)。 当然也可以使用其他更复杂的如深度学习等方法来构建分类模型。 除了性别、疾病、地点等分类差异之外,我们通常还有很多元数据,包括 临床指标 或 环境因子 等信息,这些数据通常是 连续型数值 ,对于这类数据我们可 以进行相关性分析 。 当然反过来,将 菌群特征作为表型 也可以和如基因组的基因型或SNP构成来进行 相关性分析 。 对于 菌群数据 的相关性分析比较推荐: SparCC方法 ,可以构建菌种或菌属之间的相关性网络,相对稳定。 对于与 疾病或环境 变量进行相关性分析可以使用: Sperman秩相关分析 。 另外 RDA/CCA分析 也可以有效的反映菌属与环境因子等指标直接的关系(我们报告中如下图)。 Mentel检验 也可以用于 判断菌群构成特征 与单个或一组 环境因子 之间 是否存在显著相关 。 要 点 宏基因组从大量菌群和基因构成中寻找关联是 需要足够的样本量 才能达到有效的统计效力,因为一次性获得了大量的特征数据,样本量过少会带来统计结论的无效,越是组内差异大,组间差异小的研究足够大的样本量才能得到可靠的结论。 一般 动物 样本具有较好的背景可控,组内样本数量 建议至少6个 ,而 人群 研究由于背景复杂,个体多样性高,一般建议组内 50例以上 较好。 以上看完后,你应该对宏基因组的数据分析流程有了整体的认识,也学会了相应的一些操作,但是不一定能直接从自己的这些数据、图表中真正探索到和实际生物学相关的有价值的研究成果。 所以,我们又选取了一些已发表的研究作为案例,结合实际问题来具体分析,从实验设计到具体分析流程方法和图表的展示,再到相应的结论,掌握这类文章的总体思路。 之后无论是刚开始的实验设计,还是后面的分析,都会更加得心应手。 建议想好整个实验思路再开始(或者也可以咨询我们,我们专业的数据分析团队会为你提供切实可行的项目方案)。 04 案例解析 案例一 肥胖患者的肠道微生物组 第一项研究是关于 肥胖 患者减肥手术后的宏基因组和代谢数据的分析研究。 文献来源:Aron-Wisnewsky J, Prifti E, Belda E, et al. Major microbiota dysbiosis in severe obesity: fate after bariatric surgery. Gut . 2019 ;68(1):70–82. doi:10.1136/gutjnl-2018-316103 研究纳入了61名严重肥胖的受试者,他们是可调节胃束带术(AGB,n = 20)或Roux-en-Y胃旁路术(RYGB,n = 41)的候选人。减肥手术后1、3和12个月随访24名受试者。使用宏基因组学测序和LC-MS分析肠道菌群和血清代谢组。另外纳入了10人和147人分别作为宏基因组和代谢检测的验证集。 研究思路 这样的设计分别有什么作用? 第一点 持续的动态采样 可以获得 持续变化情况 ,尤其是在一个特定变化后(减肥手术),持续的最终采样有助于确认菌群的变化出现和特定事件或生理病理变化的前后,尤其是在确定因果中有重要帮助。 第二点获得 多维的数据 有助于帮助我们全方位的了解菌群变化背后的带来的 生理和代谢变化 以及之间的关联。 第三点 独立验证集的存在 将大大增强研究的可信度,尤其是该研究纳入的样本量并不多,无法全面有效的控制无关因素,使得很多统计检验的效力无法显现。这也导致该研究仅在基因总量和多样性上获得较好的重复效果,而更多的菌群精细特征以及具体基因和代谢通路没有得到深入分析。但是独立验证集 保证了核心结论的可靠性和重复性 ,这点在宏基因组研究中非常重要。 从下图可以看到研究针对样本的 总基因多样性水平 与 生理指标和疾病状态 进行 相关性分析和组间差异分析 ,图中给出了显著相关和差异的指标。 使用的统计检验方法是pearson和sperman相关和t-test以及Kruskal-Wallis检验。 下图是研究将MAGs与 各项生理和代谢值进行相关性分析后的热力图 。该研究由于测序较早,并未独立拼接,而是直接使用了之前一项人类肠道菌群研究获得组装基因组参考序列。 进一步研究分析了术后特定变化模式的MAGs以及它们与代谢生理指标的相关性,见下图: 上图的研究可以通过pattern search的方法寻找特定变化模式的菌种。 研究的主要结论发现是 低基因丰富度 (LGC)存在于 75%的患者 中,并且 与躯干脂肪质量和合并症(2型糖尿病,高血压和严重程度)增加相关 。LGC改变了78种宏基因组种(MGS),其中 50% 与不良的身体成分和代谢表型有关。 九种血清代谢产物 (包括谷氨酸盐,3-甲氧基苯基乙酸和L-组氨酸)和含有参与其 代谢的蛋白质家族 的功能模块与低MGR密切相关。术后一年,BS会增加MGR,但尽管RYGB患者的代谢改善比AGB患者大,但术后一年的MGR仍然很低。 点 评 : 总体而言该项研究可以使用 浅宏基因组 (在文章开头第二部分详细介绍过)来完成所有测序和分析,进一步扩大样本数量,如果能同时获得人的转录组数据甚至能更加明确的找到菌群变化与特定代谢通路的关联关系。 案例二 食物与人类肠道微生物组 第二项研究是Dan Knights实验室发表在Cell Host Microbe,2019的一篇针对34个人17天每日饮食和菌群变化的相关研究,试图 揭示日常食物选择与人类肠道微生物组组成之间的精细关系 。 文献来源:Johnson Abigail J,Vangay Pajau,Al-Ghalith Gabriel A et al. Daily Sampling Reveals Personalized Diet-Microbiome Associations in Humans. . Cell Host Microbe , 2019 , 25: 789-802.e5. 可以看到,研究同时记录了粪便样本的菌群宏基因组和每日的饮食记录。研究的核心在于 将每日饮食的食物通过营养构成进行量化,并构建类似物种进化树的食物物候树 。 此外由于有每日的数据,可以通过前一日的食物与第二日的菌群数据进行 时间序列分析 ,构建食物与菌之间的关联以及时间相关性。 最后基于 菌群数据 和 前一日饮食 来构建模型 预测判断后一日的菌群状态 ,帮助我们了解食物对于个体菌群的影响因素并实现 定量和预测 。 研究中对数据的处理过滤标准如下:删除所有具有低读取计数(每个样品23,500个读取)的样品。物种级别的分类表仅限于研究对象中至少存在 25% 的研究日,且在10%的研究样本对象中发现的那些物种。 最后,相对丰度0.01%的稀有物种被丢弃,将物种数量限制为290个注释。将得到的分类表汇总到较高的分类级别(即属,科,门等),以进行下游分析。 菌群和饮食以及营养构成的堆叠图很好展现了变化和对应。 下面这张图很好的显示了饮食食物的变化与菌群变化之间的时间变化关系: 下面这张图通过对每个人 单独 进行菌属与食物的Spearman相关,展现了 菌与食物之间的关联的个体化差异 ,在特定菌属对应相同食物 不同人会出现完全不同方向的变化 ,这也正是这项研究所揭示的,这种 关联关系的复杂性 。 点 评 : 本研究虽然有大量样本,但并未进行组装,而是直接使用了Refseq的细菌完成基因组序列作为参考。研究由于样本数量众多,测序深度也很有限,类似研究也可以使用 浅宏基因组 方式完成。 案例三 类风湿关节炎的人群肠道微生物组 接下来的一个研究是比较 典型的宏基因组组装并与疾病进行关联分析 的案例,研究的是日本人群类风湿关节炎的肠道微生物组的全基因组关联研究。 文献来源:Kishikawa Toshihiro, Maeda Yuichi,Nii Takuro et al. Metagenome-wide association study of gut microbiome revealed novel aetiology of rheumatoid arthritis in the Japanese population. . Ann. Rheum. Dis ., 2020 , 79: 103-111. 研究使用 较高深度 的宏基因组shotgun测序(每个样本平均13 Gb)对日本人群(病例 = 82,对照 = 42)进行了RA肠道微生物组的 MWAS分析 。MWAS由三个主要的生物信息学分析渠道( 系统发育分析、功能基因分析、 途径分析 )组成。 使用了之前研究中6139个完成拼接日本人肠道宏基因组作为参考序列以及其他几项研究的参考基因组,在过滤部分种过多的基因组之后,最后一共使用了7881个参考基因组。 将QC后的序列 直接比对 到参考基因组,并根据基因组长度计算对应物种的相对丰度。 基因方面选择denovo组装,使用 MegaHIT ,然后再contig上完成ORF预测和 CD-HIT聚类去冗余 ,最后与 UniRef和KEGG数据库比对 。 最后使用 bowtie2 将测序序列比对到注释后的unigene序列上获得基因丰度,经过KEGG注释得到代谢途径的丰度。研究的数据处理流程图如下: 在数据分析流程和方案选择上人体肠道菌群由于研究众多,以及有多个深度测序拼接完成的Binning参考基因组数据集,确实可以直接使用参考基因组直接比对。 对于其他一些环境或来源的样本这个深度的数据量可以 考虑独立拼接和分箱 。该研究中使用已有参考基因组,大概88%的序列能比对到参考基因组,如果直接组装这个比例应该可以更高一些。另外在获得基因丰度是 可以考虑使用Salmon ,比对获得基因丰度更为方便。 获得相应数据后对相对丰度,该研究使用 Box-Cox transformation对数据进行标准化 ,并过滤了一些低丰度的菌属。 Case-control的相关性分析 使用的R的glm2模块,将年龄、性别和测序上机分组作为协变量。 对于 菌属的关联分析 ,最终将显著性结果以火山图和GraPhlAn图的形式展现如下: 上面其中D图使用每个菌的丰度进行UMAP分析,并映射关联效应的展示比较有意思。 不过在 基因层面 上并未找到相应的关联,可以看到下图UniRef90的NMDS分布图两组之间无法有效区分,多样性也没有显著差异。 点 评 : 这项研究在菌层面发现了多个 普雷沃氏菌属 的菌在日本人群中与 类风湿性关节炎 存在关联,不过除此之外其他方面的发现并不多,仅找到一个基因存在显著关联,涉及的临床调查也相对有限,且人群队列数量不算多,并 无独立验证集 ,因此亮点并不多。如果能纳入免疫相应指标可能能研究的更细致一些。 案例四 > 永冻土中参与有机物降级的关键菌群 最后这项研究是对来自永冻土融化梯度的214个样品的宏基因组测序组装了1,529个基因组,揭示了参与 有机物降解的关键种群 ,包括其基因组编码先前未描述的 木糖降解真菌途径的细菌 。 文献来源:Woodcroft Ben J,Singleton Caitlin M,Boyd Joel A et al. Genome-centric view of carbon processing in thawing permafrost. . Nature , 2018 , 560: 49-54. 通过宏基因组 denovo组装 和 分箱Binning ,最终获得了1529个永冻土菌群基因组。基于这些数据描绘了永冻土融化梯度下的 菌群构成特征 ,如下图。 论文是2018年发表的,测序是在2011和12年测的,使用的是CLC Genomics Workbench 较早的4.4版分单样本组装,然后 使用MetaBAT进行分箱 ,最后的标准是70%完成度和低于10%的污染。 其中糖苷水解酶基因使用 dbCAN数据库的HMM进行预测 ,碳代谢使用 KEGG数据 。 研究还同时选择了部分样本进行了宏转录组和宏蛋白组的测序,对碳代谢同时结合转录组和蛋白组的数据,展现了 特定通路下不同永冻土的菌群构成和表达丰度差异 。 基因组拼接的 分布 情况,以及不同地域样本分布和菌属 丰度 情况如下: 木糖降解途径在每个样本中的分布和维恩图,另外详细的展现了主要门对每个代谢途径的贡献和基因 表达丰度 ,如下图: 这张图分析了特定菌与地理位置和CO2以及甲烷的浓度的 关联性 ,如下图: 对关键物种的CH 4 :CO2浓度比相关 代谢途径 的重建,以及相应基因的基因家族分析。 点 评 : 总结一下这项研究,永冻土的菌群参考基因组数据缺乏,该研究从大量地点采集样本重建了1500多个参考基因组。 首先从 物种构成特征 上与永冻土融化阶段特征进行分析,并与重要环境因子进行分析,锁定重要的特征菌。 然后针对重要的 代谢途径 和 关键基因 结合宏转录组和宏蛋白组全面解析代谢途径的分布和差异变化。对关键的物种重建了相关代谢途径并对其相关基因家族进行分析。 研究基本上从头构建了一个生态环境下的菌群结构数据,并利用获得的基因组深度解析特定代谢途径和基因的构成和表达变化,应该说 既宽又深 。很多样本采集和测序是2011年和 2012年就开展的,虽然测序技术远不如现在成本低和成熟,但是其独特的研究对象和全面深入的分析仍然使整项研究和目前的一些研究相比完成的更加出色。 p.s. 以上展示的图表,我们都可以帮你实现~ 05 工具分享 一、 MicrobiomeAnalyst 网址:https://www.microbiomeanalyst.ca/,只需要biom文件或丰度表就可以进行绝大部分统计检验分析,而且生成图表完整,可以直接使用。偶尔会有服务器不稳定,上传提示错误的情况。 特别推荐其中的 Taxon Set Enrichment Analysis模块 ,直接提交物种列表(一般是找到的差异物种列表),可以直接在各种已有的相关性(人体基因-菌属相关,生活方式-菌属相关,疾病-菌属相关)中进行富集分析,能很好的帮助判断和提供差异菌群的具体关联和证据支持。 完整的支持分析包括: 可以直接生成下面的图: 基本上常见的分析和图都能在线实现。 二、gcMeta 另一个是https://gcmeta.wdcm.org/,是中科院微生物研究所搞的平台,里面包括了宏基因组的样本数据和在线分析平台,可以直接上传原始数据,直接使用工具进行在线分析,大部分常见工具都有,也有一些流程。 对于缺乏计算资源或想自己动手分析的朋友挺友好的,非常推荐试试看。 最后,帮大家整理了宏基因组可投稿的期刊,具体研究方向和影响因子见下表: 来源: 谷禾健康
7345 次阅读|0 个评论
宏基因组Binning软件MetaBat2的安装与使用
luria 2019-10-17 18:20
1. MetaBat2 的安装 按 MetaBat2 引文 提供的下载地址,从以下路径下载到最新版本的 MetaBat2 https://bitbucket.org/berkeleylab/metabat/downloads/ mkdir metabat2 cd metabat2 wget https://bitbucket.org/berkeleylab/metabat/downloads/metabat-static-binary-linux-x64_v2.12.1.tar.gz tar -zxvf metabat-static-binary-linux-x64_v2.12.1.tar.gz # 下载后解压即可使用,主程序为 runMetaBat.sh 2. MetaBat2 的使用 MetaBat2 的输入为组装的 contig 序列以及将二代 reads 比对到 contig 序列上的比对文件 (bam 格式 ) 。 比对可以采用 BWA 或 Bowtie2 ,以 Bowtie2 为例进行比对, Bowtie2 的安装可参见之前写的博文: Bowtie2 和 Samtools 软件更新 /path/to/bowtie2-build --threads 30 assembly_contig.fasta assembly_contig /path/to/bowtie2 --threads 30 -x assembly_contig -1 /path/to/wgs_reads_R1.fastq.gz -2 /path/to/wgs_reads_R2.fastq.gz | samtools sort --threads 30 -o sample.sort.bam - # 其中 assembly_contig.fasta 是宏基因组组装软件组装出的结果; wgs_reads_R1.fastq.gz 和 wgs_reads_R2.fastq.gz 是二代数据 reads 比对完生成 sample.sort.bam 文件,再采用 MetaBat2 做 Binning sh /path/to/runMetaBat.sh /path/to/assembly_contig.fasta /path/to/ sample.sort.bam 运行完会生成 assembly_contig.fasta.metabat-bins 目录 3. 评估 这是这篇博文的重点! 本博文采用的测试数据来自材料 ,文章中既测了二代 WGS 数据,也测了 HiC 数据,我们可以采用 HiC 数据可视化地查看聚类结果如何。通过比对后可视化结果如下: 图中一个蓝色框表示聚的一个类。结果显示有一些类结果比较好,如 4-7 个蓝色框 (Cluster) ;也有一些聚类结果不好,如 1-3 个蓝色框 (Cluster) 上述图中我们发现不同 Cluster 的颜色深浅不同,而互作图中颜色深浅可以评估出互作强度。那么很自然,会再去查看一下二代 WGS 数据比对到每个 Cluster 的 contigs 上, Cluster 的平均深度如何? 结果如下,除第 7 个 Cluster 测序深度不同外,其它几个 Cluster 差异并不大 参考文献 Dongwan D. Kang, Feng Li, Edward Kirton, et al. MetaBAT2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies. 2019. Peerj. Joshua N. Burton, Ivan Liachko, Maitreya J. Dunham, et al. Species-Level Deconvolution of Metagenome Assemblies with Hi-C Based Contact Probability Maps. 2014. G3
个人分类: Metagenomics|11952 次阅读|0 个评论
每日翻译20190510
Bearjazz 2019-5-10 07:02
# 编者信息 熊荣川 明湖实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz Ecologists have long been interested in the taxonomic structure of communities, i.e. the distribution of co-occurring species among higher taxa (Elton, 1946). Because individuals in a community interact via their phenotypic traits, and because these traits have evolved down lineages, the taxonomic or phylogenetic structure of communities can reveal the outcome of processes of community organization ( Webb et al., 2002 ). As phylogenetic information has become available for the taxa in communities, students of community structure have been able to avoid some of the limitations of rank by constructing pruned phylogenies for community members. 生态学家长期以来都对群落的分类结构很感兴趣,即在高等分类阶元中共存物种的组成情况( Elton , 1946 )。由于一个群落中的个体通过其表型特征相互作用,并且由于这些特征已经进化到后代支系中,因此群落的分类或系统发育结构可以揭示群落组织过程的结果( Webb et al., 2002 )。随着系统发育信息在群落分类中的广泛应用,研究群体结构的学生也可以通过构建群体成员的系统发育关系来避免(经验)等级限制。 Webb C O , Ackerly D D , Kembel S W . Phylocom: software for the analysis of phylogenetic community structure and trait evolution . Bioinformatics, 2008, 24(18):2098-2100.
个人分类: 翻译作品|353 次阅读|0 个评论
2018年3月29日-4月2日山东大学 微生物宏基因组 宏转录组 培训班
liyongjun304 2018-2-5 14:09
一、培训特色: 主题明确,针对性强,理论和实践结合,主讲与学员研讨的方式进行 讲师拥有丰富的微生物数据分析和项目执行经验 课下主讲老师为您所遇到的问题提供个性化解答 配合研究中所需的要点,围绕实际研究中常用的软件展开; 学员通过与专家直接交流,能够分享到顶尖学术机构的研究经验和实验设计思路。 二、 培训内容 一、微生物组学研究趋势与方法 1、单菌不同水平(如DNA、RNA、蛋白等)的研究趋势和方法 2、如何利用这些组学研究的内容 二、序列组装和功能分析---DNA水平 1、如何利用和比较illumina和454数据在序列组装上的优缺点。 2、如何利用Sanger测序的结果进行PCR补洞 3、基于组装好的序列进行组分(基因、功能元件、非编码RNA等)和功能分析 4、微生物分析内容和方法 5、讨论如何联合DNA和RNA分析结果形成真正的trans研究 三、微生物基因组 1、微生物基因组学的发展历史和前沿科学问题 2、 微生物群落和宏(元)基因组学 2.1 微生物群落的动态平衡, 2.2 人体微生物群落特征 2.3 微生物群落和疾病 3、病原菌泛基因组学和进化研究 3.1 微生物基因组的特征 3.2 基因相互作用网络的结构 3.3 生态环境与种群基因组进化 4、病原菌转录组和单细胞研究 4.1 单细胞研究的必要性和需要注意的问题 4.2 病原菌在压力条件下,单细胞的基因表达和调控 5、从微生物基因组学的角度理解病原菌致病性 5.1 致病菌的基因组特征和进化 5.2 微生物群落对致病菌的控制作用 5.3 环境因素诱导基因表达对致病性的影响 一、高通量时代的宏基因组学研究 1.应用于宏基因组学研究的 NGS 平台 1.1Roche/454 GS FLX Titanium 1.2HiSeq 2000 1.3PacBio RSII 2. 实验流程 2.1实验设计 2.1.1 Amplicon-based: 细菌 16S rRNA,古菌 16S rRNA,真菌 ITS, 真菌 18S 2.1.2Whole meta-genome or whole meta-transcriptome 2.2 建议测序量 2.3样本采集流程,水体、粪便、肠道内容物、土壤、物体表面、口腔 3. 生物信息学分析结果解析 3.1测序结果评估,数据统计、OUT 聚类、稀释性曲线(Rarefaction curve),指数分析(Alpha-diversity)、OUT 分类学分析(Taxonomy) 3.2群落结构及丰度分析:Shannon index 曲线、Rank_abundance 曲线、样本群落组成 分析、样品 OUT 分布 Venn 图、Heatmap 图、PCR 主成分分析 3.3分类学和进行关系分析:系统发生进化树、UniFraction PCoA、UnifracTree、NMDS、 RDA/CCA 4 生物信息学数据分析工具 4.1序列质量控制(quality control): fastqc 4.2序列组装(Metagenomic assembly tool): MetaVelvet; Meta-IDBA; Genovo; Bambus 2 4.3Short read alignment and mapping to reference genome: Bowtie; BWA; SOAP3; mrsFAST 4.4多样性分析(Microbial diversity analysis): MLST; Axiome; PHACGS 4.5功能注释(Functional annotation): RAMMCAP 4.6基因注释( Gene annotation/gene calling ) : FragGeneScan; MetaGeneMark; MetaGeneAnnotator 4.7聚类(Binning): TETRA; MetaCluster; Phymm 4.8一站式服务器(Automated platforms/servers for comparative and functional analysis): MG-RAST; MEGAN 4; CAMERA; GALAXY 5 宏基因组勘探(Prospecting metagenomes): 5.1Substrate induced gene expression (SIGEX) 5.2Metabolite regulated expression (METREX) 5.3Product induced gene expression (PIGEX) 6 案例分析,大型宏基因组项目 6.1Human microbiome 6.2 Earth Microbiome 三、报名办法及费用: 每人¥ 4300元(含报名费、培训费、资料费、上机费等相关费用),食宿可统一安排,费用自理。请各有关部门统一组织本地区行政、企事业单位报名参加培训,各单位也可直接报名参加。 四、 联系方式: 联系人:李永军 老师 联系电话: 185 1347 8760 邮箱: zky_jsjs@vip.126.com 主办单位:中国科学院计算技术研究所 烟台分所 承办单位:中科云畅应用技术研究院 主讲专家:中国科学院微生物研究所 中国科学院基因组研究所 中国医学科学院药用植物研究所
2413 次阅读|0 个评论
宏基因组分析(2):拼接及评价(SPAdes+QUAST)
vesperlight 2017-11-16 13:08
2.1 拼接 工具: SPAdes 网址: http://cab.spbu.ru/software/spades/ 引用: Bankevich A., Nurk S., Antipov D., GurevichA., Dvorkin M., Kulikov A. S., Lesin V., Nikolenko S., PhamS., Prjibelski A., Pyshkin A., Sirotkin A., Vyahhi N.,Tesler G., Alekseyev M. A., Pevzner P. A. SPAdes: A New Genome AssemblyAlgorithm and Its Applications to Single-Cell Sequencing. Journal ofComputational Biology,2012 2.1.1 简介 SPAdes 是由 俄罗斯科学院圣彼得堡理工大学( St. PetersburgAcademic University of the Russian Academy of Sciences )计算生物学实验室开发的基因组拼接工具。主要用于二代(宏)基因组、(宏)转录组测序的拼接,也可用于一、二、三代测序的混合组装。是目前评价最好的拼接工具之一。 2.1.2 安装 wgethttp://cab.spbu.ru/files/release3.11.1/SPAdes-3.11.1-Linux.tar.gz tar -xzf SPAdes-3.11.1-Linux.tar.gz cd SPAdes-3.11.1-Linux/bin/ 2.1.3 使用方法 Python /home/sam/software/SPAdes-3.11.1-Linux/bin/SPAdes.py--meta -k 21,33,55,77,99,127 -1 L1.fq -2 L2.fq -o spa_out/ --meta 宏基因组拼接模式 -k k-mer 值对于测序深度高的宏基因组数据( 50x+ ) 2*150bp 的 k-mer 可设为 21,33,55 , 2*250bp 可设为 –k 21,33,55,77,99,127 -1 双端测序的一端序列 -2 双端测序的另一端序列 -o 输出文件夹 Ps. 服务器( 100G RAM 16proc*2.67GHz )上( 20G 数据量, PE-150 策略)拼接时间约 12~16 小时 2.2 拼接评估 工具: QUAST 网址: http://quast.bioinf.spbau.ru/ 引用: 2.1.1 简介 QUAST用于基因组和宏基因组的拼接评估 2.1.2 安装 wget https://downloads.sourceforge.net/project/quast/quast-4.6.0.tar.gz tar -xzf quast-4.6.0.tar.gz cd quast-4.6.0 sudo python setup.pyinstall_full 2.1.3 使用方法 python/home/sam/software/quast-4.6.0/quast.py contigs.fasta -o res
个人分类: 生信|13583 次阅读|0 个评论
宏基因组分析流程(1):质控
vesperlight 2017-11-16 13:01
宏基因组分析的第一步是质量控制,主要包括adapter 和低质量序列的修剪与去除。 工具: Trimmomatic 网址: http://www.usadellab.org/cms/index.php?page=trimmomatic 引用: Bolger, A. M., Lohse, M., Usadel, B. (2014). Trimmomatic: Aflexible trimmer for Illumina Sequence Data. Bioinformatics, btu170. 1.1 简介: Trimmomatic用于快速对fastq文件进行低质量序列去除和ILLUMINA数据接头去除,包含双端测序和单端测序两种模式,不仅可以直接处理fastq文件也可以直接处理压缩包中的fastq序列文件。 1.2 安装 trimmomatic是一个java程序,http://www.usadellab.org/cms/index.php?page=trimmomatic直接下载后解压缩即可。 1.3 使用方法(对于 Pair-end 测序数据) java -jar /home/sam/software/Trimmomatic-0.36/trimmomatic-0.36.jarPE input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gzoutput_forward_unpaired.fq.gz output_reverse_paired.fq.gzoutput_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36 java -jartrimmomatic-0.35.jar 调用 trimmomatic PE Pair-end ,双端测序数据 input_forward.fq.gz 正向序列 input_reverse.fq.gz 反向序列 output_forward_paired.fq.gz 修剪后的正向序列(后续分析用) output_forward_unpaired.fq.gz 未匹配的正向序列 output_reverse_paired.fq.gz 剪后的反向序列(后续分析用) output_reverse_unpaired.fq.gz 未匹配的反向序列 ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 去除 adapter LEADING:3 去除头部序列质量低于 3 的序列 TRAILING:3 去除尾部序列质量低于 3 的序列 SLIDINGWINDOW:4:15 用一个四碱基宽的滑动窗口(阅读框)扫描序列,窗口中的碱基平均质量低于 15 则剪除该窗口中的碱基 MINLEN:36 将 reads 长度小于 36 个碱基的序列去除 这个版本已经可以自动检测phred+33和phred+64,关于phred的问题参见 http://blog.sciencenet.cn/blog-630246-813262.html
个人分类: 生信|10783 次阅读|0 个评论
基因预测工具:Prodigal
vesperlight 2017-11-16 12:15
1 简介 p rodigal(Prokaryotic Dynamic Programming Genefinding Algorithm)用于原核微生物基因组和宏基因组的基因预测, 是 Oak Ridge National Laboratory 和 University of Tennessee-Knoxville 在2007年联合开发的。更多信息(https://github.com/hyattpd/Prodigal/wiki/introduction) 2下载及安装 代码托管于github上,主页地址为: https://github.com/hyattpd/Prodigal 从github上下载压缩包 使用tar -xzvf解压,进入文件目录,使用make install安装即可。 3 使用方法 prodigal -a: 输出的蛋白序列文件名 -c: 封闭的两端。即不允许基因的一端没有起始和终止结构. -d: 输出的核酸序列文件名 -f: 输出文件格式(gbk, gff, or sco),默认gbk. -g: 指定密码子表(默认11). -h: 帮助. -i: 指定FASTA/Genbank输入文件(默认标准输入). -m: 屏蔽碱基N. -n: Bypass Shine-Dalgarno trainer and force a full motif scan. -o: 指定输出文件(默认标准输出). -p: 选择过程(单个样品或meta样品),默认单个样品。 -q: Run quietly (suppress normal stderr output). -s: 将所有带有得分的潜在基因写入到指定文件中 -t: 写入一个训练文件。否则读取并使用一个指定的训练文件 -v: 打印版本号 以基因组contig文件为例: prodigal -a protein_seq.fasta -d nucleotide_seq.fasta -o genes.gff -s poteintial.stat -i contig.fasta)
个人分类: 生信|20117 次阅读|0 个评论
让尸体说话-法医密档
woodcorpse 2017-9-2 08:06
本网与宏基因组公众号内容同步,获得更佳阅读体验请跳转至公众号阅读 ,关注公众号获得相关文章推送。 写在前面 周末总得休息一天,陪陪家人。“宏基因组”公众号每周六给大家推荐一部科普神剧,即涨姿势,又适合周末和老婆孩子一起看,绝对让你B格更高。 前两周推荐了 日本NHK的《生命大跃进》 和 英国BBC的《人体奥秘》 ,阅读人数分别为4000+和1000+,成为本公众号历史阅读排名第一和第三的文章。看来大家是喜欢看科普的,只是缺少宣传,接触的途径太少。这更使小编我坚定每周传播一次科普的决心。本周向大家推荐的是国产生物科普剧——《法医密档》,不仅和大家生活相关,而且是宏基因组领域结合最紧密的研究方向。 法医密档 ◎译  名 ForensicFiles ◎片  名 法医密档 ◎年  代 2016 ◎产  地 中国大陆 ◎类  别 纪录片 ◎语  言 汉语普通话 ◎上映日期 2016-08-22(中国大陆) ◎豆瓣评分 8.1/10 from 1,894 users ◎豆瓣链接  https://movie.douban.com/subject/26862279/ ◎集  数 10 ◎片  长 25分钟 ◎导  演 胡志堂 Zhitang Hu 《法医密档》以一个个经典案例为载体,从法医的视角讲述案件侦破的过程,将刑事科学技术与刑侦紧密结合。例如死亡时间的概念,《法医密档》中就会对死亡时间做详细的介绍。法医是通过什么方式,能够精准的推算出死者的死亡时间,进而为刑侦人员提供可靠的破案依据。除了“死亡时间”之外,还有如何确定“死者身份”、如何通过一滴干枯的血迹寻找凶手等等。节目在破解案件的同时,也在传递法医“为死者代言,为生者谋权”的职业精神。 整部纪录片一共有十集,每集不过25分钟,但制作周期却长达三年。为求严谨,主创人员在筹备阶段就翻阅了大量法医学专著,并接受规范化培训。之后,摄制组联系了全国近五十个省、市的公安部门,奔赴实地进行考察。 又在100多个案件中尽心挑选,最终才确定下来10个既典型又适合影像化的案例。 而另一方面,虽然本片由官媒央视出品,但所搭配的文案都相对克制。不煽情,不做作,偶有说教却也绝对达不到令人讨厌的程度。所有推理环节也都有理有据,考究严谨,而且极涨知识。 正因如此,整部纪录片看起来既专业详实,又不枯燥乏味。甚至很多案件的精彩程度,堪比电影。 下面对每集中的知识要点进行总结,以第5集为例进行图文详细解读(只喜欢看图文朋友有福了)。 有时间一定后台回复”法医密档”下载1080p高清版观看。文中视频清楚太一般,仅供预览。 01-显微镜下的真相(水库女尸) 这个案子来自纪录片的第一集,发生于湖北武汉。受害人是一位15岁的小女孩,案发当日下午五点钟的时候跟家人发生矛盾,之后独自出门。到了晚上十点女孩还没回来,于是感觉到有些不安的全家便出门寻找。最终在附近的水库旁,找到了女孩的尸体。 视频链接: https://v.qq.com/x/page/h0336mqnyap.html 第一集详细图文介绍,请点击 《这部国产片用一具具尸体告诉我们,乱搞男女关系后果有多严重》 一文中有详细介绍。 知识点: 案发现场,发现泥土有新鲜翻动的痕迹,草有成趟的倒伏现象。由此,她推断曾经发生过人为的拖拽行为 死者阴道内侧有擦伤,身体内并没有精斑;推测——嫌疑人可能患有性功能障碍,无法进行常规性行为。长期得不到满足的欲望,只有采取其他方式宣泄,擦伤就是手指抓挠形成; 硅藻是水中单细胞生物,如果生前入水能够进入血液循环,在人体脏器内被找到。用于判断是人是否死前入水,还是死后抛尸。 02-犯罪心理画像 一起命案的侦破离不开办案人员对尸体特征和案发现场的分析,而这一过程中的一项重要内容便是犯罪嫌疑人刻画。在湖北省武汉市发生的一起案件中,法医正是根据血迹斑斑的现场和高度腐化的尸体,再加上办案人员的走访调查准确刻画出犯罪嫌疑人的特征,最终从茫茫人海中揪出真凶,还原事实真相,为受害者讨回公道。 通常对作案现场和尸体的分析,推断犯罪嫌疑人的性别、年齡、和死者关系、生活习惯等,以了辅助按件侦破。 视频链接: https://v.qq.com/x/page/e0336frgg7y.html 03-死亡时间之谜 一女学生死在离家不远的上学路上,死亡原因是窒息。警方通过问询亲属,得知女孩早上上学前曾跟姐姐、姐夫有过对话,但是法医在对尸体进行检查时,发现尸体已出现尸僵、尸斑现象,死亡时间应超过12小时,这一点和亲属的供述极不吻合。为了让亲属说出真相,警方拿出了一系列证据,在事实面前,姐夫承认犯罪。原来姐夫是入赘女婿,长期遭到女方家里的冷眼,事发当晚因为喝了酒,和小姨子发生冲突,醉意加恨意,用棉被闷死了死者。 视频链接: https://v.qq.com/x/cover/z0yjy1a4ihn299h/c0337vryb1e.html 04-死者身份之谜 在四川省成都市某段绕城高速路旁,一具高度腐烂的无名尸体让警方的侦破陷入困境。要想顺利破案,就必须尽快确定死者的真实身份。然而,在死者面目全非、线索全无的情况下,如何才能确定死者身份,进而揭开案件真相,法医成为破案的关键。他们将通过神奇的法医人类学为我们揭开答案。 视频链接: https://v.qq.com/x/page/f0337pguybc.html 05-无声的证人 2011年11月吉林省四平市正值深秋,公安局接到一起疑点重重的案件,一名工厂的夜班守门人被发现勒死在值班室内,然而让办案人员大感不解的是在案发现场并没有发现他人进入的痕迹,在死者身上也没有任何搏斗过的迹象。在办案过程中,现勘人员对每一个案发现场都仔细勘察并提取潜在的物证,这些物证被称为“无声的证人”。这起案件就是通过对这些“无声的证人”仔细分析研究才扭转局面,让真相浮出水面。 视频链接: http://v.qq.com/x/page/f0337d57zcg.html 知识点: 物证,即无声的证人,包括实物、痕迹;分另物品物证(纤维、油漆)、痕迹(撬压痕、指纹、足迹)和生物物证; 勒死,且身体无创伤可考虑为自杀 人窒息2-3分钟会失去意识; 痕迹物证,是指两个物体一旦接触,即会产生物质交换,如指纹、足迹,只要进入现场即有痕迹; 犯罪心里测试技术,俗称测谎,判断嫌疑人与案件的相关度。通常监测心率、呼吸、血压、皮电指数等,判断是人否参与犯罪或说谎,因为通常真正的罪犯被问询时会浮现当时的场景。但准确度有限,不可作为证据,主要用于排除无辜。 生物物证:血液、接触痕等,含有DNA遗传信息,是最重要的物证之一 死者的死亡方式相当离奇——眼睛上蒙了块黑布,脖子上绑了个领带,领带背后有个小木棍绞这个领带。一般的勒死不会这么复杂,民警也感觉非常疑惑。但了解字母圈的同学肯定已经猜到了是怎么回事——死者生前就有特殊的癖好,平日里就比较喜欢自己勒自己以获取快感。 06-血迹密码 在很多刑事案件中,现场留给办案人员的线索十分有限,除了死者之外,就只剩下斑斑血迹。在外行人眼里,这些血迹只能让他们头晕目眩,但是对于法医而言,这些形态各异的血迹却隐藏着至关重要的破案线索,每一种形态都在向法医诉说着现场真相。 民警始终在找杀害这三名死者的凶手,但最后出人意料的是——其中的一个死者就是凶手,凶手是先杀人,再自杀。而更让人唏嘘的是,三位死者本是从小一块长大的,是非常要好的兄弟,之所以会反目成仇,无非是为了点钱,无非是由于人的贪欲。 视频链接: http://v.qq.com/x/page/k0339m06v0b.html 07-白骨的倾诉 西南边陲的一处山洞中,一堆白骨打乱了当地人的生活。白骨已经风化严重,而且白骨下方还有腐烂的绳索。警方初步认定这是一起谋杀案件,虽然这些白骨风化严重,但还是给法医留下了最后的证言。法医推断出死者的年龄,并在失踪适龄人员中展开排查,终于破获这起十年前的凶杀案。 杀人动机就这么简单,被害者让加害者把老婆让给他。为什么又是情杀。 视频链接: https://v.qq.com/x/page/l0339md2nio.html 08-离奇的车祸现场 本集的开篇就悬疑感十足——深夜里一名女子突然接到老公的求救电话,电话那边只传来五个字:老婆,来救我。 于是第二天一早,妻子余红便带领同村人寻找彻夜未归的丈夫张仲喜。几经搜寻,她终于在盘山公路的急转弯处发现了丈夫的尸体和摩托车。 视频链接: https://v.qq.com/x/page/n0355xm5zir.html 第八集的详细图文介绍,请 点击 《这部国产片用一具具尸体告诉我们,乱搞男女关系后果有多严重》 一文。 知识点: 发现场的血迹有抛甩状、溅落状、滴落状、擦拭状、稀释状、血泊等多种形态。 溅落状:从拖尾现象中就可以判断出血溅的方向。再通过几何原理算出血滴接触物体表面的角度,画出延长线——交汇处,便是出血点的位置。 滴落表面并非完全光滑,因此这类血迹周围常伴有毛刺。如果是运动状态下,毛刺会长短不一。长的那边,便是出血者的运动方向。 第三类是擦拭性血迹,血的物体以擦层、触摸等方式留下的,边缘不规则,界限不清晰。通过它,也可以大致判断打斗的过程、案犯清理现场的过程等等 法医从凶器上检测出了除死者外第二个人的DNA,经过比对——和妻子余红DNA完全吻合。这确实是一件预谋已久的谋杀。又是情杀。 09-自缢之迷 所谓触物必留痕,作为案件现场出现频率最高的痕迹之一,现场足迹包含着丰富的犯罪信息。通过对现场足迹的花纹、大小、遗留部位等特征进行分析,可以得到犯罪嫌疑人人身特点、行走特点等信息,再结合现场提取到的其他物证,办案人员还能对案件现场进行重建,确定重点人员。贵州省松桃县发生的这起少女自缢案件正是通过对现场足迹的分析,扭转了案件侦破方向,最终揭开自杀背后的真相。 视频链接: https://v.qq.com/x/page/d0355s6ahmm.html 10-沉尸 2014年4月10日,贵州乌江下游河段发现一具尸体,全身高度腐烂,面目全非,现场只有一部被水泡过的手机,种种迹象表面这是一起谋杀案。为此,法医们连续三天三夜对尸体进行反复检验,最终还原了死者身份,找到了死亡原因,在刑侦人员的共同努力下,发现第一案发现场,将被掩盖了半年之久的血迹重现进而将凶手绳之以法,还死者一个公道。 视频链接: https://v.qq.com/x/page/z0330uu6qha.html 写在后面 你既可以在本套纪录片中学到一些基本的法医学知识(当然最好用不上),又可以看到法医们“为生者谋权,为死者代言”的职业精神。 而更重要的是这些光怪陆离的案子为我们提供了一个窗口,透过真实发生的一出出悲剧——你能更近距离的窥视人性,打量现实,并借此反思我们的生活与社会。 本领域的小伙伴们更应该为我们的研究感到自豪,利用”宏基因组”学技术,为死者伸张正义,让坏人无处可逃。 参考资料 豆瓣 https://movie.douban.com/subject/26862279/ 六维 http://bt.neu6.edu.cn/thread-1592192-1-1.html 有部电影 http://mp.weixin.qq.com/s/YUx11LwwE_M1DnS_tF3ifA 更多相关文章,请点击 “宏基因组”文章目录 阅读; 想了解更多16S/ITS/18S扩增子、宏基因组、宏转录组文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。 系统学习生物信息,快关注“生信宝典”,那里有几千志同道合的小伙伴一起学习。
个人分类: 科普|2472 次阅读|0 个评论
扩增子图表解读4曼哈顿图:差异OTU或Taxonomy
woodcorpse 2017-7-8 07:06
科学网对Markdown排版支持较差,对格式不满意的用户请跳转至 CSDN 或 “宏基因组”公众号 阅读; 想了解更多宏基因组、16S文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。 系统学习生物信息,快关注“生信宝典”,那里有几千志同道合的小伙伴一起学习。 作者: 刘永鑫 日期:2017-6-30 阅读时长:10min 背景介绍(Introduction)宏基因组学 宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录组和代谢组,其中以扩增子研究最为广泛。 目的意义 本系列文章将带领大家结合较新的16S扩增子相关文献,来理解宏基因组16S扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。 主要内容 本系列文章内容包括:箱线图、散点图、热图、曼哈顿图、维恩图、三元图和网络图等。 学习思路 罗列知识点,熟悉专业名词,弄个脸熟,即使理解不深刻起码在阅读中不会有抵触情绪; 结合具体文章读图,实战两三次,基本就是专业人士了。 将来在大家可以很好理解相关文章图表的基础上,希望对分析、统计和绘图相关技术有进一步学习的小伙伴请积极回复并留言吧。如果本系统文章阅读过万,想学分析的留言过百。我还将详细讲解扩增子分析、统计和绘图各步骤的分析实例和源代码,希望大家多多鼓励和支持。 声明:文章的解读仅代表个人理解和观点,有不足处,请读者积极留言批评指正,互相学习,共同进步。 知识点(Method)曼哈顿图 Manhattan Plot 曼哈顿图本质上是一个散点图,用于显示大量非零大范围波动数值,最早应用于全基因组关联分析(GWAS)研究展示高度相关位点。它得名源于样式与曼哈顿天际线相似(如下图)。 Manhattan plot is a type of scatter plot, usually used to display data with a large number of data-points - many of non-zero amplitude, and with a distribution of higher-magnitude values, for instance in genome-wide association studies (GWAS). It gains its name from the similarity of such a plot to the Manhattan skyline: a profile of skyscrapers towering above the lower level “buildings” which vary around a lower height. 近几年,在宏基因组领域,尤其是差异OTU结合分类学结果,采用Manhattan plot展示有非常好的效果,倍受推崇。 曼哈顿图优点 大数据中,即展示数据全貌,又能快速找到目标基因或OTU,同时可知目标的具体位置和分类、显著程度等信息。绝对高端大气,而且还有内涵。 数据坐标轴介绍 以上图GWAS研究结果为例: X轴为染色体编号,且每个基因组SNP位点沿染色体序列排列;在16S扩增子或宏基因组中则为OTU按Taxonomy某一级别排序。 Y轴为该位点相关的统计显著性Pvalue值,由于pvalue值范围是从0-1,且越小越好,直接展示非常密集于0附近,很难区分。如何使越近0的显著数值变大,且而容易区分开,log10变换是非常好的方法,直接把关注的高显著性(Pvalue趋近零)值高位显示,远离整体,目标一目了然。 图中水平线一般为设定的不同显著性水平阈值,方便读出每个点的显著性水平;或只添加一条显示性阈值,高于则显著。 曼哈顿图绘制工具 散点图,自然还是R语言,ggplot2可以画的非常漂亮。 看图实战(Result)示例1. 双曼哈顿图展示WT和mutant间差异富含OTU分布在那些菌目 Zgadzaj, R., et.al., 2016 .PNAS 这篇文章分析了百脉根根瘤的微生物组成,同时在根瘤缺失突变体条件下发现根和根际微生物组均有较大差异的变化。 图5.A/B 曼哈顿图展示野生型,突变体根相对于根际土显著差异的OTU类型 图中元素解释 X轴标签“OTU… respect to rhizosphere”表示:根际土壤作为背景对照,计算富集的OTU; X轴OTU按分类学目水平(order)字母顺序排列显示,由于数量太多,不显示OTU编号标签反而更美观; Y轴为-log10(Pvalue);将pvalue转换为越显著越大,便于观察; 主图区的每个圆点或圈代表1个OTU,大小代表其相对丰度;其中存在显著富集OTU的目中所有OTU用彩色实心圆点显示,并添加灰度背景,且该目的名称标注于图顶部;目中内无显著富集OTU的目为空心灰点,且背景为白色。 图表结果:两个曼哈顿图展示WT和mutant间差异富含OTU分布在那些菌目;而且与野生型相比,在突变体中许多显著富集的菌目消失; 经验和技巧:单曼哈顿图显示显著富集的OTU已经信息非常丰度;采用曼哈顿图展示两中组差异的OTU,让读者自己去比较差异,反而更突出结果的显著差别。分类学注释级别选择目,找到了一些差别的类,要保证这些类即不能太多,也不能太少,才便于传递给读者工作即全面、又细致的印像。 附图注原文: Fig. 5. Manhattan plots showing root-enriched OTUs in WT (A) or in the mutants (B) with respect to rhizosphere and rhizosphere-enriched OTUs in WT (C) or in the mutants (D) with respect to root. OTUs that are significantly enriched (also with respect to soil) are depicted as full circles. The dashed line corresponds to the false discovery rate-corrected P value threshold of significance (α = 0.05). The color of each dot represents the different taxonomic affiliation of the OTUs (order level), and the size corresponds to their RAs in the respective samples . Gray boxes are used to denote the different taxonomic groups (order level). 示例2 这是我自己画的一个样式,对上图的样式做了一些改进,展示一个基因敲除突变体(KO/mutant)与野生型(WT)细菌组的比较; 图中元素解释 X轴为OTU,按分类学门水平字母排序; Y轴两组比较的Pvalue值,取loge(P),即自然对数转换; 图中点的大小代表该OTU的相对丰度,取log2(CPM)对数,即2的对数;CPM为count per million的缩写,和RPM类似,都是百万分数; 图中点颜色代表分类学门类型,便于从门水平找规律; 图中点的形状标注了其变化的类型,是上调enriched(正实心三角),还是下调depleted(倒空心三角),还是没有显著差异变化nosig(实心圆点); 图表结果:展示了KO突变体基因型相较WT有较明显的细菌组变化,尤其是放线菌门上调较多,变型菌门上调和下调都很多,但上调的更显著; 图表经验:从门水平先看整体规律,再一步步往纲、目、科、属去找规律的具体细节;用形状区分上调或下调,让结果更清楚。 Reference https://en.wikipedia.org/wiki/Manhattan_plot Zgadzaj, R., Garrido-Oter, R., Jensen, D.B., Koprivova, A., Schulze-Lefert, P. and Radutoiu, S., 2016. Root nodule symbiosis in Lotus japonicus drives the establishment of distinctive rhizosphere, root, and nodule bacterial communities. Proceedings of the National Academy of Sciences, 113(49), pp.E7996-E8005.
个人分类: 读文献|3276 次阅读|0 个评论
宏基因组公众号创立——如何注册一个名字好记的公众号
热度 1 woodcorpse 2017-5-23 15:33
我为什么注册公众号? 科学网对Markdown排版支持较差,对格式不满意的用户进跳转至 CSDN 或 微信 阅读; 如果感觉文章对您有帮助,想阅读同类文章,请扫描下方二维码关注“生信宝典”公众号,每天定时接收最新生物信息学技术原创文章。只关注宏基因方向的用户请微信搜索“宏基因组”a或扫描下方二维码添加。 分享知识! 做技术的人一定会有这样的经历:经常会碰到很多技术问题,最快的方法是在百度上搜索问题的描述,找到各类博客、论坛上中文的解决方法;其次是请教身边有经验的大牛,直接一两句话搞定;都没有才会在google上硬着头皮搜英文关键字,一个一个找相关方法,尝试,但有时会试了多种方法仍然无效,只能先放一放。对于必做的事有时也必须反复尝试一下,逐渐积累经验,最终结合多篇文章的方法组合或修改出一个适合自己特写环境的解决方法。 有心人会将问题的解决过程整理成笔记,以便下次再碰到同样或类似事情可以高效解决。这样的经历虽然提高了解决问题的能力,但体验是痛苦甚至抓狂的,而且消耗的时间成本也是巨大的。而我经常会想,这么常见的问题为什么没人遇见呢?为什么在网上找不到解决方法呢?如果能找到一篇应对自己问题解决方法的中文教程,那绝对是一件极幸福的事情。而自己笔记中有针对性的解决方案却静静地躺在我电脑的硬盘及云端的帐号里面。如果每个人都将经验花点时间分享出来,我想我们的工作应该会更高效,生活也会更美好。 分享的经验是否真的有人需要吗? 我估计会有非常多有相似工作的受众会需要。而且早在2011就刚开始读博就开始使用博客分享经验,只是没有坚持下来。举我自己的两个例子。 2011年在网易博客发布的《Ubuntu11.10 root密码重置》已经被阅读了1238次。这种半年更新一次的操作系统相关技术解决方案,一般时效也只有半年至两年。 http://woodcorpse.blog.163.com/blog/static/634420312011105113524943 2013年在PLOB上发布的《RepeatMasker安装方法与使用》已经被阅读了6877次。而且在Google和百度搜索“repeatmasker”均为第一个中文页面,可见此文大家的关注程度。 https://www.plob.org/article/5743.html 笔记的记录方式 笔记是个人能力提高的关键性习惯! 常见的笔记记录方式有三种,其实也是我个人笔记记录方式成长的三个阶段。 传统的纸记录方法。2008年我大学本科毕业前的记录方式,也可能是绝大多数人的习惯,最近问了6个使用程序语言工作的新手,居然有3人还使用纸记录的方式记录编程经验笔记,实在令我很吃惊,首先不用説代码的体量,就是以后想重用查找和输入就是极耗时的,绝不可取。 Word或常见代码格式记录。2014年前我硕士和博士阶段的主要记录方式,积累了大量的知识和问题解决方法,这是我最近问的6个程序语言新手另外三人的笔记记录方式,也看到了我几年前的影子。此事表明他们有学习的进取心和数字化知识积累过程,不容易被同一块石头绊倒两次,但编辑和阅读仍有缺陷,如Word排版比较耗时,而代码中注释则阅读体验不够好。 云笔记及Markdown语言的记录方式。2014年博士毕业后的主要笔记方法,云笔记的优点很多,如快速编辑,保存网页,数据云同步,支持电脑、手机和网页随时编辑及查看等优点。安全与高效并重,用上了根本就停不下来,而且有道云笔记最近还开始支持Markdown语言,可以纯本编写文章、注释和代码混排并且带格式的文档,也容易保存或转发到github、 blog或微信公众号上,即方便自己的知识经验重用,也方便其它人遇到类似问题快速找到解决方法。 注册一个名字好记的微信公众号如何开始注册微信公众号 前提你得有个邮箱。 在百度上搜索“微信公众号”; 结果第一条显示“微信公众平台”官网即可点击进入, 点击右上角“立即注册”,个人发表文章或技术贴建议选择“订阅号”类型; 输入邮箱,密码(以后的公众号登陆密码,不是你邮箱密码,设成一致也可以),确认密码即再输一次(怕你输错了),和验证码,点击确认; 这时需要点击“登陆邮箱”去查收你自己邮箱收到的确认邮件,并点击链接以激活并继续注册; 在订阅号类型下点击“选择并继续”,弹出窗口确认即可; 信息登记页中选择个人,并填写姓名、身份证号,用自己的微信扫码确认绑定,并输入手机号及收到的验证码绑定手机,点击确认,弹窗再确认; 公众号信息填写帐号名称、功能介绍及选择运营国家即可。 名字的选择 一个好的名字,方便大众及专业人士记忆和查找,极有利用信息的传播。 我作为生物信息学-植物微生物组学研究方向的工程师,首先想到了大众和专业人士均能非常好记忆而且表意神似的成语“无微不至”,方便专业技术和和科普知识的传播,可惜已经被注册;第二选择是“微生物组”,即英文的microbiome,也被注册了;无耐使用第三选择“宏基因组”,即英文的metagenome,获得成功。此外的第四选择“微生物群”,即英文microbiota也用另一备用邮箱抢注成功。 将来本人研究的相关技术、问题解决方案、研究技展、学习心得均分享在些平台上。欢迎大家关注我的公众号”宏基因组”;也希望大家关注我们课题组的公众号“植物微生物组”,了解更多植物微生物组相关内容。 以后登陆公众号平台发布文章,可直接访问 https://mp.weixin.qq.com/ 登陆即可。
2989 次阅读|1 个评论
QIIME安装及设置
luria 2017-5-21 11:25
在微生物基因组扩增子测序领域,QIIME可谓是一道标杆。QIIME全称Quantitative Insights Into Microbial Ecology,主要由美国科罗拉多大学Rob Knight实验室的一帮牛人开发的。编程语言主要为Python,官方提供的引文为 J Gregory Caporaso, Justin Kuczynski, Jesse Stombaugh, et al. QIIME allows analysis of high-throughput community sequencing data. Nature Methods, 2010; doi:10.1038/nmeth.f.303 本篇仅介绍QIIME的安装,后期博文会尝试从代码深入理解QIIME每步分析过程,敬请期待。 像QIIME这类Pipeline通常程序众多,安装升级牵扯的相联关系比较复杂,这里建议直接使用QIIME VirtualBox。 1. 下载安装VirturalBox,地址:https://www.virtualbox.org/ 下载QIIME,地址:http://qiime.org/install/virtual_box.html 文件大小约大于4G,解压后约51G。 2. 解压后为QIIME-1.9.1-amd64.vdi文件,将其放到某处(注意此位置以后不能调整)。 安装好VirtualBox后,点击常用工具栏的新建图标 = 在虚拟电脑名称和系统类型中输入名称(Qiime)类型(Linux)版本Ubuntu(64-bit) = 下一步 (如图1) = 内存大小对话框中选绿色标线最大处的内存(这里以后也可以调) = 下一步 = 在新建虚拟电脑对话框中选择“使用已有的虚拟硬盘”,并加载上QIIME-1.9.1-amd64.vdi(如图2)= 创建 图1 图2 3. 装好后界面如下: 按Ctrl+D安装增强工具,这时会自动弹出安装增强工具,如果不小心关掉了,可以打开文件资源管理器,进入VBOXADDITIONS(如下图左栏)进入加载的增强工具盘 双击autorun.sh # 如果想用命令行进入VBOXADDITIONS,其位置在/media/下面,需要 sudo chmod 755 * 一路运行如下,完成后回车 之后再重启一下 4. 安装好增强功能后,做以下设置: 4.1 调整屏幕分辨率: 单击右上角的设置按钮(齿轮)- Displays,我这里选1920*1080(16:9) 4.2 修改QIIME的主机名 打开终端 sudo vim /etc/hostname 然后将其中的名字修改一下,即可 完了之后需要重启才能生效 4.3 在虚拟机中共享主机文件夹 先在VirtualBox虚拟机中开启主机文件夹共享,如下图 其中luria是我的主机用户名,你可以在Linux下输入 whoami 命令查看你的主机用户名,将以下步骤中的luria换成你的主机用户名。 这时df -h可以查看到已加载上主机共享的文件夹如下图,但是这里没有权限打开。 需将luria用户加入到vboxsf组中,才有权限访问挂载的目录,以实现文件共享! 执行: sudo adduser scg vboxsf 然后sudo reboot重启生效
个人分类: Metagenomics|8005 次阅读|0 个评论
The pangenome of hexaploid bread wheat
热度 1 mashengwei 2017-2-26 22:20
The pangenome of hexaploid bread wheat   今天看到这样一篇文章,着实高兴了一番。在小麦参考基因组刚刚公布,文章还未发表的情况下,突然跳出了一篇小麦宏基因组的文章,让人不得不得感叹,这都是什么世道。匆匆看过一遍之后,有点失望,这分析也太简单了,怪不得只发在了The plant journal上,需要挖掘的信息很多。   文章一共使用了18个小麦品种,其中就包括中国春,还有其他16个澳大利亚的小麦品种。分析的内容都很初级,这里不再详谈了。说点和它的原始数据有关的事。看完文章之后,竟然没说原始数据在哪里可以下载。于是匆忙给 David Edwards 教授发邮件询问。发完之后我就下载附件信息再看,结果竟然有说在什么地方下载原始数据。看到这,我寻思大事不好,人家提供了我竟然发邮件说没有,闹了国际大笑话。我于是赶紧看看是否发出去了。结果又让我大吃了一惊,David教授竟然回我邮件了。大意就是说我们提供了,只不过文章还未正式上线,数据还未整理好。我看看了时间,可能恰好是David教授刚刚上班,正在收邮件呢。我看了下原始数据从2011年就有了一部分数据,后面陆陆续续又补充了很多。也难怪,写文章时小麦还没有一个像样的参考基因组,de novo组装也不太现实。   在这里还是感谢David教授,非常及时又爽快的给我回邮件。貌似和老外邮件交流很少碰到有去无回的。这让我想起了给国内的一些老板发邮件请教问题的时候,绝大部分老板不会回我。印象中老师华中农大研究玉米的严建兵老师给我回过几次,还有凌宏清老师给我回过一次。
3515 次阅读|3 个评论
文章Microbial diversity in individuals and their的解读
xbinbzy 2016-10-9 15:47
文章: Microbial diversity in individuals and their household contacts following typical antibiotic courses 时间:2016 杂志:Microbiome 研究目的: (1) discern the effects of the 2 most commonly prescribed antibioticson the microbiota of the skin, gut, and mouth, (2) characterize the degree of similarity in the microbiota of unrelated household contacts and decipher whether it is significantly affected by antibiotic use, (3) characterizethe long-term effects of typical antibiotic prescriptionson microbiota diversity, and (4) discern whether there may be collateral effects to antibiotic use for the diversity of microbiota in household contacts. 研究方案: We recruited and sampled the feces, saliva, and skin from a cohort of 56 subjects over a 6-month period fromthe University of California, San Diego, campus. Of those 56 individuals, there were 24 separate households consisting of 2 individuals and 8 separate controls not enrolled with a housemate. 研究结果: 1) between household pairs longitudinally and comparing with individuals from separate households, we found smaller distances among the household pairs, which was statistically significant ( p 0.05) in the gut, saliva, and skin for all households. The similarity observed in the bacterial biota was not significantly affected by the use of antibiotics, as the same patterns were observed in households that received azithromycin and those that received amoxicillin. 2) 样品间的差异随时间延长而增加,无论抗生素使用与否。 a clear trend could be ob-served for most time points, as those control subjects who received no treatment also demonstrated the same trend. 3) 样本无法根据抗生素使用与否、时间等因素分开,差异更多体现在取样部位上 4) 差异的菌属分析 5) alpha多样性的分析,抗生素与安慰剂组的差值进行作图 心得: 1)在菌群的研究中,如何将众多的菌整合成1个或少数几个指标是数据处理的关键,文章利用 weighted UniFrac distances作为一个值整体代表群体状态进行比较分析,值得类似研究中学习和借鉴。
个人分类: 科研文章|2787 次阅读|0 个评论
metagenomic不同环境样品的DNA提取
xbinbzy 2016-4-15 10:45
文章: A Rapid and Economical Method for Efficient DNA Extraction from Diverse Soils Suitable for Metagenomic Applications 2015 ( https://www.ncbi.nlm.nih.gov/pubmed/26167854 )
个人分类: 科研文章|2288 次阅读|0 个评论
metagenomic data的strain鉴定工具
xbinbzy 2016-4-15 10:24
文章: ConStrains identifies microbial strains in metagenomic datasets 2015 ( https://www.ncbi.nlm.nih.gov/pubmed/26344404 )
个人分类: 科研文章|1860 次阅读|0 个评论
metagenomic数据的在线分析工具
xbinbzy 2016-4-12 22:40
文章: myPhyloDB: a local web server for the storage and analysis of metagenomic data 2016 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4809264/ 文章: Integrative workflows for metagenomic analysis 2016 http://www.ncbi.nlm.nih.gov/pubmed/2547856 文章: The metagenomics RAST server – a public resource for theautomatic phylogenetic and functional analysis of metagenomes 2008 (工具地址: http://metagenomics.anl.gov )
个人分类: 科研文章|2838 次阅读|0 个评论
metagenomics的数据库
xbinbzy 2016-2-21 21:38
文章: EBI metagenomics in 2016 - an expanding and evolving resource for the analysis and archiving of metagenomic data 2016 ( https://www.ncbi.nlm.nih.gov/pubmed/26582919 ) 文章: HPMCD: the database of human microbial communities from metagenomic datasets and microbial reference genomes 2016 ( http://www.ncbi.nlm.nih.gov/pubmed/26578596 )
个人分类: 科研文章|2037 次阅读|0 个评论
metagenomics差异分析工具的文章
xbinbzy 2016-2-21 21:24
文章: Partial Least Squares Regression Can Aid in Detecting Differential Abundance of Multiple Features in Sets of Metagenomic Samples 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26734061 ) 文章: A robust approach for identifying differentially abundant features in metagenomic samples 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25792553 ) 文章: MetaBoot: a machine learning framework of taxonomical biomarker discovery for different microbial communities based on metagenomic data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26213658 ) 文章: FCMM: A comparative metagenomic approach for functional characterization of multiple metagenome samples 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26027543 ) 文章:Differential abundance analysis for microbial marker-gene surveys 2013 ( http://www.nature.com/nmeth/journal/v10/n12/full/nmeth.2658.html ) 文章: Metastats: an improved statistical method for analysis of metagenomic data 2011 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3439073/ ) 文章: STAMP: statistical analysis of taxonomic and functional profiles 2014 ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4609014/ )
个人分类: 科研文章|2234 次阅读|0 个评论
metagenomic数据的注释
xbinbzy 2016-2-21 20:59
文章: EXTRACT: interactive extraction of environment metadata and term suggestion for metagenomic sample annotation 2016 ( http://www.ncbi.nlm.nih.gov/pubmed/26896844 ) 文章: Network construction and structure detection with metagenomic count data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26692900 ) 文章: COGNIZER: A Framework for Functional Annotation of Metagenomic Datasets 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26561344 ) 文章: SUPER-FOCUS: a tool for agile functional analysis of shotgun metagenomic data 2016 ( http://www.ncbi.nlm.nih.gov/pubmed/26454280 )
个人分类: 科研文章|2228 次阅读|0 个评论
metagenomics组装工具的文章
xbinbzy 2016-2-19 09:35
文章:GenSeed-HMM: A Tool for Progressive Assembly Using Profile HMMs as Seeds and its Application in Alpavirinae Viral Discovery from Metagenomic Data (2016.03) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4777721/ 文章: TruSPAdes: barcode assembly of TruSeq synthetic long reads 2016 ( http://www.nature.com/nmeth/journal/vaop/ncurrent/full/nmeth.3737.html ) 文章: InteMAP: Integrated metagenomic assembly pipeline for NGS short reads 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26250558 ) 文章: Xander: employing a novel method for efficient gene-targeted metagenomic assembly 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26246894 ) 文章: IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth 2012 ( http://www.ncbi.nlm.nih.gov/pubmed/22495754 ) 文章: Grid-Assembly: An oligonucleotide composition-based partitioning strategy to aid metagenomic sequence assembly 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25790784 ) 文章: DIME: a novel framework for de novo metagenomic sequence assembly 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25684202 ) 文章: SFA-SPA: a suffix array based short peptide assembler for metagenomic data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25637561 ) 文章: An ensemble strategy that significantly improves de novo assembly of microbial genomes from metagenomic next-generation sequencing data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25586223 ) 文章: MetaVelvet-SL: an extension of the Velvet assembler to a de novo metagenomic assembler utilizing supervised learning 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25431440 )、 文章: Improved assemblies using a source-agnostic pipeline for MetaGenomic Assembly by Merging (MeGAMerge) of contigs 2014 ( https://www.ncbi.nlm.nih.gov/pubmed/25270300 )
个人分类: 科研文章|2998 次阅读|0 个评论
megagenomics分析方法与工具的文章
xbinbzy 2016-2-19 09:20
文章: Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes 2016 ( https://www.ncbi.nlm.nih.gov/pubmed/27067514 ) 文章: MetaCRAM: an integrated pipeline for metagenomic taxonomy identification and compression 2016 ( http://www.ncbi.nlm.nih.gov/pubmed/26895947 ) 文章: Evaluating the Quantitative Capabilities of Metagenomic Analysis Software 2016 ( http://www.ncbi.nlm.nih.gov/pubmed/26831696 ) 文章: MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets 2016 ( http://www.ncbi.nlm.nih.gov/pubmed/26515820 ) 文章:Metagenomic Classification Using an Abstraction Augmented Markov Model 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26618474 ) 文章:DectICO: an alignment-free supervised metagenomic classification method based on feature extraction and dynamic selection 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26446672 ) 文章: MetaPhlAn2 for enhanced metagenomic taxonomic profiling 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26418763 ) 文章: Multi-Layer and Recursive Neural Networks for Metagenomic Classification 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26316190 ) 文章: deFUME: Dynamic exploration of functional metagenomic sequencing data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26227142 ) 文章: Spaced seeds improve k-mer-based metagenomic classification 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26209798 ) 文章: Investigating microbial co-occurrence patterns based on metagenomic compositional data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26079350 ) 文章: Reconstructing 16S rRNA genes in metagenomic data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26072503 ) 文章: Bayesian mixture analysis for metagenomic community profiling 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/26002885 ) 文章: MICCA: a complete and accurate software for taxonomic profiling of metagenomic data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25988396 ) 文章: Identifying personal microbiomes using metagenomic codes 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25964341 ) 文章: CS-SCORE: Rapid identification and removal of human genome contaminants from metagenomic datasets 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25944184 ) 文章:T reeSeq, a Fast and Intuitive Tool for Analysis of Whole Genome and Metagenomic Sequence Data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25933115 ) 文章:MUSiCC: a marker genes based framework for metagenomic normalization and accurate profiling of gene abundances in the microbiome 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25885687 ) 文章: CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25879410 ) 文章: Woods: A fast and accurate functional annotator and classifier of genomic and metagenomic sequences 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25863333 ) 文章: METAXA2: improved identification and taxonomic classification of small and large subunit rRNA in metagenomic data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25732605 ) 文章: Exploiting topic modeling to boost metagenomic reads binning 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25859745 ) 文章: MBBC: an efficient approach for metagenomic binning based on clustering 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25652152 ) 文章: VizBin - an application for reference-independent visualization and human-augmented binning of metagenomic data 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25621171 ) 文章: Binpairs: utilization of Illumina paired-end information for improving efficiency of taxonomic binning of metagenomic sequences 2015 ( http://www.ncbi.nlm.nih.gov/pubmed/25551450 ) 文章: MetaObtainer: A Tool for Obtaining Specified Species from Metagenomic Reads of Next-generation Sequencing 2015 ( https://www.ncbi.nlm.nih.gov/pubmed/26293485 ) 文章: MetaBoot: a machine learning framework of taxonomical biomarker discovery for different microbial communities based on metagenomic data 2015 ( https://www.ncbi.nlm.nih.gov/pubmed/26213658 ) 文章: BioMaS: a modular pipeline for Bioinformatic analysis of Metagenomic AmpliconS 2015 ( https://www.ncbi.nlm.nih.gov/pubmed/26130132 ) 文章: FCMM: A comparative metagenomic approach for functional characterization of multiple metagenome samples 2015 ( https://www.ncbi.nlm.nih.gov/pubmed/26027543 ) 文章: MetaGeniE: characterizing human clinical samples using deep metagenomic sequencing 2014 ( http://www.ncbi.nlm.nih.gov/pubmed/25365329 ) 文章: Binning metagenomic contigs by coverage and composition 2014 ( https://www.ncbi.nlm.nih.gov/pubmed/25218180 ) 文章:COVER: a priori estimation of coverage for metagenomic sequencing 2012 ( http://www.ncbi.nlm.nih.gov/pubmed/23760797 )
个人分类: 科研文章|5495 次阅读|0 个评论
宏基因组DNA的提取
xbinbzy 2016-1-25 09:10
Comparison of direct boiling method with commercial kits for extracting fecal microbiome DNA by Illumina sequencing of 16S rRNA tags 2013 ( http://www.ncbi.nlm.nih.gov/pubmed/23899773 )
个人分类: 科研文章|3041 次阅读|0 个评论
metagenome分析中涉及到的工具
热度 1 xbinbzy 2016-1-10 21:13
FastQC: Quality control tool for high-throughput sequence data using modular options and giving graphic results of quality per base sequence, GC content, Nnumbers, duplication, and over represent ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ ) Fastx-Toolkit: Command line tools for Short-reads quality control. These allow processing, cutting, format conversion, and collapsing by sequence length and identity ( http://hannonlab.cshl.edu/fastx_toolkit/index.html ) PRINTSEQ: Quality control tool for sequence trimming based in dinucleotide occurrence and sequence duplication(mainly 5′/3′) ( http://prinseq.sourceforge.net/ ) NGS QC Toolkit: Tool for quality control analysis performed in parallel environment ( http://www.nipgr.res.in/ngsqctoolkit.html ) Meta-QC-Chain: Parallel environment tool for quality control. This performs a mapping against 18S rRNA databases for removing eukaryotic contaminant sequences ( http://www.computationalbioenergy.org/qc-chain.html ) Mothur: From reads quality analysis to taxonomic classification, calculus of diversity estimators and ribosomal gene metaprofiling comparison ( http://www.mothur.org/ ) QIIME: Quality pre-treatment of raw reads, taxonomic annotation, calculus of diversity estimators, and comparison of metaprofiling or metagenomic data ( http://qiime.org/ ) MEGAN: Taxonomy and functional analysis of metagenomic reads. It based on BLAST output of short reads and performs comparative metagenomics. Graphical interface ( http://ab.inf.uni-tuebingen.de/software/megan5/ ) CARMA: Phylogenetic classification of reads based on Pfam conserved domains ( http://omictools.com/carma-s1021.html ) PICRUSt: Predictor of metabolic potential from taxonomic information obtained of 16S rRNA metaprofiling projects ( http://picrust.github.io/picrust/ ) Parallel-meta: Taxonomic annotation of ribosomal gene markers sequences obtained by metaprofiling or metagenomic reads. Functional annotation based on BLAST best hits results. Comparative metagenomics ( http://www.computationalbioenergy.org/parallel-meta.html ) MOCAT: Pipeline that includes quality treatment of metagenomic reads, taxonomic annotation based on single copy marker genes classification, and gene-coding prediction ( http://vm-lux.embl.de/~kultima/MOCAT2/index.html ) TETRA: Taxonomic classification by comparison of tetranucleotide patterns. Web service available ( http://omictools.com/tetra-s1030.html ) PhylophytiaS: Composition-based classifier of sequences based on reference genomes signatures ( http://omictools.com/phylopythia-s1455.html ) MetaclusterTA: Taxonomic annotation based on binning of readsand contigs. Dependent of reference genomes ( http://i.cs.hku.hk/~alse/MetaCluster/ ) MaxBin: Unsupervised binning of metagenomic short reads and contigs ( http://sourceforge.net/projects/maxbin/ ) Amphora and Amphora2: Metagenomic phylotyping by single copy phylogenetic marker genes classification ( http://pitgroup.org/amphoranet/ ) BWA: Algorithm for mapping short-low-divergent sequences to large references. Based on Burrows–Wheeler transform ( http://bio-bwa.sourceforge.net/ ) Bowtie: Fast short read aligner to long reference sequences based on Burrows–Wheeler transform ( http://bowtie-bio.sourceforge.net/index.shtml ) Genometa: Taxonomic and functional annotation of short-reads metagenomic data. Graphical interface ( http://genomics1.mh-hannover.de/genometa/ ) SORT-Items: Taxonomic annotation by alignment-based orthology of metagenomic reads ( http://metagenomics.atc.tcs.com/binning/SOrt-ITEMS ) DiScRIBinATE: Taxonomic assignment by BLASTx best hits classification of reads ( http://metagenomics.atc.tcs.com/binning/DiScRIBinATE ) IDBA-UD: Assembler de novo of metagenomic sequences with uneven depth ( http://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/ ) MetaVelvet: De novo assembler of metagenomic short reads ( http://metavelvet.dna.bio.keio.ac.jp/ ) Ray Meta: Assembler of de novo of metagenomic reads and taxonomy profiler by Ray Communities ( http://denovoassembler.sourceforge.net/ ) MetaGeneMark: Gene coding sequences predictor from metagenomic sequences by heuristic model ( http://exon.gatech.edu/index.html ) GlimmerMG: Gene coding sequences predictor from metagenomic sequences by unsupervised clustering ( http://www.cbcb.umd.edu/software/glimmer-mg/ ) FragGeneScan: Gene coding sequences predictor from short reads ( http://sourceforge.net/projects/fraggenescan/ ) CD-HIT: Clustering and comparing sequences of nucleotides or protein ( http://weizhongli-lab.org/cd-hit/ ) HMMER3: Hidden Markov models applied in sequences alignments ( http://hmmer.janelia.org/ ) BLASTX: Basic local alignment of translated sequences ( http://blast.ncbi.nlm.nih.gov/blast/Blast.cgi?PROGRAM=blastxPAGE_TYPE=BlastSearchLINK_LOC=blasthome ) MetaORFA: Assembly of peptides obtained from predicted ORFs Min Path: Reconstruction of pathways from protein family predictions ( http://omics.informatics.indiana.edu/MinPath/ ) MetaPath: Identification of metabolic pathways differentially abundant among metagenomic samples ( http://metapath.cbcb.umd.edu/ ) GhostKOALA: KEGG’s internal annotator of metagenomes by k-number assignment by GHOSTX searches against a non-redundant database of KEGG genes ( http://www.kegg.jp/ghostkoala/ ) RAMMCAP: Metagenomic functional annotation and data clustering ( http://weizhong-lab.ucsd.edu/rammcap/cgi-bin/rammcap.cgi ) ProViDE: Analysis of viral diversity in metagenomic samples ( http://metagenomics.atc.tcs.com/binning/ProViDE/ ) Phyloseq: Tool-kit to row reads pre-processing, diversity analysis and graphics production. R, Bioconductor package ( https://joey711.github.io/phyloseq/ ) MetagenomeSeq: Analysis of differentially abundance of 16S rRNA gene in metaprofiling data. R, Bioconductor package ( http://bioconductor.org/packages/release/bioc/html/metagenomeSeq.html ) ShotgunFunctionalizeR: Metagenomic functional comparison at level of individual genes (COG and EC numbers) and complete pathways. R, Bioconductor package ( http://shotgun.math.chalmers.se/ ) Galaxy portal: Web repository of computational tools that can be run without informatic expertise. Graphical interfaceand free service ( https://usegalaxy.org/ ) MG-RAST: Taxonomic and functional annotation, comparative metagenomics. Graphical interface, web portal, andfree service ( http://metagenomics.anl.gov/ ) IMG/M: Functional annotation, phylogenetic distribution of genes and comparative metagenomics. Graphical interface, web portal, and free service ( https://img.jgi.doe.gov/cgi-bin/m/main.cgi ) 参考文章: The Road to Metagenomics: From Microbiology to DNA Sequencing Technologies and Bioinformatics (http://journal.frontiersin.org/article/10.3389/fgene.2015.00348/abstract)
个人分类: 科研文章|9931 次阅读|1 个评论
Paper:能否通过婴幼儿时期的肠道菌群预测未来食物过敏情况?
xbinbzy 2015-11-24 06:19
文章:Can we predict future allergies from our infant gut microbiota? Sensitization to food allergens is common during early life, affecting up to 28% of preschool children(学龄前的儿童多会发生食物过敏的情况). While 66 – 90% of infants outgrow their sensitization to egg and milk, respectively, and prevalence rates drop to around 2% by age 5(随着年龄的增长,这种情况有所减轻)。 文章“ The psychosocial impact of food allergy and food hypersensitivity in children, adolescents and their families: areview ”总结了小孩和青少年的食物过敏对于家庭的影响。为了提前进行预测以更早进行干预,文章 “ Skin prick test responses and allergen-specific IgE levels as predictors of peanut, egg,and sesame allergy in infants. ” 总结了利用皮试检测IgE的水平以判断infants对于penaut、egg和sesame的过敏情况。随着新一代测序技术的发展,目前的趋势呈现为: more complete assessment of gut microbial communities during infancy enhances our ability to identify gut microbiome biomarkers which can predict future allergic disease. 有研究发现: 1)在European cohort的研究中,1个月大的infants,肠道菌群多样性的减少、 Bacteroides 含量的减少是 atopic dermatitis 的标志现象。 如果母亲患有哮喘,infants的菌群多样性较少,在6岁时,具有较高风险的 allergic sensitization。 2)在KOALA birth cohort study of 1000 infants中,1个月时肠道内繁殖有 Clostridium difficile ,则在2岁时会出现 atopic sensitization. 3)在18个月大时,诊断有 atopic dermatitis的小孩体内会聚集 Clostridium ,而 Bacteroides spp. 的含量则会下降。 4)在肠道生态出现紊乱的infants中,确定有food allergy. 5)在5个月大具有food allergy的infants中, Firmicutes 含量较高、 Bacteroidetes 含量较低,菌群多样性未见到呈现变化。 6)在具有cow’s milk allergy的infants中,多发现有 Clostridium coccoides 、 lactobacilli 和其他的厌氧菌,同时具有较少量的 bifidobacteria 和 enterobacteria . 7) food-sensitized infants are twice as likely to experience the “ atopic march ” to conditions such as atopic dermatitis, allergicrhinitis and asthma. 3个月时体内 Bacteroidaceae 含量的减少会在9个月时出现food sensitization . 在这些研究中有几个需要关注的情况: 1)不同的生育方式、不同的母乳喂养方式对infants中的菌群影响存在差异。 2)结果是不能通用的,每个国家的情况可能还不一致。 A taxonomic marker that works well in Canada and Finland may not work well in Germanyor the USA. 为此有必要中国人群自己的数据集。 3)预测模型无论基于IgE或者是microbiota,效果都有待提高,或许很多症状的出现不是一个层面,一个维度的数据可以简单判断的,是一个综合的效应。
个人分类: 科研文章|6766 次阅读|0 个评论
多基因DNA条形码系统MEE在线发表(Early View全文分享)
热度 1 zhuchaodong 2015-3-2 21:18
Early View全文分享: 2015-Douglas et al.-A DNA Barcoding system integrating multigene sequence data.pdf 自2003年在加拿大多伦多大学,了解了DNA条形码的理念后,我个人持续关注。2005年在伦敦自然历史博物馆参加第 二届世界DNA条形码大会后,自己更加希望做些工作,推动昆虫系统学工作。 基于 DNA 序列,学界已经开发了很多用于分类鉴定的方法和系统。但是,在真核生物中,大多数系统使用单个预设的基因片段,如 COI 、 16S 等。有限数据信息可能导致鉴定结果出现一定的偏差。这些系统也很难识别并分析基因组来源的大量基因数据。 今天收到 Methods in Ecology and Evolution 编辑部来信, Douglas Chesters 博士等整合多基因数据的 DNA 条形码系统的研究论文已经被正式接受,并将于近日在线发表。 在这篇论文中,我们实现了多个基因的 DNA 条形码功能: 1 )基于经常测定的基因位点数据,建立一个参考框架性数据集; 2 )其它基因数据和参考序列进行同源比对、剪切,同时在种内变异范围内对查询基因片段赋予物种分类阶元信息。我们把该方法和现有一些方法进行了比较,如“ bagpipe_phylo” 。后者在系统发育树上给序列重新赋予分类阶元信息。 上述建议的多基因系统正确推断了 GenBank 中节肢动物 78% 的物种和 94% 的属级阶元。尤为关键的是,物种鉴别的比例高于仅仅用 COI 的方法。测试数据中, 24% 的物种仅仅见于非 COI 基因,而且这些 COI 之外的基因的物种阶元信息赋予正确率并没有明显的降低。同法,我们应用非 COI 的数据栏对建立的宏基因组数据进行了额外的物种阶元信息赋予。通过测试 1 个 273 条蜜蜂基因序列的数据,我们通过改变遗传距离的计算方法,物种赋予正确率和基于系统发育的分类鉴定结果差异不明显。 标准的单基因片段 DNA 条形码仍然是基于 PCR 产生数据的物种鉴定的重要鉴定工具。对于已经建立的大量物种 DNA 条形码“骨干数据”而言,本文方法可以补充下列几点: 1 )基因组数据; 2 )通过整合其它独立的基因位点降低错误; 3 )对非条形码片段进行额外的物种鉴定。通过新一代测序平台,后面两点和群落基因组监测工作尤其相关。 学海无涯勤作舟。 Douglas 博士来组里以后,努力工作,取得了一系列的研究进展。 在基于基因序列的物种界别的方向上, Douglas 博士已经连续在 Systematic Biology ( 2 篇)和 Methods in Ecology and Evolution ( 2 篇)上发表论文,把单个基因的思路推广到多个基因,并实现了大数据库中基因物种信息的自动矫正和赋予。 功夫不负有心人:2014年, 他获得中国科学院院长国际学者1年期项目(PIFI),获得一项国家自然科学基金项目,并于年底成功竞聘为动物研究所副研究员。 后续我们计划在下面几个方面继续努力: 1 ) 把该方法推广到基因组。这个功能已经部分实现,但是还需要较多组学数据的实际测试。 2)把该方法推广到系统树上的一些关键节点。这是我个人最感兴趣的点。 3 )把该方法和其它学科,特别是昆虫多样性和物种互作研究结合起来。 4 )把该方法更系统地应用到蜜蜂物种较为丰富的几个属中,加快蜜蜂总科系统学研究工作。 原文摘要和全文将于在线后和大家分享: A DNA Barcoding system integrating multi-gene sequence data Douglas Chesters, Wei-Min Zheng and Chao-Dong Zhu Accepted manuscript online: 4 MAR 2015 04:41AM EST | DOI: 10.1111/2041-210X.12366 Abstract PDF(223K) Supporting Information Request Permissions
5010 次阅读|2 个评论
功能基因组学知识(三):比较基因组学
hsm 2015-1-11 10:35
美国能源部一直持续大额资助绿色植物比较基因组研究(www.phytozome.net),绿色植物的太阳能储存模式是最经济的太阳能利用模式。从此可以看出,比较基因组研究的重要性。比较基因组研究主要研究基因组的序列特征,包括DNA序列,基因,基因顺序,调控序列及其他结构特征。 比较基因组研究的目标就是找出基因组的保守特征,从而发现那些基因是保守的,那些基因是分歧快的。从而发现表型变异的基因组基础。 目前比较基因组研究凸显了量大主题: 1)在植物,部分基因组即使在不同属间,也呈现了高度的保守性,即使生殖隔离了数百万年,也还呈现了 大量的相似性。 2)通过古老的全基因组复制事件(WGD)或部分基因组复制事件(SD),出现了DNA序列的移动(易位),基 因丢失,局部重排,造成了大量的共线性偏离。 随着基因组测序技术的进步,比较基因组不再局限于种间,也拓展到种内,拟南芥和大豆都做了多个品系的全基因组测序。不同品系的基因组也存在很多差异。宏基因组(pan-genome)的研究提上日程,宏基因组研究的目标就是找到核心基因组(core genome),与之相对的是可有可无基因组( dispensable genome ),还可以挖掘独特的特异基因(unique genes)。但是这些结果仅仅是在有限样本里面研究出来的,不是严格生物学意义上的。
个人分类: 功能基因组|6188 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 22:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部