博文

NBT：牛瘤胃微生物组的4941个宏基因组组装基因组(MAG)

已有 5718 次阅读 2021-6-13 12:08 |个人分类:宏基因组|系统分类:科研笔记

牛瘤胃微生物组的参考基因组集

用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组集

Compendium of 4,941 rumen metagenome-assembled genomes for rumen microbiome biology and enzyme discovery

Nature Biotechnology [IF:31.864]

2019-08-02 Articles

DOI: https://doi.org/10.1038/s41587-019-0202-3

全文可开放获取 https://www.nature.com/articles/s41587-019-0202-3.pdf

第一作者：Robert D. Stewart¹

通讯作者：Mick Watson^1*

其它作者：Marc D. Auffret², Amanda Warr¹, Alan W. Walker³, Rainer Roehe²

作者单位：

¹ 英国爱丁堡大学，罗斯林研究所和皇家（迪克）兽医研究院(The Roslin Institute and the Royal (Dick) School of Veterinary Studies, University of Edinburgh, Easter Bush, UK)

² 苏格兰乡村学院，英国爱丁堡(Scotland’s Rural College, Edinburgh, UK)

³ 英国阿伯丁大学，Rowett研究所(The Rowett Institute, University of Aberdeen, Aberdeen, UK)

热心肠日报

https://www.mr-gut.cn/papers/read/1066063689?kf=xread_daily

创作：刘永鑫审核：刘永鑫 08月06日

原标题：用于瘤胃微生物组生物学和酶发现的4,941个瘤胃宏基因组组装基因组集

瘤胃微生物组在反刍动物消化植物物质中非常重要，但大多数组分末被培养；
基于283个牛胃样本获得6.5T二、三代测序数据，组装分箱得到4941个宏基因组组装基因组（MAG），同时鉴定了40多万个碳水化合物代谢相关的基因；
本文提出一种组装工作流程，可获得80％完整的细菌和古细菌基因组；
此参考基因组集将宏基因组数据可比对率从15%的提高至50-70％，有助于更好地了解瘤胃微生物组的结构和功能。

主编评语：反刍动物为全世界数十亿人提供必需的肉、奶等重要营养。瘤胃是一种特殊的胃，适应植物来源的复合多糖的分解。瘤胃微生物组的基因组编码数千种适于消化植物物质的酶，它们主导反刍动物饮食结构。本文对近三百个牛胃样本进行宏基因组二、三代混合测序，获得了近五千个宏基因组组装的基因和40多万个碳水化合物代谢相关基因，为深入研究牛瘤胃微生物组提供了参考基因组，可进一步挖掘功能基因和筛选高转化效率菌种提供基础。同时也是近期第三篇Nanopare技术参与发表在自然生物技术杂志在宏基因组领域的文章，可见新技术在宏基因组中应用带来的巨大优势。另两篇详见 https://www.mr-gut.cn/papers/read/1088940721
和 https://www.mr-gut.cn/papers/read/1074446025

更重要的是本文提供了宏基因组分箱、下游分析的全套流程和方法标准，值得参考，详见方法和代码。此外，一个重要的研究趋势是参考基因集已经有点过时了，要发表就得要参考基因组集，即知道功能，更要清楚功能的来源菌种。

摘要

反刍动物为全世界数十亿人提供必需的营养。瘤胃是一种特殊的胃，适应植物来源的复合多糖的分解。瘤胃微生物组的基因组编码数千种适于消化植物物质的酶，它们主导反刍动物饮食结构。作者使用来自283只反刍动物牛的大约6.5TB的短读长和长读长序列数据，组装了4,941个瘤胃微生物的宏基因组组装基因组（MAG）。作者提出了一种基因组分辨的宏基因组学工作流程，该工作流程能够组装至少80％完整的细菌和古细菌基因组。值得注意的是，我们获得了三个由长读长数据组装而成的单重叠群，即瘤胃细菌的全染色体组装，其中两个代表以前未知的瘤胃物种。使用我们的瘤胃基因组集合，我们预测并注释了大量的瘤胃蛋白。我们的瘤胃MAG集将瘤胃宏基因组测序序列的比对率从15％提高到50-70％。这些基因组和蛋白质资源将有助于更好地了解瘤胃微生物组的结构和功能。

背景

【反刍动物重要性】反刍动物将人类不可食用的低价值植物生物质转化为高营养价值的产品，例如肉类和奶制品。
【瘤胃介绍】瘤胃是胃的四个腔室中的第一个腔室，其中包含细菌、古细菌、真菌和原生动物的混合物，该混合物发酵包括木素纤维素和纤维素在内的复杂碳水化合物产生短链脂肪酸（SCFA），用于反刍动物的代谢和生长。
【瘤胃意义】瘤胃微生物是用于植物生物量降解的酶的丰富来源，可用于生产生物燃料，瘤胃微生物组的操作为降低食品生产成本提供了机会。

【反刍动物意义】反刍动物对粮食安全和气候变化都很重要。【例. 甲烷问题和潜在解决方案】例如，甲烷是反刍动物发酵的副产品，由产甲烷的古细菌释放，据估计，人类产生的甲烷中有14％归因于反刍动物牲畜。甲烷的生产与瘤胃中产甲烷的古细菌的存在直接相关，为通过选择或操纵微生物组来缓解这一问题提供了可能性。
【现有研究】两项研究报告了瘤胃微生物基因组集。Stewart等从苏格兰饲养的43头牛的瘤胃宏基因组样本中组装913个MAG蓝图（称为瘤胃未培养基因组（rumen-uncultured genomes，RUG）），Seshadri等报道了Hungate收集的410个参考古细菌和细菌基因组。作为分离的基因组，Hungate基因组通常质量更高，并且至关重要的是，相应的生物体存在于培养物中，因此可以在实验室中进行培养和研究。
【现有研究的不足】但是，我们发现添加Hungate基因组仅使读长分类增加了10％，而使用RUG时增加了50-70％，表明瘤胃中存在大量未发现的微生物。

【本研究的工作】我们对来自283头牛的瘤胃的6.5TB的序列数据进行了全面分析。我们的瘤胃基因组目录（名为RUG2）包括Stewart等[8]中不存在的4,056个基因组，迄今已组装的瘤胃基因组数量达到5,845。我们还提出了一种宏基因组学的纳米孔（MinION）测序数据（来自一个瘤胃样品），该数据包含至少三个完整细菌染色体作为单个重叠群。
【意义】这些基因组和蛋白质资源将为瘤胃微生物组的结构和功能的未来研究奠定基础。

结果

牛瘤胃的宏基因组组装基因组

Metagenome-assembled genomes from the cattle rumen

【样本和数据量】我们对从283头肉牛的瘤胃内容物中提取的DNA进行了测序（所测序动物的特征在补充数据1中），产生了超过6.5 TB的Illumina序列数据。
【分析简介】我们运行着一个连续的组装和去冗余流程，这意味着如果相同品系的新基因组（平均核苷酸同一性（> 99％）>较完整的基因组和污染统计数据更好，则它们会取代较旧的基因组。【结果概述】我们在这里提出的所有4,941个RUG的完整性≥80％，污染≤10％（附图1）。

附图1. 宏基因组组装基因组的质量

A) 4941 个 RUG 的完整性和污染统计数据。红点表示具有 >=90% 完整性和 <=5% 污染的最高质量基因组。所有其他 RUG 都 >80% 完整且 <=10% 被污染。蓝色的质量得分 >=50，由 Parks 等人定义，而灰色的质量得分 <= 50。B) 4941 个 RUG 的 N50 直方图（log10 比例）。 C) 4941 个 RUG 的每个基因组重叠群数量的直方图。
直观展示MAG的污染率、完整度、N50和序列数量

【MAG属性和分类描述】使用MAGpy分析了所有RUG，并在补充数据2中给出了它们的装配特性，假定名称和分类学分类。在补充数据3中给出了Sourmash，DIAMOND和PhyloPhlAn输出，它们揭示了与现有公共数据的基因组和蛋白质组学相似性。 图1和补充数据4显示了4,941个RUG以及460个来自Hungate收集的公共基因组的系统发育树。。【分类描述：主要的优势门、目、科及从属关系】树中厚壁菌门和拟杆菌门是优势菌，分别由梭菌目和拟杆菌目主导，但也包含许多来自放线菌门、纤维杆菌门（Fibrobacteres）和变形菌门。梭菌目（2,079）和拟杆菌目（1,081）是优势菌目，其中由鲁米诺卡科Ruminoccocacae （1,111）和鞭毛藻科Lachnospiraceae（640）构成了梭菌目的优势菌，和普雷沃氏菌科（521）是拟杆菌目的优势科。

图1. 来自牛瘤胃4,941个末培养和Hungate系列基因组的进化树

Fig. 1: Phylogenetic tree of 4,941 RUGs from the cattle rumen, additionally incorporating rumen genomes from the Hungate collection.

本树采用PhyloPhlAn基于同源蛋白序列连接后构建，并使用GraPhlAn可视化。标签展示只选择不重叠有信息的Hungate基因组名称（Hungate数据集有410个培养的瘤胃细菌和古菌）。
注：图例显示了10个主要门类的着色方便阅读；PhyloPhlAn可以把细菌和古菌绘制在同一颗树上，而GTDB-tk细菌和古菌是分别的树。

基因组分类数据库（GTDB）提出了一种基于保守级联蛋白序列的新细菌分类法，我们将所有RUG的GTDB预测分类单元包括在内（补充数据3）。共有4,763个RUG具有现有基因组的<99％ANI，有3,535个RUG具有现有基因组的<95％ANI，因此代表了潜在的新物种。

【注释数量/比例描述】4941个基因组中，种级144个，属级1092个，科级3188个，目级4084个，纲级4514个，4801个门级和 4,941 被归类为界级。【注释种分类描述】在物种水平分类的基因组中，43 个代表来自未培养的黄色瘤胃球菌菌株的基因组，42 个代表来自未培养的 Fibrobacter succinogenes 菌株的基因组，18 个代表来自未培养的 Sharpea azabuensis 菌株的基因组和 10 个代表来自未培养的硒单胞菌菌株的基因组。这些物种属于已知在瘤胃稳态中发挥重要作用的属。

【古菌描述】我们组装了 126 个古细菌基因组，其中 111 个种属于甲烷短杆菌属。 Methanobacteriaceae 科还有另外两个成员，GTDB 预测它们都是 Methanosphaera 属的成员。 sourmash分析九个古菌 RUG 序列k-mer分类至 Candidatus Methanomethylophilus sp. 1R26; 另外三个对产甲烷古菌 ISO4-H5 有较弱的序列特征相似；其余的古菌基因组相近结果，对相同基因组（产甲烷古菌 ISO4-H5）的 DIAMOND 比对结果较弱。 GTDB 预测所有 13 个都是 Candidatus Methanomethylophilus 属的成员，但这是基于仅与两个基因组的相似性，这两个基因组都具有不确定的系统发育谱系。如果 Candidatus Methanomethylophilus 是一个真正的属，那么我们的数据集会将已测序的基因组数量从 2 增加到 15。

【MAG属性描述与同类讨论】通过分析单拷贝核心基因来测量基因组质量统计数据（附图 1）。 MAG 质量的定义有不同的标准。 Bowers 等人 16 将高质量的草稿描述为具有≥90% 的完整性和≤5% 的污染； 2,417 个 RUG 符合这些标准。或者，Parks 等人 17 将质量得分定义为完整性 − （5 × 污染）并排除任何得分低于 50 的 MAG；不过，有 4,761 个 RUG 符合此标准，而 Parks 等人的 MAG。可能具有低至 50% 的完整性，但此处呈现的基因组的完整性均≥80%。 RUG 的大小范围从 456 千碱基 (kb) 到 6.6 兆碱基 (Mb)，N50 值（重叠群中 50% 的组装碱基大于 N50 值）范围从 4.5 kb 到 1.37 Mb。每个 RUG 的 tRNA 基因平均数为 16.9，其中 446 个 RUG 全部为 20。由于 Illumina 宏基因组的组装难以组装重复区域，因此大多数 RUG 不包含 16S rRNA 基因——464 个 RUG 编码了16S rRNA 基因，154 编码至少一个全长 16S rRNA 基因。

补充数据 5 中提供了每个样本中每个 RUG 的覆盖范围。使用 1 倍覆盖范围的截止值，大多数 RUG (4,863) 存在于不止一只动物中，3,937 个 RUG 存在于 10 多只动物和 225 个 RUG存在于 200 多只动物中。所有动物中都存在一个 RUG，即 RUG11026，它是普氏菌科的成员。

近乎完整的单重叠群变形菌基因组

A near-complete single-contig Proteobacteria genome

Illumina 数据的宏基因组组装通常会导致高度碎片化的组装，但 RUG14498 是一种未培养的变形菌属物种（基因组完整性为 87.91%，污染为 0%），在 147 个单拷贝基因中，有 136 个存在于在超过 1 Mb的单个重叠群中且没有重复。具有小基因组（<1.5 Mb 大小）的变形菌在我们的数据集中相对常见（n = 67），并且在其他大型宏基因组组装项目中也被发现。我们提出的变形菌基因组编码的蛋白质与 UniProt TREMBL18 中的蛋白质只有 45-60% 的氨基酸同一性。我们将我们的单重叠群变形菌组装与由 Parks 等人组装的具有类似大小基因组的九种变形菌进行了比较（附图 2）。 ANI 通常用于描述新的菌株和物种，它在 9 个 UBA 基因组和 RUG14498 之间具有相似性。 UBA2136、UBA1908、UBA3307、UBA3773 和 UBA3768 与该组中的任何其他基因组都没有可检测的同一性； UBA4623、UBA6376、UBA6864 和 UBA6830 的 ANI 均大于 99.4%，表明它们是同一物种的高度相似菌株。 UBA4623、UBA6376、UBA6864 和 UBA6830 也有大约 77.8% 的 ANI 和 RUG14498，这表明单重叠群 RUG14498 是一个高质量、近乎完整的新变形菌种全基因组。单重叠群 RUG14498 由 IDBA_ud 从样本 10678_020 组装而成。 IDBA_ud 利用宏基因组样本中的不均匀深度来改进组装。 RUG14498 是 10678_020 中第十个最丰富的基因组，该样本中类似深度的其他基因组在分类学上不相关，这使得 IDBA_ud 能够将几乎整个基因组组装在一个重叠群中。

附图2. Proteobacteria MAG 全基因组比对

单重叠群 Illumina 组装 RUG14498（所有图上的 x 轴）和 Parks 等人的九个类似大小的变形杆菌 MAG 之间的全基因组比对。可以看到 RUG14498 和 Parks 等人的六个 MAG 之间清晰的线性全基因组比对，另外两个可以区分微弱的线性比对。 UBA3307 和 UBA1908 似乎包括在 RUG14498 中没有直系同源匹配的附加序列。

RUG14498 具有单个全长 16S rRNA 基因（1,507 碱基对）。 GenBank 中的最高命中（99% 长度的 97% 同一性）是 AB824499.1，这是来自泰国本地牛和沼泽水牛瘤胃的未培养细菌的序列。 SILVA19 中的最高命中是相同的序列，只是这次被注释为未培养的红螺类。总之，这些结果支持 RUG14498 代表一种新的变形菌属物种的结论。与已知蛋白质的低氨基酸同一性限制了我们预测功能和代谢活动的能力；尽管如此，RUG14498 编码 73 种预测的 CAZymes，包括 42 种糖基转移酶和 19 种糖基水解酶，表明在碳水化合物合成和代谢中起作用。

来自瘤胃微生物组的新微生物基因组

New microbial genomes from the rumen microbiome

我们将 4,941 个 RUG 与 Hungate 集合和我们之前的数据集 8（图 2）进行了比较。在 4,941 个 RUG 中，149 个与 Hungate 成员具有 >95% 的蛋白质同一性，271 个具有 >90%；这留下了 4,670 个 RUG，与 Hungate 成员具有 <90% 的蛋白质同一性。在 4,941 个 RUG 中，2,387 个与 Stewart 等人的基因组蛋白质同一性 <90%，超过 1,100 个 RUG 与 Stewart 等人的基因组蛋白质同一性 < 70%。许多与公开可用基因组具有最低蛋白质同一性的 RUG 无法在门级别之外分类，有些被归类为简单的未培养细菌。

图2. 末培养基因组与Hungate和发表数据比较

Fig. 2: A comparison of the RUG dataset with the Hungate collection and previously published data.

a，b，4,941个RUG与Hungate集合的比较（a）和我们之前公布的Stewart等人的数据（b）。黑线表示蛋白质与最接近匹配的平均百分比（右手y轴），蓝点表示每个RUG与比较数据集中最接近的匹配之间的混合距离（k = 100,000, 衡量两个不同DNA序列之间的差异）。正如预期，高蛋白质相似度与低mash距离相关，反之亦然。 RUG由a和b的平均蛋白质相似度独立分类。图2b中有一个明显的拐点，大约是沿x轴的一半，蛋白质同一性下降到90％以下，混合距离上升，整齐地展示了我们新的更大数据集所代表的新颖性。

我们编译了一个包含所有 RUG 基因组、Hungate 集合基因组和来自 Hess 等人、Parks 等人、Solden 等人 2和 Svartström 等人的瘤胃 MAG 的数据库，我们将其命名为瘤胃超集。瘤胃超集在 99%（菌株水平）和 95%（物种水平）ANI 下都被去重复。在 95% 的 ANI 下，瘤胃超集减少到 2,690 个集群，代表物种级别的分类。在这些集群中，2,078 个仅包含 RUG 基因组，因此代表了本研究中确定的推定的新瘤胃微生物物种。 58 个簇包含 Hungate 和 RUG 基因组，268 个簇仅包含 Hungate 基因组（补充数据 6）。在 99% 的 ANI 下，瘤胃超集减少到 5,574 个簇，代表株水平分箱。在这些簇中，4,845 个仅包含 RUG 基因组，并且可能代表推定的新瘤胃微生物菌株（补充数据 7）。 附图 3 显示了在去重复后各种瘤胃 MAG 集如何在 95% ANI 下重叠。

附图3. 瘤胃微生物基因组数据集比较

95% ANI 去重复后各种瘤胃 MAG 数据集的比较。每个组内的成员被确定为同一物种，因为他们共享 >= 95% 的 ANI。左下面板显示每组的大小；底部中间面板显示交集中包含的集合，顶部条形图显示该交集的大小（请注意，一个交集只能包含一个集）。可以看出，这些集合主要代表独立的物种，前四个最大的交叉点只包含一个集合中的基因组。最大的重叠是在 Hungate 集合和 RUGS 之间，即 58 个物种级别的 bin 包含 RUG 和 Hungate 基因组。 RUG 集合是唯一包含与所有其他集合重叠的集合。

我们使用 Chao 1 estimator 计算了对 RUG2 数据集完整性的估计（我们只能对我们自己的数据集这样做，因为估计是基于在不同频率下观察到物种的次数，我们没有具有其他数据集的这些值）。以 95% 的 ANI 去重复所有 RUG 基因组为我们提供了 2,180 个物种级别的MAG。其中，948 个是单峰（即刚好被观察到一次），410 个是双峰（即刚好被观察了两次）。使用 Chao 1 公式，我们预测了 3,276 个物种，因此我们估计我们已经发现了样本中存在的物种的 66.54%。

我们使用三个数据库评估了使用瘤胃基因组数据对几个公共数据集的读取分类率的影响 - 第一个是我们的自定义瘤胃 kraken 数据库，包括 RefSeq 完整基因组和 Hungate 集合 ；第二个是相同的数据库加上 RUG；第三个是相同的数据库加上瘤胃超集（包括 RUG）。我们对以下五个数据集进行了分类——我们自己的数据集（Stewart 等人）、我们之前发布的数据集（Wallace 等人）、来自利基专业化研究的 14 头牛的数据（Rubino 等人）、来自绵羊的甲烷排放研究（Shi 等人）和近期驼鹿宏基因组研究的数据（Svartström 等人）（附图 4）。

附图4. 读长分类比例

针对各种 Kraken 数据库的五个数据集的分类率。来自 RefSeq 和 Hungate 集合的 BFAP 细菌、古细菌、真菌和原生动物基因组； +RUG2 是 BFAP 加上本手稿中描述的 4941 个 RUG； +RSS 是 BFAP 加上瘤胃超集（包括来自 Solden 等人和 Svartström 等人的 RUG、UBA 基因组和 MAG）通过使用 RUG 或瘤胃超集数据库提高了分类率，尽管瘤胃超集仅实现了微小的增长在大多数情况下;例外是 Svartström 等人的驼鹿数据，其中添加自己的 MAG 可显着提高分类率。使用 RUG 数据库使我们自己数据的平均分类率达到 70.1%，而在 Shi 等人和 Rubino 等人的数据集中，平均分类率约为 50%。样本大小：Stewart（n=283 只动物）、Wallace（n=8 只动物）、Rubino（n=14 只动物）、Shi（n=16 只动物）、Svartström（n=6 只动物）。中心线显示中值；框显示四分位距；晶须延伸到最极端的数据点，该数据点不超过框的四分位距的 1.5 倍

使用 RUG 或瘤胃超集数据库提高了分类率，尽管在大多数情况下使用瘤胃超集仅导致小幅增加。我们将读长分类率从 15% 提高到 70%，超过四分之一的样本实现了 80% 或更高的分类率。这些比率与 Pasolli 等人报告的人类微生物组的读取分类率相当。

绵羊甲烷排放的株水平分析

此前 Shi 等人发现低甲烷排放 (LME) 和高甲烷排放 (HME) 绵羊之间的微生物群落结构没有显着变化，尽管两组之间的基因表达存在差异。我们重新分析了 Shi 等人的数据集。使用我们的瘤胃宏基因组数据；具体来说，我们使用由 RefSeq 基因组和瘤胃超集组成的自定义 kraken 数据库在界、门、科、属和种级别对读数进行分类，并测试了 LME 和 HME 绵羊之间的差异。虽然我们在界水平上没有发现显着差异，但我们发现在测试的所有其他分类学水平上都有显着而深刻的差异（补充表 1-5 和附图 5-9）。在属水平上，Sharpea、Kandleria、Fibrobacter 和 Selenomonas 与 LME 绵羊相关，Elusimicrobium 与 HME 绵羊相关（补充表 4）。在物种水平上，我们发现 LME 和 HME 绵羊之间有 340 个物种存在显着差异（补充表 5），包括 11 个物种的双歧杆菌和 6 个物种在 LME 羊中的比例显着更高，以及 9 个物种的 Desulfovibrio在 HME 羊中比例更丰富。 Fibrobacter succinogenes 是一种重要的瘤胃微生物，已知与植物纤维的降解密切相关，两组之间也存在显着差异，并且与 LME 绵羊有关。这些微生物中的一些以前使用标记基因测序被确定为 LME 和 HME 绵羊之间差异比例丰富的，但我们的结果提供了更高的分辨率并揭示了所涉及的基因组序列。

附图5. 门水平PCA分析

比较低（n = 8 只动物）和高（n = 8 只动物）甲烷排放羊的门级丰度的主成分分析。此外附图6、7、8图分别为科、属和种的PCA。

附图9. 物种级热图

比较低（n = 8 只动物）和高（n = 8 只动物）甲烷排放羊的物种水平丰度热图。配色方案从海军蓝（低值）过渡到白色（中值）再到深红色（高值）。

Kraken 在 NCBI 分类法的不同级别对数据进行分类；不幸的是，这并没有提供有关尚未具有特定 NCBI 分类法 ID 的 RUG 的数据。因此，为了估计单个菌株的丰度，我们将读数直接与瘤胃超集进行比对，并使用指定为主要比对的读数数量作为每个基因组相对丰度的代表。在错误发现率 ≤ 0.05 的情况下，1,709 个基因组在 LME 和 HME 绵羊之间显示出不同的比例丰度（补充数据 8 和附图 10）。在附图 10 中，LME 和 HME 绵羊沿着主成分 1 明显分开，这解释了数据中 58% 的方差。补充数据 8 列出了差异丰富的基因组。值得注意的是，与 LME 绵羊和 22 个 S. azabuensis 菌株相关的大量先前未表征的毛螺菌科物种在 LME 绵羊中均具有更高的比例丰度（所有 18 个 S. azabuensis RUG 和来自 Hungate 集合的 4 个 S. azabuensis 菌株）。这些结果与之前基于标记基因的研究一致，我们的数据集将 S. azabuensis 的公开可用基因组数量从 4 增加到 22。大量未表征的瘤胃球菌科和拟杆菌也与 HME 绵羊有关。未表征的变形菌的多种菌株，包括上述 RUG14498，在 HME 羊中比例更高，纤维杆菌菌株几乎都与 LME 羊相关。

古细菌的比例丰度与甲烷排放量之间的关系并不简单。大多数古菌菌株在 LME 和 HME 绵羊中的丰度相似（补充数据 8）。代表甲烷短杆菌新菌株的 RUG 在 HME 绵羊中通常更丰富。比例丰度最显着的 RUG 是 RUG12825，它很可能是 Methanosphaera 属的成员，在 LME 绵羊中更为丰富。 产甲烷菌的相对丰度与甲烷排放量之间的复杂关系可能是我们无法发现整体古菌比例丰度的显着差异的原因。

尽管如此，这些数据代表了绵羊甲烷排放的株水平观点，并支持了与低和高甲烷排放极端相关的瘤胃宏基因组相对丰度存在重大根本变化的假设。

全球瘤胃普查更新

Global rumen census updated

全球瘤胃普查试图通过对来自世界各地 742 只动物（包括 8 种反刍动物）的瘤胃样本进行 16S rRNA 测序来确定核心瘤胃微生物组。 Prevotella、Butyrivibrio和Ruminococcus，以及未分类的毛螺菌科、Ruminococcaceae、Bacteroidales和Clostridiales，是主要的瘤胃细菌，可能代表了一个核心细菌瘤胃微生物群。在我们的数据中，相同的物种很丰富（补充数据 5）。我们还发现许多 Proteobacteria 含量很高，包括 Succinivibrio（补充数据 5）。这是值得注意的，因为在瘤胃普查的许多样本中发现变形菌属高度丰富，但并未被强调为核心瘤胃微生物组的一部分。

为了进一步表征变形菌的比例丰度，我们使用瘤胃超集数据库对来自本研究的数据进行分类，Wallace 等人、Rubino 等人、Shi 等人和 Svartström 等人（附图 11））。所有数据集中都存在变形菌；它们在牛数据集中很丰富，但在驼鹿和绵羊中较少。鉴于许多样品中变形杆菌的比例丰度很高，并且它们在我们测试的所有样品中始终存在，我们建议将变形杆菌添加到 Henderson 等人提出的核心细菌瘤胃微生物组中。

附图11. 瘤胃变形菌丰度

5 个瘤胃宏基因组数据集的变形菌百分比丰度箱线图。 Y 轴在 log10 刻度上(丰度波动大，采用对数转换，百分比用log10转换效果更好)。样本大小：Stewart（n=283 只动物）、Wallace（n=8 只动物）、Rubino（n=14 只动物）、Shi（n=16 只动物）、Svartström（n=6 只动物）。中心线显示中值；框显示四分位距；胡须延伸到最极端的数据点，该数据点不超过框的四分位距的 1.5 倍。

长读长组装完整细菌基因组

Long-read assembly of complete bacterial chromosomes.

三代序列Canu组装、统计和获得成环重叠群：测序单样本使用Nanopore MinION与Illumina的比较见图3。3个流动配槽共产出11.4G数据，N50有11.5K，平均读长6.1K，与其他研究比略短。我们归因为短片段为球磨引起的DNA提取片段过短。使用Canu组装，形成178Mb基因组，N50为268kb。预测了31个重叠群成环，可能为质量或环形染色体。

图3. Illumina和nonopare宏基因组装统计数据比较

Fig. 3: A comparison of Illumina and nanopore metagenomic assembly statistics.

彩色直方图显示了282 Illumina组装的统计分布，并突出显示了单个纳米孔组装。 a，N50值。 b，组装的总长度。 c，最长重叠群的长度。纳米孔组装N50为268kb，比平均Illumina组装（4.7kb）长56倍以上，Illumina组装总长度通常更长（平均600M b），纳米孔组装总长度（长度为178Mb）不是我们获得的组装中最短的，纳米孔组装产生3.8 Mb的最长重叠群，比Illumina组件的平均长度（479 kb）长7倍，比最长的单Illumina重叠群长1.74倍（1.38 Mb; 13个重叠群中的一个来自99.19％完整度且未培养的拟杆菌RUG14538）。就直接比较而言，相同样品的仅Illumina组装的N50为12.2kb，总长度为247Mb，最长的重叠群为358kb。

IDEEL流程连用Nanopolish和Racon抛光纠错插入和缺失：单分子测序最大的问题是存在插入和缺失(indels)。 Canu可以纠正读长，但不足以删除所有indel。在没有标准真实数据集的情况下检测测序错误非常困难，因此我们假设大多数插入缺失会产生提前终止密码子，而基因预测工具（例如Prodigal）会产生截短的蛋白质。我们在UniProt中检查了预测蛋白质的长度与它们的最高相似序列之间的比率，以估计插入缺失（附图12）。尽管与Illumina的短读数据相比，这些数据表明存在多个错误，但我们通过一轮Nanopolish和两轮Racon抛光来纠正了错误。我们建立了一个软件流程来计算统计数据，并为称为IDEEL，可以处理任何输入基因组或宏基因组生成相似的图。

环状序列的统计：补充数据9中提供了所有≥500 kb的重叠群和预计为环形的所有重叠群的统计信息。纳米孔组装包含几个我们预测为完整或接近完整的圆形完整染色体的单一重叠群。

环状序列例子1与同源菌分析：Prevotella copri nRUG14950（tig00000032）是一个3.8 Mb的重叠群，最类似于Prevotella copri DSM 18205，与RUG14032具有高度相似性。通过CheckM预测，幽门螺杆菌nRUG14950的完整度为98.48％，污染率为2.03％，而RUG14032的完整度估计为96.62％，污染率为1.35％。附图13显示了普氏杆菌nRUG14950，RUG14032和普氏杆菌DSM 18205之间的比较。普氏杆菌nRUG14950和RUG14032之间存在明显的关系。估计这两个基因组几乎是完整的，是使用不同的技术从不同的样品中组装而成的，并使用不同的测序技术进行测序。尽管我们是从一个基因组中组装的，但我们的普氏杆菌的组装nRUG14950仅包含一个重叠群，估计完整度98.48％，代表了最连续的普氏杆菌的染色体组件。

环状序列例子2与同源菌分析：硒单胞菌(Selenomonas) nRUG14951是一个长度为3.1 Mb的单一重叠群，预计为圆形，完整度和污染率统计分别为98.13％和0.16％。最相似的RUG是RUG10160，其蛋白质同一性平均值为94％。估计RUG10160完整度97.66％并且污染率0％。但是，最接近的公共参考基因组是反刍月形单胞菌（Selenomonas ruminantium）GACV-9，它是Hungate集合的一部分，与月形单胞菌属（Selenomonas spp）的蛋白质同一性仅为〜64％。 nRUG14951。硒单胞菌属之间有良好的全基因组比对。 nRUG14951和RUG10160（附图14），尽管有一些重排的证据和基因组的一些小部分，这些部分仅被纳米孔组装捕获。

环状序列例子3与同源菌分析：我们还鉴定了带有2.5-Mb环形近乎完整的基因组的毛螺菌科(Lachnospiraceae)细菌nRUG14952，相似菌有RUG13141（与nRUG14952具有96％的蛋白质同一性）和更远相关的公共参考基因组（Lachnospiraceae细菌KHCPX20，（与nRUG14952具有63％的蛋白质同一性）。纳米孔组装的Lachnospiraceae细菌基因组nRUG14952包含RUG13141中不存在的几个基因组区域（附图15）。

我们的质量前所未有的好：nRUG14951和nRUG14952代表组装成单个重叠群的整个细菌染色体，并且是这些物种的第一个基因组组装体。纳米孔组装的其余部分包含高度连续的重叠群，代表了以前未测序的细菌染色体的大部分。这些结果加在一起证明了从复杂的宏基因组组装完整染色体的长读长的功能。

16S完整性评估，和富集功能：为了评估具有完整染色体组装体的优势，我们注释了三个纳米孔完整基因组及其紧密相关的RUGs的三个基因组（补充数据10）。三个完整的纳米孔基因组包含五个，七个和三个全长16S基因序列，而所有三个RUG都不包含。此外，与RUG对应物相比，三个纳米孔基因组的IS家族转座酶蛋白大量富集。转座酶与细菌基因组中的插入序列相关，并催化移动元件的转座。最后，在所有情况下，纳米孔组装都具有更多带注释的直系同源基因簇，表明它们比短读长对应物具有更完整的功能注释。

瘤胃微生物蛋白质组学的蛋白质数据库

A protein database for rumen microbial proteomics

我们按照 UniRef 的模型，将来自 Hungate 集合的 4,941 个 RUG 和 460 个公开可用的基因组（1,069 万个蛋白质）的瘤胃蛋白质的非冗余数据集放在一起，并将蛋白质集聚类为 100%（945 万个簇）、90 %（569 万个集群）和 50%（245 万个集群）同一性分别形成 RumiRef100、RumiRef90 和 RumiRef50。

为了评估我们的数据集和其他瘤胃 MAG 数据集之间的蛋白质水平差异，我们采用了 RumiRef100 并添加了超过 900,000 种来自瘤胃超集的预测蛋白质。我们以 90% 的同一性对这些进行了聚类，从而产生了 624 万个蛋白质簇。其中，500 万个簇包含至少一种 RUG 蛋白，474 万个仅包含 RUG 蛋白，367 万个是仅包含 RUG 蛋白的单体。

将来自 RUG 的所有 1069 万个预测蛋白质与 KEGG、来自 Hungate 集合的 460 个公共基因组、UniRef100、UniRef90 和 UniRef50 进行了比较。这些数据库最高命中的平均蛋白质同一性分别为 55.88%、63.58%、67.52%、67.25% 和 59.97%。这些数据提供了来自瘤胃的全面且注释丰富的蛋白质数据集。

使用 dbCAN2将 RUG 蛋白与 CAZy 数据库（2018 年 7 月 31 日）进行比较。总共预测442,917个参与碳水化合物代谢，包括235,001个糖苷水解酶、120,494个糖基转移酶、55,523个碳水化合物酯酶、23,928个具有碳水化合物结合模块的蛋白质、6,834个多糖裂解酶、907个具有预测活性的预测蛋白质cohesin 结构域和 150 个具有 S 层同源模块 (SLH) 的蛋白质。

预测的 CAZymes 与当前 CAZy 数据库的相似性可以在图 4 中看到。八类碳水化合物活性酶中没有一个显示平均蛋白质同一性大于 60%，这表明 CAZy 不能很好地代表 CAZy 中编码的 CAZymes 的多样性。反刍微生物的基因组。特别值得注意的是 AA 类“辅助活性”，CAZy 和 RUG CAZymes 之间的平均蛋白质同一性不到 30%。 AA 由 CAZy 创建，用于对木质素分解酶和裂解多糖单加氧酶 (LPMO) 进行分类。

图4. 预测碳水化合物代谢蛋白与CAZy数据库的相似度

Fig. 4: Maximum percentage identity between CAZyme-predicted proteins from the RUGs and the CAZy database.

GH，糖苷水解酶（n = 235,001）; GT，糖基转移酶（n = 120,494）; PL，多糖裂解酶（n = 6,834）; CE，碳水化合物酯酶（n = 55,523）; AA，辅助活性; CBM，碳水化合物结合模块（n = 23,928）; SLH，S层同源结构域（n = 150）; cohesin，黏连蛋白结构域（n = 80）。中心线表示中值; 方框显示了四分位数范围; 并且胡须延伸到最极端的数据点，但数据点不超过盒子四分位数范围的1.5倍。

CAZymes 在 12 个不同门和未知细菌组中的分布见图 5。拟杆菌（390 万）和厚壁菌门（530 万）一起为我们的数据集贡献了最多的蛋白质；然而，拟杆菌的蛋白质组中有 5.7% 专门用于 CAZyme 活性，而在厚壁菌中，这一数字为 3.2%。 Fibrobacteres 将最高百分比的蛋白质组用于碳水化合物代谢（超过 6.6%），正如预期的那样，因为它们具有附着纤维的高纤维素分解活性。只有少数关于浮游菌在瘤胃中作用的研究；然而，虽然它们在我们的数据集中贡献了相对较少的蛋白质 (30,172)，但预测这些蛋白质中只有 5% 以上是 CAZymes，表明它们在碳水化合物代谢中起作用并适应碳水化合物代谢。在 80 种含有粘连蛋白的蛋白质中，79 种由厚壁菌编码（其余的由一种未知细菌编码），149 种含有 SLH 结构域的蛋白质中的 101 种也是如此。两者都是纤维素体的成分，即参与纤维降解的多酶复合物，由梭菌家族的一些成员编码。

图5. 蛋白质的分类学和功能分布

Fig. 5: Taxonomic and functional distribution of proteins.

顶部，12门和未知细菌的蛋白质总数。
中间，蛋白质组预测为CAZymes的百分比。
底部，八个CAZyme类的分布占预测CAZymes总数的比例。

RUG 中有 1,707 个拟杆菌基因组，此外我们还有来自纳米孔组装的普氏菌的全基因组。使用我们的管道 PULpy 对这 1,708 个基因组进行多糖利用位点 (PULz) 的预测。在 1,708 个基因组中，1,469 个被预测具有至少一个 PUL，总共有 15,629 个单独的基因座，涉及 88,260 个蛋白质。每个基因组的最高 PUL 数为 RUG13980 的 52 个和 RUG10279 的 50 个；这两个都被标记为未培养的普雷沃氏菌科，这两个基因组都与多糖普氏菌密切相关，已知它能够利用多种碳水化合物底物。

讨论

瘤胃微生物组在粮食安全和气候变化中起着至关重要的作用。最近的研究已经发布了 1,300 多个草图和完整的瘤胃基因组。我们将 4,941 个近乎完整的、去冗余的宏基因组组装基因组添加到这 1,300 个现有瘤胃基因组。通过将我们的数据集与公开可用的基因组相结合，我们组装了 5,845 个公开可用的细菌和古细菌基因组的瘤胃超集。该集合包含 2,690 个独特的物种级别分箱 (95% ANI)，这 2,690 个假定物种中有 2,078 个是本研究中发现的 RUG2 基因组。 RUG2 数据集和瘤胃超集为我们自己的数据带来了高达 70% 的读取分类率，为其他瘤胃宏基因组数据集（一些来自非牛反刍动物）带来了 45-55% 的读取分类率。 其余的读长可能来自低丰度的细菌和古细菌物种、难以组装的基因组，以及不属于本研究的真菌、原生动物和病毒基因组。

我们估计我们已经在我们的样本中发现了 65% 的瘤胃物种，代表了四个重要的肉牛品种，这表明还有 1,000 多个物种有待测序和组装。鉴于平均读长取分类率从我们自己数据中的 70% 下降到 Rubino 等人的牛数据中的 50%。 (Limousin × Friesian cross)2。 Shi 等人的绵羊数据和驼鹿数据 21 中的 45%，还有许多物种尚未发现，并且可能存在物种和品种特定的瘤胃微生物组。我们注意到我们的数据以及瘤胃普查数据中大量未分类的变形菌，并表明这些可能构成了核心瘤胃微生物组的一部分。我们的数据集包含个变形菌基因组，我们在单个重叠群中呈现了一个近乎完整的基因组。

我们应用我们的数据集来重新分析 2014 年发表的绵羊甲烷排放数据。使用瘤胃微生物基因组的组合数据库，我们揭示了 LME 和 HME 绵羊之间瘤胃宏基因组丰度的基本和大规模差异。这些差异几乎发生在测试的每个分类水平上，瘤胃超集数据库使我们能够以高分辨率分析这些数据。虽然必须始终小心解释物种和菌株水平的宏基因组数据，但数据库中不存在的菌株仍有可能导致观察到的差异。尽管如此，我们观察到一致的模式，表明许多物种的丰度发生了巨大变化。我们的分析通过鉴定所涉及的细菌和古细菌的特定菌株并揭示它们的基因组序列，支持随后对绵羊中甲烷排放的研究。我们的分析证实，古菌丰度和甲烷排放之间存在复杂的关系，古菌物种和菌株与甲烷排放正负相关。这些对甲烷排放的宏基因组物种和菌株水平方面的见解将构成未来研究的基础。

瘤胃的主要功能依赖于瘤胃微生物基因组中编码的蛋白质的活性，随着研究人员产生更多的蛋白质组学数据，提供蛋白质参考数据集至关重要。我们提供了一个大型冗余和非冗余瘤胃微生物蛋白质预测数据集，并使用公共蛋白质、途径和酶数据库提供了丰富的注释。该资源将使研究人员能够预测每种蛋白质的功能，并更好地评估瘤胃蛋白质组变化的功能后果。

展望未来，至关重要的是将更多的瘤胃细菌和古细菌带入培养物中，以更好地研究瘤胃微生物组的功能。特别是，如果我们要设计合理的干预措施来操纵瘤胃饲料转化或甲烷排放，我们将需要了解微生物组结构、微生物群利用的底物以及微生物群如何与彼此和反刍动物宿主相互作用。对瘤胃微生物基因组进行测序和组装是改进培养物收集和未来瘤胃微生物组操作以造福人类的重要一步。

方法

宏基因组的组装和分箱

Metagenomic assembly and binning

该研究总共测序了282个样品，每个样品产生0.24-1.4亿个PE150碱基对的读长(7.2 - 42 GB)。样品在五批48个样品和一批42个样品中进行测序（这42个样品批次是Stewart等人的唯一基础）。另一个样品用于Stewart等人的Hi-C测序，并且来自该样品的宏基因组装的基因组包括在去冗余数据集中。

除非另有说明，否则所有使用的参数均为默认值。使用如前所述的覆盖率和含量单独组装和分箱每个样品。简而言之，每个样本使用idba_ud49（v.1.1.3）和选项’—num_threads 16 —pre_correction —min_contig 300’组装。 BWA MEM50（v.0.7.15）用于将读段比对至过滤的组装重叠群，Samtools（v.1.3.1）用于转换为BAM格式。 MetaBAT2（v.2.11.1）中的脚本jgi_summarize_bam_contig_depths用于计算生成的BAM文件的覆盖范围。还使用MEGAHIT（v.1.1.1）为六批样品中的每一批产生了一个共同组装，参数‘—kmin-1pass -m 60e+10 —k-list 27,37,47,57,67,77,87 —min-contig-len 1000 -t 16’。

使用MetaBAT2和选项’—minContigLength 2000 —minContigDepth 2’将宏基因组分箱应用于单样品组件和共组装。 单样品分箱共生产37,153个箱，共组装分箱再生产23,335个箱。所有60,743个箱子合并在一起，然后使用dRep（v.1.1.2）进行去重复。 dRep去重复工作流程选项为’dereplicate_wf -p 16 -comp 80 -con 10 -str 100 -strW 0’。因此，在预过滤中，只有CheckM评估的箱（v.1.0.5）具有≥80％的完整性和≤10％的污染，用于成对去重复比较（n = 10,586）。 Bin评分为完整性 - 5×污染+ 0.5×log（N50），并且只有来自每个二级簇的最高评分RUG保留在去冗余组中。对于我们的数据集，获得了4,941个去重复的RUG。

请注意，我们运行了连续的重复数据删除工作流程。因此，我们之前发布的所有913个RUG（包括MetaBAT2和Hi-C）都已与新的RUG合并，并且已经去冗余。因此，虽然此处发布的较新数据集中存在一些先前发布的RUG，但许多已被更高质量的新RUG取代。

补充数据5给出了每个样本中每个基因组的平均深度，如MetaBAT2（参考文献52）（v.2.11.1）包中的脚本jgi_summarize_bam_contig_depths所计算。

宏基因组分类

Metagenomic assignment

宏基因组分箱的输出只是一组含有假定基因组的DNA FASTA文件。使用CheckM（v.1.0.5）评估这些是否完整和污染。使用MAGpy分析了4,941个最佳分箱，这是一个Snakemake工作流程对分箱进行了一系列分析，包括CheckM（v.1.0.5）; prodigal（v2.6.3）蛋白质预测; Pfam_Scan（v.1.6）; DIAMOND（v.0.9.22.123）搜索UniProt TrEMBL; PhyloPhlAn（v.0.99）和sourmash（v.2.0.0）搜索所有公共细菌基因组。 MAGpy结果用于为每个分箱产生推定的分类学分配，如下所示：

如果分配给一个物种的蛋白质比例≥0.9且平均氨基酸同一性(average amino acid identity)≥0.95，则根据DIAMOND结果分配给种(species);
如果sourmash评分≥0.8，则根据sourmash结果分配给种(species);
如果PhyloPhlAn概率很高且分类水平是属(genus)或种，则根据PhyloPhlAn结果分配分类;
如果分配到一个属的蛋白质的比例≥0.9且平均氨基酸同一性≥0.9，则根据DIAMOND结果分配给属(genus);
如果PhyloPhlAn概率高或中等且水平是属(genus)，则根据PhyloPhlAn结果分配到属;
如果PhyloPhlAn概率高或中等且水平为科(family)，则根据PhyloPhlAn结果分配至科;
如果分配给一个科的蛋白质比例≥0.8且平均氨基酸同一性≥0.6，则根据DIAMOND结果分配给科(family);
如果PhyloPhlAn概率为高或中等且水平为目(order)，则根据PhyloPhlAn结果分配给目;
如果分配给命令的蛋白质比例≥0.6且平均氨基酸同一性≥0.6，则根据DIAMOND结果分配给目(order);
如果PhyloPhlAn概率高或中等且等级为纲(class)，则根据PhyloPhlAn结果分配给纲;
如果PhyloPhlAn概率高或中等且水平为门(phylum)，则根据PhyloPhlAn结果分配给门;
其它，根据CheckM世系分配分类。

重要的是，在这个阶段，这些只是推断分类学。使用这些标签、FigTree（v.1.4.3），iTol（v.4.3）、PhyloPhlAn（v.0.99）和GraPhlAn（v.0.9.7）从连接的蛋白质子序列产生由RUG和来自Hungate集合的基因组组成的系统发育树。注释在它们可能的地方得到了改进 - 例如，MAGpy只在类别上属水平分配一个分类，但基因组与在物种水平注释的Hungate 1,000基因组紧密聚类，注释将被更新。还使用FigTree在Bacteria-Archaea分支处手动设置根。

基因组质量和比较基因组

Genome quality and comparative genomics

使用CheckM（v.1.0.5）评估基因组完整性和污染（见上文）。使用tRNAscan-SE（v.2.0.0）注释tRNA基因，并使用barrnap（v.0.9）预测16S rRNA基因。使用promer用MUMmer（v.3.23）计算全基因组比对，以发现基因组之间的匹配率。使用FastANI（v.1.1）计算氨基酸同一性ANI。使用DIAMOND blastp（v.0.9.22.123）和MASH（v.2.0，参数’-k 21 -s100000’）将RUG与Hungate集合和我们之前的数据集进行比较。

使用如上所述的dRep对瘤胃超集合进行去冗余，对于大于99％ANI的菌去冗余’参数 -sa 0.99’，对于95％ANI的去冗余’参数-sa为0.95’。使用UpSetR（v.1.3.3）绘制组之间的重叠。读长物种分类使用kraken（v.0.10.5）计算，参数’—fastq-input —gzip-compressed —preload —paired’。

绵羊甲烷数据分析

Analysis of sheep methane data

基于Shi等人的低和高甲烷样品中数据，使用kraken分配到瘤胃超集数据库的不同分类水平。得到的计数数据用作为DESeq2（v.1.22.2）的输入用于差分分析。使用DESeq2中的plotPCA（）函数创建主成分分析图，并使用gplots包（v.3.0.1.1）中的heatmap.2（）函数创建热图。对于株水平分析，从Shi等人的低甲烷和高甲烷样品中读长使用BWA-MEM（v.0.7.15）直接与瘤胃超集数据库比对，并将每个基因组的主要比对计数用作DESeq2的输入。所有比较的P值由DESeq2计算并使用多重检验校正。

瘤胃普查分析

Rumen census analysis

每个数据集中每个基因组的平均深度和总深度（补充数据5）用作数据集中丰度的代表。将Kraken（如上所述）与瘤胃超集数据库一起使用以计算所有样品中变形菌门丰度。

纳米孔序列数据的组装和分析

Assembly and analysis of nanopore sequence data

使用poRe（v.0.24）提取纳米孔读长并进行质量控制，并使用具有默认设置和基因组大小= 150Mb参数下的Canu（v.1.8）组装。使用MAGpy分析所得组装结果。使用Minimap2（v.2.12）将Illumina的短读长数据比对纳米孔组装结果（参数-x sr），再使用Nanopolish（v.0.10.2）和Racon（v.1.3.1）校正组装结果。使用IDEEL（https://github.com/mw55309/ideel）提取查询与目标长度数据并绘图。使用promer使用MUMmer（v.3.23）计算全基因组比对，以发现基因组之间的匹配。使用Prokka（v.1.13.3）注释三个完整的纳米孔细菌基因组及其Illumina对应物。创建纳米孔组装结果，其最小重叠长度为1 kb; 因此在比较之前Illumina组装有相似的限制条件。

蛋白质组分析

Proteome analysis

使用Prodigal（v.2.6.3）和选项’-p meta’预测蛋白质。使用DIAMOND，针对KEGG（2018年9月15日下载），UniRef100，UniRef90和UniRef50（2018年10月3日下载）和CAZy（dbCAN2版本，2018年7月31日）搜索每种蛋白质。蛋白质预测结果由CD-HIT（v.4.7）以100％，90％和50％的同一性聚类，与UniRef的方法类似。

使用dbCAN2和HMMER（v.3.1b2）针对CAZy数据库搜索所有蛋白质预测，并使用PULpy预测拟杆菌RUG的PUL。

代码可用

Code availability

比较基因组分析采用MAGpy (https://github.com/WatsonLab/MAGpy)，它于去年发表于Bioinformatics，用于下游分析宏基因组组装基因组的分析流程; PUL分析使用PULpy (https://github.com/WatsonLab/PULpy)，用于多糖预测的流程;分析nanopore 数据的插入和缺失采用using IDEEL (https://github.com/mw55309/ideel)

注：WatsonLab即为本文通讯作者

Reference

文章链接：https://www.nature.com/articles/s41587-019-0202-3

PDF：https://www.nature.com/articles/s41587-019-0202-3.pdf

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://m.sciencenet.cn/blog-3334560-1290999.html

上一篇：NBT：人类肠道培养细菌的1520个基因组
下一篇：关于植物和共生微生物，这116张PPT讲明白了（值得收藏！）

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文