woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

扩增子项目动辄几百上千样品 如何写好实验设计 样品和组命名规则

已有 4033 次阅读 2018-3-20 13:07 |个人分类:经验|系统分类:科研笔记|关键词:学者

我们之前分享了《样本命名注意事项——优秀的课题从一个好名字开始》,让大家了解了样品命名的基本规则,方便与分析人员的合作与沟通,结果的展示和可读性。

今天再给大家带来两个命名的实例,助力大家写出规范易读的实验设计,加速科进进展,增加有效沟通。

样品命名经验总结:

  1. 只使用字母数字组合;
  2. 字母开头;
  3. 样品和组名包括基本实验设计便于理解。

光説不练假把式,上实例。

最简单实例——单分组条件下样品名与组名

假如我们研究宿主某一基因对菌群的影响,主要包括野生型(wild type, WT),采用CRISPR/Cas9获得的基因敲除个体(knock out, KO)、基因过表达因个体(over express, OE)。由于遗传背景稳定、个体生长环境条件可控,每个基因型只测九个粪便的重复,命名示例如下:

SampleIDGroupID
WT1WT
WT9WT
KO1KO
KO9KO
OE1OE
OE9OE

说明:我们的分组类型即基因型,可分为WT/KO/OE;样品名=分组+生物学重复编号;如WT1, WT2 … WT9;表格中为节省空间,只列出了同组重复中的首尾样本。

是不是清楚明了,可读性好。

复杂实验——三种重要分组条件

实际工作中,我们的项目可能会涉及3到5组的重要分组信息,测序样本量可能达几千到几万,那样品名、组名如何编写呢?

下面我们举个3种常用分组条件的示例,学会了绝对可以handle各千样品的课题,即使你负责HMP和EMP这种项目,估计再添两种分组类型也足够了。

常见的分组条件有基因型/病症状态(Genotype)、生态位/取样部位(Site)、批次(Batch)、地理位置、时间/季节、环境条件等。

分组类型按科学问题的重要性排序,比如假定此课题我们最关注基因与菌的调控(Genotype),其次是样品取样位置(Site),最后是不同批次的重复性和批次效应(Batch)。

我们对不同基因型、取样位置和批次的命名示例如下:

SampleIDGroupIDGenotypeSiteBatch
WtFcB1S01WtFcB1Wtfecal1
WtFcB1S30WtFcB1Wtfecal1
KoFcB1S01KoFcB1Kofecal1
KoFcB1S30KoFcB1Kofecal1
WtSkB1S01WtSkB1Wtskin1
WtSkB1S30WtSkB1Wtskin1
KoSkB1S01KoSkB1Koskin1
KoSkB1S30KoSkB1Koskin1
WtFcB2S01WtFcB2Wtfecal2
WtFcB2S30WtFcB2Wtfecal2
KoFcB2S01KoFcB2Kofecal2
KoFcB2S30KoFcB2Kofecal2

说明:此表看上会有点难懂,但非常整齐,稍微解析一下就非常清楚了。
样品名“WtFcB1S01”为例,包含四类信息。1. Wt是基因型Wild-type缩写,改为只首字母大写,可以不使用额外的分隔符,只利用小写或数字结尾规则来区分不同分类信息;2. Fc是取样部分fecal的前两个音节首字母,音节缩写法更容易理解;B1代表第一批实验重复,通常来自同一时间、季节;S01代表生物学个体重复,S代表样品Sample,01代表某个生物学个体重复,如动、植物遗传背景和生长条件可控,一般6-15次重复即可,而人类遗传和环境因素差异大,通常需要20-90次重复才容易找到显著的差异菌,本实验设计采用初次30个生物学重复的标配,两位数重复,不足两位补零是为了保持排序稳定,如果你有上百次重复可以使用三位数编号。

复杂实验命令经验:

  1. 先按科学问题选定第1,2,3重要的分组类型,并填写相关的分组类型;
  2. 按各组的内容按音节法或标题编号组合为2-3个字母的缩写,只允许首字母大写,小写字母和数字结尾,方便在不使用连字符下也能分割各组;
  3. 组名GroupID按各组缩写连接;
  4. 样品名添加S1..9或S01..99,按重复数量先位数字位数,不足位数补零保持实验设计整齐和排序稳定。

常见问题:

  1. 样品/组名以数字开头:在R中统计中,有数字开头的名字作为数据框的行或列名,可能会被自动添加X开头,导致数据筛选时报错,一定要避免;
  2. 样品/组名中包括符号:如连字符-与运行符减号为同一字符,组名中使用,会在edgeR差异比较中误会而报错(edgeR中减号用于连接两个比较组);_在Rmarkdown语法中作为table/figure的legend变量名时也会失效,导致分析结果网页报告中图注显示不正常。其它符号就更不用説了,点、星、问等在计算中有多种意义,只要使用必让各种程序语言寸步难行,大家各有各的理解。

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1200+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
image

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
image

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA



https://m.sciencenet.cn/blog-3334560-1104835.html

上一篇:用ggvegan包进行db-RDA微生物环境因子分析
下一篇:手把手教你生信分析平台搭建

1 税光厚

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 22:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部