科学网

 找回密码
  注册

tag 标签: 实验设计

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]实验设计原则的正确把握:重复原则及其作用
brainu 2014-4-18 23:13
重复原则 通常有三层含义,即「重复取样」、「重复测量」和「重复实验」,实验设计中所讲的重复原则指的是「重复实验」。本文本文以实例的方式说明一下临床实验中违背 重复原则 和重复原则使用不当的常见情况。 重复原则及作用 重复原则的概念 重复通常有三层含义,即「重复取样」、「重复测量」和「重复实验」。从同一个样品中多次取样,测量某定量指标的数值,称为「重复取样」;对接受某种处理的个体,随着时间的推移,对其进行多次观测称为「重复测量」。实验设计中所讲的重复原则指的是「重复实验」,即在相同的实验条件下,做两次或两次以上的独立实验。这里的「独立」是指要用不同的个体或样品做实验,而不是在同一个体或样品上做多次实验。整个实验设计所包括的各组内重复实验次数之和,称为样本大小或样本含量。 重复原则的作用 同一个实验条件下为何要做多次独立的重复实验呢?只做一次不更节省时间柏费用吗? 关键在于观测的结果是否具有变异性,若对每一个正常人观测其有多少个手指,只需观测一个人即可,因为每个正常人的手指都有10个,它是一个不具有变异性的定量指标。若对每一个正常入观测其血小板的含量是多少,仅观测一个人就作出关于正常人血小板含量为多少的结论显然是可笑的,因为每个正常人血小板含量是不尽相同的。只有观测了大量正常人血小板的含量后,其取值规律性才有可能表现出来,初步的印象是取值接近该组被观测的全部受试者算术平均值的人较多,取值偏离此均值较远的人较少,取值特别小和特别大的人就吏少了。即便这样一种非常简单的规律,也只有在进行了大量重复实验之后才能够表现出来。 由此可如 重复原则 的作用就在于它有利于使随机变量的统计规律性充分地显露出来。 违背重复原则的案例 例1 两台仪器测定结果之间的差异性研究 有人为了说明某两台仪器测定的结果之间的差别没有显著意义,选择一个健康人作为受试对象。先用A、B两台仪器分别对该人重复测4次。一个月后再用A、B两台仪器分别对该人重复测4次。测定的定量指标有3个,其中有一个指标是「二尖瓣前叶EC幅度」,每一个指标共获得16个数据。然后对这些数据进行方差分析和t检验,得出两台仪器测定的结果之间的差别无显著意义的结果,其专业结论是可用「自制的廉价仪器A」取代「进口的昂贵仪器B」。 对差错的辩析与释疑 此人将「重复取样」、「重复测量」与「独立重复实验」混为一谈。 同一个时间点,用一台仪器重复测定一个人4次,这实际上是「重复取样」,其数据波动反映了测定者技术熟练程度的高低。而在一个月前后对同一个人进行重复测定叫做「重复测量」,其作用是考察受试者接受某种处理后,随着时间推移,受试者体内某些指标的动态变化趋势。 在本例中第一次测定之后,对受试者没有什么影响,间隔1个月后冉对此人进行测定,仅仅反映了指标的生理变化,没有任何实际意义。在本例中尽管每个定量指标有16个原始测定值,但真正的样本大小n还应该等于「1」,即独立的受试对象的个数。 这种将「个案」推广到「一般」的做法,严重地违背了实验设计的「重复原则」,其后果是使所观察的随机变量(即带变异性的指标)的规律性无法真实地显露出来,易于得到错误的结论。 例2 甲紫注入小型猪正常腮腺后组织病理变化情况研究 有人选择6月龄、体重20~25kg的中国实验用小型猪15只,雄性9只、雌性6只。每只动物任选一侧腮腺为实验侧,另一侧作为正常对照,以消除个体差异及增龄对实验结果的影响。按注入甲紫后1周、2周、1个月、3个月及6个月将15只动物随机分为5组,每组3只(每个组的3只动物分别随机注人0.6ml、1.0ml及4.0ml的1%甲紫溶液),然后观察组织病理变化情况。试问此项实验研究中违背了实验设计的什么原则? 对差错的辩析与释疑 本实验研究共用了15只小型猪,初看起来「15」这个数目不算太小。但仔细看一下不难发现,实验中共涉及两个实验因素,第1个因素是「甲紫作用时间」,它有「1周、2周、1个月、3个、及6个、」5个水平;第2个因素是「甲紫剂量」,它有「0.6ml、1.0ml及4.0ml」3个水平。这两个因素水平的全面组合共有15种情况,每种情况构成一个特殊的实验条件,每个条件下仅有一只动物,即各组的样本大小n=1,这就违背了实验设计中的「重复原则」。因为生物医学研究的现象常带有变异性,只有在相同实验条件下进行多次独立 重复实验 ,随机现象的变化规律性才能正确地显露出来。 那么各小组究竟应该用几只动物合适呢? 严格地说,需要根据预实验或文献资料提供的信息,结合研究者对实验精确度的要求,并根据拟采用的实验设计类型,按估计样本大小的相应公式计算为宜。 一般情况下,若不便用公式估算时,如果是小动物实验(来源方便,花费不太大),各小组动物数不少于10只为宜。若是较大动物实验,各小组动物数不少于5只为宜。这里所讲的「各小组」,是指实验中独立的实验条件所决定的每个小组,如本例中是指在一个特定的甲紫作用时间下同时在一个特定的剂量下所形成的实验组,即本例共有15个小组。类似的例子在学术期刊的论文中并不少见,n=2和n=3的例子就更多了。 例3 PCR快速检测冠状病毒的研究 新华网北京2003年4月17日电(记者XXX):卫生部医药生物工程技术研究中心与广州市疾病控制中心科技人员合作,已成功建立荧光定量PCR快速检测冠状病毒的新技术。这一技术是卫生部、科技部「非典型肺炎防治紧急科技行动」成果的一部分,有望为非典型肺炎的早期快速诊断提供可靠的实验诊断指标。 卫生部医药生物工程技术研究所XXX教授17日在向新华社记者介绍这项成果时说,运用这项新技术,从采取病人样品到报告结果可在2小时内完成,能够实现对病毒基因的准确定检测,可反映疾病的发生、发展过程。PCR是一种体外基因复制技术,可在几小时或几十分钟内把基因扩增到数百万倍以上,使基因便于检测。XXX教授说,通过对广州市疾病控制中心提供的4例患者培养物和嗽口液均检测出冠状病毒核酸,而3例确诊不是非典病人的样品均未检出。另外,30例健康人的嗽口液全部未检出冠状病毒核酸,经过对4例冠状病毒阳性样品基因扩增片段测序结果分析,与加拿大和美国公开发表的冠状病毒基因序列比较同源性为100%。 对差错的辩析与释疑 众所周知,PCR检测的结果并非100%准确,也就是说,在其检测结果中可能会出现假阳性和假阴性的结果。既然如此,就不应将PCR检测的结果视为「确定性现象」,而是一个「随机事件」,欲反映随机变量的变化规律性就必须做大量的重复试验,才有可能显示出其变化规律性。 仅检测4例非典病人的样品和3例疑似并最后确诊为不是非典病人的样品,就对此检测方法的准确性给予充分的肯定,是很不科学的态度,其结论的可信度较低。笔者曾处理过一份类似的实验资料,用PCR检测115份非典病人的样品,检测出冠状病毒为阳性的样品数为100份,即该方法的阳性检出率约为87%(100/115)。 例4 维甲类化合物Ro13-7410对HL-60细胞凋亡及分化诱导作用 原作者的设计如下:将HL-60细胞制成浓度为1×10 5 /ml的细胞悬液,加人不同浓度(10 -6 、10 -7 、10 -8 、10 -9 mol/L)的药物Ro13-7410,于给药后不同时间点(0、1、2、3、4、5d)染色后行活细胞计数,并做空白对照,得到30个数据。未作统计分析,仅根据数据的太小得出结论,10 -6 ~10 -9 mol/L的Ro13-7410可明显抑制HL-60细胞增殖。 对差错的辨析与释疑 本实验涉及两个实验因素,即浓度和时间,其中浓度有5个水平(0、10 -6 、10 -7 、10 -8 、10 -9 mol/L),时间有6个水平(0、1、2、3、4、5d),两个因素各水平完全组合形成30个实验点,每个实验点仅做了一次实验,如果实验因素间存在交互作用,此时却无法分析两因素交互作用效应的大小。 由于测得的30个数据来自同一细胞群,且在两因素不同水平的组合条件下测得,具有一定的相关性,因而将此实验视为具有两个重复测量的两因素设计比较妥当。需要增大实验批次,每个实验点最少安排两批实验,有条件的,可多安排几批实验,采用与此设计对应的方差分析方法处理数据,不仅可以消除数据之间相关性的影响,还可以全面分析各因素及因素之间可能存在的交互作用的效应,可以降低实验误差,提高检验效能,得出的结论更稳定可靠。 例5 重量法测定血苯-白蛋白加合物的初步研究 用气-质联仪(GC-MS)测定血液中的苯-白蛋白加合物,由于采用昂贵的仪器和同位素内标物,在一般实验室难以进行。本研究采用重量法测定,并与GC-MS法进行比较,同一标样用GC-MS法测3次,重量法测7次,分别为1.9±0.1(mg/ml)和2.0±0.1(mg/ml),经t检验,平均值之间差异无显著意义(P0.05)。 差错的辩析与释疑 原作者的目的是检测两种方法测量结果是否具有一致性。但实际检测时,仅做了一个标样,并且仅对这一个标样进行了 重复取样 ,表面上有若干个数据,但实际上这些数据均来自于一个样品,并不能很好地代表不同浓度样品所任的总体,这样做仅能得出对这一标样的多次重复取样结果的准确性高低,并不能推论到一般样品中去。 应根据专业知识合理确定标样的浓度范围,选定多个标样用目前被公认的测定方法和重量法同时进行测量,并选用合适的统计分析方法(如直线回归分析,其零假设与备择假设分别为总体斜率β=1与β≠1,而不应采用对均值进行假设检验的t验),这样才能推论两种方法测量结果是否具有一致性。 例6 不合格采样及送检导致生化指标波动原因的探讨 原作者分析化验室检测结果波动的4个因素。第1个因素是葡萄糖盐水输液,同侧采血和异侧(正常)采血的生化检测结果差异,用病房病人2次结果比较。结果显示同侧采血时,对肌酐、尿酸等7项指标均有30%~200%的波动,其中血糖和氯的波动尤为明显。第2个因素是样本溶血和正常标本生化指标的差异,用病房病人2次结果比较。结果显示标本溶血时,其中19项生化测定项目均有波动。第3个因素是时间依赖性项目在抽血后3种不同时间送检引起结果的差异,用1个病人的血样说明血氨在不同时间送检结果不同。第4个因素是抽血管错误,应该用血清管,但用了枸橼酸钠抗凝管后,造成生化结果波动。用5例病人两种不同抽血管的化验结果的变化率来说明差异。 对差错的辨析与释疑 原作者所说的「用病房病人2次结果比较」这句话很含糊,这里的「2」代表什么含义不清楚,容易使人理解为n=2。第1个因素含有2个水平,即同侧采血与异侧采血,仅用2次不同采血检测结果的变化率说明差异,实验次数太少不能说明两种采血方式是否有差异。第2个因素也含有2个水平,即溶血样本和正常标本,同样也用2个样本检测结果的变化率说明差异,实验次数太少不能说明两样本检测结果有差异还是没差异。第3个因素含有3个水平,即抽血后立即送检、1h后送检、2h后送检,仅用1个样本检测结果的变化率说明差异是没有说服力的。第4个因素含有2个水平,即血清管和枸橼酸钠管,是用5例病人使用不同采样管检测结果的变化率来说明差异的,数据个数虽不算太少,但未对数据进行统计学处理,是不便作出任何肯定或否定结论的。 化验室检测结果不同与送检样本是否合格是有关系的。原作者根据工作经验用4个可能导致化验结果不准确因素来说明问题是对的,但是每个因素仅用1到2个样本来说明问题,无法降低实验误差,得出的结论不可靠。 第1个因素含有2个水平,即同侧采血与异侧采血,每种采血方式至少5~10个,利用配对设计定量资料的t检验(差量近似服从正态分布时)或符号秩检验(差量不服从正态分布时)进行统计分析,得出P值,如果P0.05,说明同侧采血与异侧采血的检测结果之间的差别有统计学意义,应选择正常的采血方式即异侧采血。第2个因素和第4个因素的处理方法同第1个因素一样;第3个因素是含有1个实验因素3个水平的实验研究,即抽血后立即送检、1h后送检、2h后送检,样本含量同上。 若将每次抽取的样品一分为3,分别在3个时间点送检,则属于「具有一个重复测量的单因素设计资料」;若各次送检的样品是互相独立的,则属于「单因素3水平设计资料」。这两种情况下的定量资料若满足参数检验的前提条件,应选用相应设计资料的 方差分析 处理。如果处理因素各水平下的总体均数所对应的结果为P0.05,再用「Dunnett t检验」方法进行比较,即将1h后送检、2h后送检分别与抽血后立即送检比较。若3个时间点之间作两两比较,可以选用「q检验」等方法,从而作出科学的结论。 作者:胡良平等.医学论文中统计分析错误辩析与释疑:实验设计原则的正确把握.中华医学杂志
个人分类: 统计|2971 次阅读|0 个评论
[转载]实验设计原则的正确把握:对照原则及其作用
brainu 2014-4-18 23:11
医学实验研究一般都应设立对照组,这就是所谓的「对照原则」。本文以实例的方式说明一下临床实验中违背对照原则和对照原则使用不当的常见情况。 对照原则及其作用 对照原则的概念 医学实验研究一般都应设立对照组,这就是所谓的「 对照原则 」。设立对照组,实际上就是寻找一个「参照物」或「对比的基础」,因为「好与坏」、「高与矮」、「快与慢」、「长与短」等都是一事物相对于与之同类的另一事物而言的。 现在的火车速度快,但它却没有现在的飞机速度快;我们说某中学生短跑速度很快,他跑100m的速度为12s。这只是相对于一般中学生而言,若选一个同龄的参加国际奥林匹克运动会比赛的专业运动员与他相比,他的速度可能就不能算快了;一个药物的疗效如何,要看与谁比较,是与「安慰剂」比较还是与「当前市面上治疗此类疾病疗效最好的某种药物」比较,其结论是不同的,其可能产生的价值也是不一样的;某药物治疗某病的治愈率为85%,我们能说此药的疗效很高吗? 在缺乏对照的情况下,我们是无法得出这种结论的。因为假如有另1组条件非常接近的患者,没有接受过任何治疗,其结果的痊愈率为83%,那么,我们不能仅凭85%83%就说此药确实有效。因为我们观测到的是样本的结果,而不是总体的规律。既然是样本,就不可避免地存在抽样误差,说不定下次抽样实验的结果会恰恰相反呢。 在实验研究中,只有有了具有高度可比性的对照组,并对实验数据进行科学的统计分析后,才能作出有说服力的结论来。 对照原则的作用 设立对照组的作用就在于提高鉴别能力和结论的说服力,换言之,缺乏对照的研究是没有说服力的。当然,对照不全或对照设置得不合理也是没有说服力的。 对照组的形式有多种,即自身对照(处理前、后对照)、完全随机对照(空白对照、相互对照、实验对照、标准对照)、中外或历史对照。在实际应用中,往往是多种对照形式同时运用。 缺乏对照的实例 例1 对2硝基苯葡糖苷酸钠纸片法快速检测大肠埃希菌 原作者以自行合成的葡糖苷酶底物对2硝基苯葡糖苷酸钠,试图快速检测大肠埃希菌。结果发现当大肠埃希菌菌液浓度为4×10 7 (单位)时,需0.5h,当菌液浓度为40(单位)时,需12h;检查138株阳性菌和190株其他菌,其敏感性为9412%,特异性为9216%。结论为本法是一种快速、准确、简易和廉价的检测大肠埃希菌的方法。 对差错的辨析与释疑 原作者没有设立对照组,虽然在文中提到与环保常规法和传统方法相比,但是没有这2种方法的实验数据,况且在没有进行统计分析的情况下,下定「此法是一种快速、准确、简易和廉价的方法」的结论是没有说服力的。 本项研究属于一种新检测方法的探索研究,在传统常规方法作对照的前提下,分别测定相同样本,得出实验数据,进行相应的统计分析。 本实验适合的统计分析方法有:若是定量的观测结果,则应求直线回归方程,并对斜率进行假设检验,其无效假设和备择假设分别为:H0:β(总体斜率)=1;H1:β(总体斜率)≠1;H0:(总体截距)=0;H1:β(总体截距)≠0。 常见的不太合适的检验方法(不灵敏)为:配对设计定量资料的t检验、直线相关分析;若是定性的观测结果,常用的统计分析方法有:配对设计定性资料的McNemar χ2检验、一致性检验(或称kappa检验)。 错误的统计分析方法是:一般χ2检验、Spearman秩相关分析。 例2 银屑病发病与血型的关系探讨 原作者对64例银屑病患者进行血型观察,其中O型血30例,A型血17例,B型血17例,AB型血0例。没有进行统计分析,仅凭数字大小,认为银屑病的发病与血型有明显的关系,同时也证实了遗传致病的决定意义。 对差错的辨析与释疑 据常识,正常人群中的血型构成存在较大差异,AB型所占的比例就是最少,原作者没有对正常人群的血型分布情况进行调查,仅根据自己调查的银屑病患者血型构成相差悬殊的情况,并不能说明银屑病患者与正常人群在血型构成上存在差异,武断地作出结论是没有说服力的。 正确的做法应建立正常对照组,调查正常人群的血型分布情况,并与银屑病患者的血型分布情况进行比较,如果存在差异,则为银屑病的发病因素提供了某种线索,如果没有差异,则可以认为银屑病发病与血型构成没有关系。 例3 吡喃阿霉素在恶性肿瘤联合化疗方案中的疗效 原作者采用国内外常用的化疗方案加以改良,即以吡喃阿霉素(THP)代替阿霉素(ADM)或表阿霉素(E-ADM)治疗各种恶性肿瘤90例,其中初治病例43例,复治病例47例;肺癌46例,非霍奇金恶性淋巴瘤21例,乳腺癌10例,食管癌13例。治疗后完全缓解7例,部分缓解41例,无变化32例,进展10例,总有效率5313%。其主要毒副作用为骨髓抑制,主要表现为白细胞、血小板减少,尤以白细胞下降明显,达6212%,其他毒副反应如肝肾功能损害、脱发、心脏毒性及胃肠道反应发生率较低或程度较轻;尤其是脱发少见,仅有3例,明显低于ADM及E2ADM疗法。 对差错的辨析与释疑 原作者的主要目的是分析吡喃阿霉素在恶性肿瘤联合化疗方案中的疗效,但通篇没有提及其他疗法的疗效,更没有进行必要的统计分析,没有比较的基础,因而不能对该疗法的疗效一个准确的评价,也就失去了本文的意义,同样原作者提到64例中3例脱发,没有给出ADM及E-ADM疗法的副作用数据,没有进行统计分析就断言脱发率低于ADM及E-ADM疗法,这是缺乏说服力的。 应设立必要的对照组,如ADM或E-ADM疗法组,保证各组在重要的非实验因素(如病种、病程等)方面达到均衡,以使各组具有可比性,通过一段时间的治疗,得到试验数据。由于有了比较的基础,再加上选择了适当的统计分析方法,得出的结论就比较可信。 例4 静脉应用维拉帕米治疗快速型心房颤动的临床观察。 选择快速型房颤38例。男22例,女16例,年龄24~78岁,平均52.9岁,心室率128~179次/min,房颤持续时间2d至11年。其中阵发性房颤8例,持续性房颤30例。基础心脏病分别为:风湿性心脏病11例、冠心病10例、高血压性心脏病5例、肺心病2例、扩张性心肌病2例、甲亢性心脏病2例、先心病(房间隔缺损)2例。特发性房颤4例。心功能(NYHA)分级:Ⅰ级11例、Ⅱ级13例、Ⅲ级14例,无心功能Ⅳ级和/或预激综合征者。 用药方法:常规心电监护。维拉帕米注射液510mg加入5%葡萄糖10ml中,于5min内静脉注射完毕。如果15min后心室率减慢不显著,再予维拉帕米215~510mg静注。观察用药后5、10、15、20、30min的心室率及血压变化。疗效判断标准:显效:用药后心室率减慢30%或心室率低于100次/min;有效:用药后心室率减慢20%~30%,但心室率不低于100次/min;无效:用药后心室率减慢20%且心室率不低于100次/min。 结果:至30min显效27例、有效11例,总有效率达100%。说明其控制房颤之心室率起效迅速、效果可靠。 对差错的辨析与释疑 要考查一种药物的疗效如何,必须设立对照组,没有对照就无法鉴别优劣。本试验原作者未安排对照组,且未说明受试对象的选择方式。 一般说来,不同心脏病引起的房颤病例,在病情、年龄等方面相差都很大,因而不能认为他们来自同一总体,归入1个试验组不妥。合理选择对照组,对照组可选择治疗房颤的一般药物如洋地黄制剂,严格地控制重要的非实验因素,使其在各组间达到均衡一致,这样才能较好地反应实验效应的差别。对于不同心脏病引起的房颤,可适当增加各组样本数量,分开进行比较。 研究者在进行实验设计时,要根据实际情况,尤其要结合专业知识和统计学知识,多请教本专业和统计学方面的专家,集思广义,反复斟酌,这样才有可能制定出比较完善的、切实可行的方案来。 对照不当的实例 例5 肝炎灵联合丹参注射液治疗慢性乙型肝炎60例。 慢性乙型肝炎患者随机分为2组,治疗组60例,接受肝炎灵与丹参注射液联合治疗,对照组44例,接受肌苷、维生素C的治疗,2组在性别、年龄、病程、病情等方面均无显著性差异。比较2组肝功能指标恢复正常率,得出结论:两药联合应用治疗慢性乙型肝炎有良好的协同作用。 对差错的辨析与释疑 从原文中可以看出,原作者的目的是想通过两药合用看是否能增加单用药的疗效,但对照组却选择了不相干的肌苷和维生素治疗。即使通过分析治疗组比 对照 组疗效好,也不能得出两药合用比单用其中1种药疗效好的结论,因为原作者所选的对照组与实验设计的目的不符,并没有用单用肝炎灵作为对照。结论仅是原作者的主观臆断,是没有说服力的。 可使对照组的患者接受肝炎灵加安慰剂治疗的处理,安慰剂在剂型、外观、用量等方面与丹参注射液相同。采用双盲法进行分组和处理,可以较好地消除偏性。然后比较2组的疗效,得出的结论应为 加用丹参注射液是否能够提高肝炎灵的疗效。 例6 某人在研究某药物治疗铅中毒时的驱铅效果时,设计了如下的实验,见表1。 对收集的实验资料进行统计分析后,原作者得出的结论为:此药有明显的驱铅作用。 对差错的辨析与释疑 本研究试图利用患者脱离现场「前、后对照」来说明此药的驱铅效果,虽然统计分析的结果清楚地显示2组之间的差别具有显著意义,但这并不能说明此药具有驱铅作用。因为患者脱离现场后即使不治疗亦有尿铅排出,实际上此研究成了具有「假对照」的研究。 如果仅有1种治疗方法需考察其疗效,就必须有不给予任何治疗的空白对照组,但在这个具体问题中显然是行不通的(违反了伦理道德),当然,进行动物实验则可采用空白对照形式;如果患者都必须接受某种治疗,那么,就必须具有2种或2种以上的不同药物。 现设有k种不同的药物,可将全部中毒患者随机地分成k组(各组例数最好相等),分别用k种不同的药物治疗,数据处理时最好采用「具有一个重复测量的两因素设计定量资料的方差分析」或以治疗前的数据为协变量的值,采用单因素k水平设计资料的协方差分析。 例7 高血压病患者肾脏早期损害指标的探讨。 原作者探讨高血压患者早期肾脏损害的诊断方法。研究对象为74例高血压患者,男43例,女31例,平均年龄61岁(40~73岁);对照组为53名体检健康的职工。 对差错的辨析与释疑 年纪越大的人得高血压病的机会越大,即年龄对高血压的影响具有重要作用,而对照组并未说明健康人的年龄段。 在实验设计时,应结合专业知识,考虑重要的非实验因素对实验结果可能带来的影响,以免考虑不周。本实验应在实验设计时,考虑年龄这个影响因素,对照组应选取年龄与实验组年龄相近的健康人群。 例8 血清高敏C2反应蛋白在心血管病变中的表达特性。 原作者探讨心血管病变血清高敏C2反应蛋白的表达特性。采用胶乳增强免疫(超敏)比浊法,定量检测健康对照组340名,男191名,女149名,年龄19~72岁(排除明显炎症感染个体);冠脉造影患者341例,男245例,女96例,年龄29~80岁;急性心肌梗死患者86例,男70例,女16例,年龄42~89岁。在健康对照组年龄分组中,50岁以上的人数只有20名。 对差错的辨析与释疑 根据常识,心血管系统疾病大都发生在年龄较大的人身上,就是说年龄越大心血管病患者就越多,健康人年龄分组50岁以上人数大大少于其他组。应在实验设计时,结合专业知识,使各年龄段分组例数都应具有可比性,本资料健康人 对照 组应多选取年龄较大的人,以便增强实验组与对照组在「年龄」这个重要的非实验因素上的均衡性,这样在各组之间相比较时则更有说服力。 对照不全的实例 例9 原作者探讨转化生长因子作为卵巢内调节物在卵巢激素分泌中的调节作用。 在无卵泡刺激素(FSH)条件下,TGF-β对颗粒细胞分泌雌二醇有轻度的刺激作用,而对孕酮分泌的影响不明显。在加人FSH后,发现FSH+TGF-β1分别提高雌二醇的分泌,而抑制刺激颗粒细胞分泌孕酮的作用,使孕酮的分泌下降可达30%以上。这些作用呈现了一定的时间和剂量依赖性。经分析TGF-β作为卵巢内调节物,参与了卵巢激素的分泌调节。 对差错的辨析与释疑 此实验研究转化生长因子在卵巢激素分泌中的作用,而原作者却在实验中考虑无卵泡刺激素条件与有卵泡刺激素条件下的结果。说不清是转化生长因子参与调节雌孕激素的分泌还是参与了雌孕激素的分泌。 此实验实际上涉及到3个实验因素,即「FSH用否」、「TGF-β1用否」、「TGF-β2用否」,如果这3个因素不是互相独立的,存在着交互作用,则宜采用析因设计,每个因素有2个水平,则有2 3 =8种实验条件,而原文中只做了其中的3种实验条件,属对照不全。 所以除了TGF-β1+TGF-β2组、TGF-β1+FSH组、TGF-β2+FSH组外,还应考虑FSH组、TGF-β1组、TGF-β2组、TGF-β1+TGF-β2+FSH组、什么都不用组,这样在实际分析时就能将三因素之间可能存在的交互作用的效应反映出来,用表格的形式则一目了然,见表2。 从表2中可以看出三因素的组合情况,并按三因素析因设计资料所对应的方差分析当资料满足参数检验的前提条件时进行统计处理。 例10 有人研究某杀虫药对粮食污染的严重程度 作者用某种动物作为受试对象,实验分组如下:① 用污染米作饲料;② 用污染带糠皮米作饲料;③ 用未污染米作饲料。将全部受试对象完全随机地分入3个实验组中去,每组均有足够多的受试对象。实验一段时间后,测定动物体内某些定量指标,以反映本地区粮食污染程度。 对差错的辨析与释疑 本实验设计虽然比较全面地按照实验设计的四项原则进行实施,但在对照组的设立上存在「对照不全」的问题。因为当实验结果经统计学处理后有多种可能的结局,若结局是①与③之间的差异无显著意义,而②与③之间的差异有显著意义时,就判断不出是因污染引起的,还是因食用了带糠皮米造成营养不良所引起的。 在设立对照组时,不要以为只要有了对照组,其结果就一定有说服力。还必须使对照组具有完备性,即无论统计分析的结果如何,只要其他条件均符合统计学上的要求,就一定能作出比较明确的判断,不会因某些因素的水平组合不全,而使结论含糊不清。 从实验因素及其水平的角度来看,本例实际上涉及两个实验因素,他们各取两个水平,即因素A为「饲料污染与否」,它的两个水平分别是污染和未污染;因素为B「饲料类型」,它的两个水平分别是米和带糠皮米。他们共有4种水平组合,而原作者只用了其中的3种。也就是说,还应设立一个组,即④用未污染带糠皮米作饲料。这样,对照组的设立才比较完善。若用表格的形式给出,则一眼就可看出原作者的实验设计缺少了「用未污染带糠皮米作饲料」的这一组,见表3。 例11 某人为了研究活血化癖配伍补肾中药978-1(以下简称「中药」)对小鼠放射性脑损伤的作用及分子机制。 作者以20Gy电自线(10Mev)照射小鼠全脑建立动物模型,将150只清洁型昆明鼠(由中国医学科学院肿瘤医院动物室提供)随机分为「中药+照射组」、「单纯照射组」、「对照组」,采用跳台法测定小鼠第一次受电击的潜伏期,并在9个不同时间点上对各组鼠进行了9次重复测量。得出的结论为「活血化瘀配伍补肾中药978-1具有防止学习记忆力放射性损伤的作用」。其设计与实验资料见表4。 对差错的辨析与释疑 在本例中,研究者将动物随机地分为3组,但这3组既像单因素3水平设计,又像两因素设计。那么,此设计究竟涉及了几个实验因素呢? 看上去好像涉及到了3个因素,第1个因素是「照射剂量」、第2个因素是「用中药与否」、第3个因素是处理后「观测时间」。第1个因素有两个水平(即0Gy、20Gy),第2个因素也有两个水平(即不用中药、用中药)。若前两个因素的水平全面组合应该有四种情形,而此研究者只选取了其中的三种情形,缺少了「单用中药不照射」这种情形。这使得现有的3个实验组之间缺乏可比性(既不像标准的单因素三水平设计结构,又不像两因素析因设计结构),因为「0Gy」与「20Gy」之间比较,可以反映两个不同照射剂量之间的差异有无显著意义;「20Gy与中药+20Gy」两组之间比较,可以反映在同时接受剂量照射的前提下,「使用中药与不使用中药」之间的差异有无显著意义。但在未接受照射的前提下,「使用中药与不使用中药」之间的差异有无显著意义就不得而知了。 这个问题似乎不是研究者的研究目的,但他没有充足的理由排除:在鼠受电击后,中药本身对鼠的「潜伏期」没有任何影响。这仅仅是从动物的实验分组是否合理角度来看的,在这个资料中还涉及到重复观测的「时间」,因此这是一个「不平衡的具有一个重复测量的三因素设计」问题,这里的「不平衡」是指缺少了一个实验组。 例12 补骨1号对大鼠类固醇性骨质疏松的作用。 24只大鼠随机分成3组,每组8只。1组:正常对照组(用生理盐水灌胃),2组激素组(氢化可的松灌胃),3组补骨1号合用激素组(氢化可的松灌胃的同时加用补骨1号)。实验一段时间后,测定骨小梁面积等定量指标,经分析认为补骨1号有防治类固醇性骨质疏松的作用。 对差错的辨析与释疑 此实验涉及两个因素,即「激素用与否」和「补骨1号用与否」,如果这两个因素不是互相独立的,存在着交互作用,则第三组的效应就包括激素的效应,补骨1号的效应,以及他们共同作用的效应。本实验只安排了激素组,并没有安排单用补骨1号组,因而在实际分析时就不能将两因素之间可能存在的交互作用的效应反映出来,而有可能将交互作用的效应归结为单用补骨1号的效应。 应再安排一组单用补骨1号组,这样就有四个组,为两个因素各有两个水平的四种组合,这样的设计类型为 两因素析因设计 ,不仅可以分析出各因素单独的效应,而且可以分析出因素之间可能存在的交互作用的效应大小。 例13 某研究者在其论着中有如下的实验分组,试分析此文中实验设计方面的错误。 为了考察阿仑膦酸防治牙槽骨吸收的效果,有人设计了如下的实验:取3~4个月龄的SD大鼠45只。将45只大鼠随机分入A~F 6个组,其中A~E组均为8只,F组5只。各组的含义如下:A组(n=8):去势+结扎+用药;B组(n=8):去势+结扎+不用药;C组(n=8):结扎+用药;D组(n=8):结扎+不用药;E组(n=8):去势+不用药F组(n=5);空白对照组(即假手术组)。 全部大鼠均在第1周和第12周重复测体重,均在第12周结束实验时测三项生化指标、测量股骨和下领骨的骨密度、测三项骨生物力学指标。数据处理是否合理暂且不说,试分析此实验设计是否正确。 对差错的辨析与释疑 原作者在实验研究中涉及到3个实验因素:第1个因素是「结扎与否」,它有两个水平,即「结扎」与「不结扎」;第2个因素是「去势与否」,它有两个水平,即「去势」与「不去势」;第3个因素是「阿仑膦酸用否」,它也有两个水平,即「用」与「不用」。这3个因素的全面组合应该有8种情况,如表5所示。 由上面的组合可看出原作者少设计了两组,即X1组为「去势用药组」和X2组为「单纯用药组」。若实验设计选取全部8个组,就是一个三因素(或叫2×2×2)析因设计,但实际情况是缺少了两个组,既不是单因素6水平设计,不是两因素析因设计,也不是三因素析因设计。这种组合不全的设计(犯了对照不全和组间均衡性差的错误)条件下收集的数据处理起来无据可依,而且无法分析因素之间的交互作用,故其结论的可靠性大大降低。 用实验设计类型的知识指导具体的实验方案的制定,增加「去势+用药」和「单纯用药」两个实验组,使本实验成为一个标准的2×2×2析因设计。这不会增加多少实验费用,但结论的可靠性却会大大增加。 对照过剩的实例 例14 探讨猴头菇多糖对受6.25~8.5Gy射线照射小鼠的辐射防护作用。 作者将460只小鼠随机分为12组,即A1~A5组为注射猴头菇多糖组,C组为阳性对照组,B1~B6组为空白对照组。A1、A2两组每鼠给药剂量为30mg/0.2ml,腹腔注射,照前1h一次给药;A3、A4两组每只鼠给药剂量为15mg/0.2ml,腹腔注射,照前1h次给药;A5组每只鼠给药剂量为30mg/0.2ml,腹腔注射,照后1h一次给药;C组药选用盐酸胱胺,照前10min腹腔注射,每只鼠给药剂量为2.7mg/0.2ml;B1~B6分别为上述6组的空白对照组,每只鼠注射生理盐水0.2ml,时间分别同相应各给药组。每日记录各组动物死亡情况,计算30d存活率,检验其显着性。 对差错的辨析与释疑 A1、A2组的处理完全相同,同样A3、A4组处理相同,B1~B6组的处理也完全相同,实验分组的目的是为了使每组有不同的因素或水平的作用,以比较其是否有不同的试验效应。重复设置对照组,不仅造成实验动物的浪费,而且各实验组与来自同一总体的不同对照组进行比较,各对照组样本数较少,会人为地增大了实验误差,各试验组与不同的对照组比较,尺度的把握不一,并不利于结果的解释。 可将A1、A2、A3、A4组以及B1~B6组分别合并,然后再进行统计分析,这样会减少实验误差,使分析结果更可信。在实验设计时,如果每组的样本量足够的话,则完全可以把A2、A4、B2~B6组去除,以节省实验动物。 例15 某研究者为了比较A、B两种药物的疗效时,设计了4个组。 第1组为空白对照组;第2组为单用A药组;第3组为A、B药联合使用组;第4组为第3组的空白对照组。各组均用20只小鼠,观测能反映这两种药物作用效果好坏的定量指标的数值。 对差错的辨析与释疑 这个设计的错误就在于出现了「空白对照组过剩」。第1组与第4组的作用是完全相同的,仅用其中一组就可以了,白白地多浪费了20只小鼠。简单地去掉第四组,是否表明此设计就合理了呢?不!较好的做法是将第4组换成「单用B药组」,这样所形成的4个组,从表面上看似乎是「单因素四水平的设计问题」,其实是「两因素析因设计问题」。因为在实验中,涉及到「A药使用与否」,「B药使用与否」,这两个因素各有「用、不用」两个水平,他们全面组合就形成了4个实验条件。将此设计分别视为「单因素四水平的设计」与「两因素析因设计」,在「统计分析方法的选择、结果和结论」等方面都是有本质区别的,因篇幅所限,此处不便详述。 作者:李子建等.医学论文中统计分析错误辨析与释疑:实验设计原则的正确把握.中华医学杂志
个人分类: 统计|3980 次阅读|0 个评论
与转基因作物问题相比,我更在乎其实验设计的合理性
热度 14 lionbin 2013-9-11 10:34
本学期开始,我要给本科生上《现代生物科学导论》这门课了。虽然读大学的时候系统学习过与生物学相关的一些课程,但20多年过去了,变化很大,看到教材,发现许多内容对我来说仍然是相当陌生的。因此,如果能有机会向一些有授课经验的老师请教,那将是非常好的事。上周日,学院提供了这样一个机会,我当然求之不得,第一个到了会场等候着。的确,从有经验的授课老师那里,我学到了不少东西。 教案分析中,有老师提供了跳蛛(zebra spider)与雪蝶(snowberry fly)的经典拟态故事:与其他蛛类结网捕食不同,跳蛛是跟踪捕猎,在猎物后面蹑手蹑脚地,然后逮着机会猛扑过去。跳蛛的领地意识非常浓厚,它们会极力保卫自己的领地,当其他同类来犯时,它们会挥舞着腿以示抗议,直到入侵者逃跑。雪蝶是跳蛛喜欢的食物。雪蝶的透明翅膀上有一些黑色标记,看起来非常像跳蛛的腿。当雪蝶碰到跳蛛时,就会舞动翅膀,这些标记和行为似乎就像跳蛛挥舞着腿一样,这种模仿捕食者的拟态行为是不多见的,但的确是生态学中非常有趣的范例( 详细内容,请参见网站 )。 不过,为了验证这样的行为是否属实,就有人设计了实验,将雪蝶的翅膀全部涂成黑色作为处理,与不涂翅膀的雪蝶进行对比,看最后被跳蛛所捕食的效果。实验显然是成功的,翅膀被涂成黑色的雪蝶被捕食的几率要大得多。这个实验看似没有问题吧,但是严格地说,这个实验并不完善:将雪蝶的翅膀涂黑这个操作中,不能假设雪蝶的翅膀没有受到其他的损害(比如划伤,或者变得湿润)。因此,这个看似单一的处理,其实是两个处理(涂色+对翅膀的潜在损伤)。所以,要完善这个实验,必须另加一个处理:用透明的染料将翅膀涂一遍。如果最终这一组处理与对照组没有显著差异,而与涂黑组有显著性差异,这个结果才算有效。 跳蛛与雪蝶 被跳蛛所捕获的雪蝶所占的百分比 由于早上讨论了这个问题,晚上看巴西科学家的这篇论文的时候,很快就联想到了实验设计的严密性问题。实话说,我不知道,Bt微生物制剂究竟是什么样的(如果知道的,请帮忙给一个权威的说法)。从一些网页的描述中,我理解这个制剂所含的微生物是没有灭活的,也就是含菌株的。例如,有些网站是这样描述的:“ 由于微生物可以被雨水冲洗掉,且在喷洒农药后的几天内Cry蛋白会在阳光下失去活性,因而Bt微生物施用于叶子表面进行杀虫的效果有限 ” 。我理解巴西的这个实验,就是用Bt微生物制剂(农业中广泛施用的那种微生物农药)作为一个处理来进行的,其对照就是蒸馏水。由于Bt微生物制剂是溶于37°C环境的蒸馏水中的,这样的温度,如果含菌株,细菌开始活动是无疑的。我开始怀疑这个实验设计是否存在不合理的问题:单一的处理中可能含有多个复合因子,比如微生物本身所产生的影响,我认为需要增加一个处理——含微生物但没有分泌孢子晶体。想到这里,我觉得应该写篇博文来表达一下自己的认识。另外,由于之前读到蒋高明博主的博文,将这个实验与转基因食品的安全风险联系起来,我就有了一个先入为主的认识(后来,我又认真看了一遍论文,发现论文的内容与转基因食物没有什么关系)。我在博文“ 食用转基因食品会导致白血病的说法,靠谱吗? ”中,对这个疑问进行了论述: 这项研究根本就没有给小鼠喂食任何转基因食品,只是给小鼠喂食了含苏云金杆菌的悬浊液而已!也就是说,从这个实验得出的结果,既与转基因食品无关,也与Bt蛋白无关,充其量只能说明这些血液方面的效应是来自苏云金杆菌的,苏云金杆菌并不能与Bt蛋白划等号。 也就是说,从这个实验得出的结果,与转基因食品并无任何关联。这些论述,试图从实验设计的角度提示一下可能对科学实验进行捕风捉影的衍生。 换一个角度来看,巴西科学家的这篇论文,更像是对反转者的高级黑。所以我在前面的那篇博文(修改版)中这样论述的: 就这篇论文的研究来说,能让我们直接联想到的,并不是转基因作物,而是绿色食品、有机食品中广泛使用的含Bt微生物制剂。如果质疑这个微生物制剂的安全性得到证实,首先受到打击的应该是这些绿色有机食品的生产,其次才可能是转基因作物,或者二者同时受到了挑战。 另外一个问题,也是从实验设计的角度来说的。设计一个毒理学实验,什么剂量才算是合适的?巴西的实验中,分别采用了27mg/Kg, 136mg/Kg和270mg/Kg这几个水平,原文是这样描述的: The minimum dose of Bt sporecrystal toxins was of 27 mg/Kg; the maximum dose (270 mg/Kg) was 10 times greater than the minimum dose, while the intermediate dose (136 mg/Kg) was equivalent to about half the maximum dose 。 隔行如隔山,我对这个剂量并没有什么感觉,按照巴西论文中的说法: In our previous experiments, exposures greater than 270 mg/Kg had caused signs of toxicity and death, so this concentration was considered the maximum tolerated. 也就是说,大于270mg/Kg可能是致死剂量了,我理解这是很大的量。后来看到一个英文网站 ( http://www.biofortified.org/2013/05/leukemia/ ) 中对这个剂量的评价: The amounts fed the mice do not reflect human dietary levels: they were some ~ 10^6 to 10^8 time higher than exposure from GM or organic crops (as per Hammond, 2012)。也就是说,是人类实际在转基因作物和有机作物下能暴露剂量的1百万到1亿倍(这个数值有待行家论证)。所以,我在博文中这样论述: 任何化学药品,剂量增加到一定程度都会构成危害,因此这样的结果意义不大。 比如,换用食盐做类似的实验:用致死剂量下的几个梯度进行,观测血液方面的指标,相信也会有许多的变化。但这样的变化,可解释性并不强。 我只是用自己的认识和常识来质疑巴西这篇文章的方法和推理方面的问题,与转基因作物问题相比,我更在乎其实验设计的合理性。也许有局部误解的地方。这样的想法放在自己的博客空间,其实很正常的事儿了(科学网编辑推荐,那是他们的事儿,与我无关),大家一起讨论,就是为了将问题弄清楚。在转基因问题上有明显立场的人,似乎无法容忍任何与自己观点不同的看法,总是喜欢搞一些攻击,这一点很容易打破客观讨论的气氛(所有与自己观点不一致的人都是造谣吗?)。我从来没有标榜自己是转基因研究方面的专家,但也不是一无所知。
个人分类: 一孔之见|7967 次阅读|64 个评论
简析条形图(bar plot)上的误差线
热度 1 yufree 2013-8-18 18:36
经常会遇到有人问条形图上误差线画什么的问题,有人说标准差(sd),有人说标准误(se),有的直接说置信区间(CI),其实这倒也不是什么大问题,你按什么画就在文章中注明就是了。后来看到JCB上有一篇科普 文章 ,分析的比较到位,就把里面的干货跳出来翻译一下并对其中的难点进行解读,既是总结也是提高,懒得看过程可直接看文末的规则。 概念问题 误差线 种类 描述 公式 范围 描述性 极值间距离 标准差 描述性 数据点与均值的平均差异 标准误 推断性 重复多次均值的变化 置信区间(95%) 推断性 一个有95%信心出现均值的范围 标准差 标准差是描述性统计里用来表示数据本身均值范围的,两倍标准差范围以外就可能是异常值了,标准差的使用不牵扯均值对比推测,仅仅是描述性的。样本标准差会随着样本数增加接近总体标准差,可用来作为总体标准差的估计,不随样本数变化而变化。 既然随着样本数增加样本标准差与总体标准差是一致的,怎么又说不随样本数变化? 你可以这样理解,总体方差是客观存在的,我们用样本去对总体方差进行估计,具体的算法就是上面那个公式,可用点估计方法自行推导,得到的就是一个接近总体方差的数,这个数当然不会随样本数发生变化了。至于说公式,要记住伴随样本数增大,分子也在增大,所以整体上这个数是不会随样本数发生变化,毕竟只是一个估值无偏性的问题。 标准误 置信区间是针对均值自身而言的,是对均值真实值出现范围的估计,在这一范围内每个点都可能是真值,在置信区间的计算中也会用到标准误。因为涉及均值出现范围,一般就会涉及均值比较与估计的问题,谁比谁大或小,是否显著,这属于推断性统计。置信区间与样本是相关的,越大越不准,越小表示准确度高(样本数自然要大一些)。在使用这类误差线时要考虑自己是否有此意图。 95%置信区间中样本平均值的地位 这个95%的置信度可以用仿真实验来掩饰,谢益辉写的R扩展包animation中conf.int()可以很清楚的演示这一过程:不断从总体中取样并计算95%置信区间,重复n次,最后统计区间包含总体均值的概率你会发现有95%的区间包含的真值。区间包含真值的概率是95%,而不是真值在这个区间里变动,计算出的置信区间可能不包含真值,毕竟置信度为95%。样本的均值是没有固定位置的会跟着取样走,但总体均值不会乱跑,因为不知道,所以用含有置信度的区间估计会更可靠一些。 标准误与置信区间的区别 看公式就知道了,标准误跟着样本数走,样本数越大,标准误越小,很多文章会使用MSE,这代表了均值的标准误。应该说重复越多,这个数就越压缩均值出现的范围,一般而言都是样本数为3,不是因为多了不行,而是说3个样本可以说明问题,有条件当然样本多了好了,结果会更准。置信区间还涉及一个t值的问题,在样本数较少例如3的时候,t值比较大,约为4,样本数多于10,一般就是2左右了。置信区间在一定程度上对样本数不如标准误敏感,给出MSE与样本数是可以推测置信区间的,样本数为3就是4倍MSE,为10就是3倍MSE。 如何利用置信区间来判断显著性 置信区间是统计估计问题,显著性是统计推断问题,这是首先需要分清楚的,然后看下面这个来自原文的图就很清楚了。通过间距判断就可以,这里需要纠正的问题就是一定要间距完全分开才有显著性差异,根据情况来。 样本数 使用样本数要注意你是一个样本重复测定n次,还是n个样本测定1次。前者表示同一样本,n实际为1,后者表示独立样本,样本数为n。如果你展示的是一组代表性独立数据,那就不用给出重复测定误差线,这对总体推断没多大意义。 实验设计中的可重复性究竟指的是什么? 一个实验设计三个平行,重复了4次,那么n应该是多少?n为4,因为这4次测定是与你要检验的假说有关的,那三个平行取均值就可以了,作为对数据真实性的保证。保证数据可用与重复性是两个概念,这一点是经常被混淆的。有人做实验重复了10次发现其中有1次结果是可用的就用这组数据去写文章,里面实际只有平行,没有重复。实际的科研是要考虑这10次结果的,当然前提是每次实验所有操作都是一致的,只用一组数据去写文章是碰运气,可以说完全没有重复性,这里每一次重复代表获得一次独立样本。当然这也分情况,根据你的题目自行考虑。 如何表示重复测量数据? 做分析的会比较关注,组内重复测量数据对于组间比较是没有意义的。例如在暴露实验中,同一时间点的数据带有误差线的暴露组与对照组是可比的,但是不同时间点的数据置信区间就没什么意义了,或者你可以用配对t检验差值的方法来考虑同一组内不同时间点测定区别是否显著。一般遇到这个问题都是考虑影响因素的时候,最好每个因素单一考虑,当然你也可以设计正交实验。重复性与独立性是相对的,根据你的实验设计来决定。 规则 使用误差线要注明种类 要注明样本数n 误差线与显著性只用在独立重复实验上,代表性的实验结果不应该包含误差线与P值,因为这相当于n=1 推断性实验的误差线最好使用标准误或置信区间,对于n为3的实验,可直接列出3次的结果,不标注误差线 95%置信区间表示有95%信心里面有总体的均值,n为3时,标准误的4倍为这个区间 n为3,两倍标准误不重复覆盖,P 0.05, 刚好覆盖,P接近0.05;n大于10,间距1倍标准误,P接近0.05,两倍就是0.01 置信范围表示误差线时,n为3,重叠一臂,P为0.05;重叠半臂,P为0.01 同一组内的重复实验,标准误与置信区间不能用来表示组内差异
个人分类: 翻译|49892 次阅读|1 个评论
煮鸡蛋的实验设计与剥鸡蛋的模型
liwei999 2013-3-13 20:49
煮鸡蛋的实验设计与剥鸡蛋的模型——评论王老师的帖子 作者: mirror (*) 日期: 03/12/2013 21:22:03 《学习身边的科学: 蒸鸡蛋代替煮鸡蛋》 是王老师的帖子,很有意思。由于没有读第一帖的 《向保姆学习煮鸡蛋》 ,不曾知道王老师已经做过了一些 煮鸡蛋 的实验。第一帖也是个有意思的帖子。 有意思 是说这个话题很具有日常性,而且是大学的物理老师与两位小保姆的“较量”,很有戏剧性。 Quote 王老师的红字结论说: 鸡蛋壳和内膜都是布满小孔的. 煮鸡蛋刚刚加热时就可以看到有很多微小的气泡从整个鸡蛋壳上出来. 流动的蛋白质一旦膨胀到小孔中就很难分离. 王老师很是介意“臆想”的说法。因为 臆想 是说 主观地、缺乏客观依据的想法。听起来是个“贬义”的意思。但是镜某以为这个 臆想 用在这里很贴切,因为王老师所描述的一切,都是 缺乏客观依据 的想法。 学生们都很想知道如何做研究。当然课堂上讲究“正面教育”,一般都讲名家的成功事例,而很少讲身边的失败事例。其实,对于学生们来说,解说失败的例子是最有意义的。今天,镜某就拿王老师 煮鸡蛋的事儿 “开刀”了。为了学子们的利益(公众利益),王老师这点“个人牺牲”的精神一定会有的。 对付一个非专业的话题,物理教师也是“外行”,所以也会和学生们一样犯“初级错误”。所谓科学研究,是有标准程序的(范式)。即1)假说,2)验证,3)假说修正形成初步结论。 如此看来,王老师帖子里的一系列说法(解释)都可以认为是 假说 。然后需要设计一系列实验证明提出的假说。如果这两者不能吻合的话,至少有一个是错误的。要么是假说不合适,要么是实验设计不合适,或者是两者都不合适。 显然,王老师博文中容易剥皮的“煮鸡蛋假说”与提供的实验不吻合。因为“热胀冷缩”也罢,“微孔内蛋白质膨胀”也罢, 单凭煮出来的鸡蛋是否容易剥皮的结果,并不能直接覆盖到这两个层面上去 。 假说如何做?这是学生、尤其是中国学生都感觉有困难的地方。因为国人的“性情”多是主张 从大处、高处着想。 而学问的根本,则是 从小处做起 。就事论事,从剥鸡蛋皮抽象出来一个 剥离(强度)的问题 。其对称型,就是物体之间 粘合强度 的问题,作为一个学问,其重要意义自不必说了。 与剥鸡蛋皮相似的 剥离问题 在日常中有何体验?新生代的孩子都会有过:商品的标签撕(揭)不干净。胶和一部分标签纸依然留在商品上,标签的纸的表层被揭了下来。这个现象与剥鸡蛋是同形的。把蛋白看做标签纸就是了。 如何解释这个现象?显然这里不需要什么“热胀冷缩”的概念、也不涉及鸡蛋皮上“微孔”的说法。如果说到了鸡蛋皮上“微孔”,那么就需要给出微孔里的确是嵌入了蛋白的显微镜图像来。没有设计这样的实验,就不能主张这个假说,哪怕实际上真是如此。因为这是个程序。科学研究的可靠性是靠这些程序保证的。 因此,事情不必那么复杂化,标签是否容易剥下来,要看标签纸的离解力与 胶的粘合力 之间的较量。如果胶的粘合力相对弱,标签就容易揭下来,如果纸张相对弱,那么揭了之后,就会有些纸的残部与胶一起留在商品上。这个现象与蛋白留在蛋皮上的现象一致:粘接力弱,则皮很容易剥离,如果蛋白自己的结合力弱,则部分蛋白就要跟着蛋皮走了。 因此,可以形成这样一个假说:蛋白组织的强度高(结合性好)的鸡蛋容易剥皮,强度低的不容易剥皮。当然也可以有别的假说。比如说不同的温度时间过程会在蛋白和蛋皮的接合部形成某种粘合物质,也包括王老师的蛋白嵌入说。 验证工作需要根据所要验证的对象来设计。 这都是些吃饱了不饿的大实话。但是事到临头能按照手续办事的人不多。 事情到此,问题就转化成为验证加热温度与时间对蛋白组织结合力的影响的测量。这个测量可以是用科学仪器,也可以是通过简单地剥鸡蛋皮来标定。煮一锅鸡蛋,从3分开始每隔1分钟抽出几个鸡蛋来,做标准的 后处理 ,比如投放进冷水浸泡n分钟、或者是直接剥皮等等的。总之,要有个手续来标定剥皮的难易度。比如可以用剥鸡蛋的速度来表征难易度。这些都不是难事儿。 如何归纳实验结果?有合理的假说和合理的实验,归纳起来不应该很困难。这样看似很简单的事情,镜某感觉与国人的学生(包括博士、或者是在岗的研究人员)沟通起来相当困难。当然,或许是优秀的学生都出走了,镜某遇到的都是不那么优秀的学生。 这样的思考模式应该在高中阶段形成。但往往那个时候也正是孩子们的反抗期,不大听家长的话。如果学校的教师不是足够优秀的话,孩子们就会变得很平庸了。国人的教师层,由于种种的原因,没有能吸引精英参入。等孩子们过了可塑期,再加上大学也平庸,也就只能是 平庸 了。 本帖的归纳:镜某以为,王老师对煮鸡蛋解释的对错不是问题。问题在于得出结论的手续上有致命缺陷。这类问题很潜像,不易被人们感觉。为此,镜某就当一回“恶人”,把这个问题挑出来、议论了一番。 ---------- 就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。
个人分类: 镜子大全|4006 次阅读|0 个评论
英文原版电子书分享: Experimental Design for Biologists
chentielin 2011-10-10 23:55
前两天无意当中翻到一本书 科学出版社《生命科学实验设计指南》2008年 快速看了一两节,内容很好,不过翻译有点不好,建议看原版。 我觉得这本书应该是进入生物学实验室的必读书目。我太欠缺了,需要学习,先将网上找到电子档分享共勉 下载链接:http://www.rayfile.com/zh-cn/files/5ca77bab-f3a3-11e0-8a73-0015c55db73d/
个人分类: |4550 次阅读|0 个评论
计划性在科研上的重要性
热度 10 jiangjiping 2011-6-14 07:41
计划性在科研上的重要性 蒋继平 2011 年 6 月 13 日 我这里指的计划性( Plan )包含两个内容:第一,是指实验设计 ( Experiment Design )。这是计划的轮廓, 也就是计划的整体部分。第二,是实施实验设计的具体步骤和时间表( Procedures Schedules )。 不管是在读研究生,还是已经在科研领域工作的科技人员,当我们接到导师或者领导的科研课题后,要做的第一件事就是提出实验设计。这个实验设计必须根据科研课题的内容和要求来进行评估和分析,然后根据评估和分析的结果来制定相应的规划。 科技人员的实验设计相当于工程师的设计图,一个研究课题相当于一项工程。 我们知道, 要建造一栋大楼,是一项工程, 这个工程必须要有一张图纸,然后根据这张图纸来分阶段施工。施工的过程包括铺设电路和水管,打好地基,建造主体楼房, 最后装修。 同样的道理,科技人员在得到研究课题后,首先得确定研究的方向,采用的途径, 确定对实验起关键作用的因素,估计需要的实验材料,所需花费的时间, 和每个阶段必须达到的目标。因而,很明显,这个设计是根据课题的复杂程度来确定完成课题的具体步骤,应当包含近期,中期和长期三个阶段。比如说,登陆火星的课题是一个很复杂的课题,涉及到很多尖端科技领域,需要大量的科技人员的合作,这个课题至少需要 10 年时间才能完成。这个过程可分为近期课题, 如远距离遥控技术;中期计划,耐高温材料; 远期计划,反重力登陆装置等等。但是绝大多数课题要比这个课题简单的多。比如说,寻找一种有效的抗某种病害的筛选方法,估计只要 6 个月到一年左右的时间,一个人就可以担当起这个任务。 在完成了实验设计后,接下来就是制定实施实验的具体程序。实施实验的具体程序应当包括但是不限于下列方面;第一, 查找已经发表的有关资料。 这可以帮助试验少走弯路。第二, 购置和准备试验必需的仪器设备和试验用品。第三,详细分析可能影响试验成败的关键因素并制定必要的应对措施。第四, 制定具体和详细的实验作业时间表。 实施实验的具体程序和作业时间表因不同的课题和研究领域而可能相差很大,因而,在这里不能给与一个具体的模式。 但是,不管是什么课题都有一个普遍的定律,那就是逻辑思维严密的程序和严格按照作业时间表进行操作是获得实验成功的必要条件。 现在我以自己的经历作为一个实例来具体地说明这一点。 1992 ,我博士毕业后到一家种子公司做博士后研究。当时美国加州的西红柿正在遭受一种白粉病的侵害,农场主的损失惨重。农场主们希望研究机构,大学和种子公司能够为他们提供一种抗性品种,以防止这种病害的危害,农场主们为此提供了五百万美元的研究经费。当时加州大学戴维斯分校的一个课题组赢得了这笔经费。可是, 几年下来, 研究进展毫无结果。 我的老板要我从事相同的研究。我拿到这个课题后, 首先是实验设计,然后是制定具体的程序和作业时间表, 这都在两天内完成。从那里开始, 我就严格按照这些程序和作业时间表开始工作。根据我已经掌握的知识,我知道植物生病与否主要取决于三大因素: 1 。病原菌,包括菌龄和浓度; 2 。环境条件, 包括温度,适度, 和光照强度; 3 。植物本身的状况, 包括生长期, 营养状态, 有否抗病基因。根据这些知识, 我经过严密的逻辑推理, 运用排列组合的方法,制定了一个非常详细的程序。 然后根据这些程序又制定了相应的作业时间表。 因为以上的三大要素中,菌龄和植物生长期都是随着时间的变化而变化的,而时间是一直往前走的, 是不会倒退的,也不会停止的,所以,我把主要精力放在这一点上。在任何情况下,我总是把实验放在第一位, 只要试验需要,即使节假日照样上班做实验。 由于严密的计划性,我在 6 个月之内就完成了老板交给我的任务,花的经费不到 5000 美元,不到加州农场主们提供的经费的千分之一。而加州大学戴维斯分校的课题组花了将近五年时间,用去五百万美元研究经费,最后一无所获。当我在这个课题上获得成功后, 他们被农场主们告上法庭。 显而易见,计划性在科研上的作用是很重要的。一个好的计划可起到事半功倍的效果,但是,最重要的是, 要严格按照计划行事, 珍惜时间,争分夺秒。这是科研上取胜的关键之一。
个人分类: 经验交流|17945 次阅读|20 个评论
孤立的试验处理说明什么问题?
荒月 2011-5-11 09:12
秦腔《三滴血》里,糊涂五台县官晋信书滴血认亲,活活拆散了周仁瑞周天佑父子,和无血缘关系的一对姐弟恋人李晚春,李遇春。该故事原型见于纪晓岚的阅微草堂笔记。我这儿要谈的故事里的一个科学问题:如何验证一个科学问题。 在本科生的实习论文中,甚至有些研究生所写的论文中,其实验设计中常常找不到对照,当然,笔者也曾经犯过这类错误。没有对照的孤立试验处理,往往是要犯大错误的。晋信书从书中看到古人有记载,如果是亲人(应该是直系血清吧),将血滴在清水中,则血液自然融合,如果是没有亲缘关系的人,则“血在盆中不粘连”。周仁瑞陕西韩城经商20年,娶妻生子,谁料妻子难产,留下一对双胞胎儿子,自己无力抚养,将老二卖于李三娘为养子,这就是李遇春。自己将老大抚养成人,以续香火。由于周仁瑞一直和在老家的生活的二弟周仁祥没有联系,周仁瑞年老生意败落之后带子回家养老,引起周仁祥之妻的不满,于是就不承认周仁瑞之子周天佑,认为是周仁瑞抱养来分家产的。于是这场家务事就打上了官司,告到了五台县官晋信书那儿,本来此事行文到陕西韩城县一查,就可以水落石出,但学富五车的晋信书为了省事儿,就做了一个无对照的孤立的试验处理,将周仁瑞和周天佑的血滴在盆中验证他们是否是父子关系。结果“血在盆中不粘连”。于是晋信书判他们不是父子关系,并将他们活活拆散。 李三娘家在现在看来应该是个小康之家,李三娘亲生女儿李晚春和养弟李遇春从小青梅竹马,两小无猜,亲密无间。但亲如兄妹的两人并不知道弟弟是抱养的,长大之后,大人们有意成全,于是谎说姐姐是抱养的,弟弟是亲生的,撮合这对夫妻。但这个善意的谎言给村里另一个纨绔子弟阮自用以可乘之机。他在李三娘死后说李三娘生前将李晚春许配给他为妻,争持之后官司又打到了晋信书那儿,晋信书再次做了一个无对照的孤立的试验处理,滴血认亲,认定李晚春李遇春就是亲姐弟。 搞研究的人到这儿一看就明白,这儿缺少了对照和重复处理,按照戏文所唱,冬天血液自然凝固,即使亲骨肉也很难融合在一起。夏天血液自然流动,不是亲骨肉的血液也很容易融合在一起,李晚春李遇春姐弟的故事正好发生在夏天。而此法只在秋冬两季才可信。晋信书由于不知道这一点,因此搞错。 科研中有一句话叫大胆假设,小心求证,晋信书大胆假设了,但求证的过程太不小心,仅凭一个孤立的试验处理得出结论是在武断,那么,这个实验究竟应该如何才更具说服力?当然需要对照试验,有重复则更好,在周仁瑞周天佑父子关系案中,应该再设一个阳性对照和阴性对照,当堂取材,周仁瑞和周仁祥就是很好的阳性样本,而随便找两个不同姓的衙役就是很好的阴性样本。要试验更进一步准确,那还需要重复,可找周仁祥的儿子牛儿同来和周仁祥作为一个处理(后来这个真的作为了一个对照处理,结果是牛儿竟然真的不是周仁祥的亲生儿子,因此重复是很有必要的),当然还可以找其他亲父子、亲兄弟对来。而在李晚春李遇春姐弟案中,完全可以加入当事人阮自用作为对照。 戏剧的结尾以喜剧形式收场,李遇春周天佑不知情的两双胞胎兄弟路上偶遇,一见如故,结拜为异性弟兄,同去太行山参军,兄长周天佑因军功官拜游击,弟弟李遇春亦帮办文案而提升,两人同提五台县官前来算账,已知内情的五台县官说兄弟二人是亲兄弟,当然招来又一次的呵斥。最后各类人证到期,这桩公案才各安其事,落下帷幕。
个人分类: 乱弹|4192 次阅读|0 个评论
统计学中的假重复
oyster08 2010-12-27 21:28
个人分类: 未分类|0 个评论
论文是学者(研究生)的硬通货
wangdh 2010-12-26 18:06
论文是学者(研究生)的硬通货 (王德华) 我在博文 研究生还是应该选择重要的科学问题 中 要求学生的实验设计要获得可以发表的数据的观点受到博友的质疑。实际上我的观点很明确:作为研究生,毕业获得学位是目标之一。既然现在各个培养单位都要求要获得学位(一般是博士学位),需要发表一定数量的论文,那么研究生要想毕业获得学位,就需要满足这个要求。提醒和要求学生的实验要获得可发表的数据,应该没有问题的 。 发表学术论文的过程是研究生训练中的一个非常重要的、非常必要的内容,是研究生必须掌握的一种技能 ( 撰写和发表论文的技能是研究生培养过程中的一个重要内容 ) 。 从这个意义上说,研究生发表学术论文是天经地义的事情,是水到渠成的事情。我曾有文章论述过 : 研究生发表学术论文是天经地义的 。 在《 如何做生态学 》中,作者有这样的论述:尽管学术交流所需要的技能与科学研究很不相同,但它却是从事野外生物学研究的一个很基本的组成部分。探究自然是一件很有趣的事情,但是只有将所获得的结果与同行交流时,才能有利于生态学的发展。 但是,从学科领域和学术团体的角度看,如果你没能让那些对你的问题感兴趣的人们明白和了解你到底发现了什么,那么基本上可以说你的发现没有起到什么作用。 ( P59 , 高等教育出版社, 2010 )。 将研究结果发表在什么地方是很重要的。一定要确保让尽可能多的同行看到自己的发现。 论文写作和总结报告是交流你的工作发现和学术观点的重要方式。除此之外,通过准备报告和撰写论文这些过程,可以使你明白你已经掌握了什么,还有什么没掌握,如何将那些零散的信息整合在一起等等。 准备报告和撰写论文的过程可以帮助我们理清思维,这个过程除了学术交流外,对自己个人的发展也是很有价值的。 期刊论文就是生物学家们的面包加黄油。 期刊论文对于展示你获得的研究成果是非常重要的,同时期刊论文也可以让学术界的同行们与你一起分享你的研究成果。 在我们(生态学)的领域内,发表学术论文就是硬通货。 (《如何做生态学》,P 60-61, 高等教育出版社, 2010 )。 学术论文是一个学者学术水平的标志。一个学者发表学术论文的数量和质量是他(她)在一个学术领域中学术地位的标志。学术论文被称为学者的信用卡。学术论文是申请职位(工作)、职称晋升、申请科研经费和申请科技奖励等等的硬通货,就是要获得诺贝尔奖,获奖者也必须有学术论文发表。 作为科研人员,我们都已经很熟悉不发表就死亡 Publish or Perish 的警告,也知道学术成果的优先权是依照学术论文发表的先后来确定的。所以,有诺贝尔奖获得者说,如果不把你获得的数据发表,等于你什么都没有做。 所以,研究生在根据科学问题进行实验设计的时候,必须要考虑数据的可发表性。不管培养单位是否规定要获得学位必须发表论文,如果想从事(基础)科学研究这个行业,就必须要学会写论文,发论文,发表高质量的论文。 论文是学者的硬通货,尤其是青年学者的硬通货。记住这句话,没错的。 ********* 看来需要加句话: 1、基础研究,纯科学研究,发论文是必须的。 2、发表论文,不是凑论文。质量当然是第一的。
个人分类: 研究生教育|8316 次阅读|9 个评论
说出一点烦心事,轻松一些
yulun 2010-6-30 12:52
最近心里有些烦躁,不仅是因为哈尔滨不知怎么的成了全国最热的地方,每天太阳火辣辣的,让人透不过气来,也是因为实验做得有些令人心乱。 读过我上一篇日志的朋友可能还记得我中途转行做了晶体生长方向。这个方向目前主流的做法是研究溶液中晶体的生长行为,但是我面对的是以企业生产为基础的高温熔体介质晶体生长行为,因此在做实验上就无法像溶液内晶体生长行为研究那样在线观测,容易操作,更为糟糕的是我根本无法精确控制晶体的生长条件,这一方面导致了无法在定量上对实验结果做足功夫,而只能在定性上给予说明;另一方面是造成实验结果的多样性增加,造成分析起来现象纷繁芜杂,一片混乱的样子,导致需要花大量的力气去鉴别真伪,找出规律,因此也会把人弄得十分不爽。 看到目前的现状,无奈于只能如此,但是心中不免有了些感慨,感慨做科研的时候一定要选好一个方向,选择的标准不仅仅是其前沿性,还要考虑做实验的条件,只有有了条件才能既快又好又省力的做出东西来!
个人分类: 学习感悟|3324 次阅读|0 个评论
图书推介(12)Experimental Design and Data Analysis for Biologists
lianas 2010-5-3 15:21
名称 Experimental Design and Data Analysis for Biologists 作者 Gerry P. Quinn Monash University, Victoria Michael J. Keough University of Melbourne An essential textbook for any student or researcher in biology needing to design experiments, sample programs or analyse the resulting data. The text begins with a revision of estimation and hypothesis testing methods, covering both classical and Bayesian philosophies, before advancing to the analysis of linear and generalized linear models. Topics covered include linear and logistic regression, simple and complex ANOVA models (for factorial, nested, block, split-plot and repeated measures and covariance designs), and log-linear models. Multivariate techniques, including classification and ordination, are then introduced. Special emphasis is placed on checking assumptions, exploratory data analysis and presentation of results. The main analyses are illustrated with many examples from published papers and there is an extensive reference list to both the statistical and biological literature. The book is supported by a web-site that provides all data sets, questions for each chapter and links to software. An essential textbook that covers the full range of topics required by any biologist designing experiments or analysing the resulting data Extensive worked examples using real data sets Web page support with downloadable data sets, example questions and relevant links at http://www.zoology.unimelb.edu.au/qkstats Contents 1. Introduction; 2. Estimation; 3. Hypothesis testing; 4. Graphical exploration of data; 5. Correlation and regression; 6. Multiple regression and correlation; 7. Design and power analysis; 8. Comparing groups or treatments - analysis of variance; 9. Multifactor analysis of variance; 10. Randomized blocks and simple repeated measures: unreplicated two-factor designs; 11. Split plot and repeated measures designs: partly nested anovas; 12. Analysis of covariance; 13. Generalized linear models and logistic regression; 14. Analyzing frequencies; 15. Introduction to multivariate analyses; 16. Multivariate analysis of variance and discriminant analysis; 17. Principal components and correspondence analysis; 18. Multidimensional scaling and cluster analysis; 19. Presentation of results. Reviews At last, a book that provides a readable introduction to nuances of statistical methods and analysis a wonderful book that is packed with lots of practical advice . Journal of Experimental Marine Biology and Ecology this is clearly written text with a simple no-nonsense approach to the topic. TEG News ' the book is well written and well presented with a good range of interesting and realistic examples the book gave a very substantial and worthwhile study of good statistical practice in the design and analysis of biological experiments. I recommend it to anyone involved in quantitative biological research.' Journal of Agricultural Science Quinn and Keough make plenty of reference to the recent and primary statistical literature, yet their book does not seem inaccessible or daunting the text often ventures into statically uncertain territory, and Quinn and Keough do an excellent job of evenhandedly summarizing any statistical debates and philosophies then giving pragmatic suggestions to how best to proceed with analyses. Readers will find themselves adequately and interestedly informed Quinn and Keough make extensive use of data sets deriving from real, and recently published, studies There are also unexpected bonus sections, such as the useful, and at times fun, chapter on presenting the results of analysis both in reports and in seminars. In general, one certainly has the impression that the authors set out to write a clear, comprehensive and valuable book: they have succeeded.' Animal Behaviour highly recommended Ethology ' the authors do go a long way towards success in their aim of encouraging 'readers to understand the models underlying the most common experimental designs' and to approach proper data analysis with more confidence. The web support is also very useful especially for items that the authors added post-publication '. Primate Eye an essential textbook that can be warmly recommended to any student or researcher in biology who needs to design experiments, devise sampling programs and analyze the resulting data There is a wealth of information that is usually only found in separate sources. Basic and Applied Ecology ' an essential textbook for students and researchers in biology needing to design experiments, sampling programs or analyze the resulting data.' Folia Geobotanica