科学网

 找回密码
  注册

tag 标签: 生物统计

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

北京大学生物统计暑期学校(8月17-22日)相关链接
xiaohuazhou 2020-8-18 10:00
北京大学生物统计暑期学校 简介: 2020年北京大学生物统计暑期学校将于8月17日至21日由北京大学生物统计系和北京国际数学研究中心联合(在线)主办。本次暑期学校邀请了国内外知名生物统计学家和应用数学家,聚焦全球新冠疫情背景下的生物统计学前沿,通过短课和学术讲座的形式,旨在加快生物统计学与各相关学科的交叉融通,为热爱生物统计并有志于相关研究的优秀研究生和青年学者提供世界一流大学变革性的学习体验。 一、课程安排 课程时间 :8月17日至21日 授课形式 :线上授课 授课平台 :Zoom会议 二、招生对象 本次暑期学校面向国内外统计学、生物统计、流行病与卫生统计学、公共卫生、数据科学与健康医疗大数据分析等相关专业的青年教师或科研工作者、博士后、博士研究生、硕士研究生和高年级优秀本科生招生。申请者需具备良好的数理基础、统计学基础和数据科学相关背景,对统计学、医学或健康医疗数据科学有浓厚兴趣,有志于从事该领域学术研究工作或攻读博士学位,具有较强(或潜在较强)的学术钻研能力。 三、课程信息 四、参与 方式 直播间网址:(本站无回放) https://www.koushare.com/lives/room/602973 附:相关信息介绍: http://conference.bicmr.pku.edu.cn/meeting/index?id=87
个人分类: 报道|2127 次阅读|0 个评论
今日《科普时报》头版文章:中国生物统计学迎来发展新机遇
热度 1 xiaohuazhou 2020-7-14 11:13
今日《科普时报》头版文章: 中国生物统计学迎来发展新机遇 日前,授受了《科普时报》记者的专访。今天(7月14日),《科普时报》刊发了我的署名文章,介绍了新冠疫情下,中国生物统计学所面临的挑战以及迎来的发展机遇。 图文如下,请大家多多指正。 近年来,传染病的传播机制愈加复杂,研究者们综合利用数学和统计模型,基于多种数据信息对传染病的发生和发展机制进行精确地建模分析。 比如,2013年爆发的非洲埃博拉疫情中,研究者基于病毒基因数据进行建模分析,揭示了病毒跨地理区域传播的机制。2016年美洲寨卡病毒疫情中,研究者基于地理信息和病毒基因信息,准确地定位了寨卡病毒的发源地,并揭示了病毒在地理分布上的规律。在慢性传播的艾滋病疫情中,研究者利用带有空间网络结构的病毒扩散模型,阐明了HIV-1病毒在全球范围内的时空传播关系。 随着人们在医学、制药学等领域研究的不断深入,越来越多的科学问题需要以量化研究依据作为支撑。生物、医学等学科由实验科学走向实用科学时都离不开统计学。随着互联网时代的到来,大数据的盛行,生物统计学正日益广泛地应用于医学科学研究中,为医学研究提供了手段和方法,是医学研究不可分割的部分。 研究者们基于数学和统计模型的研究结果,提出了一些阻止疾病传播的新举措。比如,研究者发现西非葬礼成埃博拉“超级传播事件”,集中精力隔离最严重的埃博拉病例将大幅度降低传染。另一项研究使用实时航空公司大数据预测出对特定旅行者进行筛查能够最有效地防止埃博拉病毒在海外扩散。 综合利用数学和统计模型,基于多种数据信息来进行定量化、科学化地防控,是人类与传染病作斗争的重要武器。2004年开始,病毒基因数据在传染病建模中的作用逐渐显现。研究者通过分析不同感染个体体内病毒基因的差异性,构建病毒发育树,并由此来推断感染发生的时间等关键信息。 进入21世纪,特别是随着互联网技术和基因测序技术的发展,互联网搜索大数据、病毒基因大数据和地理信息大数据等都被用来进行数学和统计建模,此阶段的建模方法也从简单的群体模型进入到细致的网络化模型。 生物统计学属于统计学的一个分支,是一门结合统计学、概率论、数学和计算的方法,对生物医学数据进行分析,测量、控制和解释不确定性的一门科,其研究目的是科学地设计试验,并对所得试验数据进行分析,达到减少试验次数、缩短试验周期、迅速找到最优化的试验方案或数学模型。可以说,几乎所有医学和公共卫生领域研究者的新发现都需要统计思想和原则的指导,离不开生物统计学。目前,国外生物统计学科发展迅速,且影响深远。国际上的知名医学院、公共卫生学院的生物统计学均为重点学科,实力雄厚。《新英格兰杂志》也将生物统计学的贡献列为近500年医学领域排位第四的里程碑式重大事件。运用大数据加强与医疗技术、产品、服务和群众健康需求对接,有助于促进健康产业发展,释放健康消费潜力。由于健康医疗大数据主要包括医疗机构的诊疗数据、医疗费用数据、公共卫生与疾病监测数据、自我健康管理数据、网络数据等,因此具有数据量大、数据类型和结构复杂等特点,这使得生物统计学研究也面临着海量数据、非随机数据及极小样本数据等挑战。 相较于国外,国内生物统计学科作为一门独立的学科而言,其规模和学术地位仍显不足,这一问题日益突出:我国的生物统计学在学科体系中尚没有明确的位置。生物统计学在中国一直以来都被称为“卫生统计学”,隶属于预防医学下,教学着重于统计方法学在公共卫生领域的应用。目前我国培养出来的卫生统计学人才较偏重于应用,缺乏统计方法学的研究及数学背景,在新的统计方法研究上较难赶上国际生物统计学的水平。 此外,国内生物统计学科与医学研究结合尚不够紧密。医学研究需要大量生物统计人员的参与,而目前专业的生物统计学人才缺乏,因此限制了国内医学研究的发展。可见,国内生物统计学在学科成熟度、学科功能及专业定位方面还存在不少误区,这些成为国内生物统计学发展道路上迫切需要解决的问题。 为促进国内生物统计学科的发展,缩小与国外先进国家的差距,在北大医学部医学和公共卫生研究的基础上,结合数学科学学院、北京国际数学研究中心在数学和统计理论方法研究上的优势,由北大校本部和医学部共同建立了一个跨学部、跨院系、新体制的生物统计系,并任命周晓华教授为首届系主任,以助力北大“双一流”建设,探索生物统计方法学在转化医学、精准医学、大数据研究等领域的应用。 新成立的生物统计系隶属于公共卫生学院,由数学科学学院和北京国际数学研究中心共建,是国内第一家在综合性大学成立的生物统计系,也是第一个跨数学科学,医学及公共学科的生物统计系,将对提高我国生物统计专业人才培养的质量、促进多学科交叉和融合等,产生重要的现实意义和长远意义。 在这次新冠疫情当中,如何科学、高效地控制疫情发展是疫情爆发期亟待解决的现实问题,我国生物统计学者积极科研攻关,综合利用流行病学数据、病毒基因数据、交通流量数据等各种信息,从数学模型和统计模型相结合的角度对本次新型冠状病毒疫情的发生和发展过程进行深入研究,力图阐明新型冠状病毒的疾病流行特点和规律,为防控新型冠状病毒的疫情提供以数据为基础的定量化决策建议,在相关研究中也取得了不少成果,起到了非常重要的作用。 21世纪是生命科学的世纪、也是大数据的时代、人工智能的时代,而要对生命现象揭示得越深刻越彻底,需要运用的统计学知识就越多。正在突飞猛进的生命科学无疑将在大统计学理论与方法的推动下更加深刻地揭示出生命现象的本质,生物统计学将成为研究生命科学不可缺少的重要工具,引导我们更好地探索生命的奥秘,把人类对生命世界的认识提高到一个新水平。千帆竞发,百舸争流,中国生物统计学在面临挑战的同时也面临着新的发展机遇,并将不断缔造新的传奇(刊文有部分修改)。 注: 《科普时报》前身系1992年创刊的《科技文摘报》,是由国家科技部主管、科技日报社主办的一家科技类专业媒体。现属于正局级事业单位,位于北京市海淀区复兴路15号科技部院内四层,由科技部和科技日报社的领导担任我社的社长和主编。与《科技日报》在科技领域有一报一摘要并称,是党和国家领导人了解科技界的一份重要参考和窗口,也是国家新闻出版总署重点表扬和鼓励的一个典范报纸。 《科普时报》每周出版两期,每期对开八版,彩色印刷,是全国第一份综合性科普周报。《科普时报》将打通纸媒、互联网、移动端的采编环节,组建统一的全媒体采访编辑部门,形成与全媒体相适应的采编流程。 科普全媒体平台包括:科普时报、中国科普网、三微(微博微信微视频)一端(移动端)、科米直播。在全媒体的架构下,大力推进“互联网+科普”,重点发挥新媒体平台以及VR、AR、MR等新技术手段,充分利用纸媒、网媒、移动新媒体、直播等多种形式和传播渠道,创新科普宣传手段,丰富科普表达方式,强化科普创作,打造科普相关产品和服务,成为科普工作的政府政策权威发布平台、权威的科普内容发布平台、科普资料内容库以及全民科普教育的常设课堂,形成了全媒体科普宣传服务创新平台,满足公众对于优质科普内容和服务的需求,努力提升公民科学素养,服务于建设创新型国家需要。 《科普时报》发行量为15万份/次,主要发行在科技部和全国科技厅局、工程院和科学院、全国高校、全国孵化器中心、研究所研究院、军工单位、医疗单位等,并在国家图书馆、飞机场、火车站、报刊亭均可阅读或购买。
个人分类: 报道|4776 次阅读|3 个评论
“风景如画,我爱北大”——北大面试录
flysky97 2019-4-9 14:24
很奇怪,截止目前,给自己发面试的单位,都是大学(北大)或者研究所(IBP或者Psych)——这到底是我内心的指引还是命运的注定? “风景如画,我爱北大”——好久前曾听过一档节目中这样说起北大! 北大,曾经是那样遥不可及,当我在中科院时,又觉得她不过尔尔!但是,今天,我不得不在卑微的心境中去面试…… 那个职位不过是个系主任助理!我觉得,这样的职位,对于一个男系主任,最好不过是位美女+才女,或者只是美女也够了 所以,一直觉得自己的胜算并不是特别高,只能抱着学习的态度去试试看。但是果然,自己有些感触! 因为其要求非常简单: 主要职责: 协助系主任及系内其他日常行政事务的管理与协调,协助系内本科生、研究生的教学管理及科研管理工作等。 要求: 1. 大学本科及以上学历,专业不限; 2. 性格开朗, 工作积极主动,责任心强,沟通协调及团队合作能力强; 3. 能熟练使用各种常用办公软件; 4. 文字能力突出; 5. 有相关教学管理、科研管理或行政管理工作经验者优先; 6. 身体健康。 3月29日周五在北京大学全斋29室笔试,时间:9:30AM-10:45AM 4月8日上午9点40 面试 4月16日下午 第二次面试 这王红老师牛的一点是,到这个地点实际还是非常难找的,但是,却根本不留自己的电话,也不说具体在什么方位,后来又在邮件中提了一点,如何进北大东门…… 但是其笔试,却是行政测试: 这是我第一次参加这样的行政测试 一、第一题统计名词英译汉,如线性回归,拟合正态,方差分析……意思多半知道,但是英文,实在记得没几个,连正态Normal都是后想起来的……可悲…… 二、随后是,削足适履等名词的语言能力,上合组织国家名单的政治事件,图灵奖深度学习获奖名单,方差分析的创立者 简单的概率题:两个孩子,一男一女的概率是(1/3) 与二战相关的电影《辛德勒名单》 三、随后是英译汉,是In fact,mathmatics is almost everywhere 伽利略说,世界是用数学语言书写的…… 四、汉译英: 选择1:数学家在艺术领域却也具有某些特长 选择2: 科学家需 要安静的环境,不能太关注社会,但是需要良好的生长环境…… 五、写作题: 选择1:用英语写一封邀请某老外来讲学的英语邀请信; 选择2:用中文写一封领导学期末总结回顾前的简短发言!(还好,我选了这个) 发言要点: 从0到1的过程是相对好艰难的…… 生物统计系在国内的特殊性:我们是国内第一个统计与生物学交叉建立的院系,而这也是时代发展的必然…… 这界学生的特殊地位——天之骄子…… 未来的挑战,数学王冠上的明珠并不是每个人轻易就能摘到的…… 过去一学期里,经过大家的共同努力,我们也取得了斐然的成绩……我为你们感到骄傲和自豪…… 希望大家再接再厉,未来取得更好的成绩! 如果单纯以笔试成绩来看,想必一半以上的分数要取决于英语了…… 而我,确实好多年来没有好好重视英语的提升,今天看来真有些后悔莫及……虽然也一直觉得这很重要,但是,却没有付出足够的努力! 如果你想要追求更高的生活,你必须要付出更多的努力! 因为你没有任何的背景,除了努力,你别无他途! 这么简单的道理,为什么都不牢牢记在心理呢? ——靠中文就可以好好生活的时代已经过去…… 虽然资质平平,最多也算是中等略偏上,但是我一直在努力! 小学参加奥数比赛,没有辅导甚至是参考资料,只得了一个地区三等奖,信心倍受打击! 中学背历史、政治、化学元素周期表、背单词…… 都让自己对很多知识产生厌恶!但是一直不敢太放弃努力! 本想改学文科,但是未成,大学勉强考上了本科, 毕业时,我是第一批通过四级的人,唯一一个通过了六级的人,唯一一个通过自学通过C语言二级的人…… 数年之后,我是唯一一个通过硕士考试的人,唯一一个考到中科院的人,本科班里唯一一个拥有北京户口的人…… 我能够为系里辅助运营宣传的公众号,丰富大家的精神生活! 其实可能80%的生活都是常规化的工作,我想,我是完全有能力胜任的! 至于和产业界的合作 一、词汇/术语汉译英 1.线性回归 2.方差分析 3.假设检验 4.区间估计 5.渐近正态 6.拟合优度 7.极大似然估计 8.矩估计 9.合影 10.开幕致辞 1. Linear regression 2. Square deviation analysis 3. Hypothesis inspection 4. Interval estimation 5. Gradient near normal 正态分布(Normal distribution)又名高斯分布(Gaussian distribution) 6. Fitting Excellence 7. Maximum likelihood estimate 8. Moment estimate 9. Photo 10. Opening Speech 二、英译汉 On April 25, 2019, a professor-delegation from the University of Copenhagen and Stockholm University will be visiting PKU/Beijing. Their bio-information is provided below, but in short they are experts on using routine collected health and work place data to infer how workplace and social factors affect subsequent health outcomes and on identifying structural barriers within the health system to mitigate or prevent these adverse health outcomes as well as reduce social inequality in health.The latter is an increasingly important concern as the health systems of the world become more personalized, but also more complex. The delegation also includes world-leading researchers on geriatrics, which is of course highly important because of the changing demographics in both countries. The Nordic countries have a decade long tradition for nationwide collection of linkable health and social data on all participants. Chinese health authorities have recently announced how they will increase the likability of similar health data in China. We therefore prose to host a half-day symposium at Dep of Public Health , PKU . The format should be 2-3 talks from the Chinese side and 2-3 talks by the Danish side on current research projects and results obtained using this unique data and research methodology The symposium could end with a 30 min panel discussion of where to go next. 2019年4月25日,来自哥本哈根大学和斯德哥尔摩大学的教授代表团将访问北京。其生物信息如下:但简而言之,他们是专家,他们利用日常收集的健康和工作场所数据来推断工作场所和社会因素如何影响随后的健康结果,并查明卫生系统内的结构性障碍,以减轻或防止这些不利的健康结果,减少社会不平等现象。健康。随着世界卫生系统的个性化程度提高,后者也变得更加复杂,这是一个日益重要的问题。代表团还包括世界领先的老年病学研究人员,这当然是非常重要的,因为两国的人口结构都在变化。 北欧国家在全国范围内收集所有参与者的可联系的健康和社会数据方面有十年的悠久传统。中国卫生主管部门最近宣布,他们将如何提高中国类似卫生数据的可取性。 因此,我们准备在公共卫生部主办一个为期半天的研讨会。形式应是中方2-3次会谈,丹麦方面2-3次会谈,讨论目前的研究项目和利用这一独特的数据和研究方法所取得的成果。 三、汉译英 生物统计系的建立对于提高我国生物统计专业人才培养的质量、多学科交叉和融合等方面,均具有非常重要的现实意义和长远意义。生物统计系成立的宗旨是更好地为北京大学各部、附属医院及社会提供统计相关教学和科研服务,助力医学与疾病预防事业的发展。生物统计系成立以来承担了预防医学七年制本科阶段的《卫生统计学》课程和研究生阶段的《多元线性回归方法》课程。并将承担研究生阶段的所有其他统计相关课程。建立了北京生物统计和数据科学论坛年会制度、国际因果推断年会制度和学术系列讲座周会制度。 The establishment of the Department of biometrics is of great practical and long-term significance to improve the quality, multidisciplinary cross and integration of talents training in biometrics. The purpose of the establishment of the Department of Biostatistics is to better provide statistical related teaching and research services for various departments, affiliated hospitals and the Society of Peking University, and to facilitate the development of medicine and disease prevention. Since its establishment, the Department of Biostatistics has undertaken the Health Statistics course at the seven-year undergraduate level in preventive medicine and the Multiple Linear Regression Methods course at the graduate level. And will undertake all other statistical related courses at the postgraduate level. The annual meeting system of the Beijing Forum on Biostatistics and Data Science, the annual meeting system of international causal inference, and the weekly lecture system of the academic series were established. 四、写作 Don Rubin是因果推断领域的著名学者,北大生物统计系拟邀请他来访问,以促进学术交流,为年轻人提供更好的学习机会。请以生物统计系的名义拟一封给 Don Rubin的中文邀请信和英文译文(请将字数控制在500字以内) 五、文字修订 请指出下述文字中的不妥之处并进行修订: 暴乐,博士,宾夕法尼亚州立大学统计学副教授、高级数据同化和可预测性技术中心副主任。暴乐博士还担任联合国艾滋病规划署首席技术顾问。他还是诊断建模协会(Diagnostics Modeling Consortium)的核心项目团队负责人,该协会的目标是利用建模来指导在资源贫乏环境中有效使用诊断技术鲍乐博士在华盛顿大学(西雅图校区)统计学专业获得博士学位。他的研究领域主要集中在:1.利用统计模型处理诸如艾滋病流行病估计、卫生指标、年龄和特定儿童死亡率等全球卫生问题;2开发大数据快速算法;3.发展分类数据分析方法。其个人网站 *y:http: //www.personal.psu.edulub14/o
个人分类: 人文|2 次阅读|0 个评论
生物统计之信谁的?
热度 11 刘全生 2017-1-10 09:07
生物学的飞速发展一方面得益于科学技术的日新月异,另一个方面生物统计方法的日趋丰满也功劳很大。有了生物统计学这把快刀,生物学家终于对乱如麻的现象有了处理办法,嗯,你答对了,就是P值一刀切,哈哈 然而,方法多了,且并非同门出身,相互打架抵触的地方就多了,别说对刚入门的研究生,就是对我这潜水科研江湖十多载的老手,依然非常迷惑,遇到方法打架的时候,到底向左走还是向右走?到底听数学家的还是听咱们生物学家的? 比如一个双因素的处理实验,在数学家那里会斩钉截铁的告诉你,你的实验设计决定了你必须用双因素方差分析,先评估检验两个因素单独以及交互的效应,然后才是后边的组间比大小。而生物学家看到的统计结果跟实际数据表现不一致,比如在A因素一致下,B因素各组间是有差异的,但双因素比下来说B因素无作用。这下子就乱了,生物学家就认为,这个应该进行两次统计比较。 1)统一A因素,比较B因素各组间差异; 2)统一B因素,比较A因素各组间差异。 可这种做法,数学家是不接受的,因为他们认为你这是把整体设计的实验,又拆分了,而且是为了得到差异而这么做的。 我也遇到过多次这样的问题,但我还是遵从生物学的客观来选择分析方法。我的理由是,数学家眼里可能把东西都给抽干了,自变量一词就把不同性质和效果的因素给同等了,这个在一些情况下就会出现问题。 比如A、B两个因素对要检测的指标的贡献是同向的,且各自设定的不同梯度幅度相当——不能一个是1、2、3,一个是1、10、100,除非前人工作表明他们二者功效就是这么个换算关系。那么可能双因素给你的结果是合理的,是合乎生物学道理的,也是可以解释的。 但是两个因素的贡献若是相反的,或者不知道贡献方向梯度设计不合理,那么仅仅用双因素来评判,可能就会导致误判,明明单因素都是有差异的,因为你多加了一个因素,导致结论反转了。 还有个例子,数学家说进行多次t检验会导致误差放大,所以要校正P值,并提供了个Bonferroni法,无非是给P值除以个比较次数n。但是从生物学角度来讲,放进来比较的各个组彼此是完全独立的,你要是进行所谓的P值校正,谁被校正到完全跟你怎么排序这几组有关了,越在最后的P值标准就越小,或者跟你做实验用了多少组有关了,这难道就合理了吗?这岂不是导致做的越多反而越难得到结果了?某人碰巧就做了两组,一个对照,然后一个t检验之后,p=0.049,差异显著,文章发了。而另一个人多做了一组,而跟上边一样的两组检验后p=0.049,但标准变成0.025了,结论变成差异不显著了,只能自个存着了。 这种情况下,是否需要校正还是要看实际情况的,肯定存在过度使用的问题。因为我遇到审稿专家居然把不同指标进行的多次检验也要求校正,比如我测了两组动物的十多个组织器官重量,我只能选择t检验,他看到我这些数据列在一个表里的两列,他就说需要校正。被我反驳了,虽然我至今也不是很清楚到底什么情况下会出现所谓的误差因为比较次数多而被放大的问题,至少生物学实验里似乎不存在在一个数据对间进行多次比较的事吧? 关于校正我找到经典教材里的解释: Bonferronicorrectionisamethodusedtocounteracttheproblemofmultiplecomparisons.Thecorrectionisbasedontheideathatifanexperimenteristestingndependentorindependenthypothesesonasetofdata,thenonewayofmaintainingthefamilywiseerrorrateistotesteachindividualhypothesisatastatisticalsignificancelevelof1/ntimeswhatitwouldbe ifonlyonehypothesisweretested .So,ifitisdesiredthatthesignificancelevelforthewholefamilyoftestsshouldbe(atmost)α,thentheBonferronicorrectionwouldbetotesteachoftheindividualtestsatasignificancelevelofα/n. 这段话中有个重点,你的目的是要检验多少个统计假设,我的理解数学家的意思是,你要拿n个指标来比较得出一个总的结论:两组间有差异,那么你就需要校正后再下结论。如果你n个指标比完了,各说各的事,那么就是一次比较而已,无须校正。不知对否 相信跟我一样迷糊的同仁不少,同求大神指点哈!
个人分类: 学术探讨|13879 次阅读|25 个评论
基于Rstudio Server的远程计算
热度 1 pegasus 2012-6-10 20:31
基于Rstudio Server的远程计算
为了实现在远程服务器上进行基于R语言的统计计算和生物信息学数据分析,在虚拟服务器上尝试了安装Rstudio Server。 在Fedora 17操作系统上不能通过与RedHat/CentOS (5.4+)等系统类似的rpm包(rpm -Uvh rstudio-server-0.96.304-x86_64.rpm)方法进行安装,会提示找不到libcrypto.so.6(64),libssl.so.6(64)等动态链接库。需要下载源代码包从头安装,最新版下载地址 https://github.com/rstudio/rstudio/tarball/v0.96.304 下载之后,安装步骤: $tar zxvf rstudio-rstudio-v0.96.231-0-g636767a.tar $cd rstudio-rstudio-g636767a $dependencies/linux/install-dependencies-yum $cddependencies/common/ $install-dictionaries $install-gwt $install-mathjax $cd ../../ $cmake-DRSTUDIO_TARGET=Server -DCMAKE_BUILD_TYPE=Release $sudo make install $sudo useradd -r rstudio-server $sudo cp /usr/local/lib/rstudio-server/extras/pam/rstudio /etc/pam.d/ $sudo cp /usr/local/lib/rstudio-server/extras/init.d/redhat/rstudio-server /etc/init.d/ $sudo /sbin/chkconfig --add rstudio-server $sudo ln -f -s /usr/local/lib/rstudio-server/bin/rstudio-server /usr/sbin/rstudio-server 安装之后,服务器配置方法: $sudo vim /etc/rstudio/rserver.conf www-port=8787 www-address=127.0.0.1 auth-required-user-group=rstudio_users rsession-memory-limit-mb=8000 保存文件rserver.conf; 在防火墙中增加可信端口(8787,tcp); 最后,需要在 /etc/httpd/conf/httpd.conf 文件尾添加以下内容。 VirtualHost *:80 Proxy * Allow from localhost /Proxy ProxyPass /rstudio/ http://localhost:8787/ ProxyPassReverse /rstudio/ http://localhost:8787/ RedirectMatch permanent ^/rstudio$ /rstudio/ /VirtualHost 并启动rstudio-server; $sudo rstudio-server start $sudo service httpd restart 至此,就可以通过浏览器(Firefox, chrome)进行数据文件的上传下载、系统管理、编写程序、执行系统命令、统计计算与绘图等等多种任务,从而实现了网络计算。 RstudioServer
个人分类: 网络生物学|7708 次阅读|1 个评论
由免疫学复习想到的-----教材
jasonsongbio 2011-2-25 18:17
几日以来一直奋力的学习免疫学知识,发现免疫系统绝对是一个庞大而复杂的网络,因此也非常赞同免疫网络学说。 本科期间接触到的只是简单的概论性质的免疫知识,那时候免疫并不是我们的主干课,学起来也是马马虎虎,没有研读教材,现在重温本科教材,不仅找回了知识,也发现了书中的不妥之处,包括硬伤以及诸多语言不通之处。教材的名字就不在这里指出了,刚在卓越上发现这本书已经有了新版本,希望新版的教材能稍微完美一下,至少易读性要大大的提高。学习过一本翻译的教材《生物统计学基础》虽然是翻译的,但总感觉能一直能紧紧的跟着作者的思路,十分清晰,学到的知识也十分受用。相比国内相当一部分教材,完全是所谓的科研副产物,几个教授碰个头,就开始编书,抄来抄去,甚至由博士生硕士生代笔整理,教材逻辑性不强,读起来感觉生硬无聊。 当然国内也有很多优秀的教材,也有所谓的优秀教材并不优秀,期望能回归一个心平气和的,不浮躁的科研环境,期待更合理的科研评价体系。
3546 次阅读|0 个评论
[转载]没有生物统计的农艺系?
agri521 2010-8-14 12:03
本帖转载自台大意识报:http://cpaper-blog.blogspot.com/2009/06/blog-post_146.html 笔者注: 据笔者小范围了解,国内农学院校的生物统计课程通常由育种或遗传专业教师讲授,作物栽培组教师一般不会讲授,更不要谈生物统计专业教师了(小范围了解,可能有偏差)。有必要加强或提高农学专业本科生或研究生以及部分教师生物统计知识,保证选择正确试验设计及后续数据处理方法。不知道如何正确应用方差分析的农学类研究生或博后或教师不是合格的研究生或博后或教师。 5月13号晚上,台大批踢踢NTU版上出现了几篇关于农艺系被切割的讨论文章,随即引起热烈的回文与推文讨论。主要内容为农艺系原本的生物统计组被切出来, 另成立生物统计研究所,隶属于生农学院而非农艺系。 据农艺系学生指出,这件事已经被提及将近一年了,农艺系师生站在反对的立场,希望能再跟院方进行沟通协调。只是听闻在5月25号的院务会议中,院长将正式提出提案。为此农艺系学生才感到事态严重而开始有所动作,几乎所有学生包括大学部与硕博士生都加入了连署陈情。 分出生物统计必要?   成立一个新的生物统计所,听起来似乎是个能提升台大在此领域竞争力的好建议,为何农艺系学生会感到强烈不妥? 农艺系学生表示;像是统计遗传学、植物基因体学、田间试验设计、育种试验资料分析或作物育种等等研究,无一不需要结合农业背景的统计做为基础。若没有统计学背后支援实验设计,那么遗传育种组及作物生理组在进行其研究时,也难以从他们的试验数据分析出有价值的结论。    统计作为一门应用科学,必须要搭配其他的应用领域才能彰显其价值。而每个科系所需要的统计大相迳庭,以国外华盛顿大学为例,他们曾经试图整合农艺、森林、动科开立统计课程,但最后还是决定放弃。 以台大过去的例子而言,曾经学校也试图将生农学院里的一些统计课做统整,但终也因为各个科系的需求差异过大,比如像是动科与农艺间就存有着动物与植物本质上的不同,终究无功而返。 其实单独设立生物统计研究所,甚至是开设统计研究所未尝不可,国外多所大学如史丹佛、牛津或哥伦比亚等都有这样系所的设置。但以哥伦比亚大学为例,其统计所的老师大多进行理论性的数学研究,提供各系所教学上的支援。 但是各系仍然保留该领域统计老师。 目前台大也设置统计教学中心生物统计学程整合统计或生统的教学。 无论如何,生物统计所不该是建立在把一个系里的一个组给单独抽离出来,这么做不但将会使农艺系顿失原有统计传统的支撑,也无法达到数学领域各领域专业的任一目标。 农艺与农业 台北农林高等专校是台北帝国大学的前身,台大以农业起家在此领域表现十分卓越,举凡农试所作物粮食改良,或者是农粮所农委会等国家农业计划的执行,都可以看见农艺系毕业校友默默耕耘的身影。或是近日受到国际注目的分子辅助育种,也相当仰赖统计的支援。假使断然决定将生物统计组从农艺系里抽离,是否将会使学生不能如从前受到农业统计的扎实专业训练? 将整个时间轴拉开来谈,面对世界缺粮危机逐渐升高的同时,这样子粗糙的政策是否会对整个台湾社会的因应能力造成影响?是否台大没有体认到自身在农业领域上的优势,没有好好运用从以往日本殖民时代所遗留下来深厚的研究传统? 缺乏沟通与对话 站在院方的立场,曾参与院务会议代表的学生代表表示,院长认为学校一直希望成立一个统筹所有统计教学资源的单位,倘若其他学院争取到了这方面的筹备主导权,所有系所包括农艺系的统计课程都将由其统筹。考量到生农学院的经费年年下降,不如主动出击──将农艺系的强项生物统计组转作成立研究所。 但以农艺系学生的角度看来,系内七名教师将被转走,新进教师的空额又迟迟不补,师资不足的忧虑眼看即将成真,加剧学生的着急与恐慌。而且 未来生统所新进的教师若多没有农业背景,而是来自医学、公卫、甚至动科的话,那么所冲击的不仅是农艺系必修课,整个学术的发展都将受到影响。 目前为止,院方迟迟不直接对学生进行说明与提出草案,让学生徒做臆测,在资讯不流通的情况下更使学生对未来课程与系务的发展感到惶恐不安。校方与学生间必须即刻成立一个有效且直接的沟通平台,坐下来针对优劣利弊进行理性的分析,这不仅攸关农艺系未来的发展与学生能力的培养,也切身的影响到了台湾整体社会对于农业人才的规画,有必要从长计议。
个人分类: 统计计算|3311 次阅读|1 个评论
复杂的统计Partial Correlation与ANCOVA
ricefrog 2009-11-25 21:10
最近一些在看些统计方法方面的文献,但是对于多个因素间的相关分析还是没有太弄明白。 比如这里的偏相关,和协方差分析,就有点混乱了,不知道有没有高人能指点一二。在网上看到一篇小文介绍这两种方法对比的,贴在此处,希望有人能指点一下二者的区别: 原文网址: http://g-jaeger.blogbus.com/logs/13937577.html Partial Correlation 在平时对两个变量求相关的时候,并不能排除其他变量对这两个变量起到相同作用的可能性,例如,当我们去了解一个城市里酒吧与教堂数量的相关时,往往能得到较高的正相关,但这并不代表这二者间存在直接的联系,因为,人口因素在其中就同时影响了教堂与酒吧数量,正是由于人口都变化导致了二者的同步变化,造成了二者之间存在较高正相关的假象。 但有时候我们确实需要了解一些变量之间真正的相互关系,比如,教堂数量和酒吧数量。这时候,就需要剔除人口因素的影响,或者对人口因素进行恒定。 当额外变量得到控制或其影响被剔除时计算的相关系数就是偏相关系数。 偏相关系数比较纯,计算方法么不会,spss点几下就ok~ ANCOVA 协方差分析,思想和偏相关类似,都是在分析的基础上剔除相关变量的影响,从而达到净化分析结果的目的。 在ANCOVA中,选取相关变量作为协变量,将其对因变量的影响剔除。例如,在对不同记忆材料的记忆效果测试中,被试自身的记忆水平就是一个影响记忆效果的额外变量,在进行分析时将其设为协变量,通过协方差分析将其影响剔除。 在ANCOVA的统计结果报告时,通常不报告变量的均方,而是报告adjusted means。 ANCOVA的运用有两个目的,一是在前后测实验中观察实验处理的变化,这时往往将前测成绩作为协变量;另一种情况是将研究系统外的额外变量设为协变量,以隔离其对因变量的影响。
个人分类: 学习心得|15047 次阅读|4 个评论
数学的堕落:从柏拉图学园到生物统计
stoneseed 2009-11-20 23:42
在雅典城的西北,曾有一座以一位叫阿卡德米( Akademia )的英雄而命名的地方。在公元前 380 多年,这里本是一个类似于今天北京工人体育场的公共运动场所,体育场附近有一处别墅庄园。冥冥之中,阿卡德米不平凡的故事便从这里开始了。 庄园的主人是苏格拉底的爱徒柏拉图。在先师死后,柏拉图开始了周游世界。几年后回到雅典,柏拉图决定在这里开设学园,造一处科学沙龙。学园门口有一块著名的招牌:不懂数学者不得入内。 能进学园的人,多少也是有些身份。这些人跟今天出入夜总会的煤老板们还不太一样,这就好比暴发户养大狗,贵族养大马;暴发户比车比女人,而古希腊的贵族攀比的没准就是平面几何和形式逻辑。一道道精巧别致的数学命题,在这些公子爷的手中就仿佛是一个个做工精细的碧玉扳指,这是他们珍爱的玩偶;哪天谁要是能提出个巧妙的小定理轰动一方,说不好当年的名妓花魁就能横下心随他从良。 数学被称作自然科学的王冠,这是一门为了理论而理论的学科,它高贵华丽甚至奢侈,但在当时却不能为古希腊的社会或者军事直接创造财富利益。后来,沉迷于基础理论研究的古希腊被北方张飞李逵般的蛮族攻破,公元 500 多年的时候,柏拉图学园被东罗马帝国的统治者取缔查封。 时光荏苒,生态学在 20 世纪正式诞生了。如果说动植物学是以收集、解剖为基础的博物学学科,那么生态学则是为了挖明白错综复杂的花草虫鸟间的微妙联系,用大多数普通科学家的理解,无非就是数学去建构方程,解读、预测其中的小关联。 重视数字,这是无可厚非的。可是收集数字的活除了辛苦,看似谁都能干。为了显示自己的水平,生态学家们开始在统计学上动脑筋。 20 世纪初叶,一个叫渔民 (R.A.Fisher) 的数学家、统计学家和生物学家茁壮成长起来。渔民 (R.A.Fisher) 的中文名叫飞雪,在数学和生物学这两块坚冰的夹缝中,飞雪钓到了大鱼,他发表了很多强势的论文、诡异的理论以及精巧的公式算法。每当后来的研究者查阅文献,经常会看到这个渔民的名字,飞雪的成就诱导着一批又一批的人开始好好学习数学,也有不少数学背景的人投身于生物事业,但至今无人比大侠飞雪钓到更大的鱼。具有讽刺意味的是, 1953 年一个研究结构物理的和一个养噬菌体的青年混混于剑桥的老鹰酒吧中宣布发现了 DNA 的双螺旋结构,可以说是这哥儿俩推开了现代生物学的大门。除去立体几何,现代生物学的兴起与 Fisher 的数学,甚至生态学都找不到什么关系。 那么为什么如此多人痴迷于用数学去论证生态学?这是因为数学能得出清晰、漂亮的结论。这就像是用 PhotoShop 来修改图片,处理后图看上去完美了。然而无形之中,诸多真实、甚至重要的信息就这样被数学公式静悄悄地篡改甚至抹杀了,这个缺憾很少有研究者愿意提及。 在论文职称体制下,如今中国的生态学无人重视数据的收集,大家都在盯着数据的分析。也许将来会有种软件,类似于 MathShop ,专门供设计论文数据使用。 说实话,用数理统计攒凑发表论文的事咱也干过。我在陕南的竹林子里采集兽类栖息地数据的时候,给我作向导的老乡告诉我很多真理,比如大熊猫春天吃的竹子比冬天吃的要粗,而且只吃粗的,多粗都不嫌粗。这其实就是我一篇关于大熊猫取食地论文的一块结论,回家后整好原始数据,我只需选几种分析手段,并选一种最能够突出结论的统计方法,就万事大吉了。这篇论文评价还行,但能真看明白或者说看的下去的专家却不多。这到不是结论有多高深,而是算法太繁琐,而且数理支持无处不在。其实如果我把通篇的数据分析都删除,这事儿大家就全能看明白了。但那样论文也就发表不了了,因为专家学霸们不承认没有字母、公式的论文叫严谨的现代科学。生态学的大院门口,不知什么时候也戳起了不懂数学者不得入内的招牌。 数学和统计学是否是生态学的灵魂?我不敢妄下评判。但那些越是复杂、精妙的方程、算法,损失的信息就会越多,这一点不可质疑。统计学无法避免两类错误,第一类错误:否定了真实假设;第二类错误:肯定了错误的假设。复杂的比如多元分析里的 PCA 、判别分析等等,由于数据关系错综繁琐,以至每步计算后,错误率都在不断累加,可信度也就一点点地悄然降低。最终的结论其实只能供参考,已经谈不上准确可信了。而正是这些让外行无法阅读的复杂算法在国内生态学界却备受推崇。 社会分工如今是越来越明晰了。科学家学会了用复杂来表示专业和高深,用外行无法看懂的论文来垄断课题经费和学科的发言权。 在柏拉图之后,他的伟大传人亚里士多德就提出了科学家应具备三个条件:好奇、闲暇和自由。如大嘴韩乔生一样,尽管老亚提出过无数经典光辉的错误命题,但光凭这一席见解,他就无愧于科学先知的地位。 可惜的是,中国科学界始终是穷人当家,他们为了论文、职称、房子而耗尽了一切的好奇、闲暇与自由。 柏拉图学园在一千五百年前消失了。那些生活在古雅典,群集于别墅中的公子哥们的预言却在一千年后成为了现实:数学改变了世界。曾经辉煌的柏拉图学园所在地阿卡德米( Akademia )不知什么时候变成了各国科学院、研究所( Academy )的代名词,只是如今的数学理论已经不是古希腊阿卡德米( Akademia )少爷们身上的内画鼻烟壶和翡翠蝈蝈葫芦,而成了高校和科学院( Academy )中一批批穷苦读书人的谋生软件。 穷人命苦,生态学的乌云至今没有因为中国博士的强大数学能力而有一丝消散。
个人分类: 生活点滴|9662 次阅读|17 个评论
生物统计学习笔记—协方差分析
wangzhong 2009-3-11 16:13
协方差分析(analysis of covariance)是将乘积和与平方和同时按照变异来源进行分析,从而将直线回归与方差分析结合应用的一种统计方法。方差分析中,会有所分析的变量本身是受另一个自变量x或多个自变量影响的依变量y,而这些自变量是难以进行有效控制的,如要消除其对依变量的影响,就应首先建立x与y之间的回归关系,然后用方差分析对各因素水平的影响作出统计推断。这两种方法的综合运用就是协方差分析,x称为协变量,y为依变量。
个人分类: 资料积累|36 次阅读|0 个评论
生物统计学习笔记—直线回归与相关分析
wangzhong 2009-3-10 20:49
变量间的协变关系(一个变量随着其它变量的变化而变化的关系)一般有两种:(1)因果关系:一个变量的变化受另一个变量或几个变量的制约,如微生物的繁殖速度受温度等因素的影响,一般用回归分析(regression analysis)来研究;(2)平行关系:两个以上变量之间共同受到另外因素的影响,如人的身高与体重之间的关系,一般用相关分析(correlation analysis)来研究。通过建立回归方程,回归分析可以预测依变量随自变量的变化规律;而相关分析则只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关的程度,但不能用一个变量或多个变量去预测、控制另一个变量的变化。 直线回归 (1)回归方程的建立: 每一个x的取值,都有y的一个分布与之对应,而不是一个确定的y值。但当 时, 的平均数是与之对应的。可以用直线回归方程(linear regression equation)来描述x与y的均值的关系: , 是与x值相对应的依变量y的平均值的点估计值,a是截距,b为斜率,称为回归系数。根据最小二乘法(method of least square),a、b应使回归估计值与观测值的离差平方和最小,即: 为最小值。根据微积分学中的极值原理,必须使Q对a、b的一阶偏导数值为0,最终整理可得: ,SP是x的离均差与y的离均差的乘积和,SSx是x的离均差平方和。 通过实测值即可求得a、b,建立y随x变化的直线回归方程。 (2)直线回归的数学模型和基本假定 在直线回归中,y总体的每一个观测值由3部分组成:y的总体平均数 ,因x变化引起y的变异 以及随机误差 ,故有: 或者 , 对样本资料,即: 。 对于直线回归分析,应满足3个基本假定:x是没有误差的固定变量,而y是随机变量,具有随机误差;x的任一值都对应一个呈正态分布的y总体;随机误差是相互独立的,且呈正态分布。 (3)假设检验 直线回归中,随机变量y的总变异 可以分解为两部分:由x变异引起的变异 和误差变异 ,因此,总变异的平方和: 将 代入,则有: ,即总变异平方和等于由x变异引起y变异的回归平方和加上误差引起的残差平方和,前者记作U或SS回归,U越大,说明回归效果越好;后者记作Q或SS离回归或SS剩余,Q越小,说明回归的估计误差越小。 由于直线回归只涉及一个变量,所以回归平方和的自由度为1,残差平方和的自由度为n-1-1=n-2。平方和除以相应的自由度即为方差。进行F检验,来检验直线回归的显著性。 直线相关 一含量为N的双变量正态分布总体,其平均数为 ,则其离均差乘积和 可以表示直线相关两个变量的相关程度和性质。 为消除不同变量资料x、y的变异程度以及N的大小对离均差乘积和的影响,可以将其转换成以各自标准差为单位的标准离差后用N除之,则有双变量总体的相关系数: , 对样本资料,则有: 。 统计中常引入决定系数(coefficient of determination) ,定义为相关系数r的平方,其含义是变量x引起y变异的回归平方和占y变异总平方和的比率,取值范围为 ,只能表示相关程度而不能表示相关性质。 相关系数的检验:t检验。 直线回归和直线相关的区别与联系: 区别: (1)资料要求不同。回归要求依变量y服从正态分布,而x是可以精确测量和严格控制的量,一般称为I型回归;相关要求两个变量x、y服从双变量正态分布资料,若进行回归则称为II型回归,分别计算出两个回归方程。 (2)应用情况不同。描述两变量间依存变化的数量关系用回归分析,描述两变量间相关关系用相关分析。回归反映两个变量之间的单向关系,而相关则表示两个变量之间的相互关系是双向的。 联系: (1)方向一致。如果对同一资料进行回归与相关分析,得到的回归方程中的b与相关系数r的正负号是相同的。 (2)假设检验等价。 (3)相关回归可以互相解释。
个人分类: 资料积累|12211 次阅读|0 个评论
生物统计学习笔记—方差分析(ANOVA)
热度 1 wangzhong 2009-3-5 21:38
方差分析(analysis of variance,ANOVA),即变量分析,是对多个样本平均数差异显著性检验的方法。 在一个多处理试验中,可以得到一系列不同的观测值。造成观测值不同的原因是多方面的,有的是不同的处理引起的,即处理效应;有的是试验过程中偶然性因素的干扰和测量误差造成的,即误差效应。 方差分析的基本思想就是将测量数据的总变异按变异原因不同分解为处理效应和试验误差,并作出其数量估计。 要正确认识观测值的变异是由处理效应还是误差效应引起的,我们可以计算出处理效应的均方和误差效应的均方,在一定意义下进行比较,从而检验处理间的差异显著性。 假设一个试验有k个处理,每个处理有n个观测数据,则总共有nk的观测值。用 表示第i个处理的第j个观测值,其中i=1,2,3,...,k;j=1,2,3,...,n。 表示第i个处理观测值的总体平均数, 表示试验误差,则有: ,即第i个处理的第j个观测值 是由该处理的总体平均数加上不可避免的试验误差组成的。而对于总体平均数(所有nk个观测数据的平均数) ,则有 。若将各自处理水平上的总体平均数 视为在总体平均数 的基础上施加了不同的处理效应 造成了,则有 。综上, ,即任一个观测数据都是由总体平均数加上处理效应以及试验误差组成的。同理,对于由样本估计的线性模型为: , 为样本平均数, 为第i个处理的效应, 为试验误差。根据 的不同假定,上述模型可分为: 固定模型(fixed model):各个处理的效应值 是固定的,即除去随机误差外每个处理所产生的效应是固定的, 是个常量且 之和为0。此时的试验处理水平常是根据目的事先主观选定的,如几种不同温度下小麦籽粒的发芽情况。 随机模型(random model):各个处理的效应值 不是固定的,而是由随机因素所引起的效应。 是从期望均值为0,方差为 的正态总体中得到的随机变量。如调查不同生境下某物种的生长状况时,不同生境的气候、土壤条件及水分条件等属于无法认为控制的因素,就要用随机模型来处理。 混合模型(mixed model):多因素试验中,既包括固定效应的因素,又包括随机效应的因素,则该试验应对应于混合模型。 不同模型的侧重点不完全相同,方差期望值也不一样。固定模型主要侧重于效应值 的估计和比较,随机模型则侧重效应方差的估计和检验。因此在进行分析及试验之前就要明确关于模型的基本假设。对于单因素方差分析,固定模型和随机模型没有多大差别。 方差分析的步骤: (进行方差分析时需要满足独立样本、方差齐性、正态分布等条件,如果方差不具备齐性(F检验),可首先进行数据转换,如进行对数转换等) 根据方差分析的基本思想,首先要将测量数据 的总变异进行拆分,分为处理效应 和试验误差 ,然后将处理间方差与处理内方差(误差方差)进行F检验,判断处理效应与试验误差差异是否显著。 1.处理间方差 和处理内方差 的计算: (1)平方和的拆分: 。 为第i个处理n个观测数据的平均数, 为全部nk个观测数据的平均数,则有: (试验误差)和 (处理效应),即观测数据 的总变异是试验误差 与处理效应 之和。 将等式两边平方: 每一个处理的n个观测数据累加: 由于 ,在同一处理水平上 为定值,则上式有: 把k个处理再累加则有: 其中: 为总平方和,用 表示; 为处理间平方和,用 表示; 为组内平方和,用 表示。所以: 。 (2)自由度的分解: ,即总自由度=处理间自由度+处理内自由度 则: 最后,根据各变异部分的平方和与自由度,得处理间方差 和处理内方差 : , 。 2.统计假设的显著性检验F检验: , , 。 比较计算所得F值与某显著水平(如0.05)下F值,可得处理间差异是否显著。若处理间差异显著,则需进一步比较哪些处理间差异是显著的。 3.多重比较(multiple comparisions) 常用的方法有:最小显著差数法(the least significant difference,LSD)和最小显著极差法(the least significant range,LSR)。 LSD法: 实质是两个平均数比较的t检验法 由于 ,得 , 当 时, , 为处理内误差方差,n为同一处理内重复次数。 将在一定显著水平上达到差异显著的最小差数LSD定义为: , , 当 ,即在给定的显著水平下差异显著,反之,差异不显著。 LSR法: 采用不同平均数间用不同的显著差数标准进行比较,依据极差范围内所包含的处理数据(也称为秩次距)k的不同而采用不同的检验尺度。常用的方法有新复极差检验(Duncan法)和q检验(SNK)法。 新复极差检验(new multiple range test):也称为Duncan法、SSR法。 当 时,定义某显著水平 下, , , , 为处理内误差方差,n为同一处理内重复次数。将需比较的各平均数按从大到小的顺序排列,则相邻两个平均数位次上的差别M=2,隔一个则M=3,以此类推。根据M值和自由度,即可查新复极差检验SSR值表得 ,然后得出 。 将需比较的两平均数之差与对应的 值比较,则可判断差异是否显著。 ,则差异显著,反之不显著。 q检验法:SNK法 ,本质与LSR法相同,将LSR法中的 替换为 ,查 值表。 当排序秩次超过3时,三种检验的尺度关系为LSD法 多重比较结果标记的方法之一:标记字母法。 首先将全部平均数从大到小依次排列,最大的字母上标a,将该平均数与以下各平均数相比较,凡差异不显著的标a,直至与之差异显著的平均数标b,然后以此平均数为标准,与比它大的平均数比较,差异不显著的在a的后边标b,然后再以标b的最大的平均数为标准,与以下未标字母的平均数比较,凡差异不显著的仍然标b,直至差异显著的标c,以此类推,直至所有平均数都标记上字母为止。 注:当处理内观测次数(重复数)不相同时,计算公式有所改变。
个人分类: 资料积累|35902 次阅读|3 个评论
生物统计学习笔记—样本平均数的假设检验
wangzhong 2009-3-2 22:12
u检验(u-test)大样本平均数的假设检验 当总体方差 已知,或者总体方差未知但样本为大样本( )时,样本平均数的分布服从正态分布,标准化后服从于标准正态分布,即u分布。因此用u检验法进行假设检验。 生物学研究中样本容量很少达到30,故略。 t检验(t-test)小样本平均数的假设检验 当样本容量小于30,且总体方差 未知时,检验样本平均数 与指定总体平均数 的差异显著性,或检验两个样本平均数 和 所属总体平均数 和 是否相等的方法。 一个样本平均数的t检验: 总体方差未知且样本容量n30,小样本的 与 相差较大,故 遵循自由度 的t分布。即: , , ( 样本方差; 总体方差;s样本标准差) 例:成虾的平均体重一般为21g。在饲料中添加酵母培养物后,随即抽取16只,体重为20.1,21.6,22.2,23.1,20.7,19.9,21.3,21.4,22.6,22.3,20.9,21.7,22.8,21.7,21.3,20.7。检验添加培养物后成虾体重与平均体重差异是否显著。 (1)提出假设 : ,即添加培养物后成虾体重没有显著提高。 : ; (2)选取显著水平 ; (3)概率计算: =21.51875 s=0.92824, =0.23206 t=(21.51875-21)*4/0.92824=2.2354 查询双尾t值表,df=15时, =2.131,t ,故P0.05 (4)推断:否定 ,接受 ,即添加培养物后成虾体重与平均体重差异显著。 spss应用: spss分析步骤:数据输入AnalyzeCompare MeansOne-Samples T Test Test Variable 框:待分析的样本(weight) Test Value框:已知的总体平均值(21) 结果输出: 非配对样本(成组样本)均数比较的t检验: 检验两个样本平均数 和 所属总体平均数 和 是否相等,经常用于比较生物学研究中不同处理效应的差异显著性。两个样本是从各自总体中抽取的,其所含变量之间没有任何关联,所以,无论两样本容量是否相同,均可以组平均数进行相互比较,检验其差异显著性。 注:t检验前,应首先进行F检验,以确定其方差齐性。 双样本等方差假设: 即两样本的总体方差 和 未知,但可假设 。首先,以样本各自的自由度 和 作为权数,用样本方差 和 求出平均数差数的方差 ,作为对 的估计: ,则有两样本平均数差数的标准误 : ( 时) 此时: ,具有自由度 。 例:分别测定某物种在两个不同的海拔高度1和2的比叶面积,每个高度测定5组,数据分别为: 海拔高度1:128.59,139.75,137.78,142.04,130.31; 海拔高度2:165.37,153.01,142.37,150.33,143.00。 检验两海拔高度上比叶面积差异是否显著。 (1)假设 : ,即两海拔高度上比叶面积没有差异, : ; (2)取显著水平 ; (3)概率计算: =135.69, =35.13, =150.81, =87.34, 则: =61.23, =4.95, t=-3.0551,自由度df=(5-1)+(5-1)=8时, ,所以|t| ,故p0.05, (4)推断:否定 ,接受 ,差异显著。 spss应用: spss分析步骤:数据输入AnalyzeCompare MeansIndependent-Samples T Test Test Variable 框:待分析的样本; Grouping Variable框:组别; Define Groups:定义要检验的两组的代码。 结果输出: 上图中Independent Samples Test表分为两种情况:等方差假设和异方差假设,此例中两总体方差齐性,故应看第一行,即等方差假设的结果。 双样本异方差假设: 两样本的总体方差 和 未知,且 ,但 时,仍可用t检验,计算方法与等方差假设相同,但自由度df应该用n-1,而非2(n-1)。 两样本的总体方差 和 未知,且 , 时,统计数不再服从t分布,只能进行近似t检验。(略) 配对样本均数比较的t检验: 要求两样本间随即变量配偶成对。进行假设检验时,只要假设两样本的总体差数 ,而不必假定两样本总体方差相等。 设两样本的变量分别为 和 ,共配成n对,各对的差数为 ,则样本差数的平均数: 样本差数方差为: 样本差数平均数的标准误: t值为: ,具有自由度 。 例:研究放牧对土壤氮含量的影响时,分别在8个不同海拔设置围栏,3年后在各海拔围栏内外各取一次土壤分析其氮含量,结果如下: 检验围栏控制对土壤氮含量是否有显著影响。 (1)假设 : ,即两样本总体差数没有显著差异; : , (2)取显著水平 (3)概率计算: =0.0485 =0.0468112 =0.0485/0.0468112=1.036,查表,当df=8-1=7时, =2.365,故t ,p0.05。 (4)推断:接受 ,否定 ,即围栏设置对土壤氮含量的影响不显著。 spss应用: spss分析步骤:数据输入AnalyzeCompare MeansPaired-Samples T Test Paired Variables:配对分析的样本。 结果输出: Paired Samples Statistics:配对样本基本统计量 Paired Samples Correlations:配对样本相关关系 Paired Samples Test:配对样本t检验结果 Mean:两样本变量差数的平均数; Std. Deviation:两样本差数的标准差; Std. Error Mean:两样本差数的标准误; 95% Confidence Interval of the Difference:两样本差数总体平均数的95%可信区间; Sig. (2-tailed):双尾p值。
个人分类: 资料积累|20231 次阅读|1 个评论
生物统计学习笔记—统计数的分布
wangzhong 2009-3-1 22:01
样本平均数的分布 :从一个含有N个变量的有限总体中进行复置随机抽样,每次抽取含n个变量的样本,则所以可能出现的样本总数为 ,每个随机样本都有一个平均数,记为 、 、...、 ,所有的平均数组成一个新的总体,称为样本平均数总体,样本平均数 为总体中的随机变量,构成一定的分布,即样本平均数的分布。不论总体为何种分布,一般只要样本容量大于30,属于大样本,就可应用中心极限定理,认为样本平均数 的分布是正态分布。 样本平均数差数的分布 :从 的正态分布总体(容量为 )中,抽取样本容量为 的所有可能的样本,则可得 个样本,其平均数记为 ,同理,从 的正态分布总体(容量为 )中抽取样本容量为 的所有可能的样本,可得 个样本,其平均数记为 ,把两总体中抽取的样本平均数作所有可能的差,则可得 个差值,这些差值组成一个总体,即样本平均数差数总体,样本平均数差值 是该总体中的随机变量。从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。 t分布 :总体方差 未知,且样本容量较小(n30),此时用样本方差 估计 时,标准离差u就不呈正态分布,而是服从自由度df=n-1的t分布。 t分布的特征: (1)t分布曲线左右对称,围绕平均数0向两侧递降。 (2)t分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线。 (3)和正态分布相比,t分布顶部偏低,尾部偏高,自由度30时,曲线比较接近正态分布曲线,df越大,越趋向正态分布。 一定自由度下,t值落于区间 内的概率是95%,t0.05即该自由度下置信度为95%的临界值,临界值可由双尾t值表查得。 分布 :略。 F分布 :从一正态分布总体 中随机抽取样本容量为 和 的两个独立样本,其样本方差为 和 ,则定义 。F值具有 的自由度 和 的自由度 。如果对一正态总体在特定的 和 下进行一系列随机独立抽样,则所有可能的F值构成一个F分布。 F分布的特征: (1)F的取值区间为 ; (2)F分布的平均数 (因为构成F值的 和 都是同一 的无偏估计值); (3)F分布曲线的形状仅决定于 和 。在 为1或2时,F分布曲线呈严重倾斜的反向J形,当 时转为左偏曲线。 不同 和 下F值可通过右尾F值表查得。
个人分类: 资料积累|6440 次阅读|0 个评论
生物统计学习笔记—概率与概率分布
wangzhong 2009-3-1 16:53
随机事件(random event):某些确定条件下,可能出现也可能不出现的现象。 频率(frequency):事件A在n次重复试验中发生了m次,则m/n即为事件A发生的频率, 。 概率(probability):事件A在n次重复试验中发生了m次,当试验次数n不断增大时,A发生的频率W(A)就越来越接近某一确定值p,则定义p为事件A发生的概率,P(A)=p。 。 常见的随机变量概率理论分布:离散型变量的概率分布(二项分布、泊松分布)和连续型变量的概率分布(正态分布)。 二项分布 (binomial distribution):非此即彼事件的概率分布。每次试验的两个对立的结果的概率分别为p和q(q=1-p)。若事件A在n次试验中发生的次数为x,则x=0,1,2,...,n,其概率分布函数P(x)为: 泊松分布 (Poisson distribution):事件出现的概率(p值)很小,而样本容量或试验次数(n值)很大时的二项分布。其概率分布函数P(x)为: ,其中, =np,x=0,1,2,...。np无限增大时,泊松分布逼近正态分布 ;当二项分布的p0.1和np5时,可用泊松分布来近似。 正态分布 (normal distribution):即高斯分布(Gauss distribution)。许多生物现象的计量资料均近似服从这种分布,试验误差的分布一般服从于这种分布。正态分布记为 ,表示具有平均数 ,方差为 的正态分布。其概率分布函数为: ,表示某一定x值出现的概率密度函数值, 为总体平均数, 为总体标准差, 为圆周率,e为自然对数底,近似值为2.71828。 正态分布中, 决定了分布曲线的中心位置, 则决定了分布曲线的变异度(正态分布曲线的展开程度)。令 =0, =1可将正态分布标准化,即标准正态分布N(0,1),也叫u分布。 ,u称为标准正态离差,表示离开平均数有几个标准差。其概率密度函数为: 标准正态分布的概率累计函数记作F(u),表示变量u小于某一定值u i 的概率。 对于u落在区间 正态分布的概率计算 :将服从正态分布的随机变量x取值区间的上、下限按 转换,查询正态分布的累积函数F(u)值表即可。 例:计算P(|x| +2.58 ) 根据 ,u=2.58,则P(|x| +2.58 )=P(|u|2.58)=P(u2.58)+P(u-2.58)=1-F(u=2.58)+F(u=-2.58)=1-0.99506+0.00494=0.00988。 正态离差u值表可得知两尾概率取某一值时的u临界值,如P=0.05时,u=1.9600,P=0.01时,u=2.5758。
个人分类: 资料积累|7981 次阅读|1 个评论
生物统计学习笔记—试验资料特征数的计算
wangzhong 2009-2-26 22:26
数据(变量)的分布具有两种明显的基本特征:集中性(centrality)和离散性(discreteness)。所谓集中性是指变量在趋势上有着向某一中心聚集或者说以某一数值为中心而分布的性质;而离散性是指变量有着离中心分散变异的性质。 集中性的反映: 1. 算数平均数(arithmetic mean):总体或样本资料中各个观测值的总和除以观测值得个数。 1.1 对一具有N个观测值的有限总体: 1.2 对一具有n个观测值的样本: 2. 中位数(median):观测值依大小排列时居于中间位置的观测值。 观测值个数n为奇数时:第(n+1)/2个 观测值个数n为偶数时:第n/2和n/2 +1个二者平均数 3. 众数(mode):资料中出现次数最多的那个观测值或次数最多一组的中点值。 4. 几何平均数(geometric mean):n个观测值,其乘积开n次方所得数值。适用于变量x为对数正态分布,经对数转换后呈正态分布的资料。 资料中各观测值与其平均数之差平方的总和较各观测值与任一其它数值离差的平方和都小。 离散性的反映: 1.极差(range):又称全距,样本变量中最大值与最小值之差,R。 2.方差(variance):各观测值离均差平方和除以样本容量n,s2。 n-1为自由度df,而总体方差 为: 3. 标准差(standard deviation):方差开方,还原数值及单位,Sd。样本的标准差为s。 变异系数(coefficient of variability):样本标准差除以样本平均数,用以比较两个样本的变异程度,CV。
个人分类: 资料积累|5223 次阅读|0 个评论
生物统计学习笔记—假设检验(hypothesis test)的步骤及两类错误
wangzhong 2009-2-24 16:22
假设检验即显著性检验 (significance test),是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。生物统计学中,一般认为0.05或0.01的概率为小概率。通过假设检验,可以正确分析处理效应和随机误差,作出可靠的结论。 1. 提出假设 : 无效假设 (ineffective hypothesis)或零假设(null hypothesis),H 0 ,假设处理效应与总体参数之间没有真实的差异,试验结果是误差所致。无效假设是直接检验的假设。 备择假设 (alternative hypothesis),H A ,与H 0 对立。 2. 确定显著性水平: 即否定H 0 的概率标准,记为,常取=0.05和=0.01两个标准。 3. 计算概率: 在假设H 0 正确的前提下,根据样本平均数的抽样分布计算出由抽样误差造成的概率。样本平均数可能大于也可能小于总体平均数,因此需要考虑差异的正负两个方面,所以一般计算的都是双尾概率。 4. 推断是否接受假设 根据显著水平的统计数临界值,进行差异是否显著的推断。如T-test中,根据自由度df查表得t 0.05 ,而实际计算得 |t| t 0.05 ,则P0.05,差异显著,反之亦然。 假设检验中的两类错误 错误:如果H 0 是真实的,假设检验却否定了它,就犯了一个否定真实假设的错误,这类错误叫第一类错误,亦称弃真错误(error of abandoning trueness); 错误:如果H 0 是不真实的,假设检验时却接受了它而否定了H A ,则犯了接受不真实假设的错误,这类错误即第二类错误,亦称纳伪错误(error of accepting mistake)。 上述错误的发生是由样本平均数 的抽样分布坐落于某种分布对应区间的概率决定的,当显著性水平取0.05时, 落在该区间的概率是0.95,即当 落于该区间,则95%的把握接受H 0 ,犯错误的概率为5%,而当显著性水平取0.01时,犯错误的概率为1%,但相应的犯错误的概率就会提高,所以,确定显著性水平时显著性水平不一定要定的太高,取=0.05比较合适。 说明:生物统计学教材《生物统计学(第三版)》,李春喜等,2005;spss应用教材《spss13.0在生物统计中的应用》,张力,2006。
个人分类: 资料积累|14251 次阅读|2 个评论
科学圈圈坐8/13 denovo
eloa 2009-1-5 16:13
Melipal 发表于 2008-12-30 15:45 自我介绍:denovo,科学工作者+文艺女青年。ID是很装x的拉丁文,其实只是专业文献里一个常用词汇而已;头衔是很神奇的留美女博士,其实毕业至今也没有人管我叫过Dr. denovo,不是不失望的。8岁的时候写好了诺贝尔获奖感言,18岁的时候觉得只能为科学发展贡献自己的一份力量,28岁的时候人生唯一目标就是不要成为科学前进路上的绊脚石,好在这个目标很容易实现,因为我之于科学最多就是恒河一粒沙,应该绊不倒人的。 Melipal :好,先解释下denovo啥意思好了 denovo :嗯,拉丁文的de novo就是新的或者从头开始这个意思。 Melipal :听说你是做生物统计学的,我对这个学科的了解非常少,可否用几句话介绍一下,这个学科的研究对象是什么?和你本科专业的关系又是怎样的?你又提到自己是做基因统计的,是分析基因组研究的数据,那么从这些数据中可提取什么样的信息?是关于生物群体的还是个体的? denovo :其实我的专业准确的说是统计遗传学,属于生物统计学的一个小分支。我们主要是对于遗传学,尤其是人类遗传学的数据,进行统计分析,来找出其中有意义的特点。同时也要针对遗传学的特性,开发新的统计方法。举个例子说吧,我现在分析的是人类基因组数据,主要是和疾病相关的。现在大家关注的焦点是复杂疾病,也就是非单基因引起的疾病,通常这些疾病的发生同时受到多种因素,包括不同基因和不同环境因素的影响。对于单基因遗传病来说,已经有一套成熟的遗传方法,在不清楚病理基础的情况下也可以从基因组里成千上万的基因中找出致病的位点,不过因为单基因遗传病有很大的选择压力(生病的个体容易被选择掉所以在人群中的比例会降低),所以病的种类不多,影响范围也么有那么大,现在能找到的单基因病都被解决掉啦,做单基因遗传病的最大难题已经不是方法,而是再找到一个罕见的疾病 复杂疾病就不一样,因为有多个基因以及环境因素的参与,单个基因受到的选择压力比较小,所以发病几率高,解决的意义更大。但是也正因为有多个因素参与,每个因素和疾病之间的关系就不那么稳定,比较难找出致病基因现在也不叫致病基因了,叫做易感基因(predisposing gene),就是你有某个基因型,会比没有的人有更高的得病几率。因此,我们需要更新,更强大,更敏锐的统计方法来分析实验数据,尽可能找出这些基因来。 从操作上讲,我们收集某种特定复杂疾病(糖尿病,阿尔兹海默氏症等等)的病人和对应的健康对照组,比较他们基因组的异同,通过统计的方法,找出在病人中比例显著高于在健康人中比例的那些基因型,为后续的生化研究提供备选基因。生化和分子生物学研究是最终确定性的环节,但是因为这些方法目前基本还处于比较小规模研究的阶段(时间,资金都有限制),不可能像遗传学一样进行超大规模筛选,所以我们如果能够提供可靠的备选基因,是非常有意义的。 我本科就学生物,毕业论文做的发育遗传学方向,当时觉得这个方向国内做的人很少,学院也没有这方面的课程,所以一门心思想读个研究生,纯洁地期待将来回学校开这门课,让学生们可以接触到这个有意思的方向,汗 研究生我申请到了一个遗传与发育生物学系,结果第一年上课和尝试不同实验室后,又觉得遗传更有意思,就选了人类遗传的实验室系里唯一一个 做人类遗传的项目需要很多统计知识进行数据处理,所以我又去上统计课,并且接触到统计遗传学,博士论文算是半实验半理论的。现在人类遗传学的测序等方法都有很多企业在做,大多数时候其实可以把实验部分外包给公司,自己专心分析数据,提取出其中有用的信息,所以博士毕业后我就选择到了一个统计遗传学的实验室做博士后。 Melipal :俗套问题,今年在你这个领域内,比较重要的工作有哪些? denovo :从去年到今年,本领域最热门的话题都是个人基因组(personal genome)。去年,DNA双螺旋结构提出者之一,遗传学界的权威沃森(James D. Watson),以及short-gun测序方法的发明人,遗传学界的传奇叛逆人物文特(J. Craig Venter),先后获得了他们的全基因组序列并且向社会公开,任何人都可以使用这些序列资源做研究。今年11月的《自然》杂志上又同时发表了两篇论文,一篇是去年10月中国华大完成的炎黄一号,也就是第一个中国人的全基因组序列测量,另一篇则是今年2月Illumina公司完成的第一个非洲人的全基因组序列测量。测量一个全基因组的时间从沃森所耗费的几个月下降到非洲人的几个星期,资金投入也从几百万美金下降到10万美金左右(而且美元还在看跌!哦也)。所有人都在期待这个时间和资金进一步降低,让遗传学研究进入全基因组时代。 这十年来,因为新方法和技术的迅速发展,遗传学对人类全基因组的研究能力已经提高了几个数量级,从最开始采用300多个微卫星标记(microsatellite markers),到几百万个单核苷酸多态性(SNP),直到上面所说的全基因组测序,也就是直接测量人类基因组中的所有30亿个核苷酸。事实上,使用数百万单核苷酸多态性来研究人类全基因组的方法才开发几年,广泛应用在复杂疾病上并且产生研究成果也就是发表的学术论文不过才是今年的事,世界变化之快实在令人震惊。 全基因组测序与这个方法相比的优势主要有两点,一个是可以直接测量每个位点,提高统计功效,理论上来说更容易筛选出易感基因(不过实际操作有很多复杂之处);另一个就关系到这两年的另一个研究热点:结构异型(structural variation,我不确定这个翻译是否通用)。简单地说,以前我们主要是研究单个核苷酸或者一些比较小型的插入/删除位点,前两年有人发现,其实基因组中存在很多更大的插入/删除事件,并且可能重复发生,造成某段DNA序列在不同人体内有不同的数目,比如说你身上只有一个,我却有4、5个。学界为此十分激动,因为这提供了一个全新的视角,引起疾病易感性的可能不是单纯的有/无某个基因型,也可能是多/少的差别。如果能够做全基因组测序,我们就不会错过任何一个结构异型。 Melipal :与基因有关的疾病能在所有疾病中占多少比例?看你前几个问题的回答,是不是说以后如果基因测序可以普及,人们就可以了解自己有没有某些易感基因,然后针对某些疾病进行必要的防范? denovo :我不知道该怎么计算这个比例,这样吧,我举一些复杂遗传疾病的例子:哮喘、糖尿病、阿尔兹海默症、癌症、心脏病、高血压、肥胖症、自闭症、精神分裂症、抑郁症这里要注意的是,说他们是遗传疾病并不需要知道其确切的易感基因,遗传学有一套比较完备的观察方法(家庭研究、孪生子研究以及领养研究)来确定某个疾病是否有遗传因素存在。 你后面这个问题,就是人们对我上面提到的个人基因组如此热衷的原因之一。理论上来说,如果全基因组测序得到普及,你就可以将自己的基因组与所有已知易感基因型比较,从而了解自己得某种疾病的风险,然后进行必要的防范,包括基因治疗和对于环境因素的控制。不过对于复杂疾病来说,基因治疗并不实际,控制环境因素更重要,比方说你知道自己得肺癌的几率较高,就一定要戒烟。 但是实现这个美好愿望有一个前提,那就是我们已经发现了大量易感基因。但事实上,在复杂疾病的研究上,我们目前都还是在摸索,并没有大的突破,只有少量疾病的少量易感基因已经被确切定位,比如说阿尔兹海默症(Alzheimers disease,以前被称为老年痴呆症,现在因为这个名字政治不正确已经被改掉了)的ApoE。很多疾病的易感基因确实有一些研究支持,但是也还很有争议。美国已经有一家公司在开发躁狂型抑郁症(bipolar disorder)的遗传测试方法,这件事引发了一场不小的争论,研究者认为这是一种相当不负责任的行为,因为目前躁狂型抑郁症虽然有一堆易感基因被报道,却没有一个得到公认;然而病人家属和一些医生却坚持说,只要有可能的测试方法存在,不需要多么精确,就可以对他们有帮助。 Melipal :说到寻找易感基因,依照现在的研究结果来看,拥有这个基因与真正得病之间的关系大不大?应该如何排除其他因素的干扰(比如某些疾病的患者生活习惯或是经历上有共性,这对引发疾病可能更重要),进行验证呢? denovo :其实,对于复杂疾病来说,单个易感基因与真正得病的关系并不是非常明显。通常来说,如果某个基因型的拥有者得病的几率比其他人高几倍,就足以令研究者兴奋不已了。普通人得某种复杂疾病的几率通常是在百分之一上下,所以拥有这个基因型也不过是百分之几。也有一些例外,比如刚才提到的阿尔兹海默症,拥有ApoE基因的第四基因型的人,在75岁以前发病的几率,比没有这个基因型的人要高几十倍。 不过要注意我刚才说的是单个易感基因,复杂疾病复杂的原因之一,就是因为有多个易感基因的相互作用,造成了单个易感基因的效果不显著。如果要说所有遗传因素对疾病到底有多大的影响,这在各个疾病都不相同。我比较了解的是精神方面的疾病,自闭症(autism)的遗传因素占80%左右,躁狂型抑郁症(bipolar disorder)则在50%左右,精神分裂症(schizophrenia)还要更低。 你提到的排除其他因素的干扰确实是复杂疾病研究中非常重要的一个问题。其他因素不光是环境因素,也包括遗传背景,比如说,白人、黑人、亚洲人的遗传背景都有相当大的差别。解决这个问题的方法主要有两个,一个是在前期采样的过程中尽可能选取遗传背景接近的人,越接近越好,当年冰岛的deCODE公司做出许多成果的一大原因,就是冰岛人群相对比较封闭,因此遗传背景近似度较高。在美国的很多研究就采用犹他州人群,也是这个缘故。同样,采样的时候也要考虑到环境因素接近,比如说做肺癌的研究,就最好把抽烟的和不抽烟的人分开来研究。另一个解决方法就是在后期的数据分析中,将已知有影响的因素也加入到模型当中。不过最重要的还是前期采样,后期分析的调整只能是亡羊补牢。 Melipal :易感基因的定位,能不能再仔细说一些呢? denovo :目前最常用的方法是关联分析。简略近似地来说,我们把基因组中每一段序列在病人和健康对照组中的基因型做比较,如果这一段序列的某种基因型在病人中的比例显著高于在对照组中的比例,那么我们就把这段序列作为备选的易感基因。备选基因需要在不同的实验室,不同的取样范围中得到多次重复证实之后,才能成为一个公认的易感基因。易感基因也是一种近似的说法,其实我们认为造成疾病易感性的序列不一定在基因范围之内,只是之前的技术限制使得我们只能将精力集中在已知基因的编码序列周围。 还有一种方法就是家族连锁分析,就是在同一家族成员的基因组上,寻找和生病这个事实共同出现的基因组序列。这个采样上会比较困难,需要比较大的家族谱系,但是理论上来说,因为是家族样本,遗传背景的相似度高,灵敏性也要强一些。 Melipal :不过在家族背景上,同一家族成员携带相同基因是很可能的事情啊,不一定都和家族病有关。那要怎么样才能知道,就是某个或某几个共有的基因组序列诱发了某种疾病呢? denovo :没错,其实就是因为同一家族的成员携带大量相同的序列,所以我们说他们遗传背景接近。在家族连锁分析里面,我们要找的是和疾病共同出现的基因,就是说,这个家族里有得病的,也有不得病的,我们要找那些得病的人有,健康的人没有的基因组序列。这样,因为背景噪音小,发现真正信号的可能就大很多。 Melipal :选取遗传背景接近的人有利研究,是不是说这项工作要尽快啊,毕竟现在的人口流动性要比以往任何时期都大得多,再拖延拖延,恐怕就流动得原形尽失 denovo :这点确实是个问题。比如说我们采用美国东部白人样本,有时就会发现其中也有很明显的遗传背景差别,因为他们这几百年的流动性非常大。所以遗传学研究尽量会寻找相对封闭的人群,现在还是有一些这样的人群,因为信仰或者生活习惯等原因,不太与其它人群通婚,遗传背景的同质性就会比较高。在美国,一个是犹他州的摩门教徒的人群,一个是主要居住在宾夕法尼亚州的Amish人,他们到现在还不用电,驾马车。在中国比较封闭的山区,也有这样的人群存在,接下来几十年应该还够用。中国更严重的问题是家族研究的资源确实越来越少,因为你知道,如果大家都是独生子女,就不可能有大的家族谱系。 Melipal :再补问一问题,针对今年全基因组测序的进展的 全基因组测序如今已经针对个别人完成了,现在有没有什么计划,打算利用这一技术做大样本统计遗传学研究的?是不是由于10万美元的成本,短期内大规模的应用还是不太现实? denovo :是的,现在的限制就是成本。如果能降到一千美元左右,肯定有很多疾病研究采用这种方式。现在使用的方式(用几百万个单核苷酸多态性覆盖整个基因组范围)的成本差不多就是这个范围,而全基因组测序的优势要大得多。除了统计遗传之外,遗传学各个分支都会需要这个技术,2007年《自然遗传学》杂志给很多著名遗传学家的年度问题就是,如果一千美元就可以测一个全基因组,你想做什么?每个人都提出了自己的想法,很多都非常有意思。 按照目前的发展速度,我们有理由期待全基因组测序的价格会继续迅速下降。也许过不了几年,我们统计遗传学的疾病研究就能用上这个技术了。不过在技术成熟之后,统计上的理论研究也必须跟上,一是因为如此海量的数据在统计上提出了更多更复杂的要求,二是除单核苷酸多态性之外的所谓结构异型的分析,也要采用和从前不同的方法。 目前已经有不少国际合作项目,要测量很多人的全基因组序列,比如说千个基因组项目(1000 genome project),这就是一个有世界各知名高校、研究所、生物技术公司参与的大型项目,计划测序一千个全基因组,主要目的是探索人类基因组中的各种变异/多态性等存在的范围和形式,为将来的研究打下基础。中国也有自己的炎黄计划,要测量一百个中国人的全基因组,前面提到的今年11月号自然上面发表的文章,被测者就被称为炎黄一号。 Melipal :如果是你,1000美金就能做的话你做不? denovo :我做,当然做~~~其实我前段时间申请工作时,提交的研究计划就是针对全基因组测序的疾病研究,发展现有的统计理论和方法,必要时开发新的方法,然后在时机成熟(也就是成本下降)后可以立即用于疾病研究。 Melipal :那么你愿意做自己的基因组吗? denovo :哦,你刚才说的是自己的基因组啊,愿意啊,也可以公开,反正学术界的人本来就没有秘密,我们前几天还开玩笑,同学去了公司的,都找不到,在学术界的,一google全翻个底朝天。哈哈。 Melipal :哈哈,换作我,1000美金还是有些贵,不过1000RMB的话,可能真的就考虑去做了 denovo :嗯,是呀,关键是现在做了也没太大实用性,主要是看着好玩。如果真能预测疾病的话我想还是值得 Melipal :不过先预备一份基因组数据呢,我觉得也没啥坏处是吧?这样如果可以用随时就能用上了。 denovo :是啊。不过等等的话,也许将来的技术发展了,错误率变得更低呢。对于统计来说错误率只要比较低,就是可以模型化,可以容忍的东西,但是对于个人来说,千分之一的错误率可就意味着三十亿碱基对里面错了三百万个哈哈。 Melipal :另外再提个个人问题,你那个回国开课的纯洁愿望,现在看来现实么? denovo :关于个人问题,我现在还是有这个美好愿望,当然现在回国就不可能教发育生物学了,只能改教遗传:) 有一个比较现实的问题就是,刚刚毕业的博士回国寻找教职相对来说比较难一些,一方面,我们这个学科目前的状况决定绝大多数人要再接受博士后训练,另一方面,国内对于海归老师的期待还是比较高的,一般希望招到的都是已经有一定成就的人。所以,我还在做博士后:P Melipal :末了再问个更私人化的问题,看你的blog似乎有不少游记啊,你是不是很喜欢旅游?接下来有啥比较有意思的旅行目的地么?推荐一些也行,本人贪玩:P denovo :哈哈,这个问题我喜欢,我可能就是比较喜欢新鲜事物,所以喜欢去不同的地方,看不同的风景和人。我现在琢磨的地方主要是印度,老挝,危地马拉,智利/秘鲁这些,因为发展中国家比发达国家好玩多了,可惜家里人总不让我一个人去,找同伴也不容易。我还想去土耳其,可是他们居然不给中国公民个人旅游签证!所以下一个最现实的目的地应该是新西兰或者北欧吧,也许趁着冰岛降价去凑个热闹:) Melipal :照片要不要发一张,嘿嘿~~ denovo :思考了一下还是来张遮遮掩掩的吧。要是被老板认出来了可不好嗯,这就是发展中国家之一,墨西哥 Melipal :又是在哪个名胜的照片,好羡慕~~ denovo :在墨西哥一个叫做Coba的玛雅遗址。 Melipal采访后记:该访谈可谓一波三折,不是本人在忙其他事情没心思搞提问,就是denovo出差在外不能回信。于是圈圈就断在我这里了,没有形成首尾相接的环路,惭愧惭愧。最后好歹等到两人都有时间了,一天之内搞定一切,不对,是多半天,把催命小桔子吓一跳
个人分类: 科学圈圈坐|2554 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 11:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部