科学网

 找回密码
  注册

tag 标签: 统计软件

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

研究室的笨鸟(2) 统计分析的木牛流马
热度 1 fs007 2012-5-4 09:02
寻正 【寻正按:本文保留版权,任何媒体,包括常规出版业、网络媒体、博客等,没有获得授权,不得转载它处。在本书未完成之前,中国科学网博客是我唯一登载此系列内容的媒体。】 当我在格物致知一节中介绍我因为前辈努力而拥有了摇统计分析的木牛流马,就是指计算机时代的统计分析程序。这样的程序太多了,我不可能一一涉及,也没有必要一一涉及。对于做研究的笨鸟们来说,他们有了问题,需要一个解决方案,并不需要对比各个统计软件的优劣,事实上,对于同样的数据,采用同样的分析模型,也不允许不同的统计软件得到不同的结论。 由于本书的目的是为研究者提供简单易行的操作指南,我有意识地选择了如下统计分析模块作为笨鸟们按图索骥的基础。SAS、SPSS、与Stata入选是因为它们流行,而WinIDAMS、PSPP、SOFA与R入选则是因为它们属于免费软件。在选择免费软件时,我尽量选择拥有全面功能的统计分析软件,读者需要理解,在此之外,尚未有一些特别模块,比如计算样本量的PS软件,值得读者尝试。【对于感兴趣的读者,推荐观阅 StatPages.org针对免费统计软件的列表 。】 在我开始写本书时,我尚不熟悉所列举的免费软件,但我愿意用实际例证,向读者表明,如果你掌握了本书的基本概念,注重应用,而不是那复杂的统计学的机械计算程序,你也会象我一样,玩转统计分析的木牛流马。当然,我们这样玩的基础是对开发这些软件的专业人员的充分信任:如果我们提供了适当的数据输入,选择了适当的统计模块,他们的软件就会产生一致的分析结果——这一点,大家在细读本书的例证操作时就可以一次又一次地验证。 不同的统计程序有不同的特色,比如使用SAS软件,我就不喜欢亚分(Subset)现有数据库,觉得麻烦,而采用Stata时,就没有亚分的概念,而是可以针对同一数据库采用if限制选择亚样本。之所以不把这种区别称为优缺点,而只是特色,是因为对于熟练的用户来说,这两种方式几乎没有区别,亚分在工作目录里的数据文件只是临时性的,并不占据空间,跟Stata临时选择样本是异曲同工。 或许对一个能熟练使用各种统计软件的人来说,这些软件都有优劣,但对于实验室的笨鸟来说,那是镜花水月,优点未必让你受益,缺点也似乎无伤大雅,我们还是回到写作与阅读本书的底线上来:如果一项统计分析太复杂,你需要咨询统计专家,让专家做适当的统计分析,你的目标是采用统计程序,做一些力所能及的简单统计分析——许多人最终会惊奇原来许多统计计算自己也能胜任。 我在1990年代专门修过一门课程,是SAS的应用。在那一门课中,我几乎没有机会真正地应用SAS来做统计分析,绝大部分时间,都花在学习SAS的数据管理。许许多多的人,都恐怕难以理解为什么枯燥的数据管理是如此重要,事实上,在我没有向人提供统计分析服务前,也或多或少心存疑虑。一旦我开始向研究者提供如此服务,我就意识到了数据收集管理的重要性,在我提供的统计分析服务中,超过半数的时间在指导顾客如何收集数据或者浪费在有缺陷的数据中。不久前,我就为一位顽固的拒不理解分析单元这一基本概念的顾客而灰心丧气,为他提供统计分析的时间,不到向他解释示范数据收集的1/5。 如果是一位统计专家撰写本节内容,接下来的任务就是针对各个软件的安装与设置详细地一一介绍。我决定不那么做,因为那样存在着两个风险,一是信息过量(Information Overload),我撰写本书的宗旨就是回避统计分析无所不在的复杂,需要证明的是不知其所以然也能做出适当的统计分析来,我需要读者始终保持阅读本书的轻松状态,你会骑自行车吗?统计分析的木牛流马的操作远比骑自行车简单多了,前提是要象你骑自行车一样,谁在乎自行车的所有机械原理?如果某个国家立法不懂自行车原理就不准骑,你一定认为该国立法人员有病。如何安装软件与设置,对于那些真正想应用本书内容的人来说,应当已经不成为问题,如果是问题,则可以在网络上搜索,这样的指南应当随手可得。 其次是我不希望本书枯燥无味,让读者在兴致既起之际,忽然被一堆技术细节浇上一盆冷水。我们会征服这些技术细节,但不是简单地堆砌,让读者迷失在术语与机制的迷宫中。在本节的附录中,我简单介绍各个统计软件的获取与安装,挂一漏万,如果有问题在交流中解决。 现在我们的注意力转到一个具体的问题上来,那就是,“我需要安装什么系统?”我为你提供了六个备选项,你究竟需要选哪一个,还是六个都选? 如果你经费允许,可以选择付费程序,否则免费程序可以达到同样的目的,学习成本不会相差太大。SAS的收费策略是细水长流,每年都要更新执照,而Stata是一杆子买卖,一次收费很多,但终生使用,不过,隔几年又出新版本,让你陷入To upgrade or not to upgrade(更新或不更新)的超级困惑中。那么SPSS呢,好象两种策略都在使用,价格跟SAS与Stata不相上下。不过,好消息是,有人不满SPSS的价格,开发了一个替代产品,称为PSPP,PSPP与SPSS肯定有些差距,但对于我的读者来说,有跟没有一样。不过,PSPP是GNU软件,需要在GNU/Linux系统中运行。 在我所提供的四项分析软件中,SOFA与R同时有Linux版本与Windows版本。我欣赏开源软件的理念,因此,相关例证全经Linux系统产生,以平衡付费软件都是基于Windows的这一倾向。开源系统比如Ubuntu的图形界面已经做得很不错了,Windows下对应的绝大多数程序都有了对应,强烈推荐读者在新配置的机器上使用开源系统。 在免费软件中,R可能要艰深一些,是属于专业级的软件,很多统计专业人员都用它,R现在已经有了图形界面,但可能更方便写程序。联合国教科文组织的WinIDAMS相当于SAS没有图形界面。PSPP与SOFA则有图形界面,相对而言,可能更易操作。如果你真心要使用这些软件,其实有没有图形界面关系不是很大,并不增加多少学习成本。 每一种软件都有自己的操作习惯与基本概念,虽然从一种软件跳到另一种软件并不困难,但读者基于实用目的,只需要掌握一种软件即可。如果强行要我对于从未接触过统计软件的人进行推荐,我推荐R,因为掌握这门技能具有更大的扩充性,放在简历上比较体面。 统计学是纯西方发展起来的学科,读者不可避免地要掌握英文词汇,对此我只能建议读者咬牙忍受,习惯了就不觉只有方块字才美。为了增长读者英文知识,我也尽量详注相关英文词汇,增加读者理解专业文献的能力。 【寻正按:本文保留版权,任何媒体,包括常规出版业、网络媒体、博客等,没有获得授权,不得转载它处。在本书未完成之前,中国科学网博客是我唯一登载此系列内容的媒体。】 2012.05.03
个人分类: 笨鸟先飞|4759 次阅读|1 个评论
R专题ppt
热度 4 laijiangshan 2010-11-6 07:25
R语言作为新兴的统计软件,以开源、自由、免费等特点已经风靡全球。虽然在国内生态学及生物多样性研究中,R软件应用时间相对较短,但其优点迅速得到国内同行、特别是年轻的科研人员和研究生们的认可。为了促进R在生态学和生物多样性研究中的应用,让更多的人了解R,特在今年11月4-6日在厦门大学召开的第九届生物多样性保护与持续利用研讨会增加新的专题,即R 统计在生态学和生物多样性研究中的应用,召集人: 赖江山 lai@ibcas.ac.cn 牛克昌 kechangniu@pku.eud.cn . 报告题目 时间 报告人 报告时间 报告人单位 R语言历史、发展和现状 10分钟 赖江山 4日晚6:30-6:40 中科院植物所 R的基本用法与做图 25分钟 牛克昌 4日晚6:40-7:05 北京大学 用R做贝叶氏斯分析 25分钟 储成进 4日晚7:05-7:30 兰州大学 R语言在地统计学中的应用 25分钟 原作强 4日晚7:30-7:55 中科院沈阳生态所 基于R的多元统计分析 25分钟 赖江山 4日晚7:55-8:20 中科院植物所 基于R的混合效应模型的应用 25分钟 陈磊 4日晚8:20-8:45 中科院植物所 基于R的系统发育分析 25分钟 张金龙 4日晚8:45-9:10 中科院植物所 R语言历史、发展和现状 赖江山 (中国科学院植物研究所生物多样性与生物安全研究组) R语言是一个用于统计计算和统计制图的优秀软件,与著名的统计编程语言S有着密切的关系。20世纪90年代早期,新西兰奥克兰大学统计系的Robert Gentleman和Ross Ihaka两位学者按照S语言的规范开始开发R,并将R作为一个自由软件进行发布。尽管R语言历史不长,但以其开源、自由、免费等特点已经风靡全球。目前用R作为统计工具的科技论文成指数级增长。从2004年起至今(2005年除外),R开发团队每年都会举办一次R的国际会议,参会者和报告人数不断增加。R也有其刊物R News,创办于2001年,自2009年起,R News将更名为The R Journal。 中国人民大学统计系就R语言在国内推广做了很多贡献,比如多次举办R的全国会议,开办统计之都论坛(http://cos.name/cn/)R的版块,翻译多本R的中文教程并免费放在网站供下载。 国内生态学及生物多样性研究人员认识R和使用R历史并不长。普兰塔论坛及中国科学院生物多样性委员会为R在生态学界的推广应用做了不少工作。曾多次举办R的培训班,包括在本届研讨会设立R的专题等等。R语言也逐步受到国内生态学工作者,特别是青年学者和研究生们的青睐。希望本专题的推广,让更多参会者了解R语言,并利用它在统计分析上的优势为自己的专业问题提供灵活的解答。 R软件在生态学和生物多样性研究中的应用简介 牛克昌 (北京大学 城市与环境学院生态学系) 近年来随着数据分析方法和数学模型在生态学和生物多样性研究中的迅速发展,传统的统计软件已经很难满足迅速发展的数据分析要求。R 软件发展十年,以其灵活、开放、易于掌握、免费等诸多优点,在生态学和生物多样性研究领域,迅速赢得研究者们的青睐。然而,R软件在国内生态学和生物多样性研究中的应用还相对较少。很多初学者因R需要输入命令并做些简单编程,而望而却步。为此,本文从R软件的发展入手,深入浅出地简单介绍了R的常用命令、失量赋值和运算、数据录入和管理以及结果输出等基本操作。进而用R软件举例介绍了生态学和生物多样性研究中常用的数据分布、方差分析、线性模型和最大似然估计等数据分析方法。并重点介绍了生态学和生物多样性研究中常用的sem、smatr、ade4、vegan、ape、untb、bidiversityR等一些程序包的命令、用法和应用前景。R软件的迅速流行不仅仅是因为它在数据分析上的强大和灵活,更重要的是它可以将数据分析和作图展现集成于一体,输出高质量图片。为此,本文以Paul Murrell的《R Graphics》书为篮本,重点介绍了 R的基本作图命令、方法和个性化拓展。并进一步简单介绍了用ggplot、lattice和grid等一些程序包进行高级作图方法。最后,本文也介绍了国外一些学习R的网上资源,组织结构和会议活动等。并呼吁在国内生态学和生物多样性研究中积极应用R软件。 贝叶斯推断在生态学中的应用及R2WinBUGS包介绍 储诚进 兰州大学 自然系统是复杂的,统计之目的就是要从复杂的现象中发现规律,探索机制。而我们常见的频度(frequentist)统计手段尽管在生态学的发展历史上功不可没,但是许多时候都不能很好的解决自然系统复杂性问题,其将多种不确定性因子作为噪音(noise)包含在模型的残差中,这导致一些情况下不可解释的残差太大,严重影响了对生态学现象的深入理解。贝叶斯层次模型是近年来兴起的处理生态学复杂性的统计方法,与传统的统计手段如线性回归与方差分析相比,能够非常好在数据分析中包含多个不确定性因子,如个体间、物种间差异与空间异质性等。通过超参数,构建不同层次的统计模型。对于某一参数,综合先验知识(未获取数据之前对参数的认识)与实验数据(似然函数形式),从而得到该参数的后验估计(经过实验数据校正后的参数值)。本文首先系统介绍了贝叶斯统计的基础,然后以Niklas等生物量分配数据为例,介绍了WinBUGS软件进行贝叶斯分析的一般步骤,最后介绍了R2WinBUGS包,阐述如何综合BUGS与R进行相关数据分析。模型中参数以概率分布的形式给出,因而很方便也很自然地得到参数的平均值和中位数以及对应的区间估计等。不同于传统统计中采用p值来观察某实验处理的效果是否明显,贝叶斯统计主要依赖于参数的可信区间(credible interval)进行相关的判断。 R语言在地统计学中的应用 原作强 中科院沈阳应用生态研究所 地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关和依赖性的自然现象的科学。如今,地统计学已经被广泛用于地理学、生态学、环境科学、土壤学等诸多领域。与传统的地统计(如ArcGIS,GS+,ISATIS)软件相比,R软件具有免费、灵活、交互、可控性强等特点。本文以geoR和gstat包为基础,系统介绍了在地统计分析过程的几个常见步骤(1)数据的建立及正态性检验,当数据不符合正态分布时如何进行Box-Cox转换(2)模型建立过程中如何使用4种不同的方法,方便地从15个理论模型中选择最优的模型,并介绍如何通过转置计算,得到半方差函数的包迹线(envelop),从而直观的判断数据点之间是否存在空间自相关关系(3)如何根据要求,任意选择空间点差值(point interpolation)或面差值(areal interpolation),差值方法包括simple kriging、ordinary kriging, trend kriging and external (universal)trend kriging等(4)介绍两种不同模型检验(Validation)方法,即部分验证整体和交互验证(Cross-Validation)(5)如何在R软件中进行高斯模拟(Gaussian simulation)操作。最后简要介绍了差值图形的输出及软件使用过程中经常出现的问题。 基于vegan包的多元统计分析 赖江山 (中国科学院植物研究所生物多样性与生物安全研究组) 多元统计分析是群落生态学最常用分析方法,其核心部分是排序(ordination)。从群落学角度将,排序的过程是将样方或植物种排列在一定的空间,使得排序轴能够反映一定的生态梯度,从而,能够解释植被或植物种的分布与环境因子间的关系,也就是说排序是为了揭示植被-环境间的生态关系。能够做排序的软件比较多,其中使用最广泛的是荷兰著名生物统计学家TerBraak 编写的CANOCO软件。CANOCO容易操作,熟悉过程比较快,为广大的研究人员熟悉,估计90%用到排序的文章都是引用这个软件。笔者曾经编译了《Multivariate Analysis of Ecological Data using CANOCO》(Jan Leps和 Petr Smilauer 著)部分章节,并放在网上供下载,受到广泛的关注。尽管CANOCO使用广泛,操作简单,但其最大的缺点就是本身是商业软件,而且价格不菲,版本更新速度很慢。尽管有破解版或是过期版的可以用,但使用过程容易出问题,帮助内容也不容易理解。这些缺点造就了R的Vegan包将可以取代CANOCO 的可能。Vegan是Vegetation analysis的缩写, 专门是植被群落分析的软件包(作者 Jari Oksanen )。Vegan 软件包内函数囊括了常用的排序方法,如PCA、CA、RDA和CCA等 ,还有很多方法是CANCO软件里面没有的,比如更多数据标准化的方法,显示更多排序轴内容,可以做三维排序图等等。本报告将CANOCO里面的分析与Vegan里的函数做了对比,让熟悉CANOCO的人能也能尽快熟悉R的函数。 基于Lme4包的混合效应模型 陈磊 (中国科学院植物研究所生物多样性与生物安全研究组) 由于混合效应模型在分析大量复杂数据方面具有较大优势,因此其在最近几年受到了生态学研究者的关注。作为一个自由、免费、源代码开放的软件,大量的软件包被数学家开发并植入了R这个开放的平台,其中Lme4 软件包就是其中的一个专门用于分析混合效应模型的特色软件包。该软件包由威斯康星大学麦迪逊分校的Douglas Bates教授牵头组建,目前的最新版本是2010年8月19日发布的lme4_0.999375-35。该软件包不仅能够进行线性混合效应模型的计算还能对广义线性混合效应模型以及非线性混合效应模型进行参数估计。另外,该软件还将MCMC(Markov Chain Monte Carlo)方法整合到了线性混合效应模型的参数估计中,使用者能够通过非常简单的操作就能准确对待估参数的置信区间以及显著度进行计算。与其他的混合效应模型计算软件(如:SAS,SPASS等)相比,lme4软件包无论在计算方法的多样性、前沿性还是在可操作性方面都具有较大的优势。 基于R的物种生态位进化分析摘要 张金龙 (中国科学院植物研究所生物多样性与生物安全研究组) 随着标本数字化及文献数字化的进行,物种的分布资料被陆续整理成物种分布数据库。生态学家已经开发出多种分布模型,以预测物种的潜在分布区,包括Bio-Climate, GARP, Maxent等。以往的物种分布模型多没有考虑到物种之间的进化关系。最近发展出的方法使得人们可以利用物种分布记录和物种之间的系统发育关系,对物种的适应性进化进行推断。首先基于物种分布记录,获得该物种的潜在分布区,以获得该种的适应性范围。获得每个种的适应性范围后,即可利用系统发育比较方法中的祖先状态重建来推断各节点的状态,即相应节点的适应性范围,从而获得物种对各气候因子的适应性的分化情况。R的phyloclim程序包基于ape、adehabitat、ade4等程序包,可以完成上述分析,从而使得人们对物种进化过程的了解更加全面和深入。 R专题ppt
个人分类: RDA|23934 次阅读|6 个评论
几种主流数据统计研究软件优缺点体会
热度 5 zhaoxing 2010-7-23 20:05
赵星2010年7月23日 http://www.sciencenet.cn/u/zhaoxing/ 数据统计分析软件是绝大部分学科研究者必须掌握的工具。下表中列出了学习和研究过程中对于几种主流数据分析和统计软件的优缺点总结体会,其中一些运用较自如,有的还属没吃过猪肉,只见猪跑路阶段。 软件名 优势 缺点 常见应用领域 定位与前景 Matlab 功能全面; 算法工具箱; 统计图形; 需编程基础; 统计学功能不完善; 工科; 自然科学; 数值计算老大,或能一统江湖 SPSS 易用; 统计学功能全面; 版本功能升级快; 不灵活; 运行效率不高; 社会科学; 统计学入门级软件 SAS 统计学功能强大; 大样本分析; 需编程; 社会科学; 统计学; 理科; 进阶的统计学软件 Stata 易用; 类似于SPSS; 数学; 自然科学; Excel 极其易用; 统计图形; 运行效率低; 样本量限制; 统计学功能不完善; 商务运用更多 小样本数据初步分析 R 免费; 统计图形; 统计学功能; 数学; 统计学; 经济学; Origin 优秀的统计图形; 版本功能升级快; 统计学功能不完善; 统计图形绘制老大,或能一统江湖 注:(1)空白不代表没有,只是不知该怎么描述。(2)Origin实际上并不完全算是统计分析软件,其统计功能正在不断增添中,但已经很多研究者直接使用其作为统计分析工具。 以上仅是个人肤浅体会,望斧正、补充。 一点建议是,研究不应为工具所累。纯熟一种,熟悉两种,知道三种即可。灵活运用,相互补充。以研究问题选择工具,而不是工具或方法导向式进行研究。也不建议耗费过多时间专门学习工具,而应以研究题目为驱动,实践中掌握,熟能生巧。精习一种软件后,自当触类旁通。掌握学习方法后,定会无师自通。
个人分类: 计量学|22093 次阅读|13 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 20:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部