科学网

 找回密码
  注册

tag 标签: Pearson

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[严肃内容] 鲁索(Rousseau)教授对皮尔逊相关系数实质认识的图示
热度 6 zlyang 2020-7-20 12:11
鲁索 (Rousseau)教授对 皮尔逊相关系数 实质认识的图示 一、鲁索(Rousseau)教授简介 比利时情报学家、国际科学计量学与信息计量学学会前会长罗纳尔德·鲁索(Ronald Rousseau)教授,国际著名信息计量学专家,被誉为信息计量学之父。 1979年获比利时科学院奖,2001年获国际科学计量学领域最高奖普赖斯(Price)奖。 鲁索和刘玉仙博士,2012,北京 http://users.telenet.be/ronald.rousseau/html/more_pictures1.html 鲁索教授是本网刘玉仙博士、研究员的博士导师。刘玉仙博主是信息科学类杰出博士研究奖(The 2011 Emerald/EFMD Outstanding Doctoral Research Award in the Information Science category)得主。 二、鲁索(Rousseau)与皮尔逊相关系数(Pearson product-moment correlation coefficient)的实质 Ronald Rousseau 等人在2003年发现:“ Pearson’s r is probably not an optimal choice of a similarity measure in ACA ”,这里的 Author cocitation analysis (ACA) 是“作者共引分析”。 “ 皮尔逊相关系数可能不是定量计算‘作者共引分析’相关性的好指标 ”,真是吓死人了! 皮尔逊相关系数的定义是: 由于 r XY 计算时减去了“ 均值 ”,该系数反映的是两个随机变量 X 和 Y 之间波动性之间的“相关性”,而 不是“均值”之间的相关性 。 下面用几幅图片直观示意一下皮尔逊相关系数的意义。 不难发现,对于两个“均值”不为 0 的时间序列 X 和 Y , 皮尔逊相关系数反映的是其中 波动成分 之间的“相关性”,即下图: 而不是其“稳定成分/均值”( 虚点线 )之间的相关性!请参见下图: 所以,分析作者们之间的“共引”情况时, 皮尔逊相关系数 反映的是“作者们之间 共引变化 ”之间的“ 相关性 ”,而 不是真正的“共引 / 稳定成分/均值 ”之间相关性的强度 ! 三、鲁索(Rousseau)教授该发现的价值预估 罗纳德·鲁索(Ronald Rousseau)等人2003年的这个发现,真是吓死人了!俺可不敢说出该发现的广泛影响。它绝对是人类21世纪的“重要”科技发现之一。傻以为:在22世纪,鲁索的这个发现应该被评为“ 人类 21 世纪一百项重要科技成就 ”之一! (1)如果认为【牛顿力学】是“第 1 流”是,【麦克斯韦电磁场方程】是“第 1.3 流”的, (2)那么,Ronald Rousseau 等人2003年可能首创并将引发一个“第 4.5 流”上下的重大科技发现。 也许是比“激光和光纤 Laser and Fiber Optics”更重大的发现(发明);很有可能在“高速公路 Highways”水平上下。 不禁又怀念起我国的数理统计学家、中国科学院院士陈希孺教授( 1934-02-11 ~ 2005-08-08 )。 http://casad.cas.cn/sourcedb_ad_cas/zw2/ysxx/ygysmd/200906/t20090624_1810233.html 最有可能的前途或许是: 数据分析不 大可能 发展成 一门符合现今数学分支 严格 性标准的那种 “硬” 科学分支 ,而会以一个其领域没有明确界定的实体而存在,…… 上面截图和引用的文字,请看:陈希孺院士,1998,《数理统计学简史》第276页。 四、什么是“相关性”?怎样量化度量“相关性”?都是目前未解难题 就是阿Q,一时也没有办法。 俺找了又找,还没有找到“科学”地计算“相关性”的单一量化指标。 五、俺能提出定量计算“相关性”的新指标吗? 就是阿Q“眼里的阿Q”(简写为“QQ”,不是网站qq),一时也不敢夸下海口。 参考资料: 武夷山,2015-01-23,“大概近似正确”的评价 精选 http://blog.sciencenet.cn/blog-1557-861961.html Per Ahlgren, Bo Jarneving, Ronald Rousseau. Requirements for a co-citation similarity measure, with special reference to Pearson's correlation coefficient, Journal of the Association for Information Science Technology, 54(6): 550–560, 2003. http://onlinelibrary.wiley.com/doi/10.1002/asi.10242/abstract 罗纳德·鲁索_百度百科 https://baike.baidu.com/item/%E7%BD%97%E7%BA%B3%E5%BE%B7%C2%B7%E9%B2%81%E7%B4%A2 Ronald Rousseau: Homepage http://users.telenet.be/ronald.rousseau/html/more_pictures1.html Derek de Solla Price Memorial Medal http://www.issi-society.org/awards/derek-de-solla-price-memorial-medal/ 2001 - Ronald Rousseau (Belgium) - Leo Egghe (Belgium) 美国国家工程院. Greatest Engineering Achievements of the Twentieth Century . http://www.greatachievements.org/ 中国科学院,院士,陈希孺 http://casad.cas.cn/sourcedb_ad_cas/zw2/ysxx/ygysmd/200906/t20090624_1810233.html 相关链接: 2020-7-14,破除论文“SCI至上”:给定量化科技评价研究的一些建议 http://blog.sciencenet.cn/blog-107667-1242010.html 2020-06-17,敬请慎重使用和看待“数据统计与分析”的结果 http://blog.sciencenet.cn/blog-107667-1238236.html 2020-06-07, 二十世纪最伟大的工程成就:关键时间与起因 http://blog.sciencenet.cn/blog-107667-1236835.html 感谢您的指教! 感谢您指正以上任何错误! 感谢您提供更多的相关资料!
个人分类: 风电功率预测|5312 次阅读|51 个评论
[请您赐名] 俺提出了新的“相关性”定量指标,请您赐名!!
热度 1 zlyang 2017-12-24 11:42
俺提出了 新 的“ 相关性 ”定量 指标 , 请您赐名(包括中文名称、英文名称)!! Karl Pearson Born: 27 March 1857 in London, England; Died: 27 April 1936 in Coldharbour, Surrey, England http://www-history.mcs.st-andrews.ac.uk/history/Biographies/Pearson.html 在分析了 皮尔森积矩相关系数(Pearson product-moment correlation coefficient) 余弦相似度(Cosine Similarity) 谷本系数(Tanimoto Coefficient Similarity,广义 Jaccard similarity coefficient 系数) 的特点之后,俺提出了新的“相关性定量指标”。 该新指标比“余弦相似度( Cosine Similarity )”更有效,比“ 谷本系数(Tanimoto Coefficient) ”适用范围广。自 然也比“皮尔森积矩相关系数( Pearson product-moment correlation coefficient) ”总体上更好。 以上内容,不是开玩笑。应该是真的。 由于所谓的“重复发表”等限制,俺不敢在这里具体说出该指标的详情。 请教: 应该给该系数起个什么名字呢? 天大系数?俺是天津大学的在职职工。 26e系数?俺的办公室在第26教学楼E区。 530系数?俺的办公室在第26教学楼E区530室。 由于以俺名字命名的术语太多了,为了避免重复,最好不要用俺的中英文名字命名。 相关链接: Pearson product-moment correlation coefficient. R.B. Nelsen (originator), Encyclopedia of Mathematics. http://www.encyclopediaofmath.org/index.php?title=Pearson_product-moment_correlation_coefficientoldid=18562 Correlation (in statistics). A.V. Prokhorov (originator), Encyclopedia of Mathematics. http://www.encyclopediaofmath.org/index.php?title=Correlation_(in_statistics)oldid=11629 Mathematical statistics. Encyclopedia of Mathematics. http://www.encyclopediaofmath.org/index.php?title=Mathematical_statisticsoldid=26612 Pearson correlation coefficient, From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Pearson_correlation_coefficient Cosine similarity, From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Cosine_similarity Jaccard index, From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Jaccard_index 感谢您的指教! 感谢您指正以上任何错误! 感谢您赐予该新指标中文、英文名称!
128 次阅读|2 个评论
SPSS基本功--线性相关分析
ctylinux 2016-5-17 11:19
小概率事件:5%以下,正常不会发生的。 假设A与B不相关概率为0.00。则可以推导出A与B存在强相关。 若显著性>0.05,Pearson系数基本上接近于零。 线性相关分析只证实是否相关,但是具体不知道如何互相影响。 embed src=http://player.youku.com/player.php/sid/XOTIzNDE0MTAw/v.swf allowFullScreen=true quality=high width=480 height=400 align=middle allowScriptAccess=always type=application/x-shockwave-flash/embed
个人分类: 数据分析思路|3031 次阅读|0 个评论
[转载]pearson, kendall 和spearman三种相关分析方法的区别
阿路龟 2011-4-22 11:57
1. Pearson相关 Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment correlation)。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。 例7-1 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见表7.6,试对母血TSH水平与新生儿脐带血TSH水平进行相关分析。 表7.6 10名孕妇及其分娩时脐带血TSH水平 母血TSH 1.21 1.30 1.39 1.42 1.47 1.56 1.68 1.72 1.98 2.10 脐带血TSH 3.90 4.50 4.20 4.83 4.16 4.93 4.32 4.99 4.70 5.20 对资料进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系,我们可以应用第二章中介绍过的plot过程或gplot过程来执行绘制散点图的功能。散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系。 为方便起见,此处我们将绘制散点图和相关分析一次完成。此处将母血TSH水平用x1来表示,脐带血TSH水平用x2来表示,编制SAS程序如下。 data temp; input x1 x2@@; datalines; 1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 ; proc gplot; plot x2*x1='*'; run; proc corr; var x1 x2; run; quit; 进行Pearson相关分析是Corr过程的默认方式,故无需再在proc corr语句后指定pearson选项。 将以上程序提交执行,结果如下。 (1)两变量散点图,见图7.1。 图7.1 变量x1与x2之散点图 (2)两变量相关分析结果 The SAS System 19:34 Monday, December 23, 2002 4 The CORR Procedure 2 Variables: x1 x2 Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum x1 10 1.58300 0.28856 15.83000 1.21000 2.10000 x2 10 4.57300 0.42277 45.73000 3.90000 5.20000 Pearson Correlation Coefficients, N = 10 Prob |r| under H0: Rho=0 x1 x2 x1 1.00000 0.68073 0.0303 x2 0.68073 1.00000 0.0303 结果中首先给出两变量的描述性统计量,然后给出变量的相关系数矩阵(var语句所列变量中任两者之间的相关系数),对于检验假设为H0: 的假设检验结果(仅给出 P 值)列在相应相关系数的下面。 本例中,散点图表现出明显的椭圆形,说明两变量间存在一定的直线相关,相关分析的结果也验证了这一点,相关系数不为零( P =0.03030.05)。 另外,用with语句可以对特定的变量对进行相关分析,此例可将corr过程中间的语句改为: var x1; with x2; 因此例仅有两个变量,原程序显得更为简便,但在变量较多时,with语句可发挥很好的作用。 2. Spearman秩相关 当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图。 例7-2 用60Co对狗造成急性放射病,对照射后5天时的健康状况进行综合评分,并记录其存活天数,见表7.7。试作等级相关分析。 表7.7 狗急性放射病综合评分及其存活天数 综合评分 79 80 91 90 70 87 92 存活天数 45 30 16 24 28 25 14 将综合评分和存活天数分别用变量x和y表示,编制程序如下。 data temp; input x y@@; datalines; 79 45 80 30 91 16 90 24 70 28 87 25 92 14 ; proc corr spearman nosimple; var x y; run; quit; Proc corr语句的spearman选项即要求用Spearman秩相关来进行数据分析,nosimple选项则用来禁止对变量描述性统计量的输出。 提交上述程序,结果如下。 The SAS System 19:34 Monday, December 23, 2002 6 The CORR Procedure 2 Variables: x y Spearman Correlation Coefficients, N = 7 Prob |r| under H0: Rho=0 x y x 1.00000 -0.89286 0.0068 y -0.89286 1.00000 0.0068 SAS仍旧给出相关系数矩阵,其内容和Pearson相关分析的完全一样,只不过相关系数的计算方法不同而已。 三、不同类型资料的回归分析 1. 单变量线性回归分析 这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。 例7-3 针对例7-1资料,分娩时脐带血TSH水平(mU/L)受母血TSH水平的影响,试进行回归分析。 此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。 data temp; input x y@@; datalines; 1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 ; proc reg; model y=x; run; quit; 虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。 The SAS System 10:35 Wednesday, December 25, 2002 1 The REG Procedure Model: MODEL1 Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 1 0.74542 0.74542 6.91 0.0303 Error 8 0.86319 0.10790 Corrected Total 9 1.60861 Root MSE 0.32848 R-Square 0.4634 Dependent Mean 4.57300 Adj R-Sq 0.3963 Coeff Var 7.18304 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr |t| Intercept 1 2.99422 0.60958 4.91 0.0012 x 1 0.99733 0.37945 2.63 0.0303 结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R2(R-Square)、校正R2(Adj R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。 两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验; 取值范围在-1-1之间,此检验适合于正方形表格; 参考: http://blog.sina.com.cn/s/blog_4ea081e401008x6g.html http://h9798912.blog.163.com/blog/static/21793210200753103345750/
个人分类: 科研|57439 次阅读|0 个评论
在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔) 和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同(转)
热度 2 edisonlou 2009-12-23 18:18
在SPSS软件相关分析中, pearson (皮尔逊), kendall(肯德尔) 和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同 两个连续变量间呈线性相关时,使用 Pearson 积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述. Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从 Pearson 相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。 Pearson 相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。 Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验; 取值范围在-1-1之间,此检验适合于正方形表格; 计算积距 pearson 相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。 计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关 Pearson 相关复选项 积差相关 计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关,适用于合并等级资料 Spearman 复选项 等级相关 计算斯皮尔曼相关,适用于连续等级资料 注: 1若非等间距测度的连续变量 因为分布不明-可用等级相关/也可用 Pearson 相关,对于完全等级离散变量必用等级相关 2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用 Spearman 或 Kendall相关。 3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用 Pearson 分析方法。 在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项: Pearson Kendall's tau-b Spearman:Spearman spearman(斯伯曼/斯皮尔曼)相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为等级差数法 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究 Kendall's相关系数 肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。 肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记0.5。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为ij。 正态分布的相关检验 对来自正态总体的两个样本进行均值比较常使用T检验的方法。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时用的计算T值的公式不同。 进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。P值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。 U检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体方差通常是已知的。 虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。 均值检验时不同的数据使用不同的统计量 使用MEANS过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与Descriptives过程不同之处。 检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程。 检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程。 如果分组样本不独立,用Paired Sample T test 配对t检验。 如果分组不止两个,应使用One-Way ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。 如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test. 如果用户相比较的变量是分类变量,应该使用Crosstabs功能。 当样本值不能为负值时用右侧单边检验。
个人分类: 相关论文|24629 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 19:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部