科学网—标签 - correlation

相关帖子	版块	作者	回复/查看	最后发表

热度 6 zlyang 2020-7-20 12:11

鲁索（Rousseau）教授对皮尔逊相关系数实质认识的图示一、鲁索（Rousseau）教授简介比利时情报学家、国际科学计量学与信息计量学学会前会长罗纳尔德·鲁索（Ronald Rousseau）教授，国际著名信息计量学专家，被誉为信息计量学之父。 1979年获比利时科学院奖，2001年获国际科学计量学领域最高奖普赖斯（Price）奖。鲁索和刘玉仙博士，2012，北京 http://users.telenet.be/ronald.rousseau/html/more_pictures1.html 鲁索教授是本网刘玉仙博士、研究员的博士导师。刘玉仙博主是信息科学类杰出博士研究奖（The 2011 Emerald/EFMD Outstanding Doctoral Research Award in the Information Science category）得主。二、鲁索（Rousseau）与皮尔逊相关系数（Pearson product-moment correlation coefficient）的实质 Ronald Rousseau 等人在2003年发现：“ Pearson’s r is probably not an optimal choice of a similarity measure in ACA ”，这里的 Author cocitation analysis (ACA) 是“作者共引分析”。 “ 皮尔逊相关系数可能不是定量计算‘作者共引分析’相关性的好指标 ”，真是吓死人了！皮尔逊相关系数的定义是：由于 r XY 计算时减去了“ 均值 ”，该系数反映的是两个随机变量 X 和 Y 之间波动性之间的“相关性”，而不是“均值”之间的相关性。下面用几幅图片直观示意一下皮尔逊相关系数的意义。不难发现，对于两个“均值”不为 0 的时间序列 X 和 Y ，皮尔逊相关系数反映的是其中波动成分之间的“相关性”，即下图：而不是其“稳定成分/均值”（虚点线）之间的相关性！请参见下图：所以，分析作者们之间的“共引”情况时，皮尔逊相关系数反映的是“作者们之间共引变化 ”之间的“ 相关性 ”，而不是真正的“共引 / 稳定成分/均值 ”之间相关性的强度！三、鲁索（Rousseau）教授该发现的价值预估罗纳德·鲁索（Ronald Rousseau）等人2003年的这个发现，真是吓死人了！俺可不敢说出该发现的广泛影响。它绝对是人类21世纪的“重要”科技发现之一。傻以为：在22世纪，鲁索的这个发现应该被评为“ 人类 21 世纪一百项重要科技成就 ”之一！（1）如果认为【牛顿力学】是“第 1 流”是，【麦克斯韦电磁场方程】是“第 1.3 流”的，（2）那么，Ronald Rousseau 等人2003年可能首创并将引发一个“第 4.5 流”上下的重大科技发现。也许是比“激光和光纤 Laser and Fiber Optics”更重大的发现（发明）；很有可能在“高速公路 Highways”水平上下。不禁又怀念起我国的数理统计学家、中国科学院院士陈希孺教授（ 1934-02-11 ~ 2005-08-08 ）。 http://casad.cas.cn/sourcedb_ad_cas/zw2/ysxx/ygysmd/200906/t20090624_1810233.html 最有可能的前途或许是：数据分析不大可能发展成一门符合现今数学分支严格性标准的那种 “硬” 科学分支，而会以一个其领域没有明确界定的实体而存在，…… 上面截图和引用的文字，请看：陈希孺院士，1998，《数理统计学简史》第276页。四、什么是“相关性”？怎样量化度量“相关性”？都是目前未解难题就是阿Q，一时也没有办法。俺找了又找，还没有找到“科学”地计算“相关性”的单一量化指标。五、俺能提出定量计算“相关性”的新指标吗？就是阿Q“眼里的阿Q”（简写为“QQ”，不是网站qq），一时也不敢夸下海口。参考资料：武夷山，2015-01-23，“大概近似正确”的评价精选 http://blog.sciencenet.cn/blog-1557-861961.html Per Ahlgren, Bo Jarneving, Ronald Rousseau. Requirements for a co-citation similarity measure, with special reference to Pearson's correlation coefficient, Journal of the Association for Information Science Technology, 54(6): 550–560, 2003. http://onlinelibrary.wiley.com/doi/10.1002/asi.10242/abstract 罗纳德·鲁索_百度百科 https://baike.baidu.com/item/%E7%BD%97%E7%BA%B3%E5%BE%B7%C2%B7%E9%B2%81%E7%B4%A2 Ronald Rousseau: Homepage http://users.telenet.be/ronald.rousseau/html/more_pictures1.html Derek de Solla Price Memorial Medal http://www.issi-society.org/awards/derek-de-solla-price-memorial-medal/ 2001 - Ronald Rousseau (Belgium) - Leo Egghe (Belgium) 美国国家工程院. Greatest Engineering Achievements of the Twentieth Century . http://www.greatachievements.org/ 中国科学院，院士，陈希孺 http://casad.cas.cn/sourcedb_ad_cas/zw2/ysxx/ygysmd/200906/t20090624_1810233.html 相关链接： 2020-7-14，破除论文“SCI至上”：给定量化科技评价研究的一些建议 http://blog.sciencenet.cn/blog-107667-1242010.html 2020-06-17，敬请慎重使用和看待“数据统计与分析”的结果 http://blog.sciencenet.cn/blog-107667-1238236.html 2020-06-07，二十世纪最伟大的工程成就：关键时间与起因 http://blog.sciencenet.cn/blog-107667-1236835.html 感谢您的指教！感谢您指正以上任何错误！感谢您提供更多的相关资料！

个人分类: 风电功率预测|5254 次阅读|51 个评论

[请您赐名] 俺提出了新的“相关性”定量指标，请您赐名！！

热度 1 zlyang 2017-12-24 11:42

俺提出了新的“ 相关性 ”定量指标，请您赐名（包括中文名称、英文名称）！！ Karl Pearson Born: 27 March 1857 in London, England; Died: 27 April 1936 in Coldharbour, Surrey, England http://www-history.mcs.st-andrews.ac.uk/history/Biographies/Pearson.html 在分析了皮尔森积矩相关系数（Pearson product-moment correlation coefficient）余弦相似度（Cosine Similarity）谷本系数（Tanimoto Coefficient Similarity，广义 Jaccard similarity coefficient 系数）的特点之后，俺提出了新的“相关性定量指标”。该新指标比“余弦相似度（ Cosine Similarity ）”更有效，比“ 谷本系数（Tanimoto Coefficient） ”适用范围广。自然也比“皮尔森积矩相关系数（ Pearson product-moment correlation coefficient） ”总体上更好。以上内容，不是开玩笑。应该是真的。由于所谓的“重复发表”等限制，俺不敢在这里具体说出该指标的详情。请教：应该给该系数起个什么名字呢？天大系数？俺是天津大学的在职职工。 26e系数？俺的办公室在第26教学楼E区。 530系数？俺的办公室在第26教学楼E区530室。由于以俺名字命名的术语太多了，为了避免重复，最好不要用俺的中英文名字命名。相关链接： Pearson product-moment correlation coefficient. R.B. Nelsen (originator), Encyclopedia of Mathematics. http://www.encyclopediaofmath.org/index.php?title=Pearson_product-moment_correlation_coefficientoldid=18562 Correlation (in statistics). A.V. Prokhorov (originator), Encyclopedia of Mathematics. http://www.encyclopediaofmath.org/index.php?title=Correlation_(in_statistics)oldid=11629 Mathematical statistics. Encyclopedia of Mathematics. http://www.encyclopediaofmath.org/index.php?title=Mathematical_statisticsoldid=26612 Pearson correlation coefficient, From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Pearson_correlation_coefficient Cosine similarity, From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Cosine_similarity Jaccard index, From Wikipedia, the free encyclopedia https://en.wikipedia.org/wiki/Jaccard_index 感谢您的指教！感谢您指正以上任何错误！感谢您赐予该新指标中文、英文名称！

128 次阅读|2 个评论

置信区间：贝叶斯统计里有对应物吗？

热度 2 zlyang 2016-2-21 10:27

置信区间：贝叶斯统计里有对应物吗？置信区间（confidence interval），一般说来，是“经典数理统计学派（频率学派）”的概念。它认为“被估计量”是个常数（真值；总体参数 population parameter ），从有限样本得出的推断值，是在“真值”周围出现的随机变量。这样，置信区间往往可以有相应的解析公式，如常见的均值、方差、相关系数（correlation）的估计，都有公认的置信区间计算公式。请教：贝叶斯统计里，和“置信区间”类似的概念、公式是什么？想学习一下贝叶斯统计，可是还没有时间。感谢您的指教！相关链接： 2014-04-24，均值 μ 为已知，方差 σ 2 的置信区间 http://blog.sciencenet.cn/blog-107667-788300.html Correlation (in statistics). A.V. Prokhorov (originator), Encyclopedia of Mathematics. https://www.encyclopediaofmath.org/index.php/Correlation_(in_statistics) 在1930年代数学界，才实现了概率论的成熟体系（1921年J. M.Keynes 的“主观概率学派”， 1928年 von Mises 的“客观概率学派”， 1933年以柯尔莫哥洛夫的“以测度论为基础的概率公理化体系”）；到 1930年代末期，以 Student（William Sealy Gosset）、费歇尔（ Sir Ronald Aylmer Fisher ）、爱根·皮尔逊（ Egon Sharpe Pearson ）和奈曼（ Jerzy Neyman ）为主将，才使得数理统计学成为一个符合现代数学严格标准的学科。感谢您指正以上任何错误！

8609 次阅读|7 个评论

[转载]Matlab: 半偏相关系数检验

lixujeremy 2014-12-17 10:21

半偏相关系数 sr 的 t 检验： N 是样本量， P 是预测变量总数， R 2 是当被检验变量被包括进来时总的方差解释率，临界 t 值得自由度是 N - P -1 。参考文献 Cohen BH. Explaining psychological statistics . New York, US:John Wiley Sons, 2008. 中译本 : 高定国等译 , 心理统计学 ( 第三版 ) . 上海 : 华东师范大学出版社 , 2011.

个人分类: Mathematics|2277 次阅读|0 个评论

[转载]Matlab: 相关系数检验

lixujeremy 2014-12-16 17:17

相关系数的显著性检验： Null Hypothesis R =0 ， Alternative Hypothesis R ≠ 0 。相关系数 R 的分布分为两种：当样本量 N 很大时， R 服从正态分布；反之， R 服从 t 分布。计算 t 值的最简单公式：自由度是 n-2 。举例，识字率与政治稳定的相关系数 R =0.5 ， N =10 （ nations ）这是强相关性吗？判定系数 R 2 =0.25 ，也就是政治稳定的 25% 的方差可以被识字率解释。代入上式，得到 t =1.63 ，查询 t 分布临界表，自由度为 8 的单侧检验 α =0.05 的临界值是 1.860 ， t =1.63 ＜ 1.860 ，所以不能拒绝原假设 R =0 。小结，相关系数大不一定是显著的，反之，相关系数小也可能是显著的，关键在于采样数量。对于小样本采样，较常出现偶然的强相关性，所以必须对它的显著性进行检验。对于大样本采样，就很容易达到显著性，所以多关注相关系数的强弱，看它包含多少解释信息。

个人分类: Mathematics|7332 次阅读|0 个评论

[转载]Matlab: 偏相关系数检验

lixujeremy 2014-12-16 16:23

偏相关系数显著性的检验假设： Null Hypothesis H 0 ： PR =0 ， Alternative Hypothesis H 1 ： PR ≠ 0. Under the null hypothesis this test statistic will be approximately t-distributed, also with n-2-k degrees of freedom. k为被固定的解释变量个数。 We would reject H 0 if the absolute value of the test statistic exceeded the critical value from the t-table evaluated at α over 2: 举例： PR =0.711879 ， n =37 ，代入得到 t =5.823 ，检验显著性水平 α =0.01 。查询 t 分布临界表，自由度是 37-2-2=33 ，表中没有自由度为 33 的对应数值，选择临近且不大于 33 的 30 ， 0.005 对应 2.750 ，意味着 t ( df , 1- α /2) = t (33, 0.995) 临界值是 2.750 。因为 t =5.823 ＞ 2.750 ，拒绝原假设， PR 在 0.01 显著性水平上两种变量具有显著相关性。

个人分类: Mathematics|4797 次阅读|0 个评论

两种线性相关系数的比较

热度 1 lixujeremy 2014-5-16 22:06

相关系数是用以反映变量之间相关关系密切程度的统计指标。反映两变量间线性相关关系的统计指标称为相关系数（相关系数的平方称为判定系数）。还有曲线相关关系和复相关关系，这二者不是本帖讨论的重点，可能在以后有讨论。文末附有数据和代码。 Pearson 相关系数也称通用相关系数，适用于线性相关与非线性相关情况的描述（张世强等， 2009 ）， MATLAB 自带的 corrcoef 函数采用通用相关系数，其公式如下：式中：。另一相关系数公式来自孙佳（ 2008 ），谈论时间 t i 与变量 x i 之间的相关系数，公式如下：本研究以美国某气象站 1894~2010 年连续的年降水量为例，试应用 MATLAB 分别计算这两种相关系数。本例中年份与降水量的通用相关系数是 0.0681 ，呈正相关，但两个序列相关性并不大。第二种相关系数是 0.2022 ，相关性比通用相关系数增强很多，是前者的近 3 倍。 CorrCoefs.rar 补充（2014.11.23）：上文的第二种相关系数计算过程没有消除不同变量量纲及数量级差异的影响，这可能会遇到结果异常（＞ 1 ），这时候可以使用均值化处理变量再采用时间序列相关系数，附上代码（ Equalization.m ）。注意，采用时间序列相关系数不可以对变量做标准化处理。参考文献张世强 , 吕杰能 , 蒋峥 , 张雷 . 关于相关系数的探讨 . 数学的实践与认识 , 2009,39(19):102-107. 孙佳 . 47 年来石羊河流域气候变化趋势及突变分析 . 兰州 : 兰州大学 , 2008.

个人分类: Matlab|19650 次阅读|2 个评论

[请教] 相关系数、n阶相关、互信息

热度 4 zlyang 2012-7-30 12:50

相关系数、n阶相关、互信息相关系数，如（Pearson product moment correlation coefficient），表示的是两个 X 、 Y （时间序列、向量、随机变量等）之间的线性相似性（线性相关性）。表示两个随机变量 X 、 Y 之间 n 阶相关的量有没有，是什么？互信息（Mutual Information）怎么计算？两个独立的正态分布随机变量之间的相关系数、互信息都是0吗？两个 X 、 Y 之间互信息=0，能表示这两个随机变量 X 、 Y 之间 n 阶相关性为0吗？就是没有 n 阶相似性？感谢您的指教！相关链接： 2014-03-04，《相关系数和互信息之间的解析关系》 http://blog.sciencenet.cn/blog-107667-773091.html

12758 次阅读|12 个评论

如此科研，行否？——correlation和science的区别

热度 2 Synthon 2012-5-14 10:43

刚才看见谢志刚老师的博文《NBA季后赛动物类球队都被淘汰了》，不禁大笑，笑过之后，反而想到，我们的很多科研，是不是也是这样呢？第一步，拿到数据第二步，寻找共性第三步，写文章发表很多时候，共性背后的故事，共性背后的物理意义，是不是或多或少的被忽略了呢？Correlation和Science的区别，也就在此吧。链接：NBA 季后赛动物类球队都被淘汰了: http://blog.sciencenet.cn/blog-532317-570622.html

个人分类: 科教评论|5002 次阅读|5 个评论

Author Name Disambiguation for Citations Using Topic and ...

chengh3 2011-11-8 16:36

Author Name Disambiguation for CitationsUsing Topic and Web Correlation Kai-Hsiang Yang, fromInstitute of Information Science, Academia Sinica, Taiwan ECDL'08 (European Conference on Digital Library) 利用主题相关度和web相关度判断是否重名，用的是pair-wise聚类模型。

个人分类: 重名判别|2857 次阅读|0 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: correlation

相关帖子

相关日志

关闭 安全验证

标签: correlation

相关帖子

相关日志

关闭安全验证