气象.水.熵.复杂性分享 http://blog.sciencenet.cn/u/zhangxw 张学文的文章,涉及气象、水分、熵、统计、复杂性、一般科学等

博文

新年发现新公式:英语词汇量与覆盖率的指数函数

已有 5747 次阅读 2017-1-1 17:57 |个人分类:统计、概率、熵、信息、复杂性.2.|系统分类:科研笔记|关键词:学者| 英语, 公式

新年发现新公式:英语词汇量与覆盖率的指数函数

张学文,2017/1/1

方才看冯国平博主的博客http://blog.sciencenet.cn/blog-1380776-1024714.html 其中谈及英文词汇的有关方面,并且给出了一个表

词汇量

1000

2000

3000

4000

5000

6000

15,851

文章覆盖率

72.00%

79.70%

84.00%

86.80%

88.70%

89.90%

97.80%

我理解其含义是你的词汇量达到对应的水平,你就认识了文档中的对应的比率(百分比)的词汇。如认识4000词汇就可以看懂文章中98.8%的词汇。

一时感到这个关系重要又有规律性,就套了一下公式,发现词汇量x,与覆盖率y 是很好的指数函数关系,而体现这个关系的相关程度的R平方值高达0.99(最高是1)!

发现一个统计关系如此好我很高兴。

发现一个统计关系如此好,我很高兴。

联系着各种语言的统计规律是很有趣的。我过去分析汉字中的笔画数量与该笔画数的汉字的数量关系,并且从理论上说明它应当符合对数正态分布(见组成论一书188页)。

下面把对应的图也贴在这里(公式从略)。

      谢谢冯国平博主以及他今天的博客http://blog.sciencenet.cn/blog-1380776-1024714.html




https://m.sciencenet.cn/blog-2024-1024740.html

上一篇:热烈祝贺科学网博客10年+希望
下一篇:元旦我国各地雨雪前30名符合幂律(20170102)

5 檀成龙 杨正瓴 周少祥 张骥 李本先

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 04:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部