||||
新年发现新公式:英语词汇量与覆盖率的指数函数
张学文,2017/1/1
方才看冯国平博主的博客http://blog.sciencenet.cn/blog-1380776-1024714.html 其中谈及英文词汇的有关方面,并且给出了一个表
词汇量 | 1000 | 2000 | 3000 | 4000 | 5000 | 6000 | 15,851 |
文章覆盖率 | 72.00% | 79.70% | 84.00% | 86.80% | 88.70% | 89.90% | 97.80% |
我理解其含义是你的词汇量达到对应的水平,你就认识了文档中的对应的比率(百分比)的词汇。如认识4000词汇就可以看懂文章中98.8%的词汇。
一时感到这个关系重要又有规律性,就套了一下公式,发现词汇量x,与覆盖率y 是很好的指数函数关系,而体现这个关系的相关程度的R平方值高达0.99(最高是1)!
发现一个统计关系如此好我很高兴。
发现一个统计关系如此好,我很高兴。
联系着各种语言的统计规律是很有趣的。我过去分析汉字中的笔画数量与该笔画数的汉字的数量关系,并且从理论上说明它应当符合对数正态分布(见组成论一书188页)。
下面把对应的图也贴在这里(公式从略)。
谢谢冯国平博主以及他今天的博客http://blog.sciencenet.cn/blog-1380776-1024714.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-24 04:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社