刘洋的博客分享 http://blog.sciencenet.cn/u/outcrop 管中窥豹,盲人摸象

博文

科学网博文最常用的30个汉字

已有 6874 次阅读 2011-6-10 17:04 |个人分类:计算机应用技术|系统分类:博客资讯|关键词:学者| 汉字, 科学网, 博文, 最常用

严谨点的说法是:科学网博文中使用频率可能最高的30个汉字。这是一个小样本统计,只统计了400多万字的博文。

Total:4135858
indexwordcountpercent
11680094.06225262086%
2597841.4455041735%
3508261.22891066376%
4433571.04831935719%
5415161.00380622352%
6380110.919059600209%
7364110.880373552477%
8363820.879672367862%
9361400.873821103142%
10330760.799737321736%
11295600.714724731845%
12290520.70244191169%
13276920.669558771118%
14274190.662957964224%
15268820.649973959454%
16262170.633895070866%
17251380.607806167426%
18247630.598739124989%
19237060.573182154706%
20233130.563679894232%
21210740.509543606188%
22198520.479997137232%
23193510.467883568536%
24184700.446582063504%
25182550.44138362584%
26178130.430696605154%
27176140.425885027968%
28174910.422911038048%
29173860.420372266166%
30170830.413046095877%

据说大样本统计下,全国人民使用频率最高的30个汉字依次为[1]:

序    号    汉字      出现次数        累计字数          万分比        累计万分比 
     1    的       2948833       2948833     341.277         341.277     
    2    一        974062       3922895     112.731         454.008     
    3    国        921530       4844425     106.651         560.660     
    4    在        708916       5553341      82.045         642.704     
    5    人        697930       6251271      80.773         723.478     
    6    了        684656       6935927      79.237         802.715     
    7    有        670720       7606647      77.624         880.340     
    8    中        663971       8270618      76.843         957.183     
    9    是        657739       8928357      76.122        1033.305     
   10    年        616475       9544832      71.346        1104.651     
   11    和        584413      10129245      67.636        1172.287     
   12    大        570956      10700201      66.078        1238.366     
   13    业        565293      11265494      65.423        1303.789     
   14    不        546979      11812473      63.303        1367.092     
   15    为        468456      12280929      54.216        1421.308     
   16    发        461512      12742441      53.412        1474.720     
   17    会        445670      13188111      51.579        1526.299     
   18    工        433014      13621125      50.114        1576.413     
   19    经        425318      14046443      49.223        1625.636     
   20    上        417611      14464054      48.331        1673.968     
   21    地        412051      14876105      47.688        1721.655     
   22    市        403159      15279264      46.659        1768.314     
   23    要        388850      15668114      45.003        1813.317     
   24    个        379160      16047274      43.881        1857.198     
   25    产        376257      16423531      43.545        1900.744     
   26    这        375400      16798931      43.446        1944.190     
   27    出        367460      17166391      42.527        1986.717     
   28    行        361038      17527429      41.784        2028.501     
   29    作        350129      17877558      40.521        2069.022     
   30    生        344272      18221830      39.844        2108.866     

和科学网博文高频汉字是有出入的,对比一下,也许会有一番启发

比如科学网博文中的“学”,能达到第6位,这是相当独特的。

还有“我”,排到14位,能否说明科学网博主的文章更具有客观性?

======== 延伸阅读 ========


博客感言
https://m.sciencenet.cn/blog-1750-453712.html

上一篇:个体极大的左右了科学发展进程
下一篇:《黄帝内经》全文字频统计

28 鲍海飞 周海华 马峥 陈儒军 高建国 赵明 刘庆丰 武京治 王号 汪梦雅 鲍得海 杨秀海 桂耀荣 朱新亮 刘钢 蒋迅 白图格吉扎布 许培扬 丁甜 陈国文 杨月琴 蒋继平 曾新林 李云森 张天翼 梁进 xiaxiaoxue86 wliming

该博文允许注册用户评论 请点击登录 评论 (60 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 21:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部