科学网—标签 - 统计分析

相关帖子	版块	作者	回复/查看	最后发表

1901-2013年诺贝尔生理·医学奖统计要点

zhpd55 2013-10-7 21:48

1901-2013 年诺贝尔生理·医学奖统计要点诸平 2013年度诺贝尔生理学·医学奖 2013 年 10 月 7 日在瑞典揭晓，美国耶鲁大学细胞生物学系系主任詹姆斯· E ·罗斯曼（ James E. Rothman ， 1950- ）、美国加州大学伯克利分校细胞生物学家兰迪·谢克曼（ Randy W. Schekman ， 1948-) 和德国生物化学家托马斯·聚德霍夫（ Thomas C. S ü dhof ， 1955- ） 3 人共享奖项，以表彰他们发现细胞内部囊泡运输调控机制。自 1901年以来到2013年之间，已经有204人获得诺贝尔生理·医学奖，其中有38人是独立获得当年的诺贝尔生理·医学奖，在所有诺贝尔生理·医学奖得主中有10为女性获奖者，204位获奖者获奖时的平均年龄57岁，而获奖时年纪最小的仅有32岁，他是1923年因为发现胰岛素而获得诺贝尔生理·医学奖的弗雷德里克·G.班廷( Frederick G. Banting ), 年龄最长的获奖者是1966年诺贝尔生理·医学奖得主裴顿 · 劳斯（ Peyton Rous ），获奖时已经 87岁。更多信息请浏览： http://www.nobelprize.org/

个人分类: 新观察|8062 次阅读|0 个评论

统计分析官员与平民“子女”的一些差异

热度 2 可变系时空多线矢主人 2013-5-7 13:52

统计分析官员与平民“子女”的一些差异资料来源：人民网　　从 “ 湘潭神女 ” 到 “27 岁副县长 ” ，在公众的质疑声中，人们越来越笃信官员子女能够借助父母权力获得比同龄人更好的前途；而他的同事们，则希望通过严谨理性的数据分析来观察这种社会现象。清华大学中国经济社会数据中心，在 2010 年开展的第一轮中国大学生就业追踪调查。究竟什么因素在决定大学毕业生的就业和收入，是调查的主要关注点之一。 “ 首轮调查涉及全国 11 个省份的 19 所高校，共有 6059 名应届毕业生接受了问卷形式的调查。他们的统计分析表明，作为官员子女的大学毕业生，能够拿到高出其他同学约 15% 的起薪。　　在调查中， “ 官员子女 ” 的划分标准是学生父母中至少一人为政府官员，符合这一标准的学生占样本总量的 14% ，和有着相同家庭结构、个人能力和大学经历的同学相比，他们毕业时的起薪要高出大约 15% 。数据数据显示，来自普通家庭的学生学分积比官员子女更高，但是他们的英语成绩较差。同时，大学期间他们从事打工兼职的可能性也更高。而两类学生在持有技术等级证书、入党和担任学生会干部方面没有明显区别。　　根据数据，好的家庭背景能够提高大学毕业生的起薪。而在就业分布上，官员子女大学生更多地在金融业以及党政机关、群众组织、社会团体、国际组织等行业就业，而非官员子女在采矿业、制造业、建筑业和医疗卫生行业的就业比例明显高于官员子女。根据 2010 年的调查数据显示，大学应届毕业生工资最高的是交通行业，平均 3067 元；其次是 IT 类， 2588 元；接下来是文体， 2416 元；电力， 2377 元；金融和制造业持平，都是 2312 元；然后是教育，最低的是医疗， 1440 元。清华大学中国经济社会数据中心的常务副主任李宏彬说： “ 我们不愿用一个笼统的 ‘ 官二代 ’ 身份来解释这种差异，真正值得关注的是这种差异背后的逻辑。 ” 官员子女缘何起薪高？好的家庭背景能够提高大学毕业生的起薪？　　什么因素决定大学毕业生的就业和收入、、　　对话　　一个好的社会应当保持合理的流动性　　受访者：李宏彬，清华大学中国经济社会数据中心的常务副主任，长江学者特聘教授，斯坦福大学经济学博士，研究领域为发展经济学和劳动经济学。　　记者：官员子女能获得更好的个人前途，这几乎是当前社会公众的一种 “ 共识 ” ，而你们的研究数据也支持了这种感性认识。　　李宏彬：表面上人们可能看到这样一种现象：官员的孩子更成功，但是这种成功的背后可能有很多原因，比如受到家庭环境和基因的影响。官员的个人能力更强，收入更高，他们的子女比普通家庭的孩子更聪明，受到的教育更好等等。而我们的研究是要把这些因素和官员本身这个因素分开，经过科学的方法去掉基因、家庭早期培养这些因素，去比较两个孩子。如果他们的智商、受到的教育是一样的，唯一的差别是在大学毕业的时候一个是官员的孩子，另一个不是，去看他们会有什么差别。　　记者：在你们的数据统计中，富裕家庭子女在起薪方面和普通家庭子女的差别比官员子女更大，父母收入每增加 1% ，子女大学毕业后首份工作的工资就增加 3% ；但你更关注官员子女的问题，为什么？　　李宏彬：这两个问题哪个问题的影响更严重，是可以讨论的。　　国内民众对富人子女的抱怨和反感主要有两方面原因：一是富人赚取财富靠的是不是自身的能力和努力。一个有效率的社会应该是鼓励有能力的人去赚钱，比如乔布斯，他创立了苹果，赚了很多钱，他的孩子继承他的财富，有人会有意见吗？无可厚非的。但如果你的钱是通过手中的权力、行贿受贿获得的，那老百姓一定会有抱怨。　　二是富人怎么教育自己的子女。现在是一个收入迅速变化的时代，一些父母忽然有钱了，但他们没处理好怎么去教育孩子。　　我在美国待了很长时间，斯坦福周围是美国最富裕的区域，很多大科技公司老板都住在那里。富人们也和普通人一样每天在街上穿着 T 恤跑步，他们的孩子也和普通孩子没什么差别，没有那种开着法拉利在街上招摇过市的，很低调。而现在很多国内的富人子女都非常招摇，这就人为地造成了阶层对立，这可能需要很长一段时间来改变，让中国的富人适应过富人的生活。短期来看富人子女的问题比较明显，但从长远来看并不是一个问题。　　而官员子女通过父辈手中的权力和资源 “ 寻租 ” 获得更好的机会，比如进入薪水更高的行业，就是一个比较严重的问题了。这种情况会严重影响社会经济的效率和公平，阻滞社会阶层的流动性。一个好的社会应当保持合理的流动性，才能真正给人以尊严。从制度上来说，需要想办法遏制官员的权力，尽量把权力市场化。没有过多的权力，就没有可交易的东西，也就不存在这种 “ 寻租 ” 的可能性。　　记者：在一些网友的评论当中，认为大约 15%( 不到 380 元 ) 的起薪差距并不算太大，您认为呢？　　李宏彬：这个很难说。我们统计的是起薪，按道理来说，起薪不应该因为这个问题有差别；而且这种收入差可能会随着时间而增加，但目前还没有这方面的数据研究。　　记者：除了父母的官员身份之外，还有哪些因素在影响大学生的第一份工作收入呢？　　李宏彬：从我们的数据统计来看，首先是家庭，比如家庭的收入对大学生的起薪有显著影响。从大学方面来说，名校的影响很大，专业也会有影响，但学习成绩没有用，成绩好的孩子收入反而低，学分积排名前 20% 的毕业生起薪反而要比其他学生低 10% 。　　不过，英语好的孩子收入会高，样本内英语四级成绩前 20% 的毕业生比其他人的起薪高 18% 。　　另外，当学生干部、入党都是有用的；但打工没有用，会降低收入。因为在大学里特别努力学习的学生往往是穷孩子，为了奖学金而学习，打工也一样，是为了养活自己。这些数据表明我们大学教育也需要反思。　　意见　　 “ 一种纯粹的 ‘ 官员升水 ’ 在中国社会确实存在 ” 　　李宏彬和他的同事们尝试给这 15% 的工资差异找到合理的来源 —— 　　譬如，他们在之前的研究中发现，中国官员们总体上有高于社会平均水平的个人能力， “ 官爸爸 ” 或 “ 官妈妈 ” 整体上的教育水平更高，而这种能力很可能通过遗传或家庭教育的方式传给子女。　　譬如，官员的社会地位和工作特点，使他们具有更高见识和更发达的关系网络，官员子女也可能因此获得独特的信息优势。高考志愿填报是一个非常讲究策略的事情，拥有信息优势的官员子女在填报志愿时风险承受能力更强、经济条件更好的话，那么他们上好大学的机会就更大。　　譬如，官员子女在大学期间更加努力、更懂得把握学习和发展的机会，积累了更高的人力资本。　　但是，当研究者们控制了父母户口、学历等变量之后， “ 官员子女 ” 的身份对起薪的影响基本没有减弱；而在控制父母其他方面的特征，尤其是收入之后，父母政治资本的影响甚至更强了。　　而在考虑了学校和专业因素后， 15% 的工资差异也没有被显著削减， “ 官员子女 ” 和 “ 非官员子女 ” 上好大学的几率相当；两类学生在持有技术等级证书、入党和担任学生会干部方面也没有明显区别。　　研究者们并没有对官员子女高收入水平的合理来源给出结论 —— 与有着相同家庭结构、个人能力和大学经历的同学相比，一个官员子女可以获得额外 15% 的收入。 “ 一种纯粹的 ‘ 官员升水 ’( 注： “ 升水 ” 译自英文单词 Premium ，意为额外费用，奖赏，加价 ) 在中国社会确实存在。 ” 李宏彬说。　　而这种影响的具体机制还有待于进一步的研究。

个人分类: 其它|4451 次阅读|7 个评论

关于显著性检验

热度 2 csiro 2013-1-11 10:07

昨天审阅一篇论文，用遥感资料做全国的分析，弄到每个像元。问题是它对每个像元的植被指数的时间变化趋势都做分析，即使时间趋势不显著的情况，也分析它的变化率。我想强调一点的是，如果没有通过显著性检验，一般p值小于0.05认为显著，0.01认为极显著，再分析就没有意义了。这个道理很浅显，但是竟然有不少人还是这么做。是数学老师的责任吗？

个人分类: 交流篇|5618 次阅读|2 个评论

SPSS中分析结果的注释修改

Bearjazz 2012-8-14 10:57

SPSS 中分析结果的注释修改熊荣川六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz SPSS 全名 Statistical Package for the Social Sciences ，即社会科学统计软件包。名字虽然如此，如今却越来越多的应用于自然科学领域，当然也包括生物科学。学生物的人，或多或少都用过这个统计软件，许多高校的生物统计课程还常常对之进行系统的介绍。用过这个软件都知道，它的分析统计结果和数据表是分开的。这种安排当然有优点也有缺点，缺点是当你连续的分析一些数据时，结果往往显示在同一个文件夹中，在你日后查看结果时容易造成混乱困扰。优点就是，只要你注释得当，你可以把所有的统计分析结果保存在同一个文件中，那问题是怎么注释。一般的结果如下图所示这是分析我的一组数据中个体 1 和个体 2 之间的差异，如果单独保存为文件，可能会在文件里面说明这个信息，但是如果保存的还有其它分析结果的话（比如我还另外分析物种 1 和物种 2 的差异），那就容易造成混乱了。所以一个很好的习惯就是每作一次统计分析，立刻作相应的注释，操作倒是很简单，在要注释的地方双击鼠标，添加信息即可（如下图）。添加信息完毕，在其它地方点击鼠标即完成添加操作，这时候记得保存。下次打开就能看到这些注释信息了。好了，就这么简单，祝您科研愉快。 SPSS中分析结果的注释修改.pdf

个人分类: 我的研究|5480 次阅读|0 个评论

研究室的笨鸟（0）前言

热度 14 fs007 2012-4-29 02:17

前言：释题寻正【寻正按：本文保留版权，任何媒体，包括常规出版业、网络媒体、博客等，没有获得授权，不得转载它处。在本书未完成之前，中国科学网博客是我唯一登载此系列内容的媒体。】由于工作中每为研究者收集的数据所困扰，常想动笔写一本小册子，书名叫Research Methods for Dummy，为做临床研究或者基础研究者在研究统计设计上提供一些简短的指南，免去大家的诸多烦恼。在西方文化中，为普通或者专业读者撰写for Dummy的技术指南属于真正的科普，又某种程度上超越科普，很受欢迎，不过，东方文化中，似乎大家不太耐烦看到Dummy一词。如果直译，我的这个小册子要叫给笨瓜的研究方法学。如果真以此命名，中国的读者可能避之如瘟疫，谁也不愿意被人当作笨瓜。因此，如何命名这本小册子就成了挑战，选择了一个适当的题目后，就需要做些解释工作。笨鸟的出处在于国人耳熟能详的“笨鸟先飞”一词，最早见于据说是关汉卿所作的《状元堂陈母教子》一剧中。陈家老三为母所宠，见大哥二哥得了状元，给二哥添堵，说，哎呀老哥，你在其他人面前牛，那是因为我这只灵鸟未出，让你们这些笨鸟先飞出来炫耀了。【二哥，你得了官也。我和你有个比喻：我似那灵鸟在后，你这等笨鸟先飞。】此后，笨鸟逐渐演化为国人谦虚的说法之一了：哎呀，咱得了福建省状元，多亏了笨鸟先飞，比我厉害的多了去，没啥了不起的，没啥了不起的…… 尽管国人谦虚未必当真，但人人都有做笨鸟的时候。中国教育体制特限制儿童天性，听话的是好学生，不听话的就不受老师的喜爱，而那些灵气足的幼儿，智商高的幼儿，在完成同样的学习任务后总有比一般笨鸟更多的时间淘气，更多的机会成为坏学生。一旦被贴上坏学生的标签，基于皮格马利翁效应（Pygmalion Effect【说你行，你就行的心理学版，原理为心理诱导】），这些学生反而更易为中国教育体制淘汰。面对那些早年弃学，却在混社会中表现出巨大创造力与灵性的幼年好友，我总觉得自己是不折不扣的笨鸟。在中国1980年代，改革开放初期，那些灵鸟搞活了经济，于是乎引得中国知识阶层大呼不公平，天天报怨“卖嘴皮子的，不如卖茶叶蛋的”。中国是笨鸟文化，所以觉得灵鸟真个儿飞到前面去了，反而不习惯。正是基于这种文化心态，我将本册子命名为《研究室的笨鸟》，以避专门为笨瓜写技术指导之嫌。俗语云，“尺有所短，寸有所长”，我们都在为“科学事业”做自己的贡献，难免在某一方向积累了些许经验，也难免无法针对研究中所有的问题都一清二楚，在某个时候做做笨鸟，先飞一飞，试一试，或许就把工作完成了，做一个合适的笨鸟，未尝不是科学的福气。此小册子不是统计学或者数据分析管理的专业指南，在市面上这方面的书籍早就汗牛充栋了，有时甚至让读者因为选择过多而无所适从。艰深的统计学教材让不少笨鸟灰心丧气，拜托作者了，咱们没有兴趣当统计学家，无意在学而有成后跟您在职场中竞争，能告诉我怎么把这个简单的分析搞定好不好？知其然要知其所以然，这种科学的精神固然令人敬佩，但在现实中却有难以忍受的成本。我在工作中遇到过无数研究者，他们在其教育培养过程中全接受过正规的统计学课程教育，有的甚至在相关领域得到过研究生学位，但他们却会在统计分析中犯下最基本的错误，让初学统计学的学生就能一眼看出来的错误。我也见过拥有统计学方面的博士学位者在统计学上犯错。无论是东西方，似乎唯科学论式的教学，一心要让学生完全懂得统计学的诀窍，反而让学生在实际应用中尽忘所学，在工作中浪费时间无数。我没有统计学方面的学位，受到的统计学训练不多于一般向我求助的研究者，而且，我对大多数自己能熟练应用的统计工具不知其所以然。各种程度上，批评者可以说我欲瞎子牵瞎子，不戴眼睛的高度近视为盲人指路。有时，我可能因为自己的自大与无知，当真进入此种状态，读者应当谨慎地对待我的作品与相关建议。我之所以产生撰写此册子的想法，就因为在工作有强烈的理由（Compelling Reasons），在我审的稿件中，有作者把逻辑回归得到的比率比（Odds Ratio）当作各参模变量的比重来产生新的综合评分，或者经常性地因为研究者不适当的数据处理而不停地返工，这些理由让我相信，统计学教学中，统计老师太过于注重分解统计分析的机制与机械计算，学生反而因为芝麻而丢了西瓜。这个小册子，就是把西瓜还给实验室的笨鸟。如果你的确认同我的笨鸟一说，在研究过程中为统计分析所苦，在收集整理数据时，不时要为数据的结构与准确性烦恼，你就可能从本书中受益。在写作过程中我需要一个参照，这个参照如果不是科学的门外汉，也是统计学的新手。因此，本书也为在实验室外飞来飞去的笨鸟而作，让普通读者有以斑窥豹的机会，从阅读本书中理解到科学研究是怎么做出来的。愿我的读者能从中受益，也希望得到中肯的批评意见，能使本册子进一步完善。【寻正按：本文保留版权，任何媒体，包括常规出版业、网络媒体、博客等，没有获得授权，不得转载它处。在本书未完成之前，中国科学网博客是我唯一登载此系列内容的媒体。】 2012.04.28

个人分类: 笨鸟先飞|6470 次阅读|19 个评论

分子的定量结构活性关系研究之父去世，终年92岁

chemicalbond 2011-6-12 11:49

Crown Hansch，（October 6, 1918 – May 8, 2011），被称为是 QSAR 之父（Quantative Structure-Activity Relationship,分子结构和活性之间的定量关系)。据称，他曾经参加过研制核武的曼哈顿工程。不知道贡献有多大，大概算不上两弹一星的那种级别。不过，他的名字对于从事药物化学的人来说是不陌生的，因为他差不多是第一个使用统计方法定量地研究分子的结构和它们的物理化学性质之间的相关性。虽然 Hanch 先生发展的方法基本上只考虑分子的二维结构，和现代的3维方法（根据靶体和药物分子的空间匹配）相比，有很多局限性，但是历史上那些 QSAR 的方法对药物化学的发展还是起了很大的促进作用。他自己也参与收集大量相关数据，并且编成很多综述文章和一本书，有很大参考价值。我手头就有一本他编写的书，还时常从里头寻找分子的 logP（油水配分系数）等相关实验数据。【图书信息 http://www.amazon.com/Exploring-QSAR-Hydrophobic-Electronic-Constants/dp/0841229910/ref=sr_1_2?s=booksie=UTF8qid=1307849989sr=1-2 】刚才用 Google 检索与 Crown Hansch 有关的中文记录，第一条便是北大药学院李仁利老师写的纪念文字。李老师文章信息量很大，感兴趣的可以参考下面网页： http://sps.bjmu.edu.cn/art/2011/5/24/art_3355_58420.html 有意思的是，李老师的文章里面说 Hansch 先生是“享年九十三岁”，而我看到的英文文章都说是92岁。这显然是中西方对年龄的定量分析有个细微的差别。不过这个差别是个系统误差，也许可以称为文化因子 -^-

个人分类: 人物纪事|2688 次阅读|0 个评论

[转载]SAS学习的几个网站

censambao 2011-2-20 12:01

初学SAS 已有 597 次阅读 2010-1-28 17:24 | 个人分类: 未分类 | 系统分类: 科研笔记 | 关键词:SAS 这是本人博文第一篇，想了好久也没想出什么来，就把自己学习SAS的一些东西在这里给大家分享一下，统计学在我们生态学领域里，重要性不可忽视。例如，野外搜集来的数据，本身含有不少误差在里面，能否把处理效应和误差剥离的干净，就要看你的实验设计水平的高低了，统计学学好了，这方面就不怕了。废话不再多说了，把话题交给SAS。SAS处理统计数据的功能还是蛮强大的，如何能正确的使用它？是我们一直梦寐以求的，具体参考（本人建议）教科书：《口腔医学科研设计与统计分析》主编胡良平；有用的网站： http://core.ecu.edu/psyc/wuenschk/SAS.htm （各种类型的统计分析程序都有，英语版） http://www.bioon.com/biology/sas/55221.shtml （较为容易上手，国内汉语版）转载： http://blog.sciencenet.cn/home.php?mod=spaceuid=389171do=blogid=290953

个人分类: 他文共赏|2715 次阅读|0 个评论

为什么会是正态分布？

热度 3 doniao 2010-12-4 20:53

做过统计分析的人都知道，某变量的值在随机取样的情况下一般服从正态分布。在分析变量之间的显著性差异和进行方差分析等经验统计分析时都要求变量服从或者近似正态分布（对数正态分布）。这是因为变量的统计分析基本上都是以变量的正态分布为基础进行的。既然是统计，一般来说都是经验的，缺乏一定的理论依据。因此，许多人都有这样的疑惑，在没有人为干扰下，变量的分布为什么会是正态的呢？首先简单介绍一下正态分布的概念和性质。正态分布是一种概率分布，又叫高斯分布（图1）。高斯等人对正态分布进行了推导并发现了正态分布的相关性质。其中一个主要性质就是正态分布以变量均值u为轴成对称分布，均值所对应的概率最大，向两边对称减小。这句话也可以这样理解，在一次取样中，某变量的大部分值集中在变量均值附近，其余一小部分值与均值相差较大。正态分布在英语中叫normal distribution。说明变量的这种分布是正常分布。为什么大部分变量值会集中在其均值附近呢？想一想我们生活中的遭遇，看一看我们周围正在发生的事，我们会很吃惊地发现我们生活中很多事物和事情都是这样。比如社会上大多数人的收入和财产处于平均水平，富人是少数，穷人也是少数。再比如社会上大多数人的相貌平平，只有少部分相貌出众，当然也有部分人相貌丑陋。生物界是这样，非生物界亦如此；植物界是这样，动物界同样如此。其实，自然条件下由于受众多因素影响，变量的分布不会是均匀分布。既然不是均匀分布，就会出现变量值的相对集中，变量就可能会呈现如正态分布那样的单峰分布。其实我们的疑问更多是为什么大多数变量会集中在那个值附近，以及为什么是单峰而不是多峰分布？对于第一个疑问，要具体问题具体分析。打个比方，假设北京市建筑物的高度70%集中在50-100m之间，为什么会是50-100m这个和北京市的社会经济发展水平、人口数量及地质条件等因素有关。也就是说变量所处的外部环境因素决定了变量值的集中范围。对于第二个疑问，为什么不是多峰。这可能也是由变量所处的外部环境决定。如果外部环境处于相对稳定的状态，那么其分布就不会是多峰型。而如果其外部环境经常变化，则其分布就可能是多峰型。以我所研究的土壤水分为例，土壤水分主要受降水和蒸发都因素的影响。由于一个地区的降雨量和蒸散发在一直变化，且有时候变化剧烈，导致土壤水分的概率分布呈现多峰（图2）。这种解释我个人觉得比较合理。但是主观性比较强，如果要更客观地去解释这种现象，还需要提出某种比较合理的理论。我希望借此抛砖引玉，和感兴趣的网友进行交流。图1 正态分布图图2 土壤水分概率分布图

个人分类: 科学狂想曲|25542 次阅读|7 个评论

基于统计分析的桥梁健康监测

pinjianlu 2010-10-25 17:52

对于大型土木结构的健康监控，比如桥梁等，如果设计没有问题，是可以满足50年以上的设计使用寿命的。那么在健康监测中，如何去评估它的状态呢？目前大多数研究都集中于损伤状态的评估，但是难点在于对于损伤，尤其是早期的损伤，识别的准确度问题。如果桥梁出现了损伤，如何在出现重大事故之前，能准确地进行预报。这就是一个问题。按照桥梁的设计寿命一般都是50年以上，但是由于中国经济的过快发展，使得许多桥梁都出现超出设计负荷的运行，而提前老化。如果设计和施工都是正常的话，排除建成之后突然倒塌的情况，那么桥梁的老化是一个渐进的过程。基于统计分析的意思就是桥梁大多数时间都运行于正常状态，对于出现损伤时的表现不太清楚，那么就基于长期的正常状态建立一个合理的评价指标。举个例子：如果有10个人在一起，其中有一个人中了一种罕见的新病毒，对于这种新病毒的症状表现不是很清楚，什么前期、中期、后期表现，都不知道。那么在早期的轻微表现和正常人差不多，偶尔出现表现，但不稳定；中期有一定的表现，但不知道是否就是病毒的表现；而后期表现严重，但是问题已经出现，无法医治。但是假如确切地知道其中有一个人中了病毒，而且这种病毒的潜伏期是2年，2年之后必死无疑。那么需要研究的问题就是如何能在早期、中期给出诊断并给出预警提示。

个人分类: 科研随笔|3830 次阅读|0 个评论

[转载]工艺角（Process Corner）

freton 2010-10-18 21:39

关于工艺角、统计分析的介绍，很多思想值得学习： from http://apps.hi.baidu.com/share/detail/16038968 工艺角（Process Corner）与双极晶体管不同，在不同的晶片之间以及在不同的批次之间，MOSFETs参数变化很大。为了在一定程度上减轻电路设计任务的困难，工艺工程师们要保证器件的性能在某个范围内，大体上，他们以报废超出这个性能范围的芯片的措施来严格控制预期的参数变化。 detail 通常提供给设计师的性能范围只适用于数字电路并以工艺角（Process Corner）的形式给出。如图，其思想是：把NMOS和PMOS晶体管的速度波动范围限制在由四个角所确定的矩形内。这四个角分别是：快NFET和快PFET，慢NFET和慢PFET，快NFET和慢PFET，慢NFET和快PFET。例如，具有较薄的栅氧、较低阈值电压的晶体管，就落在快角附近。从晶片中提取与每一个角相对应的器件模型时，片上NMOS和PMOS的测试结构显示出不同的门延时，而这些角的实际选取是为了得到可接受的成品率。各种工艺角和极限温度条件下对电路进行仿真是决定成品率的基础。所以我们所说的ss、tt、ff分别指的是左下角的corner，中心、右上角的corner。 --------------------------------------快乐的分割线------------------------------------ 工艺极限 (Process Corner) 如果采用5-corner model会有TT,FF,SS,FS,SF 5个corners。如TT指NFET-Typical corner PFET-Typical corner。其中, Typical指晶体管驱动电流是一个平均值，FAST指驱动电流是其最大值，而SLOW指驱动电流是其最小值（此电流为Ids电流）这是从测量角度解释，也有理解为载流子迁移率(Carrier mobility)的快慢. 载流子迁移率是指在载流子在单位电场作用下的平均漂移速度。至于造成迁移率快慢的因素还需要进一步查找资料。单一器件所测的结果是呈正态分布的，均值在TT，最小最大限制值为SS与FF。从星空图看NFET，PFET所测结果,这5种覆盖大约+-3 sigma即约99.73% 的范围。对于工艺偏差的情况有很多，比如掺杂浓度，制造时的温度控制，刻蚀程度等，所以造成同一个晶圆上不同区域的情况不同，以及不同晶圆之间不同情况的发生。这种随机性的发生，只有通过统计学的方法才能评估覆盖范围的合理性。 PVT (process, voltage, temperature) 设计除了要满足上述5个corner外，还需要满足电压与温度等条件, 形成的组合称为PVT (process, voltage, temperature) 条件。电压如：1.0v+10% ,1.0v ,1.0v-10% ; 温度如：-40C, 0C 25C, 125C。设计时设计师还常考虑找到最好最坏情况. 时序分析中将最好的条件(Best Case)定义为速度最快的情况, 而最坏的条件(Worst Case)则相反。最好最坏的定义因不同类型设计而有所不同。最坏的延迟也不都出现在SS 。至于延迟随PVT发生怎样的变化，还需要进一步查找资料。根据不同的仿真需要，会有不同的PVT组合。以下列举几种标准STA分析条件： WCS (Worst Case Slow) : slow process, high temperature, lowest voltage TYP (typical) : typical process, nominal temperature,nominal voltage BCF (Best Case Fast ) : fast process, lowest temperature, high voltage WCL (Worst Case @ Cold) : slow process, lowest temperature, lowest voltage 在进行功耗分析时，可能是另些组合如： ML (Maximal Leakage ) : fast process, high temperature, high voltage TL (typical Leakage ) : typical process, high temperature, nominal voltage 除此之外，另一个组合条件称为 Scenarios: Scenarios = Interconnect + operation mode + PVT 噪声(noise)与串扰(crosstalk) 似乎需要另外考虑。 1. 内连线情况(interconnect corner) 制造对互连线造成的影响，如：R_typical C_typical, R_max C_max, R_max C_min, R_min C_min 2. 工作模式 (Operation Mode) 如：function mode, scan mode, sleep mode, standby mode, active mode PVT 对多种scenarios 的综合分析，称之为 MMMC (Multi-Mode Multi-Corner) Analysis。 OCV (On-chip Variations) 由于偏差的存在，不同晶圆之间，同一晶圆不同芯片之间，同一芯片不同区域之间情况都是不相同的。造成不同的因素有很多种，这些因素造成的不同主要体现： 1，IR Drop造成局部不同的供电的差异； 2，晶体管阈值电压的差异； 3，晶体管沟道长度的差异； 4，局部热点形成的温度系数的差异； 5，互连线不同引起的电阻电容的差异。 OCV可以描述PVT在单个芯片所造成的影响。更多的时候, 用来考虑长距离走线对时钟路径的影响。在时序分析时引入derate参数模拟OCV效应，其通过改变时延迟的早晚来影响设计。三种STA(Static Timing Analysis)分析方法： 1，单一模式, 用同一条件分析setup/hold ; 2，WC_BC模式, 用worst case计算setup，用best case计算hold； 3，OCV模式, 计算setup 用计算worst case数据路径，用best case计算时钟路径；计算hold 用best case计算数据路径，用worst case计算时钟路径；以上三种方法，在逐步的改进，但显然越来越悲观。比如第三种分析方法，计算setup 时让数据慢一点到，而时钟快一点到，以压缩setup时间。到了计算hold时，又变成了压缩hold时间，这样情况显然是不实际的。derate具体做法是在长路径应用late参数，短路径应用early参数, 就是将原本希望走快的变慢，希望走慢的变快。除derate外，还有一个常用的参数uncertainty。它定义时钟沿的不确定性，或早或晚，同样压缩了setup / hold时间。锁存器与触发器锁存器与触发器是静态时序分析中涉及最主要的类型. Latch是异步单元，即输出在输入改变之后改变。而FLIP-FLOP是同步单元，即随时钟信号改变而改变。 LATCH与FLIP-FLOP最大差别是Latch 没有时钟端，可以理解为有一个使能端，所以是电平敏感。Flip-Flop preset表示在输出产生一个逻辑1, clear表示在输出产生一个逻辑0。 Setup/hold 是分析数据与时钟之间的关系。用时钟沿来采集数据，如果定义用时钟上升沿触发，即用上升沿将数据分割成两部分，前部分为准备时间 setup，后部分为保持时间 hold。说明数据在上升沿来临之前必须准备好，在采集时必须保持一段时间。理解时，类似为用preset/clear采集时钟数据，用preset/clear将时钟分为两部分，前部分为迁移时间，后部分为复原时间。统计静态时序分析 SSTA (Statistical Static timing analysis) 全局工艺差异(global_process_variations) 也称为片间器件差异(inter-die device variations ), 描述同一器件不同芯片间的差异。同一芯片的器件应用同一参数，器件的不同参数是相互独立的，而且每个参数都是呈统计分布的。局部工艺差异(local_process_variations) 也称为片内器件差异 (intra-die device variations), 描述同一器件在同一芯片不同区域的差异。每个差异也是呈统计分布的。也就是说对于某一个全局参数，应该细化成多个局部参数，每个局部参数都是呈统计分布的。如果提供的库是基于局部参数差异统计建立起来的，在进行基于OCV模型的静态时序分析时，就无需OCV参数的设定。对于互连线差异也是一样的. 决定同一段线的因素有很多种，比如线宽，厚度，介电系数，刻蚀等，但同一因素不同区域是不相同的，各个因素之间也是相互独立的。这些差异同样需要进行统计学概括。好比中医与西医，西医就是同一种病吃同一种药，而中医则认为同一种病分不同种情况，不同的人也应不同对待。至少感觉上是这样的。基于这样的观点，同一时序路径可能存在不同种情况的组合，而且每种情况的参数都是呈统计学分布，组合的计算将不是单纯的相加差，而是需要相关性分析与统计学计算。统计方法的引入，改变了传统静态时序分析悲观但不实际的做法。

个人分类: 工程技术|7342 次阅读|0 个评论

颜志森，张薇：《西北大学学报》（自然科学版）2001年以来载文、作者和引文的统计分析

kexuechuanbo 2010-9-23 20:44

《西北大学学报》（自然科学版）2001年以来载文、作者和引文的统计分析

个人分类: 团队发表论文|3269 次阅读|0 个评论

请各国期刊也自报家丑吧！

杨学祥 2010-9-15 03:19

学者孙常全最近指出，在CrossCheck初期实验性的使用阶段，也同样查了一些美国的杂志，发现在已发表的文章中的的剽窃率为6%，10%，23%。比张月红的报道的31%投的稿件有抄袭的数据恐怕是更有过之。（这又牵涉到此软件是否可靠的问题。）抄袭是个全球性的难题。稿件31%的有抄袭的数据并不说明中国学者学术道德比西方差。大家可以稍微放松一下。估计不久就会有更多的数据出来，也许更高的抄袭率会被曝光。如此看来，科技越发达，抄袭率越高，就像全球变暖争论导致的气候门，所有的数据都是为了某种目的精心选择的、故意删掉的、任意篡改的。所谓科学总是在为某些了利益集团服务，这是无法改变的事实。为了能够比较检验，请各国期刊也自报家丑吧！本文引用地址： http://www.sciencenet.cn/blog/user_content.aspx?id=363157 附件：学者孙常全发表于2010-9-15 2:33:10 Nature发表张月红短信的原因关于Nature发张月红关于投稿文章剽窃的信已经被沸沸扬扬地炒了好多天了。大家都关心这件事，观点鲜明，情绪激昂。 1）有人怀疑张女士递交此信的动机， 2）有人指出此信以点盖面误导读者，从而把中国学术界都不公正地抹黑了。前者牵涉太多其它方面的东西，我不妄加评论。第二点是有道理的。不管题目是否被改过，该文误导的倾向很明显。同样的信在Science是不会被发表的，至少不会以这种（误导的）形式发表。为何Nature在这事上失去了严谨的科学作风，发表这信呢？不同之处是Nature最近正在大张旗鼓地推广CrossCheck查剽窃的服务而Science没有。（见Nature 466：159160 167；及我2010年7月的博文治疗学术剽窃的良药）。张月红的信正是Nature编辑部翘首以待的推广这个概念的最好原材料。剽窃是近几年渐渐被关注的一件学术界的一大心病。虽然多种软件被逐步推广，直到整个出版界加入，开放并把他们所有文章全文加入CrossCheck的公共数据库，类似的查剽窃的软件才能充分发挥作用（这在我之前的博文中有阐述）。其实，在CrossCheck初期实验性的使用阶段，也同样查了一些美国的杂志，发现在已发表的文章中的的剽窃率为6%，10%，23%。比张月红的报道的31%投的稿件有抄袭的数据恐怕是更有过之。（这又牵涉到此软件是否可靠的问题。）张月红的信只是Nature为自己支持的事业所添加的一个砝码而已。其实，剽窃是各处都有。大家好自为之。所谓出淤泥而不染。别在意有人抄袭且暂时侥幸逃过审稿和编辑的眼睛。记住，这种服务是可以用在查已经发表的文章上的。保证一定有好事者会这样做。到时候，没人可以逃脱应受的责任。结论 1. 抄袭是个全球性的难题。稿件31%的有抄袭的数据并不说明中国学者学术道德比西方差。大家可以稍微放松一下。估计不久就会有更多的数据出来，也许更高的抄袭率会被曝光。 2. 不管环境是怎样的, 每个人都要坚持一个学者应有的道德底线。否则，赖行迟早会被查出来，一辈子被贴上抄袭剽窃的标签。 3. Nature也是会为本身的利益作出不合适的决定，如发表有误导性的信件。 4. 时刻跟踪Nature的舆论导向，投其所好，偶尔也可以发一些高影响力的但低质量的文章，哈哈！本文引用地址： http://www.sciencenet.cn/m/user_content.aspx?id=363161

个人分类: 科技点评|3293 次阅读|6 个评论

统计分析中检验方法的选择

热度 1 agri521 2010-7-13 11:14

1. 一组样本资料若来自正态总体，可用t检验；若来自非正态总体或总体分布无法确定，可用Wilcoxon符号秩和检验。 2. 配对设计资料二分类变量，可用McNemar检验；有序多分类变量，可用Wilcoxon符号秩和检验；连续型变量，若来自正态总体，可用配对t检验，否则可用Wilcoxon符号秩和检验；二分类变量，可用 2 检验；无序多分类变量，可用 2 检验；有序多分类变量，宜用Wilcoxon符号秩和检验。 3. 多组独立样本连续型变量值，来自正态总体且方差相等，可用方差分析；否则，进行数据变换使其满足正态性或方差剂性的要求后，采用方差分析；数据变换仍不能满足条件时，可用Kruskal-Wallis秩和检验。二分类变量或无序多分类变量，可用 2 检验。有序多分类变量宜用Kruskal-Wallis秩和检验。 4. 随机区组设计连续型变量，来自正态总体且方差相等，可用随机区组设计的方差分析；否则，进行数据变换使其满足正态性或方差齐性的要求后，采用方差分析；数据变换仍不能满足条件时，可用Friedman秩和检验。

个人分类: 统计计算|5465 次阅读|1 个评论

介绍一个很好的SPSS使用交流论坛（有视频资料）

热度 1 clhan 2010-7-6 12:30

有朋友推荐了一个很不错的SPSS统计分析交流论坛，现在和广大朋友们一起分享。论坛网址： http://www.spsschina.com/ or http://www.spsschina.cn/ 希望能对大家有用。

个人分类: 生活点滴|11347 次阅读|2 个评论

经济理论类国家社科基金资助项目的统计分析

rbwxy197301 2009-2-23 18:19

经济理论类国家社科基金资助项目的统计分析选取1993年到2007年国家社会科学基金资助的经济理论类项目为研究对象，从项目立项的总体情况、责任人所在地区和机构的分布、基于关键词的主题分析三个方面，勾勒出我国经济理论研究的现状。经济理论国家社科基金项目统计分析基金项目是国家科研经费的重要方式之一，对我国的前沿科研活动具有导向作用，科研项目从提出到确定的全过程都要经过广泛、深入的反复论证，往往代表所在领域内研究的新动向、新趋势。我国从1987年建立科研基金制度以来，已经形成了多层次的科学基金体系。国家社会科学基金是我国人文社会科学领域研究课题的最高档次，代表着我国人文社会科学的研究水平。本文先选取1993年到2007年国家社会科学基金资助的经济理论项目为研究对象，对我国经济学领域的理论研究状况进行一个梳理。从基金资助的项目分布、科研人员所在的地域和机构、研究主题、成果形式等角度，勾勒出我国经济学理论研究的基本情况。 1 经济理论基金资助项目概况文中的数据来源于全国哲学社会科学规划办公室（http://www.npopss-cn.gov.cn）发布的历年立项情况，即国家社会科学基金资助汇编（19993-1998）和国家社会科学基金资助项目（1999-2007）。对于数据不全的，笔者进行了补充。从1993年到2007年立项的项目，一共1122项。其中重大项目、委托研究项目10项；重点项目93项；一般项目774项；青年项目232项；自筹经费项目13项（分年度情况见图1）；各类项目分别占到总体的1％、8％、69％、21％、1％。15年的年立项数约75项，2002年后立项都超过了均值，2002年前只有1996年超过。这反映出国家对经济理论研究的资助力度在不断加大。图1显示，立项的数量呈现一个向上爬伸的波浪形状。其中1995年立项数量最少，只有21项，1996年到2006年呈现逐渐上升的势头，2005年和2006年都达到了最高值105项，2007年稍有下滑。研究成果的形式主要是学术论文、专著和研究报告。图1 1993-2007年经济理论国家社科基金资助项目数量 2 　基于负责人的数据分析 2.1 地域分布分析基金项目的地域（以省、直辖市和自治区为单位）分布，可以了解我国各个地区经济理论研究的基本情况，揭示各地区科研创新能力的大小，为国家统一协调项目研究的力量分布和项目分布提供参考，具体结果见表1。表 1 　资助项目的地域分布序号地区项目数比例累计％序号地区项目数比例累计％ 1 北京 255 22.73% 22.73% 16 陕西 28 2.50% 87.97% 2 上海 102 9.09% 31.82% 17 甘肃 16 1.43% 89.40% 3 湖北 76 6.77% 38.59% 18 江西 16 1.43% 90.82% 4 河南 68 6.06% 44.66% 19 云南 15 1.34% 92.16% 5 天津 55 4.90% 49.56% 20 贵州 12 1.07% 93.23% 6 福建 52 4.63% 54.19% 21 新疆 12 1.07% 94.30% 7 江苏 48 4.28% 58.47% 22 广西 11 0.98% 95.28% 8 湖南 47 4.19% 62.66% 23 河北 10 0.89% 96.17% 9 四川 44 3.92% 66.58% 24 重庆 10 0.89% 97.06% 10 广东 42 3.74% 70.32% 25 黑龙江 9 0.80% 97.86% 11 辽宁 40 3.57% 73.89% 26 山西 8 0.71% 98.58% 12 浙江 35 3.12% 77.01% 27 内蒙 7 0.62% 99.20% 13 安徽 34 3.03% 80.04% 28 海南 3 0.27% 99.47% 14 山东 33 2.94% 82.98% 29 宁夏 3 0.27% 99.74% 15 吉林 28 2.50% 85.48% 30 青海 3 0.27% 100.00% 2.2 责任人所占机构分布情况分析责任人所在单位分布，可以了解在经济理论研究队伍的分布现状，发现不同单位在经济理论研究领域的科研实力。统计发现，1122个项目分布在299个单位（表3列出了项目立项数在15项以上的单位）。这些单位可以分为四类： = 1 \* GB3 ①大学（包括学院），共有181个，立项844项，占总体的75％； = 2 \* GB3 ②社科院系统，共28个，立项132项，占总体的12％； = 3 \* GB3 ③党校系统，共有31个单位，立项77个，占总体的7％； = 4 \* GB3 ④其它单位（政府部门设立的科研机构和其它研究机构）共54个，立项69个，占总体的6％。从中可以看出，高等学校是受项目的资助的主要力量。另外，从表3可以发现，经济理论研究中，综合性大学优势明显，其次是财经类大学。中国社会科学院立项数量最多，占到立项总数的5％，这反映出它在经济理论方面的独特地位。表3的15个单位共立项435个，占总体的39％，这表明它们是我国经济理论研究的中坚力量。表 2 　获得 10 项及以上基金资助的单位分布序号工作单位项目数序号工作单位项目数 1 中国社会科学院 61 9 西南财经大学 20 2 中国人民大学 51 10 南京大学 19 3 南开大学 48 11 吉林大学 18 4 复旦大学 45 12 中南财经大学 18 5 厦门大学 36 13 浙江大学 17 6 上海财经大学 24 14 河南大学 16 7 北京大学 23 15 河南省社会科学院 16 8 武汉大学 23 合计 435 2.3 　核心研究人员洛特卡定律是对学术期刊上作者数量分布的统计规律，即写x篇文章的论文作者数占作者总数的百分比y(x)，与其所撰写的论文数x的平方的乘积，大致是一个恒量。用数学公式表示为：y(x)x2=c。如果按洛特卡定律来类推申请项目的科研人员，则申请到两个项目的人数是申请到一个项目人数的四分之一，申请到三个项目的人数是一个项目人数的九分之一。数据统计后的申请到一个项目的人数为886人，按洛特卡定律来推，则申请到两个项目应为221人；申请到三个项目应为98人；申请到四个项目应为55人。而实际统计结果显示，申请到两到四个项目的人数实际为：99人、10人、2人（表4列出了项目申请数在3个以上的责任人）。由此可见，项目申请数量分布与研究人员在期刊上发表论文的数量分布规律不同，它不符合洛特卡定律。获得3项以上的研究人员在经济理论研究领域实力很强，他们是经济理论研究领域的核心研究人员。表 3 　获得 3 项及以上项目的人员统计责任人立项数所在单位责任人立项数所在单位李非 4 厦门大学台湾研究所唐任伍 3 北京师范大学管理学院吴宣恭 4 厦门大学经济研究所韦伟 3 安徽大学程建华 3 河南师范大学财经系吴慈生 3 合肥工业大学管理学院高德步 3 中国人民大学经济学系袁志刚 3 复旦大学经济学院郭熙保 3 武汉大学经济与管理学院张宇 3 中国人民大学经济学院李国平 3 西安交通大学经济金融学院赵伟 3 浙江大学经济学院 3 基于关键词的研究主题分析关键词是为了文献标引工作而从学术论文中选取出来的，用以表示全文主题内容的信息款目的单词或术语，是未规范的自然语词。下文的关键词是从项目的题名中选取的反映项目研究主题的语词。这些关键词的出现频次较多，通过对它们的分析来可以勾勒出国家社会科学基金资助项目中经济理论研究的一些重要主题。 3.1 经济学经济学学科本身就是经济理论研究的重要内容之一，它的研究有助于完善和发展经济学。项目名称中包含经济学有98个，将这些题名处理后得到表5。从表5来看，政治经济学的研究数量最多。在项目名称中，有14项包含政治经济学，其中重点项目2项；青年项目3项；一般项目9项。从立项时间看，1996年3项、2006年6项，其它五项立项时间为1997、2000、2003、2004、2007年。从责任人所在地域看，分布在全国12个省市；从责任人所在单位看，分布在综合性大学（9）、财经类大学（2）、师范类大学（1）、社科院（1）。从研究内容看，一是对政治经济学理论方面的探讨，如马克思主义政治经济学（6次）的历史地位、理论体系、理论创新、数理化研究、逻辑体系等；西方新左派政治经济学思潮；社会主义政治经济学方法论。二是利用政治经济学理论对的相关问题的分析，如二元经济结构转换的政治经济学分析、科学发展观视角下我国环保政策的政治经济学分析等。其次有9个项目名称包含了西方经济学，其中8个是一般项目，一个是青年项目。从时间来看，2005年有3项，2002年2项，其它分布在1993、1997、2004、2007年。从责任人所在单位来看，中国人民大学和厦门大学各有3个项目立项，其次是南开大学、云南大学和中南民族大学。研究的内容包括了西方经济学发展前沿问题，从西方经济学看马克思主义经济、西方经济学的转变、西方经济学的中国化等。其它关键词的出现频次较少，其中既有对经济学基本理论方面的研究（如经济学体系、经济学研究方法等），也有经济学分支学科的研究（如实验经济学、法律经济学等）。表 4 包含经济学的关键词关键词类型具体关键词及其出现的频次其它＋经济学（ 29 次）政治经济学（ 7 ）中国经济学（ 4 ）实验经济学（ 3 ）发展经济学（ 2 ）法律经济学（ 2 ）新自由主义经济学（ 2 ）产业经济学（ 1 ）创新经济学（ 1 ）国防经济学（ 1 ）宏观经济学（ 1 ）教育经济学（ 1 ）居民经济学（ 1 ）民族经济学（ 1 ）卫生经济学（ 1 ）行为经济学（ 1 ）演化经济学（ 1 ）主流经济学（ 1 ）制度经济学（ 1 ）新政治经济学（ 1 ）制度与演化经济学（ 1 ）现代经济学（ 1 ）社会主义政治经济学（ 1 ）经济学＋其它（ 27 次）经济学（ 13 ）经济学范式（ 2 ）经济学方法论（ 2 ）社会主义经济学体系（ 2 ）经济学的历史方法（ 1 ）经济学方法体系（ 1 ）经济学分析（ 1 ）经济学分析范式（ 1 ）经济学分析方法（ 1 ）经济学机制（ 1 ）经济学学科（ 1 ）马克思＋经济学（ 20 次）马克思主义经济学（ 8 ）马克思主义政治经济学（ 6 ）马克思经济学（ 5 ）新马克思经济学综合学派（ 1 ）西方＋经济学（ 15 次）西方经济学（ 9 ）西方比较经济学（ 1 ）西方规制经济学（ 1 ）西方金融经济学（ 1 ）西方新货币经济学（ 1 ）西方异端经济学（ 1 ）西方主流经济学（ 1 ） 3.2 区域研究区域研究的对象通常是特定区域，如西部地区、东北老工业基地等。按项目名称中关键词的规律，本文将区域研究的关键词分为两类：一类是特定地区；另一类是名称中包含区域（见表6）。从表6看，西部地区的研究数量优势非常明显。此外，全国社科规划办2004年到2006年设立了723项国家社科基金西部项目。这反映出西部地区获得的资助力度是各个区域中最大的，与国家重视西部大开发的政策相适应。随着中部崛起、老工业基地复兴等战略的实施，中部和东北地区的研究应该加大资助的国度。西部地区的研究的55个项目当中有40个项目的责任人，来自西部各省区的高等院校和科研院所；中部地区的14个项目责任人都来自中部各省；东北老工业基地研究的责任人都来自东北地区的吉林和辽宁两省。这反映了责任人和研究区域的一致性。从研究的内容来看，西部地区的研究涉及其开发战略、经济增长方式、教育、优势产业和比较优势、农村建设、居民消费、可持续发展、西部与东部及中部地区的协调发展等方方面面。中部地区的研究涉及其的经济结构研究、工业经济产业升级、新农村建设、中部崛起战略、工业化与城镇化、人力资本等。包括东部的项目包含了新疆与东部沿海省区的经济发展差距、西部大开发与东部沿海地区的发展关系及协调对策；东部乡村传统工业中的产工业化现象、东部地区外向经济发展的理论与对策、现代海洋经济带建设与我国东部经济圈极化发展取向。表 5 研究区域及出现其频次出现频次关键词及出现频次 1 次以上西部（ 55 ）、中部（ 14 ）、东部（ 14 ）、北方（ 2 ）、东北（ 7 ）三峡（ 3 ）长江（ 8 ）黄河（ 6 ）新疆（ 9 ）内蒙古（ 4 ）陕西（ 3 ） 1 次环渤海地区、成都平原经济区、环北部湾地区、河西地区、环天山经济圈、闽东南地区、澜沧江流域 3.3 农业、农村与农民从2004年到2008年连续出台的五个中央一号文件可以看出，三农问题已成为国家发展的重中之重。围绕三农研究的有80个项目，其中农业29个、农村50个、农民18个。从项目类型来看，重点项目9项，一般项目49项，青年项目20项，自筹经费项目2项。从立项的时间来看，从1994年一直到2007年每年都有三农项目，2004年后在经济理论学科立项的数量基本都在10项以上。从责任人所在区域来看，分布较广，涉及全国的24个省市，但又集中在北京、安徽、甘肃、河南、山东、湖北、湖南、四川和天津。从责任人所在单位看，涉及到高校、科研院所、政府的研究机构研究中心共58个单位。其中立项数量较多的有河南省社会科学院（4）、南开大学（4）、四川联合大学（3）和中国农业大学（3）。从研究内容看，农业产业化、农业的可持续发展、农村市场、农村社会保障制度、农村土地制度、农村剩余劳动力、农民收入与分配等问题是研究的重点。 3.4 城市、城乡和城镇在立项的项目中，包含城市、城乡和城镇的项目一共有81项，其中城市31项、城乡33项、城镇23项。从项目类型来看，重点项目有4项，一般项目有52项，青年项目有24项，自筹项目1项。从立项时间来看，除1995年外，从1993年到2007年每年都有项目立项；2001年以前项目较少，2001年后数量基本保持在10项左右。从责任人所在的区域看，涉及到24个省市，但又集中在北京、上海、河南、山东、湖北、四川和天津。从责任人所在单位看，涉及到高校、科研院所、政府的研究机构研究中心共54个单位。其中立项数较多的有复旦大学（5）、南开大学（5）河南省社会科学院（4）、武汉大学（3）、厦门大学（3）、浙江大学（3）、郑州大学（3）中国社会科学院（3）。从研究内容来看，城乡一体化、统筹城乡发展、城镇化、城乡经济发展等问题是研究的重点。 3.5 企业在立项的项目中，包含企业的项目一共有118项。从项目的类型看，重点项目有6项，一般项目有88项，青年项目23项，自筹经费项目1项。从1993到2007年每年都有项目立项，年平均立项8项，。从责任人所在的区域看，共涉及到23个省市，其中北京、江苏、上海、河南、湖南、广东、湖北、四川、天津的立项数量较多。从责任人所在单位看，涉及到高校、科研院所共79个单位。立项数量较多的有中国社会科学院（7）、南开大学（5）、复旦大学（4）、中国人民大学（4）、北京大学（3）、河北省社会科学院（3）、河南大学（3）、吉林大学（3）、厦门大学（3）、中山大学（3）。从研究的企业对象看，涉及到国有企业（含大中型企业）、中小企业、民营企业、股份制企业、三资企业、家族企业等。研究内容涉及到现代企业制度、企业产权、企业的绩效评价、企业的激励制度、企业家、企业改革、企业核心能力、企业组织理论等。 3.5 金融与贸易在立项项目中，金融共出现39次，其中重点项目2项，一般项目21项，青年项目16项。从立项时间来看，2004年后立项的有22项，约占总体的57%。责任人分布在全国12个省市，其中北京市立项17项，约占总体的44%，其次是湖北、上海和天津。从责任人所在单位涉及到26个，其中22个是高等学校，财经类大学7所，势力较强的有中国人民大学、南开大学和中国社会科学院。从研究的内容来看，金融安全、金融危机、金融风险、民间金融市场研究较多，另外还涉及到农村金融机制、金融开放、金融与经济、金融、贸易和产业的关系等。贸易是经济理论研究的一个重要方面。项目中包含贸易的有22项，其中重点项目4项，一般项目15项，青年项目3项。从立项时间看，1996年立项最多，共7项，其次是2003和2004年分别立项3项和4项。责任人分布在全国13个省市，其中北京、上海、湖南较多。责任人所在单位有27个，中国人民大学、南开大学和中国社会科学院立项较多，这个结果与金融研究的情况较为一致。 3.6 创新与资源创新是一个民族进步的灵魂，是一个国家兴旺发达不竭的动力。在立项项目中，包含创新的有54个项目；重点项目3项，一般项目41项，青年项目10项。从立项时间来看，2005年到2007年共26项，约占总体的近50%。责任人分布在全国19个省市，责任人主要集中在高等学校。从研究的内容来看，涉及到国家层面的国家创新体系、创新战略；围绕企业的组织制度创新、技术创新、科技创新、企业创新集群、企业创新机制等；区域创新机制、农业产业化的创新；经济学领域的理论创新、研究学范式创新、经济政策的创新等。其中企业的创新研究是研究的重点。中国土地、水资源短缺，能源安全存在隐患，部分矿产资源对外依存度高，严重约束中国经济可持续发展。资源成为研究人员关注的重要对象，共有33个含资源的项目，其中一般项目23项；青年项目10项。从立项时间来看，64%的项目集中在2002年以后。责任人所在的地区分布较广，一共涉及到19个省市，29个单位。从研究的内容看，水资源、人力资源立项较多；另外涉及到城市资源、城乡资源、金融资源的配置、资源节约型社会等。 4结论从总体上看，我国经济理论资助项目在经过较大幅度上升后，基本趋于一个稳定状态，2004年以后，每年立项数量保持在100项左右。从研究队伍来看，项目责任人分布的地区和所在单位都呈现一个集中与分散的状态，研究人员主要集中在综合性大学的经济类院系、财经类大学和社科院系统。基于关键词的分析可以发现，研究的主题非常广泛，既有经济学学科领域的理论探讨，也有结合国家、企业、农村、城市等主体的理论分析。这些研究主题与国民经济发展相适应，都是及时对国民经济中的热点和难点问题展开研究。从全国哲学社会科学规划办网站公布的结项结果来看，共有323项结项（2003年到2008年3月），除2004年结项数达到90项外，其它几年的结项数保持在50到60项之间。参考文献：许新军．近十年来图书情报学国家社科基金资助项目的统计分析．图书与情报，2007.4：103-106 国家社会科学基金历年资助项目（1999-2007）．http://www.npopss-cn.com.cn 国家社会科学基金资助项目汇编（1993-1998）．http://www.npopss-cn.com.cn 叶继元．学术规范通论．上海：华东师范大学出版社，2005：123 中国资源短缺成为约束经济可持续发展瓶颈． http://info.oil.315.com.cn/info/2007/08/14/7793b9060e93b0a8062bae198ed1d80d.html 由于知识结构的缺陷，本文只是将收集的数据进行了初步的加工处理。没有杂志社要，就搁在这儿了。希望对对申请经济理论类国家社会科项目的朋友有些帮助。

个人分类: 信息资源建设|5318 次阅读|1 个评论

数据挖掘与知识发现

郭崇慧 2009-2-1 19:03

数据每年都在成倍增长，但是有用的信息却好像在减少。在过去 20 年里出现的数据挖掘领域正致力于这个问题。它不仅是一个重要的研究领域，而且在现实世界中具有重大的潜在应用价值。数据挖掘和数据库知识发现（ Data Mining Knowledge Discovery in Database ，简称 DMKDD ）是 20 世纪 90 年代兴起的一门信息技术领域的前沿技术，它是在数据和数据库急剧增长远远超过人们对数据处理和理解能力的背景下产生的，也是数据库、统计学、机器学习、最优化与计算技术等多学科发展融合的结果。知识发现是从数据中识别有效的、新颖的、潜在有用的、最终可理解模式的一个复杂过程。数据挖掘是知识发现中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。知识发现是一个包括数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤，最终得到知识的全过程，而数据挖掘是其中的一个关键步骤。由于数据挖掘对于知识发现的重要性，目前，大多数知识发现的研究都集中在数据挖掘的算法和应用上，因此，很多研究者往往对数据挖掘与知识发现不作严格区分，把二者混淆使用。目前数据挖掘研究和实践与 20 世纪 60 年代的数据库研究和实践的状态相似。当时应用程序员每次编写程序时，都必须建立一个完整的数据库环境。随着关系数据模型、查询处理和优化技术、事务管理策略和特定查询语言（ SQL ）与界面的发展，现在的环境已经迥然不同了。在未来几十年内，数据挖掘技术的发展可能会与数据库发展历程相似，就是使数据挖掘技术更易于使用和开发。参考文献： 1.U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy. Advances in knowledge discovery and data mining. AAAI/MIT Press, 1996. 2. J. Han, M. Kamber. Data mining: concepts and techniques. Morgan Kaufmann Publishers, 2001. （ 2nd Edition, 2006 ） 3. M. H. Dunham. Data Mining: Introductory and Advanced Topics. Pearson Education, Inc., 2003. （郭崇慧，田凤占，靳晓明等译．数据挖掘教程 ( 世界著名计算机教材精选 ) ．清华大学出版社， 2005 ．）

个人分类: 科研笔记|9902 次阅读|0 个评论

用VBA剖析文献计量分析研究中的统计分析技术

huabolin 2008-10-24 12:20

用 VBA 剖析文献计量分析研究中的统计分析技术化柏林 ( 中国科学技术信息研究所北京 100038) （发表于《现代图书情报技术》2007年第4期）【摘要】对计量分析研究中的统计按照统计结果进行了详细分类，然后对这些统计进行归纳分析，发现各种统计的关键技术都一样，只是对基础统计的依赖程度和输出结果的表现形式有所不同。在不支持 SQL语句的excel里用VBA进行统计，其实质变成了查找。通过本项研究，有望推动文献计量分析论文的自动生成与深入正文字段的内容分析。【关键词】　计量分析　统计分析　技术实现　 VBA 【分类号】　 TP311，G35 Anatomy of statistic analysis technology in bibliometric and analytic system via VBA Hua Bolin ( Institute of Scientific and Technical Information of China, Beijing 100038, china) 【 Abstract 】 Statistic process of bibliometric is classified by statistic result. After concluding and analyzing various statistics, It is showed that critical technology of these statistics is same, but there is some difference in dependence on basic statistic and form of output. Statistic is actualized by find and comparing in excel using VBA, which is not supported with SQL. It is expected that papers of bibliometric can be written automatically and paper text can be analyzed deeply. 【 Keywords 】 bibliometric, statistic analysis, technical implement, VBA 文献计量中的统计按照对象分为作者统计、关键词、机构统计、主题统计、分类号统计、期刊统计、地区统计、参考文献统计（不同于引文分析）、基金资助统计、篇名统计、摘要统计、正文统计。按照统计结果又分为Top N 统计、奇异值统计、数量分布统计、年度增长统计、其它关联统计。统计计算过程与类型如图 1 所示。图1 统计计算过程与类型图 1 数量初步统计初步统计从技术实现上分为顺排统计与倒排统计。顺排统计指每一步统计只针对一条记录，如一篇文章含有几个关键词 ( 篇含关键词数 ) 、一个标题含多少字 ( 标题长度 ) ；倒排统计指每一项的统计涉及很多条记录，如一个关键词出现在哪些文章里，即统计关键词在统计样本里的总频次。顺排统计一般只需要一重循环就可以了，而倒排统计往往要麻烦得多。在不能使用 SQL 语句的情况下，倒排统计变成了一个查找的过程。以作者统计为例的统计程序流程如图 2 所示。图 2 作者统计数据流程图以作者统计为例的处理过程如下：从源表里每取一个数据，就要到目标表里去找，如果已经出现，那么在相应值后加 1 ，如果没有找到，则把该作者追加到后面，并初始化值为 1 。该程序需要注意的地方是对目标表必须遍历一趟才能知道有没有，所以用个布尔变量 bFind 来控制，如果找到了，置为 True ；如果没有找到，一直为 False 。也就是说相等说明找到了，不相等不能说明没有找到，只有所有的都不相等才能说明没有找到。统计程序源代码如表 1 所示。表 1 关键词统计程序源代码 1: For i = 1 To iSrceCount 2: For j = 1 To 20 3: bFind = False 4: sTemp = Trim(Worksheets(sSrce).Cells(i, j)) 5: If sTemp = Then 6: Exit For 7: End If 8: For k = 1 To iDestCount 9: If sTemp = Worksheets(sDest).Cells(k, 1) Then 10: Worksheets(sDest).Cells(k, 2) = Worksheets(sDest).Cells(k, 2) + 1 11: bFind = True 12: Exit For 13: End If 14: Next 15: If bFind = False Then 16: iDestCount = iDestCount + 1 17: Worksheets(sDest).Cells(iDestCount, 1) = sTemp 18: Worksheets(sDest).Cells(iDestCount, 2) = 1 19: End If 20: Next 21: Next 这个算法速度非常慢，当有近五万条数据时，执行时间为二十多个小时。其原因是查找过程（ k 循环）读取的是硬盘，因此把目标内容装到内存里，等操作完毕后再写回硬盘。改造前读写硬盘的次数为 iSrceCount*iCount*iDestCount/2 。在本实验中统计关键词时， iSrceCount=42989 ， iDestCount=43980 ，篇均关键词个数为 4.7 ，因此统计关键词时读写硬盘的次数为 42989*4.7*43980/2=8886084234 ，约合为 9G 次。为了提高程序执行速度，把要查找的内容装到内存里（也就是变量），执行查找，等完全操作完毕后再写回硬盘，并把查找的过程写成函数，程序代码改造如表 2 所示。表 2 改造后的统计程序源代码 1: Dim sTable(iRecCount, 2) As String 2: For i = 1 To iRecCount 3: For j = 1 To 10 4: sTemp = Worksheets(sSrce).Cells(i, j) 5: If sTemp = Then 6: Exit For 7: End If 8: iFindCol = findinArray(sTemp, sTable, 1) 9: If iFindCol 0 Then 10: sTable(iFindCol, 2) = sTable(iFindCol, 2) + 1 11: Else 12: iDestCount = iDestCount + 1 13: 　 sTable(iDestCount, 1) = sTemp 14: 　 sTable(iDestCount, 2) = 1 15: End If 16: Next 17: Next 18: For i = 1 To iRecCount 19: Worksheets(sDest).Cells(i, 1) = sTable(i, 1) 20: Worksheets(sDest).Cells(i, 2) = sTable(i, 2) 21: Next findinArray() 函数类似于系统提供的 instr() 函数。 Instr() 查找某字符串在整个字符串中的首次出现的位置，而 findinArray() 查找某字符串在整个数组中的位置。本程序的查找过程使用了顺序遍历，如果目标数据做成有序的，按字符顺序排列就可以使用二分查找；如果是按频率排序，还需顺序遍历，这样保证高频词快速找到。按字符顺序排序的情况下，插入新数据比较麻烦；按频率排序的情况下，直接在末尾插入就可以了。 2 加权统计不同位置的数据有着不同的重要性，因此有的统计需要加权。加权统计分为同字段位序加权与多字段加权。同字段位序加权是同一字段内给不同位序的值分配不同的权重，如作者、机构、分类号等都是有位序的，关键词等一般来讲是无序的。多字段加权是为不同的字段分配不同的权重，例如主题分析时为标题、关键词、分类号等字段分配不同的权重，然后利用公式进行计算求得文献的主题，同一个词在标题、关键词、摘要与正文里出现的权重是不同的。同字段位序加权是按不同的位序分配不同的权重，一般来讲，位置靠前的作者权重高。加权统计有多种算法，常用的加权统计方法有等级分配法，即按合著文献中每个作者的排名先后递减分配其权重，设合作者人数为n ，则排名第i 位的著者的权重为：。如果是加权统计，按表 2 进行计算的话，把对目标表第 2 列加 1 的地方换成 (iCount-j+1)/iSum 就可以了，当然 iCount 与 iSum 要提前求出来。由于关键词没有顺序关系，因此直接按出现次数进行统计并从大到小排列就可以了。但是统计关键词平均长度时就需要考虑是否带上频率。统计关键词平均字符个数有两种统计方法，一种是不考虑出现频率的平均长度统计，一种是考虑出现频率的平均长度统计。用每个关键词长度乘以出现频率累加后除以总关键词频数，得到带频率的关键词平均长度。关键词长度统计算法如表 3 所示。表 3 带频率的关键词长度取值 1: For i = 1 To recCount 2: Worksheets(sDest).Cells(i, 3) = Len(Worksheets(sDest).Cells(i, 1)) 3: Worksheets(sDest).Cells(i, 4) = CInt(Worksheets(sDest).Cells(i, 3)) * CInt(Worksheets(sDest).Cells(i, 2)) 4: Next 3 TopN 统计 Top N是最常用最基本的统计，如高产作者统计、高被引作者（或文章或机构）统计、高频关键词统计等，以分析核心作者、核心期刊、核心研究机构等，Top N的输出以表格式形式所列，一般不进行图形显示。 Top N统计分为两类，一类是绝对数N，不管总数据量有多少，取绝对数N，例如高产作者前50位。另一类是相对数N，这个N的值不是一个确定的数，往往根据总数据量的多少来确定，一般是数据量的百分比。例如核心期刊的确定就是按照总数据量的多少来取，或者按二八原则确定某一专题研究的核心作者。前者几乎不需要什么算法，直接取就可以了。后者的处理方式很多，有的按数据个数的百分比，有的按数据累加量的百分比。按二八原则取前N项的程序如表4所示。表 4 按二八原则取前 N 项的程序源代码 1: For i=1 to iRecCount 2: iTotal=iTotal+ Worksheets(sDest).Cells(i, 2) 3: next 4: For i=1 to iRecCount 5: iSum = iSum+ Worksheets(sDest).Cells(i, 2) 6: if iSum/iTotal0.8 then 7: iTopN=i 8: exit for 9: end if 10: next 4 　奇异值统计奇异值统计包括最长、最短、最多、最少等端点值的统计，它不同于Top N统计。Top N统计某一特征的前N项，奇异值统计的是某一特征的端点值，而且有些特征本身就比较特殊，返回的是一个值，这种特征有时是一些很特殊的需求，所反映的是个别现象或特殊情况，如字符数最多的关键词、不含英文字符与标点符号的最长的关键词是什么，有多长，篇含关键词最多的个数，最短标题的长度，用等值统计和加权统计差别最大的作者（前者是不管第几作者都按一篇计算，后者按位序乘以相应的权重，一篇文章所有的和为1，分析是否有挂名现象等）。这些统计不是没有意义，例如找出最长的关键词可以确定可以在使用关键词构成的词库对标题、摘要等字段进行向量分词时确定最大向量长度。奇异值统计不适合以任何图形形式展现。奇异值统计主要是循环比较，这种奇异值是需要根据特定的需求进行计算。如想查找标题里出现助词的最多的个数，其算法如表5所示。表 5 统计标题中助词的最多的次数程序源代码 1: For i = 1 To iRecCount 2: sSentence = LTrim(Worksheets(sSrce).Cells(i, iSrceCol)) 3: For j = 1 To Len(sSentence) 4: If InStr(j, sSentence, 的 /u) 0 Then 5: iDeCount = iDeCount + 1 6: Else 7: exit for 8: End If 9: Next 10: If iDeCountiMaxCount then 11: iMaxCount=iDeCount 12: End If 13: Next 本实验先对所有文章标题进行分词，然后进行词性标记，然后再进行查找出现的字最多的标题。经过分词与词性标记避免了的确、有的放矢等噪声的影响，最终求得的iMaxCount 就是标题里含有助词的最多的个数。 5 　数量分布统计数量分布统计主要统计数量分布关系，如实验中对图书情报学核心期刊的42,989篇文章进行统计分析，发现篇含关键词数量为三到八个的占到95%，这也要与大多数编辑部要求提供三到八个关键词有关，反过来也可以对一些规定进行验证其合理性。再者统计出四字关键词占关键词总数的41%。数量分布统计常以曲线图、柱状图、饼状图等形式展现。数量分布的统计比较简单，求标题长度分布的程序源代码如表6所示。表 6 统计标题长度分布的程序源代码 1: For i=1 to iRecCount 2: Worksheets(sDest).Cells(i, 2)=len(Worksheets(sDest).Cells(i, 1)) 3: iLength= CInt(Worksheets(sDest).Cells(i, 2)) 4: Worksheets(sDest).Cells(iLength, 7) =Worksheets(sDest).Cells(iLength, 7) + 1 5: Next 实验中把标题长度进行了数量分布的统计，发现14个字符的标题最多，达到3909篇。数量分布统计的关键是找到分布情况，而不是端点值。例如，标题长度介于8~24个字符的文章数量达到38644篇，占90%，介于5~36个字符的文章数量达到42560，占99%。论文标题长度数量分布统计如图3所示。图 3 标题长度数量分布统计图 6 　年度增长统计年度增长统计主要进行和时间有关的统计，如作者发文量的增长、关键词年度增长情况等。按年度统计可以分析新的生力军、新的研究热点，按关键词统计年度分布可以分析某项研究的生命周期，作者与关键词及年度的关系可以反映作者的研究轨迹。比较是年度增长统计的主要分析手段，无论是增长量还是增长率，都是双目运算。在年度增长的统计图中，必然要有年度作为一个时间维，这种统计常以曲线图或双柱状图，不适合以饼图形式展现。还有机构的年度分布，或者关键词按年统计并分析出关键词年增长情况，还可分析关键词与期刊或分类号与期刊之间的关系，得到期刊的偏好，以方便大家投稿。按年度统计关键词程序如表7所示。表 7 按年度统计关键词程序源代码 1: For i = 1 To iRecCount 2: iYear = Format(Date, YYYY) - Sheet5.Cells(i, 2) 3: iYearCol = iYear * 2 - 1 4: For j = 1 To 20 5: bFind = False 6: sTemp = Trim(Worksheets(sSrce).Cells(i, j)) 7: If sTemp = Then 8: Exit For 9: End If 10: For k = 1 To iYearCount(iYear) + 1 11: If sTemp = Worksheets(sDest).Cells(k, iYearCol) Then 12: Worksheets(sDest).Cells(k, iYearCol + 1) = Worksheets(sDest).Cells(k, iYearCol + 1) + 1 13: bFind = True 14: Exit For 15: End If 16: Next 17: If bFind = False And sTemp Then 18: iYearCount(iYear) = iYearCount(iYear) + 1 19: Worksheets(sDest).Cells(iYearCount(iYear), iYearCol) = sTemp 20: Worksheets(sDest).Cells(iYearCount(iYear), iYearCol + 1) = 1 21: End If 22: Next 23: Next 从关键词增长可以看出当年的研究热点，其计算方法也很多。第一种是年增长量，其弊端是高频关键词会靠前，如图书馆、中国等高频关键词会轮流排在前面；第二种方法是倍数，这样上一年较小的关键词排在前面，尤其是上一年频次为1的关键词；第三种方法是增长率，用当年的频次减去上一年的频次后再除以上一年的频次，得到的是相对于上一年的增长率；第四种方法是相对增长率，用当年的频次除以当年的所有关键词总频次f1，上一年的频次除以上一年的所有关键词总频次f2，然后用f1除以f2，当然也可以除以当年的文献数，这种情况主要是考虑不同年的文献量不一样，这种方法反映关键词在当年比重的增长情况；第五种方法是当年的关键词频次减去上一年的关键词频次再除以该关键词所有年的总频次，这种方法能够反映该关键词增长的高峰期，避免了基数大的词在当年排在了前面；第六种方法是把所有上一年为低频的次年变成高频的关键词统计出来，这能反映出关键词的快速增长期，反映出新的研究热点，不同的计算方法有不同的优缺点，可以满足不同的需求。除了与时间有关的关联统计外，还可以统计关键词与期刊的关系，以及年度关键词与期刊的关系等都能反映出期刊的侧重点或期刊倾向的转变，便于大家有针对性地查资料或者投稿。技术实现上与年度增长统计大同小异。 7 结论 Top N统计、奇异值统计、数量分布统计、年度增长统计、其它关联统计基本上是在初步统计的基础上进行的。这些统计之间既有共性，又存在着差异。统计不是最终目的，最终目的是通过统计，能够做出评价、分析与预测。不论是哪种统计，关键技术都比较相似，用循环与条件判断两种程序结构加上数学运算函数与字符串处理函数，无论是主题计量分析研究还是引文分析等计量分析研究都可以自动实现。纵观统计技术，实现起来都比较简单，期望更多的非技术背景的人能够很好的使用这种统计分析技术，共同推动计量分析特别是主题型计量分析研究论文的自动化生成。虽然各种统计的关键技术相似，但不同的统计计算对基础统计的依赖程度不一样，输出结果的形式也有所不同。数量初步统计是基础，各种统计与基础统计的关系主要有两类，一类是直接在初步统计的基础上，对统计结果进行某种处理，包括数量分布统计和 Top N 统计，它们都绝对依赖于基础统计，如文章所含关键词个数的数量分布依赖于每篇文章所含的关键词数量，高产作者前 N 位依赖于每位作者的发文量；第二类是在进行基础统计的时候加上某种限定条件，包括奇异值统计、年度增长统计、其它关联统计等，它们是部分依赖于基础统计的，如年度增长统计是按年度进行分类统计，在此基础上进行不同年度之间的比较。本研究尽管实现了对小字段的全自动统计分析，但尚存在以下几个问题：第一，处理大数据量能力有限，因为excel的限制，几十万的数据量处理起来就稍麻烦一些，需要多个sheet连接处理。第二，更多的是统计，对分析做得很不够。如统计模型与信息分析方法的运用很欠缺，缺乏对一些统计结果的自动化分析，如对奇异值的自动分析。也缺乏对统计结果上升到理论层面的验证与分析。对评价、预测与挖掘等深度分析尚未涉及。预测需要数学模型和专门的方法，如趋势外推法、时间序列法等。挖掘是要从大量的统计数据中总结出新颖的、潜在有用的知识。第三，没能实现统计报告的自动生成，统计报告要自动生成，语言理解与生成必不可少。使用统计报告要比统计论文更确切一些。这些统计报告大都涉及对数据源的选取、处理过程、统计结果以及对结果的说明，作者会在后续的研究中进一步总结这些报告或论文的框架与写作规律、常用句型的统计计量等，以实现报告或论文的自动化生成。参考文献 1 娄策群．社会科学评价的文献计量理论与方法．华中师范大学出版社， 1999 ： 68 2 李长玲，化柏林．我国网络计量学研究的文献计量分析．图书情报工作， 2006 （ 9 ）： 46-50 3 化柏林．图书情报学核心期刊论文标题计量分析研究．情报学报， 2007(x) 4 蔡筱英，金新政，陈氢．信息方法概论．科学出版社：北京． 2004 ． 231 ， 239 5 粟湘．数据挖掘在科技论文分析中的应用研究．中国科学技术信息研究所． 2003

个人分类: 文献计量|4762 次阅读|0 个评论

转载：专家认为近期连续地震可能与太阳黑子活动有关

杨学祥 2008-10-15 03:01

专家认为近期连续地震可能与太阳黑子活动有关 http://www.sina.com.cn 2000年06月12日22:12 中新社　　中新社北京六月十二日电：近一时期全球连续发生多起地震，频繁的地震因何而起人们众说纷纭。中国有关地震专家认为，今年是太阳黑子活跃年，太阳黑子影响地震是有可能的。　　据中国地震台网测定，北京时间十一日凌晨台湾南投地区发生里氏六点八级地震。六月十日，日本东海道地区发生里氏六点七级地震；六月六日，中国甘肃景泰地区发生里氏五点九级地震。而在此之前，土耳其昌克勒省发生里氏五点九级地震；印尼苏门答腊岛明古鲁地区发生里氏七点九级地震。　　连续发生的地震是否与太阳黑子活动有关？是否意味着地球进入地震活跃期？中科院院士、中国地震局地球物理研究所所长陈运泰说，太阳风最近干扰了电离层。太阳黑子每十一年是一个活跃周期，今年是活跃年。虽然各国正在探讨天体现象同地球构造活动的关系，但还没有令人信服的事实。他认为，太阳黑子影响地震是有可能的。研究地震与太阳黑子的关系，要靠长期数据的积累，甚至要上百年的数据及可靠的观测事实。　　陈运泰表示，目前不好说是进入地震活跃期，是否活跃要看本质，不能只看现象。他说，经过仔细统计，最近一年地震并不像百姓印象中的那样增加了。统计表明，全球每年平均发生十八个里氏七至八级的地震，一个八级以上的地震。去年地震活动线持平，只有十八个七至八级的地震，八级以上的没有。　　《中国青年报》在报道中说，这位地震专家分析道，老百姓之所以觉得好像地震多了，原因一是现在媒体信息发达，地震的消息比过去知道得多；二是科学进步，地震台网分布多了，记下了过去没有记下的地震；三是全球经济发达，人口密集，过去六级地震几乎不死人，现在伤亡比较多，人们容易记住。 http://news.sina.com.cn/china/2000-06-12/96913.html 图书简介书名：太阳风暴 ISBN：7502935428 作者：张元东 1935~ 出版社：北京 : 气象出版社年份：2003 页数和开本：190页 ; 21cm 丛编项：全球变化热门话题丛书题名：主题：太阳活动(0) 研究(0) 中图分类号：天文学如需代寻本书，从页面右侧预定一般附注：内容简介：该书论述了太阳与太阳观测、太阳黑子、太阳风暴、太阳活动预报、太阳活动与地球环境变化、太阳活动与气象灾害、太阳活动与地震灾害等内容。 http://copies.sinoshu.com/copy2383533/

个人分类: 生活点滴|4387 次阅读|2 个评论

帐号		自动登录	找回密码
密码			注册

关闭安全验证

标签: 统计分析

相关帖子

相关日志

关闭 安全验证

标签: 统计分析

相关帖子

相关日志

关闭安全验证