博文

也谈数据搜集精选

已有 6671 次阅读 2009-5-25 19:50 |个人分类:未分类|系统分类:科研笔记|关键词:学者

我的观点是，搜集数据是一切像模像样的研究的基础。在硕士阶段，从数据搜集入手去开展一项完整的研究，对于提升研究能力是很好的训练。因此，无论如何不能怕困难。有了过硬的数据，即使你的分析能力有限，未能得出石破天惊的结论，但是别人可以利用你的数据去做进一步的分析，那也是你在源头上做出了贡献。我个人有一个简单看法：硕士研究生只要在数据搜集上下了真功夫，就可以认为具有“创新点”了――贡献了新数据。当然，是在一项有意义的学术选题的前提下搜集数据，而不是为搜集数据而搜集数据。

摘自：http://www.sciencetimes.com.cn/m/user_content.aspx?id=212832

看到武老师这段话的时候，我正埋头于搜集数据。说实话，是真的觉得烦，而且看不见价值，真的想过放弃。但看到武老师说得这么重要，想自己虽然已经读过硕士，还真的没有好好搜集过数据，更没有从数据中总结出什么规律来，就坚持一下吧。

数据搜集的工作先前也作过，但搜集的数据很明确，只是一个数字，而这个数字间的规律是后面的分析而来的。所以，在搜集数据的时候，没有感觉到很难。后来搜集过图书馆期刊利用的数据，也只是说明性的数据，只是把数据呈现出来，也没有感觉多难。

这次搜集的数据是结构解释性数据。说实话，这种结构原本来就不是很清楚，刚开始只是一个idea，然后和老师两个人讨论了很长时间，觉得似乎弄清楚了，就开始搜集，花费了很长时间，结果到解释的时候，怎么也解释不清楚，才发现原来要用到了一个概念和我原先理解得不一样，或者说原来所理解的概念之间的关系是全异的，但现在却是交叉的，那么我们后面要解释的东西根本就无法站住脚，要么是在一个更为复杂的基础上展开分析，而这种分析就没有办法解释我们现在所要证明的概念。所以，所搜集的数据一点用处都没有了。

老师和我两个人抓耳挠腮了很长时间，两个人都感觉totally confused。不知道该怎么把这个研究进行下去。说实话，这是一个建立在新的结构上的概念，概念本身我们都不是很清楚，前人的研究也都没有很好的逻辑证明，只是凭着想象在池塘里扔了一块石子，然后试图解释所溅起的水花和所引起的波纹，尽管此后有人尽力完善这个概念，但在之前，这个概念至少还没有明确地解释过，甚至其中的一个作者本身，也不是很明白这个概念。

后来老师帮我引入另外一个概念，这个概念可以在上位类把概念划分为对立关系，于是，研究可以继续下去，重新搜集和整理数据。加上先前搜集和整理分析数据的经验，研究进行得很顺利。

所以，对武老师的见解非常赞同:搜集数据像模像样研究的基础，从数据搜集开始开展一项完整的研究，对提升研究能力是很好的训练。这次从数据搜集开始的研究对我个人是个很大的挑战，我后来终于把结构性的概念表述清楚，老师看后说，I slowly begin to understand what you did, it looks very good. 然后他开始在其上修改充实，进一步深化和明确概念。

这次搜集数据积累了一些经验，一直想好好总结一下，以后再搜集数据就不至于再走这么多的弯路。

1，明确我们所搜集数据所涉及的所有概念和概念间的关系。

这很重要，如果其中有一个概念不明确，我们后面搜集的数据就没有办法分析，可能所有的工作都白费了。而说实话，要在事先完全理解这些概念还真的有些难度，一个原因是自己本身的知识积累不够，对有些概念不够理解。二是有些概念本身还不是很清楚，科研本身就是向未知探索的一个过程，所以，概念本身的模糊也很常见。一定要在搜集数据之前，好好学习，把这些概念弄清楚。

2,好好设计我们所要搜集的数据结构。

这又是一个难题，因为很多时候，我们是因为不知道这些数据结构才开始调查的。但这对结构的数据很有意义，结构性的数据往往说明科学最基本的结构，决定了其上的功能，刚开始搜集数据的时候，起码要有一个框架。然后，在数据搜集的过程中，可以根据数据本身来调整这个框架。

3, 要尽量利用计算机语言，实现一些机械化的操作。

搜集数据要用到一些基本的计算机语言，对这些语言的功能要学习透彻。比方这次搜集数据过程中，我用Excel来整理数据，之前竟然不知道Excel有数据导入的功能，做了很多无用功。

4,设计一些验证性的指标，以检验数据搜集和整理过程中的失误。

失误是难免的，涉及一些验证性的指标，比方，总和啊，之类的，可以防止自己在处理数据时出现失误。

5,用尽量明确的名称给数据命名。

这样可以避免天长日久，忘记数据本身的意义。

6,尽量把所有的数据都放在一个文件里，防止数据混乱。

7，原始数据的保留与分拆

原始数据中往往包含各种因素，有时间因素，有概念因素，所以，数据往往处于混沌状态。但从各个方面都可以捋出一条线来，所谓横看成岭侧成峰，从一个因素提成，是一条分析线路，从另一个因素分析，又是一个分析线路，所以，要保留原始数据，再做各个因素分析的时候，把原始数据复制过来，再做处理，处理的时候，就可以大刀阔斧地删除无关因素，按主线把数据整理，也就是清洗数据。

最后当然是数据分析过程，一定要掌握基本的数学分析方法，我跟上一个在伯克利分校做过数学博士后的导师学习，有得天独厚的条件，一定要抓紧机会多多学学数学分析方法。

转载本文请联系原作者获取授权，同时请注明本文来自刘玉仙科学网博客。
链接地址：https://m.sciencenet.cn/blog-215715-233734.html

上一篇：上海屋檐下的小窝
下一篇：户籍政策

收藏分享

走进平常分享 http://blog.sciencenet.cn/u/cosismine 40岁，追求卓越，却走进平常

博文

也谈数据搜集精选

当前推荐数：10 推荐人：武夷山 赵星 刘玉平 曹聪 邹斌 李宁 苏金燕 贺天伟 龙桃 李晓光

发表评论评论 (5 个评论)

刘玉仙

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

走进平常分享 http://blog.sciencenet.cn/u/cosismine 40岁，追求卓越，却走进平常

博文

也谈数据搜集 精选

当前推荐数：10 推荐人： 武夷山 赵星 刘玉平 曹聪 邹斌 李宁 苏金燕 贺天伟 龙桃 李晓光

发表评论 评论 (5 个评论)

刘玉仙

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

也谈数据搜集精选

当前推荐数：10 推荐人：武夷山赵星刘玉平曹聪邹斌李宁苏金燕贺天伟龙桃李晓光

发表评论评论 (5 个评论)