走进平常分享 http://blog.sciencenet.cn/u/cosismine 40岁,追求卓越,却走进平常

博文

也谈数据搜集 精选

已有 6671 次阅读 2009-5-25 19:50 |个人分类:未分类|系统分类:科研笔记|关键词:学者

     我的观点是,搜集数据是一切像模像样的研究的基础。在硕士阶段,从数据搜集入手去开展一项完整的研究,对于提升研究能力是很好的训练。因此,无论如何不能怕困难。有了过硬的数据,即使你的分析能力有限,未能得出石破天惊的结论,但是别人可以利用你的数据去做进一步的分析,那也是你在源头上做出了贡献。我个人有一个简单看法:硕士研究生只要在数据搜集上下了真功夫,就可以认为具有“创新点”了――贡献了新数据。当然,是在一项有意义的学术选题的前提下搜集数据,而不是为搜集数据而搜集数据。

摘自:http://www.sciencetimes.com.cn/m/user_content.aspx?id=212832

看到武老师这段话的时候,我正埋头于搜集数据。说实话,是真的觉得烦,而且看不见价值,真的想过放弃。但看到武老师说得这么重要,想自己虽然已经读过硕士,还真的没有好好搜集过数据,更没有从数据中总结出什么规律来,就坚持一下吧。

数据搜集的工作先前也作过,但搜集的数据很明确,只是一个数字,而这个数字间的规律是后面的分析而来的。所以,在搜集数据的时候,没有感觉到很难。后来搜集过图书馆期刊利用的数据,也只是说明性的数据,只是把数据呈现出来,也没有感觉多难。

这次搜集的数据是结构解释性数据。说实话,这种结构原本来就不是很清楚,刚开始只是一个idea,然后和老师两个人讨论了很长时间,觉得似乎弄清楚了,就开始搜集,花费了很长时间,结果到解释的时候,怎么也解释不清楚,才发现原来要用到了一个概念和我原先理解得不一样,或者说原来所理解的概念之间的关系是全异的,但现在却是交叉的,那么我们后面要解释的东西根本就无法站住脚,要么是在一个更为复杂的基础上展开分析,而这种分析就没有办法解释我们现在所要证明的概念。所以,所搜集的数据一点用处都没有了。

老师和我两个人抓耳挠腮了很长时间,两个人都感觉totally confused。不知道该怎么把这个研究进行下去。说实话,这是一个建立在新的结构上的概念,概念本身我们都不是很清楚,前人的研究也都没有很好的逻辑证明,只是凭着想象在池塘里扔了一块石子,然后试图解释所溅起的水花和所引起的波纹,尽管此后有人尽力完善这个概念,但在之前,这个概念至少还没有明确地解释过,甚至其中的一个作者本身,也不是很明白这个概念。

后来老师帮我引入另外一个概念,这个概念可以在上位类把概念划分为对立关系,于是,研究可以继续下去,重新搜集和整理数据。加上先前搜集和整理分析数据的经验,研究进行得很顺利。

所以,对武老师的见解非常赞同:搜集数据像模像样研究的基础,从数据搜集开始开展一项完整的研究,对提升研究能力是很好的训练。这次从数据搜集开始的研究对我个人是个很大的挑战,我后来终于把结构性的概念表述清楚,老师看后说,I slowly begin to understand what you did, it looks very good. 然后他开始在其上修改充实,进一步深化和明确概念。

这次搜集数据积累了一些经验,一直想好好总结一下,以后再搜集数据就不至于再走这么多的弯路。

1,明确我们所搜集数据所涉及的所有概念和概念间的关系。

这很重要,如果其中有一个概念不明确,我们后面搜集的数据就没有办法分析,可能所有的工作都白费了。而说实话,要在事先完全理解这些概念还真的有些难度,一个原因是自己本身的知识积累不够,对有些概念不够理解。二是有些概念本身还不是很清楚,科研本身就是向未知探索的一个过程,所以,概念本身的模糊也很常见。一定要在搜集数据之前,好好学习,把这些概念弄清楚。

2,好好设计我们所要搜集的数据结构。

这又是一个难题,因为很多时候,我们是因为不知道这些数据结构才开始调查的。但这对结构的数据很有意义,结构性的数据往往说明科学最基本的结构,决定了其上的功能,刚开始搜集数据的时候,起码要有一个框架。然后,在数据搜集的过程中,可以根据数据本身来调整这个框架。

3, 要尽量利用计算机语言,实现一些机械化的操作。

搜集数据要用到一些基本的计算机语言,对这些语言的功能要学习透彻。比方这次搜集数据过程中,我用Excel来整理数据,之前竟然不知道Excel有数据导入的功能,做了很多无用功。

4,设计一些验证性的指标,以检验数据搜集和整理过程中的失误。

失误是难免的,涉及一些验证性的指标,比方,总和啊,之类的,可以防止自己在处理数据时出现失误。

5,用尽量明确的名称给数据命名。

这样可以避免天长日久,忘记数据本身的意义。

6,尽量把所有的数据都放在一个文件里,防止数据混乱。

7,原始数据的保留与分拆

原始数据中往往包含各种因素,有时间因素,有概念因素,所以,数据往往处于混沌状态。但从各个方面都可以捋出一条线来,所谓横看成岭侧成峰,从一个因素提成,是一条分析线路,从另一个因素分析,又是一个分析线路,所以,要保留原始数据,再做各个因素分析的时候,把原始数据复制过来,再做处理,处理的时候,就可以大刀阔斧地删除无关因素,按主线把数据整理,也就是清洗数据。

最后当然是数据分析过程,一定要掌握基本的数学分析方法,我跟上一个在伯克利分校做过数学博士后的导师学习,有得天独厚的条件,一定要抓紧机会多多学学数学分析方法。



https://m.sciencenet.cn/blog-215715-233734.html

上一篇:上海屋檐下的小窝
下一篇:户籍政策

10 武夷山 赵星 刘玉平 曹聪 邹斌 李宁 苏金燕 贺天伟 龙桃 李晓光

发表评论 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 01:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部