科学网

 找回密码
  注册

tag 标签: 论文数据

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

超详细!研究数据收集的有效技巧
Charlesworth 2020-6-11 13:46
作者:查尔斯沃思作者服务 翻译:查尔斯沃思中国办公室 数据收集是一种基于既定的、系统的方式进行收集和衡量相关变量信息的过程。无论在什么学科领域,数据收集都是必不可少的。本期我们邀请查尔斯沃思英国编辑团队成员中有着丰富数据收集经验的专家,教授大家一些有效的技巧,帮助大家更好的理解与提高此方面的能力。译文如下: Q:该如何敲定回答下一个研究问题所需的数据类型? 这个问题非常关键,你需要考虑下列几项因素: 你的假设是什么? 你该如何让编辑、同行评议审稿人和读者都相信你的假设是正确的? 你想要收集何种数据? 你该花费多长时间?- 多少数据足以支撑你的假设? 明确地说,数据收集是一种基于既定的、系统的方式进行收集和衡量相关变量信息的过程。数据收集可以帮助你回答提出的研究问题,检验研究假设并评议研究结果。数据收集环节常出现于物理、社会科学、人文科学和商业等所有研究领域。换言之,无论你专攻何种学科领域,数据收集是必不可少的。 尽管研究方法因学科而异,但保证数据精确且真实始终是数据收集不渝的原则。 以下为可供思考的几点内容: 确保数据收集准确恰当的重要性;无论在何种研究领域,无论是否喜欢给数据下定义(定性数据、定量数据),准确的数据收集都是保持研究完整性的基本要求。选择恰当的数据收集工具(现有的、改良的或新开发的)和准确介绍正确用法的说明书均可以减少出现错误的可能性。 请明确数据收集的重要性,数据收集不当会带来以下后果: 无法准确回答研究问题; 无法重复和验证研究; 结果失真导致资源浪费; 误导其他调查人员进行无效调查; 损害公共政策的决策; 对人类受试者和动物受试者造成伤害。 尽管错误的数据收集造成的影响会因学科和调查性质而异,但当研究结果被用作公共政策的建议时,将有可能造成巨大损失。 关于保障数据完整性的问题:保持数据完整性的基本原理是支持数据收集过程中的错误检测,明确错误是否为有意造成(故意篡改或系统错误和随机错误)。 Most、Craddick、Crawford、Redican、Rhodes、Rukenbrod和Laws于2003年将“质量保证”和“质量控制”阐述为两种保持数据完整性和确保研究结果科学有效性的两种方法。这两种方法分别被用于研究时间表中的不同时间点(Whitney, Lind, Wahl, 1998): 质量保证 在数据收集开始之前进行的活动; 质量控制 在数据收集期间和之后进行的活动。 质量保证 由于质量保证先于数据收集,因此其主要侧重于“预防”(即预防数据收集中出现的问题)。预防是确保数据收集完整性最具成本效益的活动。全面详细的数据收集程序手册中制定的标准化方案可以最好的诠释这一积极措施的意义。手册编写不当会增加在研究过程中未能及早发现问题和错误的风险。这可能会导致如下问题: 时间、方法和确定数据审查人员的不确定性; 需收集项目列表的不完整; 数据收集工具的模糊描述(缺少用于管理测试的详细步骤说明); 无法确定培训或再培训数据收集工作人员的具体内容和方法; 混淆使用、调整和校准数据收集工具的说明书(若适用); 无确定机制用于记录可能在调查研究过程中出现的变化。 质量保证中的一个重要环节就是制定严格且详细的招聘和培训计划。在培训过程中,需要向受训者有效传达准确数据收集的价值(Knatterud, Rockhold, George, Barton, Davis, Fairweather, Honohan, Mowery, O'Neill, 1998)。培训环节对于解决无意间偏离原始方案的员工这一潜在问题尤为重要。上述现象被称作“漂移”,受训者需要接受额外培训加以改正。同时,程序手册中也应对这点作出相应规定。 基于定性研究方法的范围(非参与/参与观察、个人访谈、归档、现场观察、人种志、内容分析、口述历史、传记、无干扰研究),很难对于为保证质量如何建立研究方案作出统一的陈述。因此,对于那些进行非参与/参与观察的研究人员来说,可能只有最广义的研究问题可为其初始研究工作提供指导。研究人员是研究中的主要衡量工具,很多时候几乎很难找到其他数据收集工具。同时,数据收集工具可能需要现场开发以适用于意外的发现。 质量控制 尽管质量控制(检测/观察和操作)在数据收集期间和之后进行,但也应在程序手册中记录详细的信息。一个明确定义的交流结构是建立观察系统的必要先决条件。在发现数据收集中的错误后,主要调查人员与工作人员之间的信息流应该不存在任何不确定性。交流结构不完善会导致观察松懈,限制错误检测。 检测/观察可以采取现场访问,电话会议等直接检查员工的形式,或者采取对数据报告定期且频繁评审以识别不一致,极值或无效代码的形式。尽管现场访问可能不适用于所有学科,但无法定期审核记录不论对于定性还是定量的数据收集来说,都不利于调查人员验证现行的程序与手册中的既定程序是否一致。此外,如果在程序手册中未明确规定交流结构,程序中出现任何变化都不利于转达给工作人员。 质量控制还可以确认必要响应或行动,用于纠正错误的数据收集方法并在最大程度上减少未来发生错误的几率。如果数据收集程序手册编写不清晰,且未在反馈和教学内容中提到减少错误复发的必要步骤,则无法起到上述作用(Knatterud, etal, 1998)。 需要立即采取行动的数据收集问题示例包括: 个体数据项目中出现错误; 系统错误; 违反协议; 单个员工或现场表现存在问题; 欺诈或学术不端行为。 在社会和行为科学中,一旦数据收集涉及人类受试者,研究人员则会被培训以一种或多种次要措施用于验证从人类受试者中收集信息的质量。例如,进行调查的研究人员可能想对年轻人中危险行为的发生以及增加这些危险行为发生可能性和频率的社会条件有更深入的见解。 为了验证数据质量,受访者可能会在调查中的不同时间点以不同的方式被询问相同的信息。“社交满意度”的衡量标准也可以用于衡量回答的真实度。在这里有两点内容需要说明: 数据收集过程中的交叉检查; 数据质量既是一个观察阶段问题,又是一个完整的数据集问题。因此,数据质量应通过个体衡量、个体观察和完整数据集而获得。 每个研究领域都有其首选的数据收集工具集。实验室科学的标志是实验室笔记的详细记录,而社会科学(例如社会学和文化人类学)可能更倾向于使用详细的现场笔记。无论何种学科,在数据收集之前、期间和之后,全面记录收集过程都是保障数据完整性的基本要求。 论文润色 | 学术翻译 | 其他发表支持服务 | 英国编辑团队介绍
4145 次阅读|0 个评论
科学发现与技术发明 – 数据与专利
benlion 2015-11-14 13:02
决定一个社会文明程度的关键,在于科学和技术的发达程度,而又在于伦理规范和法律制度的健全,在一个社会,包含几个方面的科学与经济关系概念: 1、国有财产和国有科学基金; 2、单位或法人公有财产和研究经费; 3、无形资产的专利发明和社会共享的科学知识发现等。 国家和单位及纳税人来源的科学研究投入资金,包括支付薪水,消耗后的产出是科学知识和技术,这些属于国家和公有财产的成果和产出,构成科技发展的核心历史。 也就是说: 科学家和发明家,对国家、单位和社会的贡献是科学知识的发现和技术发明的专利,而国家和社会投入的是经费和薪水。 一方面需要激励和奖励科学家和发明家的贡献,一方面投入的资金理应得到产出的知识和技术成果。 如何解释: 1)欧美专利制度对技术发明、经济创新的极大推动作用和成就卓著? 2)中国奖励高达70%和职务与非职务发明界限含混,可以同时在大学“任职”而又可自己创办“公司”(这是双创人才计划),极为宽松的条件,为何仍然非常缺乏发明和创新的成果? 3)如何解释共有财产与私有财产的界限,来自纳税人的资金消耗的产出成果,即,投入的回报,包括,知识发现和技术发明- 货币和有形资产消耗,产出的无形资产。 注: 前面的“共有财产”是指“单位公有财产”和“社会纳税人”提供的经费和工资。 - (14/11/2015网络日记,评论整理)-
个人分类: 中国科学与工业|1892 次阅读|0 个评论
Image2Data—基于Matlab的图像曲线数据提取
useful2you 2015-2-8 06:11
原始数据丢了怎么办?没有原始数据怎么办? 不要急,Image2Data来帮您 ^-^。 image2dataV1_1 image2dataV1_0 Image2data是一个基于matlab运行的GUI程序包,支持用户从论文、报告、图片等文档中提取曲线数据,进行数据对比或图像重绘,为科研工作者论文撰写提供了方便。 (1) 历史 : 2010年寒冷的冬天,我来到这个陌生的世界,通过与生俱来的从图片中提取曲线数据的本领,在小木虫、百度、豆丁等处结识了不少朋友,在大家的鼓励与支持下,我执着的走到今天。 (2)现状 : 1. 外观变漂亮了– Matlab GUI 界面重新设计; 2. 操作变灵活了–支持对话框文件导入导出; 3. 功能变强大了–增加描点数据列表、消息提示框,支持描点增加、删除; 4. 运行变稳健了–优化程序结构,全面支持 R2008 以来所有版本Matlab。 (3)将来 :下一版本准备增加自动曲线拟合、特殊曲线提取、多线提取等功能,敬请期待 。 相关下载 编号 文件名 201203a V1.1 操作教程 201203b V1.1 源代码及测试文件(兼容性 Matlab R2008b) 201203c V1.1 视频教程 2015年3月之前整理发布 201012a V1.0 操作教程 201012b V1.0 源代码及测试文件 (兼容性 Matlab R2008b) 201012c V1.0 视频教程
个人分类: 编程代码|8078 次阅读|0 个评论
统计:如何解读结果
热度 2 liwenbianji 2011-11-15 09:52
统计:如何解读结果
如今已没有几个行业可以完全不涉及统计学思维的,绝大多数学科都多少需要使用统计学….. 统计学已经从我们日常思维的一个方面发展为无处不在的系统性研究工具….统计学思维承认: 我们对世界的观察总存在某些不确定性,永不可能完全准确。 Rowntree D (1981). Statistics without tears. A primer for non-mathematicians. Penguin Books Ltd., London, England. 统计是指收集、处理和解释数据的方法。由于统计方法是科学探索的固有内容,因此我们的博客已经在研究设计、方法、结果、图表等数处提及统计。但考虑到统计在多数科学研究中的重要性,有必要专门讲解其使用和表达。 在开始研究之前,在初步的研究设计中就应该考虑统计。首先,要考虑你需要收集哪些信息来检验你的假设或解答你的研究问题。研究有个正确的开始非常重要;虽然数据检验错误相对容易弥补,要用另外的样本组重新收集数据或者从同一样本中追加获取变量可就费时费力得多。如果你想检验某种疗法对普通人群的效果,你的样本要能够代表这个群体。如果比较的是分别有两种疾病或行为的两个群体,那这两个群体的其他变量如年龄、性别、种族需要尽可能一致。这些涉及的都是数据收集;如果在这一步就犯了错,你就有可能遇到严重的问题,甚至可能会在数个月后在同行审稿阶段遭到严重质疑而推翻重来。 其次,你要考虑要采用何种统计检验才能从数据中提炼出有意义的结论。这取决于数据类型。是用来表达某种标志物存在与否的分类数据吗?还是有具体数值的定量数据?如果是定量数据,是连续数据(测量所得)还是离散数据(计数所得)?例如,年龄、体重、时间和温度都是连续数据因为他们的值是在连续,无限可分的尺度上测量出来的;相反,人和细胞的数目都是离散数据,他们不是无限可分的,他们的值是通过计数得到的。你也需要知道你数据的分布:是正态(高斯)分布还是偏态分布?这也关系到你该采取何种检验。你一定要知道你收集的是何种类型的数据,这样才能用适宜的统计检验来分析和恰当的方式来表示。下面这个网址提供了选择适宜检验方法的指南,可能会有所帮助:http://www.graphpad.com/www/Book/Choose.htm 最后,需要知道如何解读统计检验的结果。P值(或 t、 χ2 等)代表什么意思?这是统计检验的关键:确定结果到底意味着什么,你能下什么结论?统计能告诉我们某一数据集的集中趋势(如平均值和中位数)和离散趋势(标准差、标准误和百分位间距),从而明确该数据集的分布情况。统计学可以比较(如用t检验、方差分析和χ2检验)两个或多个样本组之间是否有非偶然的系统性差别。如果检验表明无效假设可能性很小,则差别具有显著性。一定要记住,用概率简化差别的“真实性”造成了两种风险,两种都取决于所选取显著性的阈值。第一个是第1类错误,是指本没有显著性差异之处检出了显著性差异。另一个是第2类错误,是指本有显著性差异但由于差别不够大而不能捡出。降低第1类错误的风险就会增加第2类错误的风险;不过这也比下不存在的结论要好。统计学也能给出关联的强度,从而允许从样本组中推断出适用于更广群体的结论。统计学赋予了本身价值有限的结果更多意义,并允许我们用概率下结论,虽然总是存在错误的可能。 实例 节选自《The Journal of Clinical Investigation》 (doi:10.1172/JCI38289; 经同意转载)。 清单 1. 在列举数据时,说明使用的是何种参数,如“均值±标准差”。 2. 说明数据分析所采用的统计检验方法。 3. 百分比给出分子分母,如“40% (100/250)”。 4. 正态分布数据用均值和标准差表示。 5. 非正态分布数据用中位数和 百分位数表示。 6. 给出具体的P 值, 如 写出 “P=0.0035”,而不要只写 “P0.05”。 7. “significant’ 这个词仅用于描述统计学上的显著差异。 英文原文 Statistics: what can we say about our findings? Today, few professional activities are untouched by statistical thinking, and most academic disciplines use it to a greater or lesser degree… Statistics has developed out of an aspect of our everyday thinking to be a ubiquitous tool of systematic research… Statistical thinking is a way of recognizing that our observations of the world can never be totally accurate; they are always somewhat uncertain. Rowntree D (1981). Statistics without tears. A primer for non-mathematicians. Penguin Books Ltd., London, England. The term ‘statistics’ refers to the methods used to collect, process and interpret data. Because these methods are so inherent in the process of scientific inquiry, there have been multiple references to statistics throughout our blog, namely, in the posts on study design, methods, results and display items. However, given the importance of statistics in most scientific studies, it is worthwhile having a separate post on how they should be used and presented. Statistics should first be considered long before the commencement of any research, during the initial study design. First, consider what information you need to collect in order to test your hypothesis or address your research question. It is important to get this right from the outset because, while data can be reanalyzed relatively easily if the wrong tests were used, it is far more difficult and time-consuming to repeat data collection with a different sample group or obtain additional variables from the same sample. If you wish to test the efficacy of a treatment for use in the general population, then your sample needs to be representative of the general population. If you wish to test its efficacy in a given ethnicity or age group, then your sample needs to be representative of that group. If comparing two groups of subjects separated on the basis of a particular disease or behavior, then other variables, such as age, sex and ethnicity, need to be matched as closely as possible between the two groups. This aspect of statistics relates to the collection of data; get it wrong and you could face major problems, potentially the need to start the research all over again, at the peer review stage many months later. Second, you need to consider what statistical tests should be applied so that you can make meaningful statements about your data. This depends on the type of data you have collected: do you have categorical data, perhaps describing the presence or absence of a particular marker, or quantitative data with numerical values? If your data is quantitative, is it continuous (that is, can it be measured) or discrete (counts)? For example, age, weight, time and temperature are all examples of continuous data because they are measured on continuous scales with units that are infinitely sub-divisible. By contrast, the number of people in a given group and the number of cells with apoptotic features are examples of discrete data that need to be counted and are not sub-divisible. You also need to know how your data is distributed: is it normally distributed (Gaussian) or skewed? This also affects the type of test that should be used. It is important that you know what type of data you are collecting so that you apply the appropriate statistical tests to analyze the data and so you present them in an appropriate manner. The following useful website provides a guide to choosing the appropriate statistical test: http://www.graphpad.com/www/Book/Choose.htm Finally, you need to know how to interpret the results of the statistical tests you have selected. What exactly does the p (or t or χ2 or other) value mean? That, after all is the point of statistical analysis: to determine what you can say about your findings; what they really mean. Statistics enable us to determine the central tendency (for example, mean and median) and dispersion (for example, standard deviation, standard error, and interpercentile range) of a dataset, giving us an idea of its distribution. Also using statistics, values from two or more different sample groups can be compared (for example, by t-test, analysis of variance, or χ2 test) to determine if a difference between or among groups could have arisen by chance. If this hypothesis, known as the null hypothesis, can be shown to be highly unlikely (usually less than 5% chance), then the difference is said to be significant. It is important to keep in mind that there are two risks associated with reducing a decision about the ‘reality’ of a difference to probabilities, and both depend on the threshold set to determine significance: the first, known as type I error, is the possibility that a difference is accepted as significant when it is not; the opposite risk, known as type II error, refers to the possibility that a significant difference is considered not to be significant because we demand a larger difference between groups to be certain. Reducing the risk of type I errors increases the risk of type II errors, but this is infinitely more preferable than reaching a conclusion that isn’t justified. Statistics also provides a measure of the strengths of correlations and enables inferences about a much larger population to be drawn on the basis of findings in a sample group. In this way, statistics puts meaning into findings that would otherwise be of limited value, and allows us to draw conclusions based on probabilities, even when the possibility of error remains. Example Extracts from The Journal of Clinical Investigation (doi:10.1172/JCI38289; reproduced with permission). Checklist 1. Indicate what parameters are described when listing data; for example, “means±S.D.” 2. Indicate the statistical tests used to analyze data 3. Give the numerator and denominator with percentages; for example “40% (100/250)” 4. Use means and standard deviations to report normally distributed data 5. Use medians and interpercentile ranges to report data with a skewed distribution 6. Report p values; for example, use “p=0.0035” rather than “p0.05” 7. Only use the word “significant’ when describing statistically significant differences. Dr Daniel McGowan 分子神经学博士 理文编辑学术总监
3444 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 11:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部