科学网

 找回密码
  注册

tag 标签: 数据清洗

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

VOSviewer&CiteSpace:WoS数据清洗之如何将作者简写替换为全名?
热度 3 sky613 2016-11-13 15:08
一、 作者字段分析存在的问题 从 WoS 数据库下载的数据,作者字段有两种,分别是 AU 和 AF,AU 是作者名字的简写,AF是作者全名,如“王欣”,在 AU 字段表示为 Wang, X 而在 AF 字段表示为 Wang, Xin , CiteSpace 和 VOSviewer 在统计作者名字的时候默认统计 AU 字段,而不考虑作者 ID ,那么这就存在一定的问题,如软件统计出来 Wang, X 出现频次为 20 次,但“ Wang, Xin ”本人可能只发文 10 篇,原因就是软件把 Wang, Xing ; Wang, Xin ; Wang, Xiao 等作者全部统计为 Wang, X ,这时统计出来的数据就没什么信效度了。设想如果软件对 AF 字段也就是 Wang, Xin 进行统计,那么在很大程度上就可以避免重复,得到的数据就会有很高的可信度。 二、本博文,针对此问题,做出如下设想:可否让软件统计 TXT 中的 AF 字段? 三、经博主实践,得出如下解决方案: 1. 先将 AU 替换其他符号或字母( TXT 中绝对没有的,如 美元符号 ” $ ” ) 2. 将 AF 替换为 AU 3. 将第一步中代替 AU 的符号或字母替换为 AF. 四、 具体操作如下: 1. 打开 TXT (建议用 Notepad++ 软件打开,可在本博客主页下载)见下图 2. 选中全部数据( 快捷键 Ctrl A ) ,进入查找和替换界面(快捷键 Ctrl F ),点击 替换 3. 在查找目标栏输入 AU ,替换栏输入 $ , 点击 全部替换 。 4. 在查找目标栏输入 AF ,替换栏输入 AU , 点击 全部替换 。 5. 在查找目标栏输入 $ ,替换栏输入 AF , 点击 全部替换 。 这样一个 TXT 的作者 AU 和 AF 替换就完成了 最后记得保存 ---- 点击 保存按钮 或 快捷键 Ctrl S 前后对比: 整理人:华东师范大学 李京哲
17289 次阅读|3 个评论
[转载]Getting and Cleaning Data
rbwxy197301 2014-12-21 10:41
获取和整理数据 https://www.coursera.org/#course/getdata 隶属于 “Data Science” 专项课程 » 学习如何从多种来源获得和整理数据。这是约翰霍普金斯大学数据科学专项课程的第三课。 课程概述 在进行数据工作之前,你要先有一些数据。这门课将介绍获取数据的基本方法。这门课将介绍从网络、API、数据库或你的同事那里获取不同格式的数据。我们还会讲解数据整理的基本知识,以及如何让你的数据变“整齐”。整理数据将大幅提升接下来的数据分析工作的速度。这门课还会讲解一个完整的数据集的组成部分,包括原始数据、处理方法、代码书、及已处理数据。这门课会覆盖收集、整理和分享数据所需的基本知识。 请注意:这门课程现已推出中文版,2015年1月5日开课,与英文版同时进行。如果感兴趣,请在班次列表中选择“1月5日 2015 - 2月2日 2015 (中文版)”。 授课大纲 完成课程后,你将能够从多种来源获取数据。你将知道整理数据和数据分享的原则。最后,你将理解并能够应用数据整理和操作的基本工具。 先修知识 数据科学家的工具箱, R语言程序开发 授课形式 每周课程视频、测验和最终的同伴互评项目。 作为本课程的一部分,你需要设置GitHub帐户。Github是一种工具,用于共享和修改协作代码。在学习本课程及本专项课程其他课程的过程中,你需要提交自己公开放置在Github帐户下的文件链接,作为同伴互评作业的一部分。如果你担心自己的身份被他人得知,那么你需要注册一个Github匿名帐户,并且,切记不要添加你不想让评估的同学看到的信息。
个人分类: 文章转载|1920 次阅读|0 个评论
大数据更需要先清洗——《情报学报》2013年第6期卷首语
热度 1 huabolin 2013-7-27 11:46
大数据更需要清洗 无论用海量数据还是大数据来表征这个时代,数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题。如何把繁杂的大数据变成我们能应付的、有效的“小”数据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。在大数据时代,若不加强数据清洗,则GIGO(垃圾进,垃圾出)现象会更加严重。 对数据的清洗之后进行分析挖掘的过程就是情报“去粗取精、去伪存真、化零为整、见微知著”的过程。只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可以让人放心的、可用于支撑决策的情报。有时决策者似乎只需要一个简单的数,但是为了得到这一个数,我们需要搜集大量数据并进行有效的分析与处理。例如, 《国家中长期科技发展规划纲要 (2006 - 2020) 》提到,到 2020 年本国人发明专利年度授权量和国际科学论文被引用数均进入世界前 5 位,“ 5 ”是一个简单的数,但是要获知是否进入了前 5 位,需要很多数据的支撑,包括时间为轴的纵向数据以及空间为轴的对比数据等。 以数据为基础既是现代科技情报工作的一个基本特征,也是情报学区别于其他一些相邻学科的鲜明特色。例如,计算机更注重算法与效率,可以用通用的测试数据做文章,即使这些数据不够真实、不够及时,也不影响测试;而情报学所构建的一些数据基础本身就是情报工作的一部分,如科技论文统计数据、专利数据、国别科技政策数据等,它们必须真实、及时,否则就没有价值。 我们对数据的统计分析已给予了足够多的关注,各种统计软件与工具、分析流程与方法琳琅满目。其实,有了好的数据之后,统计分析反而简单一些。统计往往关注数据的共性,利用数据的规律性进行处理;而数据清洗往往需要关注数据的个性,针对数据的差异性进行处理。有规律的数据便于统一处理,存在差异的数据难以统一处理,所以,从某种意义上说,数据清洗比统计分析要更难,至少更费时。中国科学技术信息研究所论文统计组每年花费大量时间用于数据清洗,从而保证数据质量,这样得出的统计分析结果才能令人信服,针对统计分析结果的说明与解读也往往更有价值。 究竟什么样的数据算是海量数据,什么样的数据算是大数据,并不是我们讨论的焦点,我们讨论的焦点是如何对现有的数据进行有效的清洗、合理的分析,使之能够满足决策服务的需求。本期的《大数据时代下的情报分析与挖掘技术研究》、《政府门户网站公众满意度调查问卷缺乏数据的处理研究》、《关联规则的改进与度量研究》等 3 篇论文都是涉及数据清洗与分析的论文,值得大家关注。 萝卜快了可以不洗泥,数据越大越需要清洗。 化柏林 武夷山 2013-6《情报学报》卷首语——数据清洗.pdf
个人分类: 情报学报|7509 次阅读|3 个评论
数据清洗研究
jojo199084 2013-6-26 16:04
数据清洗的主要任务是处理原始数据集中的“脏数据”,提高数据质量。 “脏数据”主要指如:拼写错误、数据格式错误、不合法性、空值、不一致性、重复信息、缺失数据(包括简写)等。主要是去除不一致和错误的数据。 数据质量表示数据能够一致地满足用户需求的程度。其主要评价的标准包括:数据的准确性、完备性、简洁性及适用性。 数据清洗主要涉及的内容有:结构清洗、属性清洗与重复记录清洗。 其中结构清洗主要是通过手工实现。以下主要介绍属性清洗及重复记录清洗的对象特点。 属性清洗的对象有以下特点: 1、 不精确值或错值:数据不能准确代表客观实体的状况。 2、 拼写错误。 3、 空值:包括缺失值或默认值:一般空值需要补上,默认值有时也需要用真实值代替。 4、 违法业务规则:属性值或者属性值之间的关系不遵循业务规则。如:年龄与出生日期不匹配。 5、 同一属性值的不同表现形式。 6、 语义变化:属性值的语义随时间改变或数据源的不同而不同,但值没有改变。 7、 嵌入值:一个属性值包含多个组成成分。如: address= “福州市工业路 523 号福州大学至诚学院”,就可以分解为 address= “ 福州市工业路 523 号 ”, school= “福州大学”, college= “至诚学院”。 8、 一个值分布在不同属性中:有时固定长度字段值被分布在两个或多个属性中(常由于字段长度限制所致)。如: city= “福州市”, address= “ 工业路 523 号”,那么整个地址信息由“ 福州市工业路 523 号 ”表示。 而对于重复记录的对象: 一般,只有两条记录在所有的属性上的值都完全相同,才被认为是重复的。而近似重复对象则指表现形式不同但语义相同的对象。从狭义上看,如果两条记录在某些属性上的值相等或足够想死,则就认为这两条记录为近似重复对象。一般对于重复记录的清洗是指对近似重复对象进行清洗。 形成的高质量的数据有以下特征: 1、 数据有可访问性:如一个属性 / 字段中包括嵌入值时需将其分解。 2、 数据必须具有域完整性:即数据值必须在定义范围之内。 3、 数据必须是精确的。 4、 数据必须被合适的集成以满足实体完整性。 5、 数据必须遵守业务规则。 6、 数据必须满足业务需求。 7、 数据必须正确的定义参照完整性,防止被意外的破坏或改变。 8、 数据必须一致。 9、 数据是适时的。 10、 数据冗余是有目的的,否则必须去除。
6 次阅读|0 个评论
中信所研究生《情报分析技术》第四次课
热度 2 huabolin 2011-3-24 09:47
本次课为实验课,通过实验掌握文献题录信息的预处理、数据过滤与筛选、数据拆分与提取等技术。本技术与方法适用于 CNKI 、万方、维普、 WebofScience 、 PubMed 、 MedLine 、国家知识产权局专利信息、国家图书馆的图书目录、国家自然科学基金项目信息等。以上信息,处理流程与思路基本一致。本实验以 CNKI 的期刊论文题录数据为例,在 excel 中编写 VBA ,使用 For 循环、 if 语句及三个字符串处理函数实现所有的操作。当处理其他来源的信息时,程序结构基本不变,只需要调整参数即可。具体内容包括:行列转换、数据过滤与筛选、拆分与提取。 任务一:行列转换 难度指数: * 1 .待解问题: 网络采集的文献题录信息的详细记录都是单列的,需要转换成二维表格形式。 2 .问题分析: 题录信息按照行数的形式分为两类:一类是每条记录有固定的行数,如 CNKI 、万方、维普等,多个作者或者多个关键词都在一个单元格内;一类是每条记录的行数不固定,如 SCI 数据( Web of Science ),作者、关键词等信息分在不同的行内,共同使用一个字段名称。 3 .解决方案: 对于有固定行数的题录信息可以通过行数除以字段数进行行列转换;而对于行数不固定的题录信息可根据字段名称来识别。 任务二:数据筛选 难度指数: ** 1 .待解问题: 会议通知、征稿启示等非正式文献题录信息需要过滤。 从不同数据库来源的同类数据需要滤重。例如,有些数据 CNKI 上有, 有些数据在万方上有,而这几年纷纷与数据库商签独家的期刊越来越多。针对一个科研课题的文献分析,使用单一数据源的数据难免有疏漏,需要使用多个数据库配套使用,把相关的数据集成起来,在数据集成的过程中,需要对重复的数据进行过滤。 2 .问题分析: 非正式文献题录信息一般没有作者,有些信息具有关键词。 不同来源的信息字段数可能不一样,字段名称也不尽相同。但记录的值是一样的。 3 .解决方案: 对于非正式文献题录信息,可以把作者字段为空的数据过滤掉。 如果字段名称不一样,则首先进行字段的映射处理。对于文献题录信息,重复的数据有以下几种判断方法。第一种方法:使用 DOI , DOI 是惟一的,只要 DOI 相同,则可以进行滤重,但并不是所有数据都有 DOI ;第二种方法:标题 + 作者,同一作者一般不会发表同一标题的文章,而重名作者发表同一标题的文章概率也非常小;第三种方法:期刊 + 年 + 期 + 标题,也可以确定一条信息,某种期刊上一般不会发表同一标题的文章,但不能使用期刊 + 年 + 期 + 作者,对于有些期刊的专题文章,有的作者同时发两三篇的。 任务三:数据拆分( SCI 数据不需要拆分) 难度指数: ** 1 .待解问题: 作者、关键词、单位等信息需要拆分才能统计。机构信息中包含单位名称、城市名、邮编等多种信息,数据可以再分,不符合 1NF 。 2 .问题分析: 一篇文章有一位或多位作者,一篇文章有多个关键词。作者与作者之间,关键词与关键词之间存在分隔符,但是分隔符并不统一,有的是分号,有的是逗号;有的是全角,有的是半角;有些作者或关键词末尾也有分隔符;有些末尾没有。 机构信息与城市名之间有分隔符,例如空格;而城市名与邮编之间有的有分隔符,如逗号,有些则没有分隔符。城市名的长度是不确定的,例如北京、哈尔滨、乌鲁木齐,还有些不规范的数据,如河北保定等。邮编的长度是固定的,对于中国大陆,都是 6 位数字编码。 3 .解决方案: 把各种可能出现的分隔符统一替换成一种分隔符,并且把末尾都统一加上分隔符,然后利用分隔符进行分割处理。 对于机构信息,可以先从后面把 6 位数字编码的邮编取出来,然后去掉邮编前面的分隔符(标点符号),然后再利用分隔符把作者单位与城市名分别提取出来。
个人分类: 文献计量|4637 次阅读|3 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 03:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部