科学网

 找回密码
  注册

tag 标签: 网络百科

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

网络百科用户贡献行为研究综述
linghehuang 2013-12-30 17:16
黄令贺, 朱庆华. 网络百科用户贡献行为研究综述 . 图书情报工作, 2013, 57(22): 138-144. 摘要 介绍网络百科这种新型知识组织形式的发展现状,总结网络百科用户及其贡献行为的基本特点。从贡献行为特征、贡献行为影响因素和用户协作三个方面对网络百科用户贡献行为研究进行综述,总结目前研究的成果,并指出不足之处。最后提出未来研究可能的发展方向,特别指出信息计量学与复杂系统理论将在这一主题的研究中发挥巨大作用。 关键词 网络百科 , 百科用户 , 贡献行为 , 用户协作 原文下载: 网络百科用户贡献行为研究综述
个人分类: 论文|3717 次阅读|0 个评论
文档自动标签:一场全社会跨行业的数据掘金
热度 6 Liweigang 2013-7-22 07:23
(李伟钢 方令) 作为百科全书的“升级版”,网络百科工具可以称得上是互联网时代的一个伟大产物,遇到看不懂的新词汇?先百科一下吧 ! 百度百科 号称全球最大的中文百科全书,在 330 万多名用户编辑的辛勤工作下,共创建了 625 万余词条。而 互动百科 依托国际著名的 维基百科 系统,实现 Wiki 词条中文翻译或新建,特别是 2012 年 12 月其网域名更换为 baike.com ,在中文网域亦是气势不凡。 尽管如此, 现有 网络百科仍有较大的改进空间, 其主要体现在以下两个方面: 除了词条本身的规范性和权威性需要精细化外,从技术层面来说,已在线发表的百科词库中,大部分词条内的相关重要词汇没有形成动态链接,需要进一步展示引申描述;还有,在人工产生新的词条时,百科管理系统词条内链接提示功能有限,编者难以对新文档进行有效标签,因此无法正确有效地引用原有词条。这些问题导致网络百科无法体现出本知识库内词条间的超级链接优势。 互动百科 目前拥有近 767 万余词条,形成文本文件的海量数据,如果要重新规范化和正确标签,堪称大数据工程。 由此,加强词条链接提示的智能水平、增强语义词汇标签自动化 和提高 百科系统词条内链接效率,形成“完善的标签体系”已列入网络百科良性发展的议事日程,势在必行。 学术界对于 文档 自动标签也颇为关注, 2013 年 10 月将在南京召开的 国际 Web 信息系统会议 期间将举办的两个大数据竞赛项目中,就有一个是词条标签链接的项目( Entity Linking Track )。其目的是,基于维基百科链接( Wikilinks )数据集,在新编词条内发现和标出已有的合适词条链接。竞赛组织者给参赛者一个标签关键词列表,即含有近 3 百万不同维基百科词条的网址( Wikipedia URL )清单,以及各类媒体曾经对这些词条的 4 千万余次的链接记录数据集,要求参赛者开发出一个 文档 自动标签系统。然后,在预定结束赛期前一周发来 8824 个英语文本文件,让参赛者对这些测试文本进行综合的词义和语义分析,使用维基百科的标签关键词列表的网址,标出相关词条的超级链接来。 维基竞赛项目的挑战就在于词条标签自动化,这对网络百科是有意义的,因为近千万词条的标签化工作量十分繁重。仅这 8824 个竞赛英文文档,共有 19.2 MB 的数据量,计 52 万余行字,平均每份文档 58 行字。在人工标签条件下,每个文档平均需要一个小时还多,按照每天工作 8 小时来算,完成竞赛任务需要一个人工作 3 年,算上互动百科的大部分词条,人工标签可是百年工程。如果是在计算机软件自动标签条件下,平均每个文档 仅 需要一分钟,完成竞赛任务需要一台常用电脑近一周的工作量(每天工作 24 小时)。这对于网络相关科技工作者来说,是一项挑战和机遇。尽管业界在自然语言处理上已经取得了可观成就,不少文本词义和语义分析方法和工具都可应用,但实际效果仍与期望相差尚远。从 Google 翻译或百度翻译的中英文互译的质量缺陷,可以体会到人类对自然语言处理的难度。 巴西利亚大学 TransLab 实验室组织力量参加了这项竞赛活动,成员主要为笔者指导的计算机专业的博士或硕士研究生。在不到两个月的时间里,团队开发出了维基词条自动标签系统,使其具有英文文本词义和语义分析的基本能力。巴西陆军电子战计算中心为团队提供了计算设备的使用权限,包括 16 台并行计算群,每台计算机速度为 2.53GHz ,内存为 141GB 。在此强劲的人力和设备资源支持下,竞赛测试词条的每轮计算时间仍然需要 30 小时左右。为了验证自动标签的效果,团队随机抽取 12 个测试文档,进行人工标签,然后与系统自动标签结果进行比较,得到的一些预测性能衡量指标来校正模型,例如:平均正确率约为 80.40% ,平均召回率约为 65.5% ,基本上达到预计效果。 有趣的是,在 TransLab 维基标签团队如火如荼开展竞赛活动的时候,部分选修笔者开设的人工智能课的机电一体化专业的研究生也关注到了这项工作,他们来自总部设在巴西利亚的 北方电力总公司 ( Centrais Elétricas do Norte do Brasil S.A. –Eletronorte )。 众所周知,电力工业,特别是拥有众多发电机等大型设备的大型发电站,各项设备价格昂贵,发电、输电和配电的不间断生产是基本要求。因此,对大型水力发电机组和长途输电变压器的日常生产操作和管理维护就变得十分重要。在这个过程中,计算机软件支持下的各种生产和维护系统能够起到十分积极的作用,有效地辅助了生产操作人员的实际工作。而随着岁月的流逝,公司累积了大量的工作日志,衍生出该行业的海量数据。例如,成立于 1973 年北方电力总公司,管理着 4 个大型水力发电站,负责对巴西北部 9 个州包括亚马逊地区 2547 万居民的工、农业和民用供电。其生产和维护部门的数据库分别累积有 17 年的历史数据。平均每年有千余各类事故和处理的管理、维修和零配件补充等技术报告,产生百万余重要的电子日志或报告类文档,与此相关的设备、零件、规范、流程和检测等技术参数会像滚雪球般地呈指数增长,基本数据量已达 1 0GB 。如果对这些海量数据进行挖掘分析,将极有可能以一种新的方式,协助企业相关部门及时发现潜在故障苗头,减少维护和维修时间,避免因为停机断电等造成的恶劣影响。实际上,这项工作就是从电力工业大数据中挖金掘银,价值极为丰厚。 回到前面的问题:为什么机电一体化专业的研究生会 对 TransLab 维基文档 的自动标签工作感兴趣?答案很简单——文档的语义分析和标签技术在电力工业上的应用价值是显然易见的。可以想象,结合公司运营程序和数据挖掘技术,整理以往操作与维护的管理记录,建立电力行业的生产和维护的关键词列表和事件因果链接数据库,在线即时检测实际工作日志,会有效防范各类事故发生,加强预防性的维护和修理,提高发电机组和变压器等这些大型设备的工作效率和生命周期。 从百科词条自动标签着手,应用大数据理念和知识挖掘技术来提高电力工业的工作效率,会带来直接和间接的社会、经济和技术效益。进一步放眼其它工业、农业和商贸服务业甚至行政、军事、治安等社会的各行各业,利用工作日志等历史累积文件的信息分析和知识挖掘,对提高生产能力和管理效率,促进社会整体发展,前景十分可观。 相关链接: 从词条标签谈网络百科的挑战和机遇 http://journal.1000plan.org/FrontContent.aspx?FrontContentID=361
个人分类: 社交网络|6224 次阅读|14 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-4 11:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部