科学网

 找回密码
  注册

tag 标签: 社会化标签

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

专题论文:多语言高质量社会化标签生成与聚类
timy 2015-10-30 15:21
随着Web 2.0 网站的不断兴起, 不同语种的社会化标签日益增多。社会化标签是互联网用户对网络上的Web 资源进行协同标注的结果, 是广大用户从自身角度对文本信息内容的揭示, 融入了互联网用户的集体智慧。同时, 不同语种用户对Web 资源进行标注, 促使互联网上的多语言社会化标签资源不断丰富。然而, 社会化标签质量参差不齐, 存在标签噪声问题, 对标签的挖掘与应用产生干扰。另外, 不同语言类别的社会化标签广泛存在于一些主流的Web2.0 网站中, 使得同一资源存在不同语种的社会化标签。多语言标签本身是一种很具价值的多语言资源, 在多语言文本挖掘、跨语言信息检索等多语言信息资源的处理及服务领域均具有重要用途。对多语言标签进行聚类, 可以进行跨语言的社区发现、社会舆情监测等应用研究。然而, 多语言标签资源目前尚未被有效挖掘和利用, 缺乏对多语言社会化标签的自动聚类研究与实践。 针对以上问题, 笔者在对社会化标签进行质量评估的基础上, 进行多语言社会化标签的自动聚类研究。建立社会化标签的质量评估框架体系与评估模型; 在考虑语义的基础上, 融合标注资源的内容特征与社会化特征, 进行高质量社会化标签的生成; 对高质量的多语言社会化标签进行自动聚类, 并对聚类结果进行评估。笔者按照以上研究思路开展本专题的研究, 共5 篇文章, 分别涉及社会化标签质量评估、关键词标注行为、标签聚类以及Hashtag 综述。 (1) 社会化标签质量评估方面, 《社会化标签质量自动评估研究》一文针对现有标签质量评估研究割裂标签的内容属性与社会化属性这一问题, 以博文标签作为研究对象, 融合社会化标签内容属性与社会化属性, 利用统计机器模型对社会化标签质量进行自动评估研究。结果显示结合标签的内容属性特征和社会化属性特征, 支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。 (2) 关键词标注行为方面, 《科研用户博文关键词标注行为差异研究——以科学网博客为例》一文从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5 个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。结果发现不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。 (3) 标签聚类方面有两篇论文。《区分标签质量的机器生成标签聚类研究》一文针对常规标签或词语聚类没有考虑聚类对象的质量差异对聚类效果影响这一问题, 分析不同质量的机器生成标签的聚类效果差异, 研究结果表明高质量的机器生成标签聚类结果比低质量的标签聚类结果更好。《标注内容与用户属性结合的标签聚类研究》一文分析标签聚类中标注内容、用户属性及其二者结合对聚类效果的影响, 结果表明在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升。 (4) 《Hashtag 研究综述》一文对Hashtag 的功能与特性、推荐Hashtag 的方法、Hashtag 的分类与聚类、Hashtag 的应用等研究进行归纳和总结, 分析当前Hashtag 研究的热点, 并对未来研究与应用提出展望。 在当前的大数据与社会媒体快速发展的背景下, 针对多语言高质量社会化标签的挖掘研究, 不但具有重要的理论与应用价值, 并且具有一定的挑战性。本专题旨在抛砖引玉, 敬请相关领域同行批评指正。 章成志 专题论文: --------------------------------------------------------------------------------------------------------------------------------------------- 论文1: 社会化标签质量自动评估研究 章成志 李 蕾 摘要: 【目的】对用户标注的大量标签实现自动评估, 自动选择或推荐高质量的标签, 提高社会化标签应用效果。【方法】现有的标签质量评估研究割裂了标签的内容属性与社会化属性, 没有结合标签多方面属性进行综合评估。因此本文以博文标签作为研究对象, 融合社会化标签内容属性与社会化属性, 利用统计机器模型对社会化标签质量进行自动评估研究。【结果】结果显示, 结合标签的内容属性特征和社会化属性特征, 支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。【局限】仅使用科学网博文的标签数据, 其社会化功能还不够完善, 一些社会化属性并不能有效地提高社会化标签质量自动分类效果。【结论】该工作为进一步提升社会化标签的组织与应用质量打下基础。 —— 章成志,李蕾. 社会化标签质量自动评估研究. 现代图书情报技术, 2015, 10: 2-12. 论文2:科研用户博文关键词标注行为差异研究——以科学网博客为例 张颖怡 章成志 池雪花 李 蕾 摘要: 【目的】为优化标注系统提供依据, 同时丰富网络环境下用户标注行为的研究。【应用背景】不同人群的关键词标注行为差异研究是用户信息行为研究中的一个重要方面。【方法】从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5 个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。【结果】分析结果发现, 不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。【结论】学术博客可以根据不同类型用户的标注行为差异,对博文标注系统进行优化。 —— 张颖怡,章成志 ,池雪花, 李蕾. 科研用户博文关键词标注行为差异研究*——以科学网博客为例. 现代图书情报技术, 2015, 10: 13-21. 论文3:区分标签质量的机器生成标签聚类研究 章成志 顾晓雪 摘要: 【目的】常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响, 本文旨在分析不同质量的机器生成标签的聚类效果差异, 并提出融合标签质量的标签聚类算法优化建议。【方法】首先, 抓取Engadet 中英文博客数据, 对其进行数据预处理得到候选标签, 抽取标签社会化特征与内容特征并进行权重计算, 采用两种标签质量区分策略, 得到不同质量的标签集合; 然后, 对不同质量的标签集合进行相似度计算, 使用AP 算法进行聚类, 分析比较它们的聚类结果。【结果】实验结果表明, 对于中英文标签, Top5 标签聚类结果要优于Top5-10 标签聚类结果, 加权社会化属性标签聚类结果优于不加权社会标签聚类结果。【局限】区分标签质量的方法比较单一, 缺乏评价标签质量的有效方法。【结论】高质量的机器生成标签聚类结果比低质量的标签聚类结果更好, 对标签的社 会化属性的加权能够提高机器生成标签的聚类效果, 且社会化属性可以作为区分标签质量的特征之一。 —— 章成志,顾晓雪. 区分标签质量的机器生成标签聚类研究. 现代图书情报技术, 2015, 10: 22-29. 论文4:标注内容与用户属性结合的标签聚类研究 顾晓雪 章成志 摘要: 【目的】研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。【方法】采用科学网博客数据,对其进行特征抽取、模型构建和相似度计算, 利用线性函数和Sigmod 函数进行相似度加权, 并使用AP 聚类算法进行标签聚类。【结果】在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升, Sigmod加权表现最优; 在系统分类体系下, 两者结合均不如标注内容结果表现优秀。【局限】选择的数据量较小, 评估标签聚类的分类体系不够完善, AP 聚类算法不适用于大数据的处理。【结论】两种特征的结合在部分情况下能够提高聚类效果, 标签聚类中应更加关注标签的内容特征。 —— 顾晓雪,章成志. 标注内容与用户属性结合的标签聚类研究. 现代图书情报技术, 2015, 10: 30-39. 论文5: Hashtag 研究综述* 邵 健 章成志 李 蕾 摘要: 【目的】分析当前Hashtag 研究思路和技术, 归纳和总结当前Hashtag 研究中所存在的问题, 并提炼Hashtag 研究的理论意义与实际意义, 为更深入的Hashtag 研究提供参考。【文献范围】以2007 年至2015 年的国际会议和国内外期刊的60 篇文献作为主要研究对象。【方法】调研Hashtag 研究及其应用的相关文献, 对Hashtag 研究中各环节涉及的方法进行分析和总结。【结果】Hashtag 在用户使用、Hashtag 挖掘与基于Hashtag的应用研究三方面存在一些可以深入研究的问题。【结论】未来应侧重于Hashtag 的理论研究, 如用户标注Hashtag 的动机、影响Hashtag 标注的因素等。在实际应用中, 结合不同学科方法和多个领域的技术改善Hashtag在实际应用中的效果。 —— 邵健,章成志,李蕾.标注内容与用户属性结合的标签聚类研究. 现代图书情报技术, 2015, 10: 40-49.
个人分类: 信息组织|7922 次阅读|0 个评论
专题论文:Web2.0上社会化标签的深度挖掘
热度 3 timy 2014-1-7 15:12
2013年,我和匹兹堡大学何大庆副教授在《图书情报工作》上组织了一个关于社会化标签挖掘的专题,2013年第23期该专题刊出,共有4篇论文。 专题:Web2.0上社会化标签的深度挖掘 (章成志、何大庆) 信息组织是图书情报学科中的经典研究主题。近 10 年来,网络信息组织研究不断深入、应用不断扩展,取得了一系列的丰硕成果。随着 Web2.0 网站的不断普及,针对 Web2.0 上的用户生成内容的研究也引起了学术界的广泛重视。其中,作为用户生成内容特色之一的社会化标签,在博客、微博、图片、视频等不同类型的社会化媒体上被用户广泛使用,吸引了来自图书情报、计算机、物理学等不同学科研究人员的持续关注。 图书情报学科的研究人员,借助其在传统信息组织上的研究优势,从用户的标注行为、标签的语义、标签在信息检索中的作用等多个角度对社会化标签进行比较全面的研究。近年来,社会化媒体、电子商务网站的快速发展,为社会化标签的研究与应用提供了新的契机。针对社会化标签的标注动机与行为、社会化标签质量、不同语种或平台上标注差异等方面的研究,可以促进社会化标签的深入应用,并提高应用质量。在社会化媒体上进行用户标签推荐研究,利用用户标签或者资源内容描述标签进行信息推荐,可以充分发挥社会化标签的作用,进而提高用户使用标签的积极性,达到良性循环的效果。本专题旨在针对这些新的问题进行初步探索。 本专题共 4 篇论文。前两篇论文为调研型论文,其中《区分标签类型的社会化标签质量测评研究》一文,主要研究社会化标签的质量评估问题,该文对博文、图书、图片、视频以及音乐的标签进行类型划分,然后邀请志愿者对标签质量进行打分,在此基础上进一步得到标签质量评估数据集,为标签质量分析提供基础;《中英译本图书社会化标签的比较研究》一文,以中英译本的图书为研究对象,进行标签长度、标签个数以及标签的重合度的比较,分析中英文标签在图书标注方面的异同、社会标签在不同类目图书标引的差异以及社会化标签与关键词之间存在的差异。后两篇论文为技术与应用类论文,其中《社会媒体用户标签的分析与推荐》一文,以新浪微博为例,研究面向社会媒体的用户标签预测,综合利用微博用户的微博消息、个人档案、社交网络等信息,为用户预测标签。该技术可用于个性化推荐和搜索等重要应用,也是深入理解社会媒体本质的重要基础;《基于社会化标签信息熵的个性化推荐算法》一文,分析了不同社会属性用户的行为特征,然后根据社会化标签、分类标签和用户属性对各类商品进行深入研究,最后结合二者对现有推荐算法进行一定程度的改进,该文在理论创新的同时,也极具应用价值。 针对当前网络环境的新特点,本专题对社会化标签的深度挖掘进行了初步研究。随着社会化标签的持续发展和广泛应用,特别是在大数据背景下,针对社会化标签的深度挖掘研究,不但具有重要的理论与应用价值,并且具有一定的挑战性。本专题旨在抛砖引玉,敬请相关领域同行批评指正。 专题论文 11 李蕾, 王冕, 章成志 区分标签类型的社会化标签质量测评研究 认为社会化标签多采取自由标引方式,部分标签并不能有效地揭示资源的内容或主题,于是产生许多低质量的标签,这些低质量标签干扰社会标注系统中资源组织的秩序,降低标签在应用场合中的质量和用户满意度。进行基于标签类型的社会化标签质量测评研究,开发标签质量测评网站,邀请志愿者在该网站上对博文标签、图书标签、图片标签、视频标签、音乐标签类型进行划分,得到标签类型分类用的训练数据集和测试集;同时,对标签质量进行打分,在此基础上进一步得到标签质量评估的训练数据集与测试数据集,为以后基于标签类型的标签质量评估提供数据支持。 2013 Vol.57 (23): 11-16,9 ( 4 ) ( 6 ) 17 卢超, 章成志 中英译本图书社会化标签的比较研究 认为随着Web2.0的发展,社会化标注系统也开始影响图书馆传统的信息组织方式。以中英译本的图书为研究对象,从豆瓣、Amazon、Librarything获取社会化标签,从中国国家图书馆和美国国会图书馆获取MARC记录中的主题词,探究每本书的标签和主题词在长度、个数和相似度三方面的差异。实验结果显示:不同语种的标签或主题词在长度、个数和相似度三方面存在差异;不同类目的图书的社会化标签在这三方面也存在差异;单本书的社会化标签与主题词之间同样存在差异。该研究能够帮助图书馆了解社会化标签并借此提升用户服务品质。 2013 Vol.57 (23): 17-23 ( 1 ) ( 2 ) 24 涂存超, 刘知远, 孙茂松 社会媒体用户标签的分析与推荐 微博是Web2.0时代重要的网络服务工具,作为以用户为中心的信息发布、传播和分享平台,它包含了非常丰富的用户信息。在微博中,可以使用标签表示用户的兴趣和属性。而一个用户的兴趣和属性,通常包含在这个用户的文本信息和网络信息中。针对微博用户的标签进行分析,提出网络正则化的标签分发模型(NTDM)来为用户推荐标签。NTDM模型对用户个人简介中的词语和标签之间的关系进行建模,同时利用其社交网络结构作为模型的正则化因子。在真实数据集上的实验表明,NTDM在效果以及效率上都优于其他方法。 2013 Vol.57 (23): 24-30,35 ( 1 ) ( 1 ) 31 王军, 张子柯 基于社会化标签信息熵的个性化推荐算法 认为社会化标签没有特定的组织结构,标签的质量也会有优有劣。此外,同一个社会化标签对不同的人重要程度不尽相同。首先利用信息熵来刻画社会化标签对用户的重要性,然后将基于社会化标签信息熵算法和经典的协同过滤算法的个性化推荐结果进行对比,最后发现基于社会化标签信息熵算法在准确度上提高了10.9%。 2013 Vol.57 (23): 31-35 ( 2 ) ( 1 )
个人分类: 信息组织|11083 次阅读|5 个评论
问卷调研:社会化标签系统用户标注行为调研
热度 1 timy 2013-9-14 20:25
  我们研究小组目前在进行社会化标签质量评估方面的研究。研究中发现做标签质量研究需要区分不同的应用场合,不能笼统的评判某一个标签的质量的好坏。如果用户打标签的目的是用于资源分类,那么一些高频次的大众化词汇,对于用户来说可能是质量高的标签;如果用户打标签的目的是为了描述资源内容,那么一些比较具体的描述词汇就可能就是高质量标签;在用户决定是否需要进一步了解当前标注资源时,某些用于表达自我看法的标签,可以发挥一定的作用。因此,在进行标签质量评估时,首先了解用户的标注动机,在此基础上选择有更有针对性的标签,这样的标签质量评估才更加意义。   鉴于上述原因,我的学生李蕾和我最近设计了一份有关用户标注行为的调查问卷,拟在收集问卷数据的基础上,对用户的标注行为进行统计分析。所以在此诚恳地邀请各位博主,在有空的时候能帮忙填写一份问卷,问卷大约需要您5~10分钟的时间,非常感谢您!    问卷地址 : http://www.sojump.com/jq/2709468.aspx   (注: 您的问卷内容将严格保密,仅用于研究,谢谢您的参与。)
个人分类: 信息组织|9234 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 15:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部