博文

作者识别研究综述

已有 3542 次阅读 2022-5-25 16:02 |系统分类:博客资讯

引用本文

张洋, 江铭虎. 作者识别研究综述. 自动化学报, 2021, 47(11): 2501−2520 doi: 10.16383/j.aas.c200654

Zhang Yang, Jiang Ming-Hu. A review on authorship identification research. Acta Automatica Sinica, 2021, 47(11): 2501−2520 doi: 10.16383/j.aas.c200654

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200654?viewType=HTML

文章简介

关键词

作者识别, 文体学, 写作风格, 评价指标

摘要

作者识别是根据已知文本推断未知文本作者的交叉学科. 其传统研究通常基于文学或语言学的经验知识, 而现代研究则主要依靠数学方法量化作者的写作风格. 近些年, 随着认知科学、系统科学和信息技术的发展, 作者识别受到越来越多研究者的关注. 本文主要站在计算语言学的角度综述作者识别领域现代研究中的方法和思路. 首先, 简要介绍了作者识别的发展历程. 然后, 详述了文体风格特征、作者识别方法以及该领域中多层面的研究. 接着介绍了与作者识别相关的一些评测、数据集及评价指标. 最后, 指出该领域存在的一些问题, 结合这些问题分析并展望了作者识别的发展趋势.

引言

大数据时代, 各种信息服务给人们的生活带来很多便捷, 人们足不出户就能知晓天下事. 然而, 人们在获取信息的同时也饱受信息泛滥的困扰. 垃圾短信、虚假信息、网络诈骗等严重影响人们的日常生活. 因此, 准确而及时地识别垃圾信息、阻止虚假信息或低俗作品的传播, 对于维护互联网生态健康以及保障人们的正常生产生活具有非常重要的意义. 作者身份识别(Authorship identification)又简称作者识别, 是通过分析未知文本的文体学特征或写作风格, 推断作者归属的一类研究. 有些研究者也称其为作者身份归属(Authorship attribution), 其主要思路是将文本中隐含的作者无意识的写作习惯通过某些可以量化的特征表现出来, 进而凸显作品的文体学特征或写作风格, 以此确定匿名文本的作者.

19世纪以前, 科学研究的社会化程度较差, 数学等相关工具的应用不普及, 作者识别尚处于传统研究的历史阶段. 在这一时期, 西方研究者通过韵律节奏的变换推断未知十四行诗的作者归属. 其判别标准多基于研究者的主观经验, 而缺乏客观参数衡量. 进入19世纪, 随着生产力的不断发展, 科学研究的社会化程度不断增强, 数学等相关工具也逐渐被应用到作者识别研究中. 最早尝试用数学工具去量化作者写作风格的是Mendenhall, 他利用词谱和特征曲线对莎士比亚的戏剧等不同作品进行作者归属研究, 标志着作者识别现代研究的开端. Yule在Mendenhall基础上进行了改进, 他利用文本句子长度作为识别散文等文学作品作者的有效特征. 最有影响力的早期研究是Mosteller和Wallace合作完成的, 他们首次提出利用少数特殊词出现的频率以及分布作为特征, 识别联邦主义者论文的作者. Damerau在分析前人方法的基础上, 首次提出基于功能词(Function words)频率的作者识别方法, 有效地拓展了词汇特征. Efron和Thisted通过作品的词汇量推断未知文本是否为莎士比亚所作. 从此, 词汇成为作者识别以及作者风格分析一个重要的研究方向. 随后研究者不断尝试新的文本特征, 字符、句法、语义等特征均被研究者用于作者识别研究中, 取得了一些进展. 20世纪90年代随着计算机技术和网络应用的发展, 大量电子文本产生, 于是便有了处理这些信息的需求. 这使得作者识别在情报分析和计算机取证等领域的地位越来越重要. 作者识别的意义主要体现在相关技术的应用上. 在法医学中, 作者识别技术可以对关键文字证据进行识别, 从而确定当事人的身份, 这对进一步侦破案件有着重要的作用. 在文学研究中, 作者识别技术可以用来识别匿名作品的作者, 或者推断争议文本的作者, 给作者身份的确定带来新思路. 在互联网领域, 作者识别技术可以追溯垃圾邮件、谣言以及计算机病毒等非法程序源代码的作者, 对于打击网络违法行为和维护网络安全具有重要的意义.

作者识别是一个涉及众多学科的交叉学科, 为了简化问题和便于研究, 研究者常常提出一些假设. 首先, 第一个假设就是, 作者的写作风格会受到作者自身特征的影响, 比如作者的身份地位、性别、性格、年龄和受教育程度等. 这个是作者识别研究的首要假设. 第二个假设就是作者的这些特征能够从他的写作风格中看出来. 这个假设是作者识别研究中最重要的一个假设. 在现代研究中, 研究者常常需要量化作者写作风格. 这个假设为量化作者写作风格提供了理论依据. 然而, 在一般情况下, 作者的写作风格并非一成不变, 它会受到很多外部条件的影响, 比如社会背景、时间、文本主题、传播媒介、受众等因素. 但研究者也一致认为作者写作风格的某些特征元素始终存在, 无论这些因素是什么, 它们都能够被研究者通过特定手段进行量化. 研究者所要做的是尽可能多地保持潜在的相互作用因素恒定, 而并非将它们剥离出来, 因为这会损失更多的信息.

作者识别领域有两个大的研究方向, 大多数作者识别研究都是从这两个方向进行的, 其中一个方向是数字人文(Digital humanities)方向, 而另一个方向则是计算语言学(Computational linguistics)方向. 这两个方向的研究内容并无太多差异, 但在目的和侧重点上则有显著不同. 在数字人文研究中, 重点主要放在实际有争议的作者身份或文学风格分析的案例上; 而在计算语言学研究中, 研究者则更多地关注已知作者身份的数据集的表现以及确定最可靠的技术. 计算语言学中更系统的方法允许严格控制与作者身份相互作用的因素, 比如主题和流派, 这种设置通常在有争议的作者身份的情况下无法实现. 一些模拟大规模作者身份归属的研究, 比如增加作者集合大小或减少训练数据大小, 允许系统地评估在各种情况下的技术水平. 以数字人文为导向的研究的主要优点之一是注重结果的解释以及对作者写作风格的分析. 这种类型的分析目前缺乏以计算语言学为导向的研究. 用一句话来概括数字人文和计算语言学这两个大方向的不同点: 数字人文学科更注重可解释性, 研究者常常希望通过模型解释作者识别结果或者分析作者风格特点; 而计算语言学更关注算法本身的正确率、鲁棒性、运行效率等性能, 而并非可解释性.

如果进一步细分, 作者身份识别任务通常有如下3种不同的形式: 闭集归属(Closed-set attribution)、开集归属(Open-set attribution)和作者身份验证(Authorship verification). 也有研究者给出了不同的分类标准, 他们把作者身份识别任务分为闭集归属、开集归属以及作者身份概述(Authorship profiling), 而把作者身份验证视为开集归属的一种. 一般而言, 闭集归属指的是未知文档的作者包含在候选作者集中的一类问题. 这是相对比较简单的一种情况, 也是学者们研究得最多的一类问题. 而开集归属则是未知文档的作者不一定包含在候选作者集中的一类问题. 这是比闭集归属更加困难的情况, 在很多与互联网相关的作者归属研究中, 研究者常常会面临庞大的候选作者集合以及未知文本不包含在候选作者集合中的情况. 作者身份验证是确定给定的文本是否由某位作者撰写的任务. 它与开集归属的主要区别在于, 作者身份验证样本数量少、候选作者集合单一. 所有作者身份归属问题都可以转换为一组单独的作者身份验证问题. 因此, 作者身份验证问题是作者识别中的基本问题, 研究有效处理此类问题的方法对于作者识别研究至关重要.

本文后续章节的具体内容如下: 第1节介绍了作者识别中的文体风格特征, 主要包括字符特征、词汇特征、句法特征和语义特征在内的多元文体特征; 第2节阐述了常见的作者识别方法, 主要分为无监督的方法和有监督的方法; 第3节总结了作者识别中的一些多层面的研究, 主要包括数据规模、跨域研究和特殊方法; 第4节介绍了与作者识别相关的一些评测; 第5节综述了作者识别领域的一些公开数据集以及各种评价指标; 第6节指出作者识别领域存在的一些问题; 第7节针对作者识别领域存在的问题, 分析并展望了该领域未来可能的发展趋势.

图 1 作者识别流程图

表 3 有监督方法对比表

作者简介

张洋

清华大学人文学院中文系博士研究生. 主要研究方向为作者识别, 文本分类, 情感分析.

E-mail: yumaoqiuq@163.com

江铭虎

清华大学人文学院中文系教授. 主要研究方向为自然语言处理, 脑与语言认知, 模式识别, 人工智能. 本文通信作者.

E-mail: jiang.mh@mail.tsinghua.edu.cn

相关文章

[1] 武文亮, 周兴社, 沈博, 赵月. 集群机器人系统特性评价研究综述. 自动化学报, 2022, 48(5): 1153-1172. doi: 10.16383/j.aas.c200964

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200964?viewType=HTML

[2] 何江红, 李军华, 周日贵. 参考点自适应调整下评价指标驱动的高维多目标进化算法. 自动化学报. doi: 10.16383/j.aas.c200975

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200975?viewType=HTML

[3] 李新利, 邹昌铭, 杨国田, 刘禾. SealGAN: 基于生成式对抗网络的印章消除研究. 自动化学报, 2021, 47(11): 2614-2622. doi: 10.16383/j.aas.c190459

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190459?viewType=HTML

[4] 蒋盛益, 郭林东, 王连喜, 符斯慧. 评价对象抽取研究综述. 自动化学报, 2018, 44(7): 1165-1182. doi: 10.16383/j.aas.2017.c170049

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c170049?viewType=HTML

[5] 左国玉, 于双悦, 龚道雄. 遥操作护理机器人系统的操作者姿态解算方法研究. 自动化学报, 2016, 42(12): 1839-1848. doi: 10.16383/j.aas.2016.c160137

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c160137?viewType=HTML

[6] 雷涛, 樊养余, 罗维薇, 王履程. 矢量自对偶形态学滤波算子. 自动化学报, 2015, 41(5): 1013-1023. doi: 10.16383/j.aas.2015.c140116

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c140116?viewType=HTML

[7] 索津莉, 刘烨斌, 季向阳, 戴琼海. 计算摄像学:核心、方法与应用. 自动化学报, 2015, 41(4): 669-685. doi: 10.16383/j.aas.2015.c130855

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2015.c130855?viewType=HTML

[8] 张小利, 李雄飞, 李军. 融合图像质量评价指标的相关性分析及性能评估. 自动化学报, 2014, 40(2): 306-315. doi: 10.3724/SP.J.1004.2014.00306

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00306?viewType=HTML

[9] 胡泽文, 武夷山. 从文献计量学指标看《自动化学报》和自动化研究领域. 自动化学报, 2014, 40(5): 1016-1023. doi: 10.3724/SP.J.1004.2014.01016

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01016?viewType=HTML

[10] 蓝荣祎, 孙怀江. 基于逆运动学和重构式ICA的人体运动风格分析与合成. 自动化学报, 2014, 40(6): 1135-1147. doi: 10.3724/SP.J.1004.2014.01135

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01135?viewType=HTML

[11] 成孝刚, 安明伟, 阮雅端, 陈启美. 基于变分的盲图像复原质量评价指标. 自动化学报, 2013, 39(4): 418-423. doi: 10.3724/SP.J.1004.2013.00418

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00418?viewType=HTML

[12] 刘大有, 薛锐青, 齐红. 基于作者权威值的论文价值预测算法. 自动化学报, 2012, 38(10): 1654-1662. doi: 10.3724/SP.J.1004.2012.01654

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01654?viewType=HTML

[13] 马儒宁, 涂小坡, 丁军娣, 杨静宇. 视觉显著性凸显目标的评价. 自动化学报, 2012, 38(5): 870-876. doi: 10.3724/SP.J.1004.2012.00870

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.00870?viewType=HTML

[14] 雷涛, 樊养余. 双算子形态学滤波器. 自动化学报, 2011, 37(4): 449-463. doi: 10.3724/SP.J.1004.2011.00449

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.00449?viewType=HTML

[15] 赵妍妍, 秦兵, 刘挺. 基于图的篇章内外特征相融合的评价句极性识别. 自动化学报, 2010, 36(10): 1417-1425. doi: 10.3724/SP.J.1004.2010.01417

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.01417?viewType=HTML

[16] 刘长松, 丁晓青. 利用字形风格约束的字符识别研究. 自动化学报, 2007, 33(11): 1121-1127. doi: 10.1360/aas-007-1121

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1121?viewType=HTML

[17] 吕海萍, 乔建生. 对核心期刊《自动化学报》论文作者的研究. 自动化学报, 1998, 24(6): 845-851.

http://www.aas.net.cn/cn/article/id/16770?viewType=HTML

[18] 曹磊, 韦穗, 孔兵. 基于数学形态学的分形编码. 自动化学报, 1997, 23(2): 226-231.

http://www.aas.net.cn/cn/article/id/17016?viewType=HTML

[19] 熊艳, 张桂林, 彭嘉雄. 自动目标识别算法性能评价的一种方法. 自动化学报, 1996, 22(2): 190-196.

http://www.aas.net.cn/cn/article/id/17158?viewType=HTML

[20] 陈鸣华, 阎平凡. 基于数学形态学的手写体数字识别方法. 自动化学报, 1989, 15(3): 286-288.

http://www.aas.net.cn/cn/article/id/14886?viewType=HTML

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://m.sciencenet.cn/blog-3291369-1340183.html

上一篇：基于FPSO的电力巡检机器人的广义二型模糊逻辑控制
下一篇：【当期目录】IEEE/CAA JAS 第9卷第5期

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

作者识别研究综述

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

作者识别研究综述

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)