科学网

 找回密码
  注册

tag 标签: 事件抽取

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

基于注意力图卷积网络的联合多事件抽取——“大数据与智能决策”讨论班
郭崇慧 2020-2-13 20:53
事件抽取与ACE2005数据集 事件(Event)是指事情的发生和出现,事件涉及实体(Entity)包括人、对象等,这些实体主动提供了事件或者被动受到事件和世界时空方面的影响。事件抽取在自然语言处理中具有实用价值。在现实世界中,一个句子中存在多个事件是一种普遍现象,同时准确提取多个事件要比提取一个事件困难得多。 事件抽取的定义: 从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。事件抽取的步骤:首先识别出事件及其类型,其次要识别出事件所涉及的元素(一般是实体),最后需要确定每个元素在事件中所扮演的角色。组成事件的各元素包括: 触发词、事件类型、论元及论元角色 : (1) 事件触发词:表示事件发生的核心词,多为动词或名词; (2) 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33种事件类型。事件识别是基于词的34类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36类(35类角色类型+None) 多元分类任务; (3) 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位; (4) 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者、受害者等。 表1. ACE2005 定义了8种事件类型和33种子类型 事件类型 子类型 Life Be-Born, Marry, Divorce, Injure, Die Movement Transport Transaction Transfer-Ownership, Transfer-Money Business Start-Org, Merge-Org, Declare-Bankruptcy, End-Org Conflict Attack, Demonstrate Contact Meet, Phone-Write Personnel Start-Position, End-Position, Nominate, Elect Justice Arrest-Jail, Release-Parole, Trail-Hearing, Charge-Indict, Sue, Convict, Sentence, Fine, Execute, Extradite, Acquit, Appeal, Pardon ACE 2005 多语种训练语料库包含完整的英语 、阿拉伯语和汉语训练数据,用于2005年自动内容提取(Automatic Content Extraction,ACE)技术评估。语料库由多种类型的数据组成包括实体、关系和事件,这些数据由语言数据联盟(Linguistic D ata Consortium,LDC)标注,并得到ACE计划的支持和LDC的额外援助。ACE项目的目标是开发自动内容提取技术,用以支持人类语言文本形式的自动处理。 ACE2005 作为事件抽取的标准训练集和测试集,将事件抽取任务分为事件检测(Event detection)和参数抽取(Argument extraction)。该语料库中26.2%的句子内部包括多个事件。一个句子中包括多个事件时,多个事件之间也常会存在一定的影响。例如: “他离开了公司,打算直接回家。”这个句子包括两个事件,他们的触发词分别是“离开”和“回家”。“离开”触发词本身可能是交通事件也可能是最终位置事件(离职、退休等)。结合句子中的“回家”综合考虑,可以确定这里的“离开”是交通事件。句子中多个事件间时长存在共现关系,例如受伤事件和死亡事件,结婚事件和出生事件。 基于注意力图卷积网络的联合多事件抽取 文献:X. Liu, Z. Luo, and H. Huang, Jointly multiple events extraction via attention-based graph information aggregation, arXiv preprint arXiv:1809.09078, 2018 以句子为单位如何更有效的进行多个事件抽取是事件抽取的一个有意义的问题。本文提出了JMEE(Jointly Multiple Events Extraction)框架,该框架中使用语法快捷弧来提升信息流动,解决了句子中的长距离依赖问题,基于注意力的图卷积网络来模型化图信息,能捕获句子内部多个事件触发词之间的关联。JMEE框架如下图所示: JMEE 框架包括4个模块: (1) 单词表示模块,可以将句子中的单词表示为向量。 (2) 语法图卷积网络模块,该模块引入了语法框架的快捷弧。 (3) 自注意力的触发词分类模块能够捕获句子内部多个事件之间的关联。 (4) 参数分类用于预测每个实体提及在事件中所扮演的角色。 JMEE 框架在ACE2005数据集上进行评测,实验将整个数据集划分为测试集、开发集和训练集。实验结果与6个先进的方法进行比较,这些方法分别是: 2010 年由Liao and Grishman 提出的Cross-Event,该方法使用了文档级的信息来提升事件抽取的效果。 2013 年由Li等人提出的JointBeam,该方法通过人工设计的特征来提取的事件抽取。 2015 年Chen等提出的DMCNN,该方法使用动态多池化来保持多个事件信息。 2016 年Liu等提出的PSL,该方法通过潜在的和全局信息来编码相关事件,使用概率推理模型进行事件分类。 2016 年Nguyen等提出的JRNN,该方法使用双向RNN和手动设计特征来联合抽取事件触发器和参数。 2018 年Sha等提出的dbRNN。该方法在双向LSTM上增加依赖桥来抽取事件。 评测对比结果如下表所示,JMEE显示出较好的评测结果。 为了更好地评价JMEE框架在一个句子中包含多个事件时的抽取效果,将全部测试集(all)划分为一个句子只包含一个事件的测试集(1/1)和一个句子内包含多个事件的测试集(1/N)。 事件抽取在自然抽取领域中有着非常重要的地位,本文基于句子级的JMEE框架能够高效的识别句子内部包含多个事件。未来还将继续探索同一个元素在不同的事件抽取中扮演不同角色的情况,以更好地实现事件抽取。 备注:2019年11月19日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以“ 事件抽取 ”为题,共讨论了一篇文献,由博士生进行讲解,共有青年教师、博士后、博士生和硕士生20人参加。
个人分类: 科研笔记|4928 次阅读|0 个评论
事件抽取——“大数据与智能决策”讨论班
郭崇慧 2019-9-25 16:09
9月24日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以“ 时空周期模式挖掘 ”和“事件抽取”为题,共讨论了两篇文献,由两名博士生进行讲解,共有青年教师、博士后、博士生和硕士生19人参加,以下是“事件抽取”内容简介及文献信息。 事件抽取 随着互联网信息的快速增长,从非结构化的信息中获取知识描述知识越发重要。事件抽取是一种自动化信息抽取方式,它能够是从非结构化信息中识别出事件,以及事件相关的元素常见的有时间、地点等。 传统的事件抽取方法大多基于管道模型,存在错误传播的根本问题。随着计算能力的提升,联合模型成为事件抽取方法的一个热点研究方向。早期的事件抽取是句子级的抽取,忽略了上下文信息。基于文档的事件抽取能够充分利用上下文信息,提高事件抽取效果。 事件抽取的定义:从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。事件抽取的 步骤:首先识别出事件及其类型,其次要识别出事件所涉及的元素(一般是实体),最后需要确定每个元素在事件中所扮演的角色。 每个事件类型都有一个模板,下图列举了一些事件类型的模板。 文献:Yang B, Mitchell T. Joint Extraction of Events and Entities within a Document Context . HLT- NAACL, San Diego, 2016, Association Linguistics Computational: 289-299. 以单篇文档为单位,综合考虑了事件内部触发词、事件元素及实体的相互影响,文档范围内事件与事件间的依赖和共现关系。作者首先将事件与实体抽取问题划分为 3 个可计算可处理的子问题,并分别对每个子问题建立概率模型。各子问题描述如下:( 1 )从单一事件出发,考虑事件内部事件触发词、语义角色和实体及相互的关系;( 2 )从单一文档出发,考虑事件与事件之间的依赖和共现关系;( 3 )命名实体的抽取。再通过一个联合优化模型将各个概率模型组合起来,训练得到全局最优解。论文采用了 ACE 语料库进行实验,实验结果分别与传统基于最大熵的管道模型,基于集束搜索的联合模型,单纯考虑事件内部触发词、元素和实体模型结果在准确率、召回率和 F1 值上进行比较。实验结果表明,论文提出的统一联合模型具有更好的效果。 事件抽取能够有效促进各类实践应用,现已经在知识库构建,自动文摘,自动问答,信息检索等领域有着广泛的应用。
个人分类: 科研笔记|2313 次阅读|0 个评论
【立委科普:NLU 的螺旋式上升以及 open知识图谱的趋向】
liwei999 2016-7-11 17:59
宋: 汉语有些动词,其核心概念其实是事件。对于这种动词V,SV中的S可能是施事,也可能是受事、与事,反正是事件V的参与者。比如,张三上课呢。张三可能在讲课,也可能在听课。张三动手术呢。张三可能是动刀的医生,也可能是病人,还可能是麻醉师、护士。遇到这种动词,填坑比较麻烦。 我: 宋老师 可以换一个角度看。 把 “上课” 看成是 “听课” 和 “讲课” 的上位概念,把 “动手术” 看成是 “施行手术” 和 “挨一刀” 的上位概念。然后 在这两个上位概念的 subcat 中确定其主语填写的是 involved role 或起个其他合适的名字。这个 involved 的角色 在逻辑上 是 【施事】、【受事】和【与事】 的上位概念。这才是合理的分析和系统设计 因为语言事实的模糊性得以合适地被model和保留 不多不少。 宋: @wei 确实合理。 我: 我们应该改变勉强机器和自己在模糊地带做黑白划分的思路。 宋: 进一步问,这些动词是哪一些呢?有什么特征呢? 我: 以上是引子。这个“设计哲学”我们从前在前知识图谱时代的图谱项目中用过。 那是 15 年前在水牛城给政府做 IE(Information Extraction) 和知识图谱(当时叫 Profile,还没有图谱这个术语)的项目的时候,我们意识到 IE 及其知识图谱 按照 community 的标准定义 都是 pre-defined:所有的关系和事件都是事先定义好的一张空表格,等着 IE 去填写、等着 IF (Information Fusion) 去熔合成图谱,然后利用图谱去做应用。 这个传统有历史的积极作用,IE 因此使得 NLP(Natural Language Processing) 和 NLU (Natural Language Understanding) 有了聚焦,有领域针对性,走出了实验室。 但是随着图谱的发展,我们觉得这样做图谱不够,漏掉很多相关的但事先无法精确定义的重要事件。 我们因此定义了一个概念 叫 GE (General Event),以动词的 arg structure 为核心,里面的 args 在 图谱中的语用角色 就命名为 Involved 这是因为其 event 的语义事先是没有清晰定义的。对于一个 arg 来说,它牵涉到的 GEs 叫 Involved-events,对于一个 event 它的 args 叫做 Involved-roles,这个思想实际是延迟具体角色的确定,先把相关的东西绑在图谱再说,可以不变应万变。(《 钩沉:SVO as General Events 》)。 回看历史,这是一个典型的螺旋式上升的过程:前IE时代的NLU基本都是 toys,原因之一是自然语言太复杂,NLU试图把语言的千变万化parse成无所不包的语义表达,这是眉毛胡子一把抓,boiling the ocean,完全不切实际。结果就是, NLU 的学者成了象牙塔里面研究各种零星而复杂语言现象的腐儒,做不来实用的东西。 IE 开创了新时代。 美国 DARPA 开启和推动的 IE 从一开始就是语用制导,从实际需要定义目标,从 MUC-1 (1st Message Understanding Conference)到MUC-3 开始定义领域事件(名叫 Scenario Template,ST,”火箭发射”、“高管变动” 等 ),到后来定义的实体以及实体之间的具体的关系,这就把语言处理和理解的任务聚焦了:语言不再是大海,而是海洋中的一个个岛屿。这个扭转是划时代的。 因为语义落地的目标在IE中聚焦了,这就给了机器学习(ML)施展拳脚的机会:ML 把 IE 的任务作为端到端的黑箱子,利用浅层的NLP(譬如本质是 ngram 的关键词models),而不是深层的 NLU,做 IE 抽取和知识图谱。这逐渐成为IE的主流。在IE的community 的 MUC 各个会议中,可以看到直到 MUC-6,两条路线的系统还都有参与和报告,但 MUC-7 以及后续的 IE 的学界(譬如,ACL 的一些 workshops,以及 MUC 后影响和规模小得多的 ACE Automatic Content Extraction program)报告中,规则学派完全彻底地退场了。这与 NLP 整个领域(不仅仅是 IE 这块)的历史趋势完全一致。 统计一边倒到了这个地步,IE 这块肥肉被 ML 在学界独吞了,虽然实践中没有任何理由证明 ML 在 IE 能够真正胜过 deep parsing 支持的规则系统(其实恰恰相反,后者精度更高)。白老师说的,门户之见是不需要理由的,这就是学界的现实。以后也许会改变,但现状就是如此。 但是工业界做类似 IE 或 图谱 工作的,却远非学界那般极端地一刀切,火种尚存,有NL经验的语言学家仍然得以生存,星火燎原的希望也不是没有。如今,NLU 技术已经发展到了大海不再可怕,deep parsing 面对语言大海,无论精准度(precision)、召回率(recall)、鲁棒性(robustness)还是速度(speed),都已经达到了实用的高度,以至于当年的 IE 必须预先定义的框框,在新的知识图谱的设计中成为了一个束缚。突破 predefinition 有利于 open 图谱做大和多用途。历史可以、而且正在开始向这个方向回转。独立于领域的“一般性事件”(GE)与传统的事先定义的领域事件(PE,Predefined Event)开始汇合和互补。 我们作为 GE 和 知识图谱的先行者,早就看到了这个趋向,相信可以看到这种汇合开花结果。在这个过程中,deep parsing 的作用更加凸显。General event 因为目标没有事先预定,对于浅层分析为基础的黑箱子技术路线构成了挑战。GE 的核心就是 arg structure,简称 SVO,是 deep parsing 的自然结果。当年我们给的定义在 GE 里面附加了语用的限制条件(譬如 ignore 指代性 nominalized 的事件),为的是防止把不重要的事件全部喽进来,系统不必要地过载和鱼龙混杂。但那些不过是对 deep parsing 的过滤而已,不改变 GE 立足于 deep parsing 的本质。 NLU 从象牙塔的 deep 起,历经 IE 的 shallow,现在到了可以回归 deep 的图谱时代。这就是 NLP 螺旋式上升的鲜活实例。 【相关】 《 知识图谱的先行:从 Julian Hill 说起 》 《新智元笔记:知识图谱和问答系统:how-question QA(2)》 《新智元笔记:知识图谱和问答系统:开题(1)》 《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》 【泥沙龙笔记:再谈知识图谱和知识习得】 【语义计算沙龙:知识图谱无需动用太多知识 负重而行】 【立委科普:信息抽取】 《朝华午拾:信息抽取笔记》 泥沙龙笔记:搜索和知识图谱的话题 《有了deep parsing,信息抽取就是个玩儿》 【立委科普:实体关系到知识图谱,从“同学”谈起】 泥沙龙笔记: parsing vs. classification and IE 前知识图谱钩沉: 信息抽取引擎的架构 前知识图谱钩沉: 信息体理论 前知识图谱钩沉,信息抽取任务由浅至深的定义 前知识图谱钩沉,关于事件的抽取 钩沉:SVO as General Events Pre-Knowledge-Graph Profile Extraction Research via SBIR (1) Pre-Knowledge-Graph Profile Extraction Research via SBIR (2) 【关于知识图谱】 【置顶:立委NLP博文一览】 《朝华午拾》总目录 立委NLP频道
个人分类: 立委科普|3426 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 17:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部