科学网

 找回密码
  注册

tag 标签: 语义分析

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

什么是刷屏?【回答问题】
ggjjhh 2017-12-5 19:58
什么是刷屏? 高金华 刷屏一词有两个基本含义: 1、在贴吧、聊天室等网络空间的一个页面上霸占屏幕视界的恶劣行为。手段包括连续重复发表同一段文字或同一张照片,或者按住空格键、回车键打出大片空白。目的是强化自己的存在感,阻碍人们浏览有价值的信息。 这种行为是可耻的。 2、上传网络的内容引起广泛关注、被人们滑屏(手机)或在屏幕前(电脑)仔细观看的效应。其中,有利于社会进步的称效果,不利于社会稳定的称恶果。常见的用法是:“XXX(在朋友圈,等等)被刷屏”。 被刷屏的内容既有真、善、美;也有假、恶、丑。屏幕前的鉴别力是网络社会的一种重要能力,关乎个人的生活质量和幸福指数。 2017-12-04 10:23回答
个人分类: 回答问题|15201 次阅读|0 个评论
【一日一parsing:汉语单音节动词的语义分析很难缠】
liwei999 2016-8-22 05:27
白: “她拿来一根漂亮的海草,围在身上做装饰物。” 我: “围” 与 “做” 的逻辑主语阙如。原因之一是这两个动词本身的subcat没有要求“她”【human】或“海草”【physical object】。语义中间件目前是保守策略,因为逻辑填坑是无中生有,宁缺毋滥,rather underkill than overkill,精度优先。 人的理解是怎么回事呢:单个儿的“围”不好说,但是VP【围在身上】从“身上”继承了【human】的未填之坑,正好让“她”填做逻辑主语。同理,“做”是万能动词,也没有特定语义要求的坑,但是VP【做装饰物】(act as NP)则挖了一个同位语的语义坑【physical object】,可以让“海草”来填:【human】“把”(“用”)【physical object】“围在身上”;【physical object】“做装饰物”。 “围在身上”的句法主语可以是【human】,也可以是【physical object】:“一根漂亮的海草围在身上”。但是背后的逻辑语义都是 【human】为逻辑主语。 白: 此例引自小学一年级水平的课外读物 围,属于具有“附着、固定”subcat的动词子类,如果做话题,可以单独表示起始动作完成后的遗留状态。话题化 被固定物做话题 我: 而“海草”可以看做【工具】(包括【材料】状语),也可以看做是 VP【围在身上】内部的“围“的【受事】 白: 是逻辑宾语 我: 这是层次不同造成的逻辑角色的不同。 实际上,对这一类汉语单音节动词做如此细致的语义分析,挑战性很大。它们太多义了,只有组成合成动词、甚至形成 VP 以后,才逐渐排除多义而收心。这个动态的 subcat 的确定和填写过程,相当繁难,if not impossible。 白: 房子盖在山上做行宫 我: “盖-房子”算合成词。 again “做” 的逻辑主语(深层同位语)没连上“房子”。 白: 他给你打了一副手镯当嫁妆 我: SVO 齐活了,主句的O却断了。这叫顾腚不顾头,需要好好debug一哈: 这个比较完美了。也把“打手镯”当成“打酱油”一样做进离合词了。这样处理很重要,因为“打”是个万能动词,不知道有多少词义(如果考虑搭配中的词义的话)。 【相关】 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|5623 次阅读|0 个评论
第八届哈工大-微软亚洲研究院语言技术暑期学校总结
热度 1 leileiya 2013-8-7 12:14
2013 年 7 月 24 到 26 日,参加了为期三天的 在哈尔滨工业大学威海校区 举办的 由中国中文信息学会主办、微软亚洲研究院赞助的第八届语言技术暑期学校 。听取了 多位自然语言处理领域的国际知名专家 授课 ,他们是微软亚洲研究院 Jun'ichi Tsujii 教授、爱丁堡大学 Philipp Koehn 教授、英国 Exeter 大学 Richard Everson 教授、剑桥大学 Diarmuid ó Séaghdha 博士、英国阿伯丁大学 Chenghua Lin 博士,讲座内容包括机器学习、句法分析、语义分析、统计机器翻译和情感分析等。 第一天早上进行开幕式, Philipp Koehn 教授代表各位专家致辞简要阐明了人类与机器交流所需的自然语言处理技术给人类社会带来和即将带来的现实应用 。 微软亚洲研究院的吴枫博士和刘康平博士为到场各位师生展示了微软公司近年来在人机交互技术方面所取得的重要成果,包括 speech translation 、 kinect 、 hair modeling 等技术。 紧接着 Philipp Koehn 教授 讲授了统计机器翻译相关内容,讲到机器翻译共有三个层次,分别为词汇转换、句型转换、语义转换。统计机器翻译就是对众多的已翻译平行语料进行统计分析建立翻译模型来指导新的需要翻译的语料,通过概率值的计算最终从众多的翻译结果中找到最好的翻译结果,也就是概率值最大的。翻译中存在的问题包括从词语的角度讲存在着一词多义的问题,我们需要利用上下文找到此语境下的最佳翻译,从短语的角度讲如何准确的翻译一些惯用搭配,从句子的角度讲存在多种句子结构重组的问题,从语义的角度讲如何准确的翻译出一些指代词。由于每一个句子每一个词语的翻译可以有多种,我们需要从中找出最好的翻译,我们根据语料中每个词语短语的使用频率,建立翻译路径找出最好的翻译组合。最后 Philipp Koehn 教授 讲授了如何将机器翻译与人工翻译结合,使得机器翻译能够最大化的帮助人进行翻译。下午 Jun'ichi Tsujii 教授 进行了句法分析相关内容介绍,我们需要实现快速深入准确的分析句子,对不同的句子类型我们需要清晰的辨别出主语宾语以及它们之间的谓语动词,利用隐马尔科夫模型进行词语标注和预测,利用树形结构表示每个句子,通过对句子进行详细的标注与分析可以解决许多的检索问题。 第二天上午是学生研讨会, 有来自北京师范大学、沈阳航空航天大学等 的学生进行了口头报告。北师大的三位同学报告了机器翻译相关研究,第一位同学研究专利翻译的相关内容,重点研究名词 + 动词结构的识别问题,利用 HNC 理论;第二位同学研究专利翻译中长句子的识别问题,通过建立一些规则识别出长句子中的连词、动词等;第三位同学主要讲解了机器翻译中人类和机器进行交互相关问题。最后一位同学主要研究中心词的提取问题,利用经典的 齐普夫( Zipf )定律 。下午 Koehn 教授做了 “ 如何做研究和撰写学术文章 ” 的讲座 。 Koehn 教授 讲到做研究的过程 have an idea → define the problem → define an evaluation → preliminary studies → implement a baseline → implement you method → evaluate analyze refine 。接着对学术文章的各个部分的注意事项就行了详细的介绍,具体包括 abstract 、 introduction 、 related work 、 description of the problem 、 description of your method 、 experimental setup 、 results 、 analysis 部分。 第三天上午 Richard Everson 教授 讲授了机器学习的基本内容,主要包括逻辑回归问题、分类问题、非监督学习,如何从大量的头像图片中识别出某一个人、信息检索的结果如何排序、预测受伤者是否可以得救、自动对大量药物进行类型分类等都是机器学习可以解决的问题。机器学习可以分为监督学习和非监督学习,监督学习包括分类和回归,非监督学习包括聚类、 PCA 、 ICA 、 LDA 等。逻辑回归是在已知大量对象的特征输入和输出的情况下,预测新对象的输出结果,利用实际值和预测值之间的差值是否最小进行预测结果评估,分类同样是在在已知大量对象的特征输入和输出的情况下,不同的是输出的是对象类别而不是具体的值,在基于大量对象的学习的基础上根据新对象的输入属性值判定其类别。分类方法中最简单的一种方法就是最近邻分类器,根据对象近距离对象中每种类型的频率判断该对象的类型。然后介绍了神经网络算法,重点讲解了隐含层个数的选择,如果过多就会过拟合,过少就会欠拟合。接着进一步讲授了对于对象有多个属性时如何进行降维处理和对非线性模型的处理,结合具体的在图像处理和语音分离中的应用。最后介绍了三种进行机器学习研究的开源软件,分别是 weka 、 python 中的 scikit-learn 包、 matlab 中的 netlab 包。最后 Richard Everson 教授 指出我们在做研究的过程中如何快速的实现我们的想法是最为重要的,不需要花很多的时间在具体细节的实现上,使用这些开源包,可以使我们的研究事半功倍。下午 Chenghua Lin 博士 给我们讲解了情感分析和意见挖掘相关内容介绍。用户对某一对象意见的表达方式可以分三种,一种是直接表达,一种是隐含表达,一种是使用反讽语气表达。情感分析有三个层级,词语层、句子层、文档层,有两种传统的情感分类技术,分别是基于词典的方法和基于语料的方法。基于词典的方法就是利用情感词典对文本进行直接匹配,基于语料的方法就是对训练语料进行特征提取,利用朴素贝叶斯、支持向量积、最大熵等算法进行模型学习将学好的模型应用到测试集上,结果显示 SVM 算法的表现最好。接着 Chenghua Lin 博士 讲解了最新的利用主题模型技术 (LDA) 进行情感分类,以及 LDA 模型的扩展 JST 模型和 reverse-JST 模型的应用。最后一部分讲解了在某些领域训练数据不足的情况下,可以使用其他领域的数据进行迁移学习的比较研究。 各位专家除了介绍了各自研究领域的基本理论和方法,还以大量生动的例子和研究结果介绍了本领域内最新研究进展 ,受益匪浅。 ​
5720 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-21 00:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部