科学网

 找回密码
  注册

tag 标签: 语序

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【语义计算:汉语语序自由度再辩】
热度 3 liwei999 2017-2-17 04:27
“张三把眼睛哭肿了。” 眼睛都被张三哭肿了 张三眼睛被哭肿了 张三眼睛哭肿了 眼睛张三哭肿了 哭肿张三眼睛了 张三哭肿眼睛了 哭得张三眼睛肿了 张三哭得眼睛肿了 张三眼睛哭得肿了 张三的眼睛哭得肿了 眼睛 一句是主语 一句是宾语 句法不能说错。supposdly 到语义模块去统一到逻辑语义上去。 Me: 这一组图献给@刘群 老师 我们曾经争论过汉语语序的自由度问题 ,我说汉语语序除了极少数对svo有直接冲突的OVS(正解SVO)不被允许外,其自由灵活,到了几乎随心所欲、想啥说啥、有法无天的裸奔的程度。 刘老师颇不以为然,坚持孤立语的本性就是语序固定,汉语不会例外。 刘: 谢谢@wei 把这些图献给我 换个例子:猫咬了狗,狗咬了猫,猫狗咬了,狗猫咬了,咬了狗猫,咬了猫狗,……语序自由吗? Me: 自由度是一个区间,不是二值吧 ovs 不被允许,是其不自由的一面,不过数量上不自由的变式远小于自由的变式。 总之,不看数据的话,我们不会相信汉语如此任性。 刘: 我那个例子,osv,sov,vso,vos都不行啊 Me: 猫狗咬了,狗猫咬了 听上去没啥问题啊,还是我耳朵有问题? 刘: 不知道谁咬了谁 Me: 不知道也没啥问题啊 都是合法的 刘: 意思变了,就不是语序自由了。语序自由的前提当然是意思不能变。 Me: 拿语义或常识来纠缠句法语序自由, 不是一个好的辩护汉语总体语序不自由的路子 窃以为。这样辩论的话,我就给你: 鸡我吃了,我鸡吃了。自由还是不自由呢? 刘群: 你也是用例子来证明语序自由啊?并没有统计数据 规则都有反例,个别反例不能推翻整条规则 语言规则吧 Me: 你举的更像是反例,弄了个猫和狗,恰好是本体上平行的概念,都食肉,也都被食。 这种例子更像是反例 而不是 norm,所以我以子之矛可以还给你否。 当然 到目前 控辩双方都还停留在例句阶段。都还没有统计数据。 刘: 我的例子一点都不特殊:特朗普会见安倍,俄罗斯占领克里米亚,…… Me: 克里米亚俄罗斯啥时占领了 特朗普安倍会见了吗? 安倍特朗普真滴会见了啊? 会见了安倍特朗普还见了谁呢? 我的例子也不是 outliers 呀。说出来听起来都那么接地气 刘: 就用这个例子吧:”我的例子也不是 outliers 呀”:我的例子outliers也不是啊,outliers也不是啊我的例子,outliers我的例子也不是啊,也不是我的例子outliers啊,也不是outliers我的例子啊。 Me: 谢谢 欢迎刘老师站到我这边来! 这不正是语序自由的现身说法吗 刘: 嗯?你觉得上面那些句子都成立吗?我觉得大部分都不成立。 我是反驳你的说法 Me: 不成立? 刘: 不成立 Me: 看样子得 crowdsource 给 native speakers 去投票决定了。 我听起来无障碍,都理解了不算,感觉还蛮顺,至少是接地气:老百姓就是这么说话的。社会媒体更甚。 当然如果给新闻系教授, 他可能会教育学生不能这样写。在有很多个表达(不仅仅是语序自由)的时候,技术文献和新闻工作者会被教导去选择所谓规范的表达法。但语言事实和普罗通常不听这些指教。 其实 坚持汉语语序自由得不像话的观点,不是为论点而论点,而是提醒自己和同事,我们在写 parser 的时候,必须把语序自由作为一个重要的角度来看汉语。 否则无法做出一个鲁棒和召回率高的汉语解析器。 刘: 不管哪种语言,在社交媒体上,都不太讲究语法的,特别是短句子。这不能成为汉语语序自由的证据。英美人说话,口语、短句子、社交媒体上,不合法的句子比比皆是,不能因此说英语语法就要废除了。 Me: 我们当然希望语言都是语序固定的 这该省多少力气啊。线性pattern就是以次序(linear ordering)为基,语序灵活了,patterns 就成倍增长。非语序的其他因素可以在既定的pattern里面调控,无需增加patterns,唯有自由的语序是一件躲不过去的功/工。 刘: 即使是汉语,我们表达稍微复杂的内容的时候,一般都会用svo的,不会随便改语序,否则给自己添加麻烦 Me: 汉语操蛋就操蛋在这里: 你本来就没有形态,小词也是能省就省,你还要语序灵活自由,你还让人活不活?国人的投机取巧甚至在语言表达上也如此彰显。可是我们还是要面对现实。 刘: 没有这么可怕,汉语parser的准确率比英语并没有低太多 Me: 汉语 parser 比英语没低多少,是在新闻上么? 新闻是语言大海的三滴水。 刘: 其他领域没有确切的数据可比较。 Me: 还是可感觉的 这一回合,算是打平了,如果刘老师不坚持要我举白旗的话。 刘: 不能靠感觉。 @wei 老师客气了学术讨论,有争议很正常。 我也没有数据说服你。 【相关】 【语义计算沙龙:语序自由度之辩】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4012 次阅读|3 个评论
【语义计算沙龙:语序自由度之辩】
热度 1 liwei999 2016-8-18 00:10
刘: WMT2016上有一篇文章,讨论了语言的语序自由度,结论很有趣,见附图。根据这篇论文统计,汉语和英语之间语序关系是最稳定的(注意:语序关系稳定与语序一致不是一回事),比其他语言稳定度都高出许多。日语虽然是粘着语,但跟英语的语序关系也是相当稳定的。相反,德语虽然跟英语亲缘关系很近,但其相对语序的自由(不稳定)程度相当高。 论文链接 http://www.statmt.org/wmt16/pdf/W16-2213.pdf 我: 这个研究是说,如果这些语言要与英语做自动翻译,语序需要调整多少? 英语相对语序很固定,加上是最流行的语言,拿它做底来比较,对于各语言的相对语序自由度应该是不离谱的。但是,从(平行)大数据来的这些计算,与这些语言的语言学意义上的语序自由度,有差别: 譬如 Esperanto 的语序自由度应该很大,怎么排列,意思都不变,但是由于很多人可能思想是用英语的,写出来的时候下意识在头脑里面翻译成了世界语,结果跟机器翻译一样,人的懒惰使得表达出来的语序照着英语的样子相对固定起来,并没有充分利用语言本身本来有的那么大自由度。 汉语的语序自由度,语感上,比图示出来的,要大。但是,做这项研究的双英对照数据也许大多是正规文体(譬如新闻),而不是自由度更大的口语,因此出现这样的结论也不奇怪。虽然汉语是所谓孤立语,英语接近汉语,但没有那么“孤立”,汉语的语序自由度比英语要大。做英汉MT的 generation 的时候,需要调整词序的时候并不很多,多数情况,保留原词序,基本就凑合了,这是利用了汉语语序有弹性,相对自由度大的特点。汉英MT没亲手做过(除了博士项目在Prolog平台上做过的一个英汉双向MT的玩具),感觉上应该比英汉MT,需要做调序的时候更多。调序多容易乱套,特别是结构分析不到位的时候更容易出乱子,是 MT 的痛点之一。尽量少调序,警惕调序过度弄巧成拙,是实践中常常采取的策略。包括英语的定语从句,多数时候不调序比调序好,用的技巧就是把定语从句当成一个插入语似的,前面加个逗号或括号,适当把 which 翻译成“它”等等。 刘: 你说的有道理,这个研究是以英语为基准的,虽然严格说不是很合理,但还是靠谱的,英文英语语序是比较固定的。我们说汉语语序自由,我觉得是错觉。汉语语序是很不自由的。实际上,对一个语言来说,形态的复杂程度和语序的自由程度是成正比的。形态越复杂的语言,语序越自由。汉语没有形态,只能用语序来表示句法关系。因此是严格语序语言。不可能说一种语言既没有形态,又语序自由,那么这种语言基本上没法表达意义了。 白: 这个,需要分开说。一是subcat算不算形态,因为不是显性的标记,很可能不算。二是subcat是否提供了冗余信息使得一定范围内的语序变化不影响语义的表达,这是肯定的。 Jiang: 嗯!subcat这里指的是什么? 白: 比如“司机、厨师、出纳……”都携带human这个subcat,但是human并不是一个显示的形式标记。 我: 虽然大而言之形态丰富的语言语序自由度就大、形态贫乏的语言语序相对固定是对的,但汉语并不是持孤立语语序固定论者说的那样语序死板,其语序的自由度超出我们一般人的想象:拿最典型的 SVO patterns 的变式来看,SVO 三个元素,排列的极限是6种词序的组合。Esperanto 形态并不丰富,只有一个宾格 -n 的形态(比较 俄语有6个格变):主格是零形式(零词尾也是形式),它可以采用六种变式的任意一个,而不改变 SVO 的句法语义: SVO Mi manĝas fiŝon (I eat fish) SOV: Mi fiŝon manĝas VOS: Manĝas fiŝon mi VSO: Manĝas mi fiŝon OVS: Fiŝon manĝas mi. OSV: Fiŝon mi manĝas. 比较一下形态贫乏的英语(名词没有格变,但是代词有)和缺乏形态的汉语(名词代词都没有格变)的SVO自由度,很有意思: 1. SVO 是默认的语序,没有问题: I eat fish 我吃鱼 2. SOV: * I fish eat (英语不允许这个语序) 我鱼吃 【了】(汉语基本上是允许的,尤其是后面有时态小词的时候,听起来很自然) 虽然英语有代词的格变(小词直接量:I vs me), 而汉语没有格变,英语在这个变式上的语序反而不如汉语。可见形态的丰富性指标不是语序自由度的必然对应。 3. VOS: * Eat fish I (英语不允许这个语序) ?吃鱼我(汉语似乎处于灰色地带,不像英语那样绝对不行,设想飞机空姐问餐:“吃鱼还是吃肉?”你可以回答:“吃鱼,我”) 4. VSO: * Eat I fish (不允许) * 吃我鱼 (作为 VSO 是不允许的,但可以存在,表示另外一种句法语义:吃我的鱼) 做VSO不合法,但有些灰色的意思,至少不像英语那样绝对不允许。 5. OVS: * Fish eat I (不允许,尽管 I 有主格标记) * 鱼吃我 (句子是合法的,但句法语义正好相反了 , 是 SVO 不是 OVS。句子本身合法,但做OVS非法。) 6 OSV: fish I eat (合法,除了表达 OSV 的逻辑语义 这个语序,还表达定语从句的关系) 鱼我吃(合法,常听到,鱼是所谓 Topic 我是 S,逻辑语义不变) 总结一下,汉语在 6 个语序中,有 3 个是合法的,1 个灰色地带,2 个非法。英语呢,只有两个合法,其余皆非法。可见汉语的语序自由度在最常见的SVO句式中,比英语要大。 白: 不考虑加不加零碎的语序研究都是那啥。“鱼吃我”不行,“鱼吃得我直恶心”就行 我: 不管那啥,这个 illustration 说明,语序自由度不是与形态丰富性线性相关。也说明了,汉语往往比我们想象的,比很多人(包括语言学家)想象的具有更大的自由度和弹性。白老师的例子也是后者的一个例示。其实,如果加上其他因素和tokens,这种弹性和自由,简直有点让人瞠目结舌。 汉语不仅是裸奔的语言 ,也是有相当程度随心所欲语序的语言。超出想象的语序弹性其实是裸奔的表现之一,思维里什么概念先出现,就直接蹦出来。而且汉语不仅没有(严格意义的)形态,小词这种形式也常常省略,是一种不研究它会觉得不可思议的语言。 它依赖隐性形式比依赖显性形式更多 ,来达到交流。这对 NLP 和 parsing 自然很不利,但是对人并不构成大负担。 刘: 首先,语序变化以后意义发生变化,不说明语序自由,相反,正说明语序不自由。语序传达了意义。其次,语序变化以后要加词才能成立(鱼我吃了)也正好说明语序不自由。再者,这种简单的句子不说明汉语普遍语序自由。在绝大部分清晰下,汉语都是svo结构,个别情况下需要特别强调o的时候,可以把o放到最前面。语序自由的前提,是通过词尾变化明确了词在句子中的功能,这样的话,主谓宾不管怎么交换顺序,都不会搞混,所以语序自由。没有形态变化,不可能真正语序自由。 “小王打小张”,语序就不能随便调整。 “我爱思考”,“我思考爱”,意思完全不一样 我: 这要看你怎么定义语序自由了。你给的定义是针对格变语言做的,有宾格的语言,等于是把句法关系浓缩了标给了充当角色的词,它跑到哪里都是宾语是题中应有之意。但语序自由的更标准和开放的定义不是这样的,如果 SVO 是基本的语序,凡是与它相左的语序的可能性,就是语序自由,研究的是其自由度。这种可能性的存在就证实了我们在理解语言的时候,或者机器在做 parse 的时候,必须要照顾这种 linear order 的不同,否则就 parse 不了,就抓不住语序自由的表达。不能因为一种相左的语序,由于词选的不同,某个可能语序不能实现,来否定那种语序自由的可能性和现实性。 退一步说,你的语序自由是 narrow definition, 我们也可以从广义来看语序自由,因为这种广义是客观的存在,这种存在你不对付它就不能理解它。就说 “小王打小张”,SVO 似乎不能变化。但是 “小张小王打不过” 就是 OSV,不能因为这个变式有一个补语的触发因素,来否定语序的确改变了。pattern 必须变换才能应对这种词序的改变。 最后,汉语与英语的对比,更说明了汉语的语序自由度大于英语,否则不能解释为什么汉语缺乏形态,反而比形态虽然贫乏但是比汉语多一些形态的英语,表现出更多的语序自由。“鱼我吃了” 和 “我鱼吃了” 是一个 minimal pair,它所标示的语序自由的可能性,是如此显然。人在语序自由的时候仍然可以做句法语义的理解,说明了形态虽然是促进自由的一个重要因素,但不会是唯一的因素。 隐性形式 乃至常识也可以帮助语序变得自由。 “打小张小王不给力。”(这是VOS。。。) “打老张小王还行。” 刘: 这两个句子里面“打”都是小句谓语,不是主句谓语。主句谓语是“给力”和“还行”。例子不成立。 我: 影响语序自由的,形态肯定是重要因素,其他的语言形式也有作用。小句也不好 主句也好,SVO 的逻辑语义在那里,谁打谁?我们在说SVO语序自由这个概念的时候,出发点是思维里的逻辑语义,就是谁打谁,然后考察这个谁1 和 谁2,在语言的 surface form 里面是怎样表达的,它们之间的次序是怎样的。。 刘: 这就强拧了。这么说the apple he ate is red. 也是osv了?apple he ate的逻辑关系在哪里。这么说英语也可以osv了? 我: 不错,那就是地地道道的 OSV:谁吃什么,现在这个【什么】 跑到 【谁】 和 “ate” 的前面去了,底层的逻辑语义不变,表层次序不同了。 说英语是 svo 语言,这种说法只是一种标签,并不代表英语只允许这个词序。英语的SVO 6 种 语序中, 前面说了,有两种合法常见 。 刘: 如果你对语序自由是这样定义的话,那英语也是语序自由了。 我: 不是的。只能说语序自由度。英语的语序自由度还是不如汉语。汉语的语序自由度不如世界语,也不如俄语。世界语的语序自由度不亚于俄语,虽然俄语的形态比世界语丰富。 刘: 那我们不必争论了,我们对语序自由这个概念的定义不一样。 我: 不错,这是定义的问题。我的定义是广义一些。你的定义窄。 刘: 按照你的定义:Eating the apple he smiled. 英语还可以VOS 白: beat him as much as I can 总而言之S是从相反方向填它的坑 禹: 俄语的我吃鱼这么多种语序也可以?当真现实就是这么用吗? 易: @禹 俄语的语序确实很灵活,尤其在口语体中,但意思不会变,因为名词有六个格,施受关系基本不会乱。 白: 日语里面有个名句:きしやのきしやはきしやにきしやできしやえきしやした 除了动词,其他成分的位置也是各种挪来挪去 刘: @白硕 这个日语句子什么意思啊? 白: 贵社的记者坐火车朝着贵社打道回府了 考验日语输入法的经典例子,流传了将近百年 据说是电报引入日本不久的事情 这么个拼音电文,没人知道啥意思 跟赵元任发明一音节文,有得一拼 格标记本来就是给语序重定向的,所以不在乎原来语序也是情理之中。 如果汉语的“把”“被”“给”“用”“往”一起招呼,也可以不在乎语序的。 被张三 把李四 在胡同里 打了个半死…… 我: 广义说 介词也是格 也是形态,格通常是词尾形式,介词的本质却是一样的。 “被” 是主格,“给” 是与格,“用” 是工具格。 禹: 俄语格的问题,有没有需要三四阶语法模型才能确定的还是基本上就是看之前的动词或名词的类别 我: 格就是parsing依赖的形式条件之一。形态丰富一些的语言 parsing 难度降低 不需要过多依赖上下文条件。 【相关】 泥沙龙笔记:汉语就是一种“裸奔” 的语言 泥沙龙笔记:漫谈语言形式 【 关于 parsing 】 【关于中文NLP】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4658 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 17:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部