科学网

 找回密码
  注册

tag 标签: 语言理解

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

知识表达:专业化 + 通俗化 = 最优化
geneculture 2019-8-17 19:58
用逻辑和数学的形式化表达实现专业化 用图形和图像的可视化表达实现通俗化 用广义双语化的双语化表达实现最优化
个人分类: 双语信息处理|1779 次阅读|0 个评论
是的,自然语言理解就是关键(因为它牵一发动全身)
geneculture 2019-5-26 09:15
是的,自然语言理解就是关键(因为它牵一发动全身) 它既不是一个初级产品,更不是一个初级产品可以搞定的。 解决自然语言理解这个国际难题需要非常庞大的多个系统工程(理论的和实际的及其它们结合的大量实践活动才能真正撬动并可能有较为满意的解决方案) 语言是什么? 什么是语言? 这两个问题想不清楚就都可能会自我误导甚至自欺欺人(这是做学问的大忌,因此要防范!)。 布莱克默尔《谜米机器》 注意形式和内容的区别与联系! 什么是本质? 本质是什么? 很多人都不清楚。因为,专家们就常常糊涂而没讲清楚它。古今中外都是如此。 从基础入手是对的。 问题在于:怎样对待基础?这才是关键! 从科普读物得到某种启迪之后就要进一步深入到专业论著的研读和相应科学实验以及哲学与基础理论科学共同的理想实验方面做深入研究或探讨。 才有可能不迷失方向。 许多看似简单成功的途径,其实非但不是反而很可能是死胡同。 牛顿之所以晚年会说,自己就像小孩在海边捡到一些美丽的贝壳而真理还在海洋深处。就是这个道理。-邹晓辉 仅仅只是读翻译过来的论著也会被误导进而自我误导。
个人分类: 学术研究|1245 次阅读|0 个评论
一锤定音:言和语的形式体系涵盖所有可能的选择
geneculture 2019-4-1 13:31
昨晚和今晨思路流畅,特记录于此:
个人分类: 学术研究|1230 次阅读|0 个评论
语言理解:语言认知的一系列研究论文
geneculture 2018-10-28 05:49
语言认知的一系列研究论文 2018-10-28 05:15 0. 怎样化解歧义 1.如何进行知识模块精加工 2.运用两种形式化策略消除诗歌文本中的歧义 3.论国际交流活动中的双语认知 4.三组连接的语言理解:管理创新动力机制与智能驱动环境 5.程序设计语言与自然语言的认知特征比较 6.界面语言和用户语言的认知特征比较 7.厌倦学习几何学生的认知特征分析 8.人类智能艺术与人工智能技术比较:人工智能视觉艺术研究 Understanding: How to Resolve Ambiguity in Intelligence Science I https://link.springer.com/book/10.1007/978-3-319-68121-4 1.How to Do Knowledge Module Finishing 2.Using Two Formal Strategies to Eliminate Ambiguity in Poetry Text 3.Discussion on Bilingual Cognition in International Exchange Activities 4.Language Understanding of the Three Groups of Connections: Management Innovation Dynamic Mechanism and Intelligent Driving Environment 5.The Cognitive Features of Programming Language and Natural Language 6.The Cognitive Features of Interface Language and User Language 7.Cognitive Features of Students Who Are Tired of Learning Geometry 8.The Art of Human Intelligence and the Technology of Artificial Intelligence: Artificial Intelligence Visual Art Research in Intelligence Science II https://link.springer.com/book/10.1007/978-3-030-01313-4
个人分类: 学术研究|1339 次阅读|1 个评论
[转载]ICCSIP 2018 :认知系统与信息处理国际会议
geneculture 2018-9-19 17:34
Important Dates Paper submission deadline ------- ----------------- -Sep. 20, 2018 Notification of acceptance--------------------------Oct.5,2018 Camera-ready copy and author registration ------- -- Oct . 10, 2018 http://csip2018.csp.escience.cn/dct/page/65541 Original papers are invited from multidisciplinary perspectives on subject areas including, but not limited to Cognitive Systems Information Processing Cognitive Sciences and Technology Intelligent InformationProcessing Cognitive Computing Model Multi-Modal InformationFusion Visual Cognition and Computation Cross-ModalTransferandLearning Auditory Cognitive Processing IntelligentSituationAwareness Haptic Cognitive Processing Active Perception Cognitive Psychology End-to-End Learning Cognitive Robotics ReinforcementLearning Cognitive Radars Imitation Learning Cognitive Radio Brain-Computer-Interactions Inaddition, ICCSIP 2018 Program Committees solicit proposals for special sessionswithin the technical scopes of the conference. Special sessions, to be organizedby internationally recognized experts, aim to bring together researchers inspecial focused topics. Papers submitted for special sessions are to bepeer-reviewed with the same criteria used for the contributed papers. Researchersinterested in organizing special sessions are invited to submit formal proposalsto ICCSIP 2018. A special session proposal should include the session title, abrief description of the scope and motivation, names, contact information andbrief biographical information on the organizers. Papers presented at ICCSIP 2018 will be published in Communications in Computer and Information Science ( CCIS ) with Springer and will be EI-indexed. Some selected top papers will be included in special issues of several SCI-indexed journals. http://csip2018.csp.escience.cn/dct/page/70005
个人分类: 信息学基础研究|1864 次阅读|0 个评论
戊戍六月二十六清晨醒来就理解模型形成了清晰的表述
geneculture 2018-8-7 08:31
戊戍六月二十六暨2018-08-07晨就理解模型记下了新的更清晰且更完整的表述形式 高深学问探讨之四:广义和狭义的双语信息处理 2012-04-17 09:08 阅读:56 《高深学问探讨之四:广义和狭义的双语信息处理》 作者:邹晓辉Geneculture 广义和狭义的双语信息处理即协同智能, 其特点是双语涉及机际、机人、人际三类双语, 让它引领知识经济时代的是协同智能观和融智方法论。 注:这是本人所做的一个概括。附录的广义和狭义的双语及其相辅相成的作用给出了两方面的传承和创新。 附录: 节选自《当代中国大学新使命:基于汉语思维与双语处理的文化传承和创新》邹晓辉 广义和狭义的双语及其相辅相成的作用 其中,专门介绍了三类孪生图灵机(即三种理解模型)
个人分类: 学术研究|1383 次阅读|0 个评论
昨前天往返法国和德国:旨在为ICIS2018语言认知论坛事宜
geneculture 2018-6-21 12:32
个人分类: 学术研究|1610 次阅读|0 个评论
语言棋盘+知识菜单+思维导图 =三大系统工程的基础开发环境
geneculture 2018-4-21 07:07
双字棋盘 ] 语言学的代表人物索绪尔把语言视为棋。语言哲学的代表人物有语言游戏一说。融智学者邹晓辉发现语言棋理、知识棋谱和原创棋魂均可用双字棋盘统一地间接形式化表达。不仅任何一个言语片段可被瞬间自动地抽取出其中不重复的汉字或词形式而建构出可视化的双字棋盘,而且,还可通过人机交互快速抽取出该言语片段里蕴含的语言点、知识点和原创点。这就为人机交互进一步建构既可统筹管理又可分别调用的知识图谱和思维导图乃至知识地图奠定了坚实基础。其特征在于:不仅语言的基本结构单位可穷举,而且言语的各级派生结构也可计算。为语言和知识的定性与定量双重分析奠定了数字化、形式化、结构化、可视化和智能化的完整基础。进而,也就同时为自然语言处理和形式化理解暨专家知识获取和形式化表达,另辟蹊径,发现了可整体突破和全线贯通的康庄大道。相比而言,以往局部突破和阶段性完工的各类形式化暨可计算的成果而言,是首次贯通逻辑、数学和语言(含编程语言,它们属于人工语言,区别于自然语言)直接形式化过程的间接形式化通途。 语言棋盘+知识菜单+思维导图 =三大系统工程的基础开发环境 锁定言语片段(限定论域) 明确关键术语(确立主题) 优选主导路径(抓住关键) -邹晓辉 言识软硬结合的形式化系统工程 教管学用结合的社会化系统工程 巧用文本基因的智能化系统工程
个人分类: 前台界面+后台数据|2346 次阅读|0 个评论
领域自然语言理解与专家知识模块精加工
geneculture 2018-4-16 15:00
从某个方面的自然语言理解暨专家知识表达涉及的有限概念、原理和方法及其典型案例入手,可把机器人的软件与数据有针对性地充实起来。-邹晓辉 把一个一个受限领域的专家知识获取与形式化表达及其有针对性地重复调用做到极限之后,再来做跨学科、跨领域和跨行业切换的对接平台,进而,做跨语种和跨媒体平台。这就可逐步化解掉各式各样的歧义。基于知识模块精加工暨知识大生产方式新一代精品课程即可为其奠基(试想当所有课程的语言点、知识点以及原创点在每一个文本暨言语片段都被穷举了之后将会怎样?) - 邹晓辉 \0 \0
个人分类: 学术研究|1937 次阅读|0 个评论
点评微软亚洲研究院对机器翻译最新突破
geneculture 2018-3-16 07:21
1.总体方面 这里透露了其局限性或限制条件。这是对的,是负责的说法。因为自然语言的歧义性或多义性始终是一个巨大的挑战(无论对人或机)。-邹晓辉 【这并不代表人类已经完全解决了机器翻译的问题,只能说明我们离终极目标又更近了一步。微软亚洲研究院副院长、自然语言计算组负责人周明表示,在WMT17测试集上的翻译结果达到人类水平很鼓舞人心,但仍有很多挑战需要我们解决,比如在实时的新闻报道上测试系统等。】 2.四个突破及其具体做法 突破之一 如果仅从狭义的双语如中英文谈对偶,或是仅从数学看对偶,那么,一定会有分歧。但是,如果从广义双语检验对偶,那么,我们很可能就会惊奇地发现一片新天地(例如:可发现“联动函数”及其同时与逻辑、数学、语言或双语即翻译或解释之间的微妙关系)。-邹晓辉 【对偶学习(Dual Learning): 对偶学习的发现是由于现实中有意义、有实用价值的人工智能任务往往会成对出现,两个任务可以互相反馈,从而训练出更好的深度学习模型。例如,在翻译领域,我们关心从英文翻译到中文,也同样关心从中文翻译回英文;在语音领域,我们既关心语音识别的问题,也关心语音合成的问题;在图像领域,图像识别与图像生成也是成对出现。此外,在对话引擎、搜索引擎等场景中都有对偶任务。】 突破之二 实质上是增加了一个反复推敲暨多方比较择优录取的过程。-邹晓辉 【推敲网络(Deliberation Networks): “推敲”二字可以认为是来源于人类阅读、写文章以及做其他任务时候的一种行为方式,即任务完成之后,并不当即终止,而是会反复推敲。微软亚洲研究院机器学习组将这个过程沿用到了机器学习中。推敲网络具有两段解码器,其中第一阶段解码器用于解码生成原始序列,第二阶段解码器通过推敲的过程打磨和润色原始语句。后者了解全局信息,在机器翻译中看,它可以基于第一阶段生成的语句,产生更好的翻译结果。】 突破之三 这实际上就是一个反复比较的过程。其特点之一就是它巧用了机器学习的功能。-邹晓辉 【联合训练(Joint Training): 这个方法可以认为是从源语言到目标语言翻译(Source to Target)的学习与从目标语言到源语言翻译(Target to Source)的学习的结合。中英翻译和英中翻译都使用初始并行数据来训练,在每次训练的迭代过程中,中英翻译系统将中文句子翻译成英文句子,从而获得新的句对,而该句对又可以反过来补充到英中翻译系统的数据集中。同理,这个过程也可以反向进行。这样双向融合不仅使得两个系统的训练数据集大大增加,而且准确率也大幅提高。】 突破之四 在我看来,就是把约定俗成的做法通过双向互动的过程交给机器学习来做了。妙!-邹晓辉 【一致性规范(Agreement Regularization): 翻译结果可以从左到右按顺序产生,也可以从右到左进行生成。该规范对从左到右和从右到左的翻译结果进行约束。如果这两个过程生成的翻译结果一样,一般而言比结果不一样的翻译更加可信。这个约束,应用于神经机器翻译训练过程中,以鼓励系统基于这两个相反的过程生成一致的翻译结果。】
个人分类: 学术研究|1653 次阅读|0 个评论
【尼沙龙笔记:图灵测试是语言理解的合理表示吗?】
liwei999 2018-2-23 18:20
毛: 伟哥对 理解 的理解似乎与二师兄不同?@wei 李: 董老师是我的启蒙老师 他当年的逻辑语义学说 回答了一个语句理解的问题 觉得豁然开朗 迄今也没别的学说这样让我信服过。@董振东 毛: 愿闻其详 ? 李: 说理解了一句话 就是解构出里面的逻辑语义:谁是逻辑主语 逻辑宾语 等。董老师定义了将近 100 种逻辑语义角色,形成一个 hierarchy,最上层的逻辑语义角色不过10种。简单说 就是搞明白 谁 对谁 做了 什么 何时 何地 何原因 如何做的 等等。 毛: 那就必定是符号派了? 乡下的老太太,根本不知道主语谓语,她们不是也能理解吗? Nick: @毛德操 老太太不知道,但老太太的大脑知道。老太太不知道自己的大脑知道 李: 是啊 老太太知道 “她喜欢红烧肉” 与 “红烧肉她喜欢” 是一个意思,也知道与 “红烧肉喜欢她” 意思正好相反,后者是胡说。所以老太太的逻辑语义是明白的 虽然她不懂得这就叫 parsing 或逻辑语义解析。 毛: 那怎么知道老太太的大脑知道?她可能并未转化成符号并加以解析。 @wei 你讲的 理解 是否包含对于因果的认知? 李: 语句理解包含部分的因果。 毛: “部分”,多大的部分?有多大的部分,才算是 理解 了?老太太的大脑知道,其外部表现是什么?如何判定? 郭: “理解”,我的理解如下:我脑子里有一个我自己的“大前提”,或者叫“common sense”,就是我的“认知”。你说一句话,如果我“理解”了,我就可以把你的话作为“小前提”。然后,我可以用“我自己的逻辑”,“推导”出“我的结论”来。这里,是否“符号”并不必然。这“逻辑”,也完全可以“非 亚里士多德”,更不必“因果”。但无论如何,要能再走一步。 毛: 这其实就是图灵测试的变形,只是把它用在人与人之间(而不是机器与人之间)。你是以你自己的认知作为对照,看老太太的反应是否与这个对照者等同。所以,我认为唯一的办法就是图灵测试。 郭: “老太太的大脑”的判定,其实无异于图灵测试。你说“我喜欢红烧肉”,她如果回答“我小时候吃不起啊”,我就认为她“理解”了。 毛: 对。你还可以问:“为什么吃不起”,如果回答“没钱”,就更说明她理解了。通过了图灵测试,就可以认为测试目标真的理解了,或者说具有了(正常)人的智能。图灵在五几年就想透了这一层。问题其实在庄子那个时候就提出来了(子非鱼),但是他没有答案,没有提出方法。 郭: 不过,图灵测试,可是批评者众啊!也是问题一大堆。 白: 图灵测试这思路不对。 毛: 愿闻其详 ?批评者众可以,但是得要提出替代方案。 白: 我喜欢Winograd Scheme的路子。用代词指代考系统。 毛: 那都涉及语法,可是许多人根本不知语法为何物。比方说我五岁的外孙女,她已经能理解不少事情了,但是她根本不知道语法。 白: 没有显性语法,普通人做得出来的。比如“张三告诉李四他很伤心,他安慰了他。” 然后问:谁很伤心?谁安慰了谁?这完全不涉及显性的语法。 毛: 问题是,你怎么知道她会运用隐性的语法?你钻不到她脑子里,只能从外部观察。 白: 都是这套路。不管有没有隐性语法,做出来算。 毛: 对,做出来算,这实质上就已经是图灵测试了。 白: 不是自然对话,是语言学家和NLP专家设计出来的考题。比较人和机器的考分。 毛: 这实质上仍是图灵测试,形式上有所不同。当然,现在机器一般而言还没有能通过图灵测试。但是观察目标物对于外部刺激所作的反应,并与对照物相比,这个原理是一样的。我们在考察一个软件模块时只看其外部表现,即API, 而不追究其内部实现,也是同样的思路。 白: 其实音乐和语法问题很类似。会唱的听众可以不识谱,但是哪里跟原曲不一致是可以听出来的。 毛: 对的。其实这就对应着符号和神经两条路线的差异。 白: 但是用什么记谱更精确,这个问题是有答案的。 李: 说一千道一万,我还是迷信SVO,即逻辑语义。 毛: 你自己已经说了,迷信。 白: 手握精确武器的人对手握原始武器的人,的确有傲视的资本。 毛: SVO是高级的思维活动,而神经元是低级的,接近于本能的反应(所谓 下意识 的反应)。下意识的反应猫狗都有,而 SVO 只有人能做。所以脱离 SVO 谈人工智能是不现实的,只是目前的热点是在解决 下意识 活动而已。 白: 记谱法的好坏不需要迷信。 毛: 记谱方法的好坏,是符号派内部的冲突。简谱与五线谱,基本上就是首调唱名与固调唱名的分岐,我觉得都有道理。一些年轻人把人脸识别说得神乎其神,我说: 别以为你这就有多牛,你去牵条狗来,它照样也能人脸识别。 白: 比如说切分音,这个概念在不同记谱法里面可能表现形式不同,这无关大局。但假设一个记谱法里居然没办法表示切分音,这就是落后的记谱法了。 毛: 是的。这就是所谓“不完备”。这里又可看出深度学习与符号推理之间的差异。前者相当于能跟着唱,或记住了几支小调,但绝对成不了音乐家。所以,连接主义所能达到的水平,只能相当于人类中的文盲。而若想要知书达理,就得上学校去读书,学习符号与推理。 白: 当年表示不了“异或”的情况,就很像表示不了切分音的记谱法。 毛: 对对对 白: 如今表达不了robustness的符号逻辑,则是另一种尴尬。都构成被鄙视的理由。 毛: 反正戈德尔已经说了,逻辑本身就是不完备的。但是这并不意味着可以不要逻辑。 白: 表达不了灵活语序的形式语言,也是另一种尴尬。也不意味着逻辑不要创新。 毛: 那是因为有得必有失。你把语言简化了,当然就得付出代价。 白: 还原复杂的路径不止一条,也不为某种技术路线所专属。 毛: 对,应该互补。所以符号推理与深度学习都需要,而且得要能打通才好。 白: 也许真相离大家都有点远,谁不创新都是危险的。 毛: 是啊。但是创新难呐。 【相关】 【李白宋93:汉语语序的自由与不自由】 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|4345 次阅读|0 个评论
人机结合怎样更好地化解歧义?
geneculture 2017-6-23 03:03
理解、解释、翻译,如何化解歧义? 作者:邹晓辉,翻译:邹顺鹏,译审:邹晓辉 1. 引言 语言文字蕴含各式各样的歧义。这是理解、解释、翻译都难以绕开的问题。无论对于自然人,还是对于计算机,都是极大的挑战。 2. 正文 2.1 蝴蝶模型 双语内部各自先解释,然后再翻译。表现为取值与置信两种智慧能力。 2.2 三棱模型 至少蕴含着两组六对基本范畴 ,它们分别是:物理(物同理)、意义(意和义)、文法(文与法);物与意(客体与主体)、意和文(内容与形式)、文和物(虚与实)。它们合起来可划归道管辖。 3. 结语 结果(字与字组的划分价值得以体现,大道至简与理义分殊均得以凸显)
个人分类: 学术研究|3 次阅读|0 个评论
改变视界的序位逻辑、联动数学和跨界理解
geneculture 2017-6-12 10:26
《融智学:改变视界的序位逻辑、联动数学和跨界理解》 作者:邹晓辉Geneculture 中美塞尔研究中心主任研究员 超级双脑智库(北京)架构师 本研究旨在通过形式信息与内容信息的歧义辨析来链接最简单的抽象的形式演绎与最复杂的具体的内容解析从而化解一系列自欺欺人的疑难杂症。其方法主要是对心智、言语、知行的系统分析和精准解析,首先,建构出形式系统的序位逻辑演绎体系,进而找出其各个子系统的函数关系并建构系列双语形式的联动数学,最后,打通跨界理解系列屏障。其结果是复杂问题简单化、内隐信息形式化和系列歧义具体化。其意义在于心智、言语、知行等超级难题的杂多视界经过系统的内容信息解析和形式信息分析而可逐步简化至单一视界,即改变既有逻辑、数学和语言的僵界,为超越角力、竞技和斗智的融智开辟了广阔清晰的视界,化解了混沌模糊杂多视界造成的歧义。
个人分类: 学术研究|326 次阅读|5 个评论
创新之魂:缔造知识大生产的超级双脑智慧能力(邀请函)
geneculture 2017-3-9 05:03
一锤定音:如果说“科学技术是生产力”,那么,“经济创新”就是催化剂和加速度。--邹晓辉Geneculture 例证1,以伽里略、笛卡尔和牛顿等科学巨匠为代表的欧洲科学技术,和以瓦特、法拉第和拉瓦锡等为代表的欧洲产业促进(如、英国的工业革命,从蒸汽机到电动机,由物理学到化学,不仅科学与技术、学者与匠人之间发生了融通融合,而且,科技与经济、进而与社会,也发生了融通融合,其中,人的智力活动发挥了关键作用),就是典型。 例2,如果说化学元素周期表和生物基因序列表揭示的是自然科学的序位逻辑法则,那么,基本的数字表和字母表以及汉字棋盘所揭示的就不仅限于自然而推进到了人工、心智、人文乃至社会的序位逻辑法则。顿然间,我们发现,不仅仅是中英文这样的狭义双语,进而,还涉及数学和语文那样的广义双语,甚至还再进一步涉及到字、式、图、表、音、像、立、活“八大形式体系”的广义文本基因序列所遵循的序位逻辑法则(这是一个根本的大前提,作为发现者和发明人的邹晓辉暂时称之为本真信息存在公理即第一信息的基本定律)。可以说,广义文本的物、意、文“三类现象信息”,遵循的理、义、法“三类本真信息”,才是现象世界存在的本源。如何认识它们?易经和老子的道法自然以及德化社会乃至孔子的人文关怀(如“仁”蕴含的“二人关系”--远比胡塞尓、海德格尔、哈贝马斯和拉康等学者阐述的“主体间性”早许多)都仅限于某种粗放的非形式化的哲学理性反思,没有推进到可数理形式化的精细程度,因而,很难进一步推进到受局限的可预言的经验科学验证的领域。双字棋盘及其蕴含的超级双脑协作机理,不仅开启了知识大生产实际应用的广阔领地,而且,还开启了前所未有的具有超级双脑智慧能力的超傻交互方式(真正可做到“大智若愚”)。其作用、价值和意义,是可检验的(只要人们静下心来认真地尝试一下如何才能获取专家知识而不产生误解这样的实际问题的求解过程)。--邹晓辉(中美塞尔研究中心 主任 研究员)
个人分类: 双语信息处理|173 次阅读|0 个评论
【语义计算:“他衣服要烫得笔挺才肯穿出门”】
liwei999 2017-2-27 00:59
白: “他蔬菜要用清水泡过的才敢吃。” 这里面,“泡”的逻辑主语是不是“他”?保险策略:不做定论,悬在那里。激进策略:是,如有必要,拓展对“逻辑主语”的解释。“他”主导了“泡”的启动或者“泡过”的选择,即便不是亲手“泡”,也算是逻辑主语了。落地时可以有个开关,决定“算是”的逻辑主语是否映射为真实的施事或当事语义角色。个人认为激进策略也是可行的。 董: 我的语感是“他”是topic。说的是他这个人。而不是一个行为动作的事件。 白: “他衣服总是穿得笔挺。” “他衣服总是要穿得笔挺才敢出门。” 里面的“他”也不和“穿”挂钩吗? 这里的“穿”和那里的“泡”有何不同? 李: 转了弯的逻辑主谓 白: 董老师框架下要直接确定语义角色,我和伟哥是分阶段的。 李: 解析的目的何在? 能想到的好处是可以提供更多的案例 帮助挖掘本体知识。对于语句的语义 其实没啥意义。语句要表达的语义 大多不绕大弯。这也是为什么非谓语动词 常常有坑没萝卜,或者即便有萝卜 填坑不填坑无关宏旨。事实上即便填上了,也大多不是事实,不是发生的事儿的语言表达,而只是本体的潜在逻辑关系的语义相谐的一种体现,此所谓“非谓语”。 白: 绑上了放掉很容易。放掉了再绑上有点返工的感觉。在没有竞争候选的情况下,建议绑上。这是依据封闭世界假设。如此填上的萝卜,如果语境中有其他活跃萝卜,可以override。 李: 顺手的话 当然绑上。 白: 把link标记为“可覆盖”,就可以兼得。 李: 如果知道不十分确定,绑的时候做个标记,说这是个 candidate 不是绝对的。 白: 就是这样:soft hypothesis,遇到更hard的candidate,立马让贤。 “他衣服要烫得笔挺才肯穿出门。” fallible reasoning,“僵尸萝卜”和“鲜活萝卜”结为兄弟 李: 这句子很绝。各种坑。可以列数一下 (1)possessive:他-衣服 (2)aux-V: 要-烫 (3)动宾:烫-衣服 (4)主谓:衣服-笔挺 (5)计划类V带动词宾语(也可以看成是 aux-V):肯-穿 (6)candidate 主谓:他-烫(衣服) (7)主谓:他-肯穿 (8)主谓:他-出(门) (9)动宾:出-门 (10)动宾:(肯)穿-衣服 (11)述补:穿-出(门) 还漏掉啥填坑关系?总之,短短一句,各种纠缠。 最后这个【述补】好像随机性强一些,预示性弱,就好比 【得字结构】 的补语: “烫-得(笔挺)”,它们更像 adjuncts 不像 args。 白: parser都要做,补语不是填坑,是坑共享萝卜,是动态确定的 李: 不需要词典subcat驱动,而是一般性规则。 白: 不是词典化的。坑共享萝卜的另一个说法就是坑的合并 李: 好,parse parse: 做到一半了没有?论句法,约莫八成;论全体逻辑语义,也就做了一半吧。 今儿较真一次,列数一下,看到底做了几层关系出来: (1)Mod (possessive): 他-衣服 (2)句法主谓(其实是逻辑动宾:算是做了一半吧):要烫-衣服 (3)aux-V(表现在 vg chunking 里了): 要-烫 (4)大主语,又名 Topic(其实是逻辑主谓,也算做了一半吧):他-要烫 (5)主谓:他-肯 (6)V带动词宾语:肯-穿 (7)Next 耍了个流氓(算是做了一小半,至少直接联系是搭上了):肯-出门 (8)补语:要烫-笔挺 白: 很牛了 李: 自评: 是八成熟的 parser 吧,差强人意。偶尔露峥嵘。 关键是,这句没做任何微调,所见即所得。隐式的逻辑语义,譬如 “衣服-笔挺” 就没顾上了。隐式逻辑语义目前在语义模块只是做了个样子,没细究。 白: 我说的僵尸萝卜和鲜活萝卜,就是分别指“穿”和“出门”。 李: 句法细化为逻辑语义,也没做全。譬如,流氓 Topic 和 Next 还没教化。 白: 坑者有其萝卜,是NLPer的共同理想,就像耕者有其田一样 李: 哈。 为顺口,可以提这个口号:坑者有其苗。 跟植树造林似的。一个坑一棵苗,终成句法森林。双音语素 “萝卜” 不知怎么个来历 居然是黑匣子 无法缩略为单音节。还不如 “蝴蝶”, “蝴蝶” 略为 “蝶” 没啥问题。 【v者有其n】,这种成语句式 要求 v 和 n 都是单音节才好: 耕者有其田。 劳者有其工。 行者有其车。 食者有其鱼。 学者有其书。 棋者有其go (不是 alpha go) nlp者有其tree 坑者有其萝卜?? 赌者有其麻将?? “麻将” 也是双音节黑匣子 不好。牌九呢,也是双音语素,但似乎可缩略为 “牌”: 赌者有其牌 共产大同了 哈。 白: “一切不拿自己当大数据入口的端设备都是耍流氓。” 董: AI,也是智者千虑必有一失。 白: 拿……当……,句式没搞定。把“当”翻译成“when”,后面的都失去准星了。 白: “机器人送快递还有多远?” 怎么知道这里的“远”实际指的是时间而不是空间? 宋: 时间空间常混淆。 梁: 时空一体 李: 词汇总是有歧义,有不歧义的。 “机器人送快递还有多久?” 多久 无歧义; 多远,有歧义,但标配是空间。结构也是如此,有歧义的,有不歧义的。形态丰富的语言,结构起来,就较少歧义。汉语就显得到处都是歧义。所以那些争论语言优劣的口水仗,缺少的是一个双方公认的测量标准。常常鸡同鸭讲。如果从较少歧义,以显性形式为主要手段来避免歧义这个角度看,汉语是劣质的,这个应该没有多少疑问。但是,歧义也好不歧义也好,现存语言都达到了人类交流的工具目的。不过是,歧义多的语言,人类在交流中下意识利用了常识或领域知识的帮助而已,而这种下意识,对人类一般不构成负担。既然知识在语言理解中的引入不够成负担,那么比较优劣当然还可以有其他的标准。譬如语言表达的灵活性、丰富性、微妙性,甚至模糊性。从这些角度考量,可以 argue 说汉语是世界上最牛逼的语言。 词汇的歧义(wsd)属于 hidden ambiguity,通常不影响结构分析。wsd 真要解决的话,绝大多数都可以在句法后的语义模块或语义落地模块去做。 wsd 和 hidden 歧义 通过上下文消歧 可以利用句法结构的帮助 也可以不用。但既然绝大多数这类歧义都可以留到句法后进行 不利用白不利用 两条腿走路总是更踏实。其所以wsd 研究 利用结构不为多数 不是因为大家不愿意两条腿走路 而是因为多数研究者缺乏得心应手的 parser 的支持 我以为。另一个原因是为模型的纯粹。两条腿一起来,在学习模型中,等于增加了另一维度的 heterogeneous 的 evidence,难缠。 从休眠唤醒的角度看 wsd 的多数都休眠了 常常也不用唤醒 如果落地语义无需聚焦到那里的话。到了需要唤醒的情形 譬如某个应用需要解读 多远 可不可能是说时间的话 结构条件加语义或常识就可以出场了。 “机器人 - 送外递” 这个主谓关系的行为 是一个热炒的话题 现实中很多家在尝试 但还没有成熟。这个知识介入了,才好确定 “多远” 是指向时间的。可这个知识如何搜集、表达和恰到好处地代入,目前看来还有不少挑战。 梁: 汉语比英语更高层次,你更简洁。 李: 简洁的另一说法就是裸奔。 本来穿衣主要不是避寒 而是为了体面,为了百分之五不到的避寒需求 每天都要穿得笔挺 的确显得麻烦。譬如 欧洲语言的一致关系在形态上的表现,主谓一致、形容词与头名词的一致(agreement),性数格人称等形态,看着就眼晕。 这些一致的形式有如西装革履,百分之九十五的场景就是摆设,因为没有穿戴它们 语义的相谐也不会让我们产生误解。但的确有不到百分之五的场景 就好比坏天气来了一样 没有穿戴 就会冻坏;没有一致关系 理解就发生困难。 汉语的简洁和裸奔,是以牺牲百分之五的理解畅达性作为代价的。这就是为什么汉语不如欧洲语言严谨,突出表现在写合同和法律文书的场景。欧洲语言之间 严谨性也有不同 大致都可以用穿衣的繁琐程度来度量。国人能省就省 很多小词(功能词)说没就没了,常裸奔到无语。 梁: Okay, 更裸奔更放任自己,更让 Wei哥难受。 詹: 我常听到这样的说法,说英语的parsing都百分之九十多了,汉语差十个百分点云云。如果方法相同,分析结果总是差着这么多,是不是可以推测,汉语的模糊度就比英语高着十个百分点呢(相当于试题难度高了十个百分点)? 白: 连parse结果长什么样都糊涂呢,说什么多少个百分点? 李: 那天在linkedin上 有人建议:你不是parsing牛吗 打败谷歌 为什么不去用标准集做大规模测试对比?我说 你要说服CEO给我资源 我不妨一做。 往标准集上靠 工作量不小。本来那集就走歪了,非得把走正的 往歪去靠 。 宋: 不止是时空混淆,其他度量空间也有问题:“机票从7折变成8折”,折扣是升了还是降了?“人民币汇率从7.0升到6.0”,居然是升。纽约时间比北京时间早13个小时还是晚13个小时? 李: 宋老师对语言 眼真毒。 回@梁 汉语裸奔对我不是难受 而是福气。太好受了 人皆可做 我如何寻找存在感呢?语言不幸语言学家幸啊。 宋: @wei 不是我眼毒,真的是说不清楚。涉及到出国的事情,解释两地时间差别,只能具体说:北京现在是25号凌晨1点,纽约是24号中午12点。各位老师,你们如何表达这个关系?也许可以这样说:北京时间减去13个小时是纽约时间。反正不能说早晚。 梁: 真是好问题,北京和纽约时差13个小时。我有时跟朋友说,"北京在纽约前13个小时。"我真不知道怎么说。 李: 自然语言会有些莫名其妙的表达 gap 存在的。譬如 汉语是 第几 和 老几 ,在英语就没有简明的对等物。理论上 不就是序数词的wh疑问式吗?应该是 *how many-th 但就是没有。遇到这类翻译 英文总是转弯抹角: What is your place in blah blah 这类 梁: 不可翻译,只能解释的情形挺多的。 董: 什么测试集、标准集,什么召回、精确,还没玩够呀?汉语分词现在似乎没人玩了?那个正确率是怎么算的? 语言不是可以这么玩的。看看这个分词:中国力避朝鲜遭到致命打击。 百度翻译:China in stead of North Korea was a fatal blow. Google翻译:China's efforts to avoid North Korea have been fatal blows. 对于这个句子,这个分词的错误率,就是100%。 汉语什么是“词”,词频统计能像英语一样吗?还要计算分词的正确率,还要测试,比赛,如何能靠谱?老外玩他们的语言,我们不一定要跟着玩。你玩扑克,我推牌九。 李: 如果没有标准集的话 可能一多半玩parsing的专家就抓瞎了。其中看不起或看不懂语言学的 不为少数。带标数据是他们的命根子,至于这个“标”合适不合适,靠谱吗,有多少用,他们不管。雾里看花,只要有个花的模样,就可以绘画比赛了。就是如此。 董: 前些日子,机译群在聊,说今年的ACL,是深度学习的一统天下。我想起了20年前,如今统计似乎已经风光不再了。30年河东,用不了30年就河西了。 张: 坚持原则的勇气是智慧的全部就是崇拜中 【相关】 【李白对话录系列】 中文处理 Parsing 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|2029 次阅读|0 个评论
双字棋做专家知识获取及形式化表达和有针对性地重用​
geneculture 2017-2-12 09:20
基于融智学理论和文化基因系统工程实践的双字棋盘,实质上做的是人机交互协同操作的专家知识获取及其形式化表达进而有针对性地重用的工作,其结果表现是这样的,即:专家知识获取之后并自动实现其形式化表达(即:专家知识表达),这一步非常关键,因为,这就已经实现了自然语言理解(这不仅使人工智能的核心关键难题得以化解,而且,还让人类智力的认知分歧难题得以化解,从而,可避免人机交互与人际交流过程中许许多多的矛盾或冲突),再进一步,可通过协同网络有针对性地组合变换而实现专家知识的重复调用(即:重用)--这就是向大众远程传授各种各样的专家知识和经验技能最为便捷也最为重要且效率最高的方式。当然,之前和之后,乃至其进程中,还有一个诀窍,那就是基于融智学理论和广义文本基因系统工程的七遍通与之配套应用,方可充分体现出人际协作乃至人机协同的综合智慧能力。
个人分类: 融智学前期探索|486 次阅读|0 个评论
【NLP笔记:人工智能神话的背后是汗水】
热度 3 liwei999 2016-3-11 10:06
这些零星的研发笔记显得如此枯燥,涉及的是语言海洋的一片浪花而已。然而,所谓电脑的自然语言理解(NLU)的背后,往往就有这样的语言狂人,一辈子就琢磨这些现象并为寻求“机械”对策而乐此不疲。等到这些零星知识及其机械对策集腋成裘,转化为电脑可以执行的算法而造就出自然语言分析的自动机的时候,又一个AI神话就出现了。一切的AI神话都没有灵性,有的不过是把复杂问题层层分解的路数,内行看汗水,外行看光环,历来如此。人工智能,没有人工,便没有“智能”,皮之不存,毛将焉附。 在科学和IT领域,不乏大佬为人类着急,所谓机器人自主思考、语言交流、统治世界、毁灭人类等危言耸听,甚嚣尘上。先天下之忧而忧的精英与嗷嗷待哺的愚民成为绝配,一个愿打,一个愿挨,构成一道奇特的风景线。如今,alpha-go 赢了人类围棋,人工智能益发被媒体渲染得沸沸扬扬。这里有多少人有兴趣、能力和耐心去以常人能懂的方式去做真正的人工智能的科普,又有多少人有兴趣、能力和耐心去了解所谓机器智能背后的一点儿也不性感的“诀窍”呢? 说点汉语语言学吧,没这个语言学帮助解析,机器怎么可能“理解”汉语呢? 汉语碎片一:“ 若价格在五十元左右还可以接受^^ ” 什么可以接受? 条件子句本来是做主句状语的,但这里做了主语,没有这个“若” 字也可以,那就成了一个常规的主语子句。直译成英语,条件子句绝对不可以做主语的: *** if it is within the price range of 50 yuan is acceptable 常规主语子句在英语有对应说法,由 that 引导名词性子句做主语: That it is within the price range of 50 yuan is acceptable 问题是:汉语多出来的这个“若”是怎么回事呢? 再看: 若价格在五十元左右还可以接受,那么什么价格不能接受呢? 可见,这个条件子句可以是结构歧义的,这时候“若”字就是地道的主从连词了。涉及的句型应该是: 若-Clause ,那么 MainClause SubjClause + Pred 汉语碎片二: 同胞说话都是这样断断续续么?今天遇到的是这个句子: 第一次网购这样的大件物品, 以后就有信心了 . 第一个VP与第二个谓语VP啥关系?谁有信心可以不追究了,应该是“我”,不排除是你,或者泛泛而指。第一个VP背后的意思大概是下述这样的么,如果补全的话? 【我】第一次网购这样的大件物品【因此免不了出偏差】, 以后【我】就有信心【网购大件物品而不出差错】了。 形式裸奔也便罢了,内容省略居然可以达到如此地步! -- 我们人是怎么理解的? 百度翻译: For the first time such a large online shopping items, after the confidence. 谷歌翻译:The first big-ticket items such as online shopping, there is confidence in the future. 人工直译:first time online shop such a big item, in future will have confidence. 人工理解了再译大概是: It was my first time of buying such a big item online, I will have more confidence in such things in future. 白: 第一次网购那个例子,我有不同的解读:潜台词不是“难免有差错”,而是“风险较大心里没底”。“难免有差错”似乎差错是“已然”了似的,但从字面看不出“已然”的意思。 我: 是是。 那就不是: It was my first time of buying such a big item online, I will have more confidence in such things in future. 而是 This will be my first time of buying such a big item online, (I am not sure I can do it well, but) I will have more confidence in future. 我实际的问题是,此类句子似乎汉语特别多见,模模糊糊,有话不说清楚,需要人去琢磨才能厘清。汉语NLP研发中经常见到这些让人哭笑不得的句子,可读上去大多很顺,国人可不就这么说话的嘛。谁会为了照顾我们机器NLU,就把话刻意说清楚呢? 伟大的中文,I 服了 U,这辈子奏跟丫拼了,偶。 【相关】 泥沙龙笔记:汉语牛逼,国人任性! 泥沙龙笔记:汉语就是一种“裸奔” 的语言 【泥沙龙笔记:从机器战胜人类围棋谈开去】 【新智元笔记:反伊莉莎效应,人工智能的新概念】 《立委随笔:人工“智能”》 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4475 次阅读|3 个评论
双字棋盘:一种基于算术和语文这对广义双语信息处理的对称矩阵
geneculture 2015-3-29 17:54
双字棋盘 查看全文 下载全文 导出 本发明是双字棋盘,即一种基于算术和语文这对广义双语信息处理的对称矩阵。其目的是提供一种可通过进一步开展语言游戏以虚拟未来智慧城乡的专用人机对话平台,涉及优化的广义翻译。其特征在于:它把算术和语文视为广义双语,把二进制数与十进制数、英文与中文均视为狭义双语,把术语与俗语视为另类双语,从而可在三类双语范围内重新解释图灵测试和中文屋子,它是数字和文字以对称矩阵的方式在广义双语信息处理系统中建构的人机对话平台。其有益效果是:三类双语可化解母语如汉语非主流、知识缺原创和软件无根基这样的“三大瓶颈”,可重组新一轮的人机大赛,可开展以“蓝图-模型-范例”方式虚拟各种各样的未来智慧城乡构想或建构的语言游戏。 专利类型: 发明专利 申请(专利)号: CN201410157262.9 申请日期: 2014年4月21日 公开(公告)日: 2014年9月24日 公开(公告)号: CN104056450A 主分类号: A63F9/14,A63F9/00,A,A63,A63F,A63F9 分类号: A63F9/14,A63F9/00,A,A63,A63F,A63F9,A63F9/14,A63F9/00 申请(专利权)人: 邹晓辉,邹顺鹏 发明(设计)人: 邹晓辉 主申请人地址: 519125 广东省珠海斗门井岸桥东恒梅花园15-2栋(白蕉连兴路179号29栋) 国别省市代码: 广东;44 主权项: 双字棋盘,即:一种基于算术和语文这对广义双语信息处理的对称矩阵,进一步具体描述是一种语言游戏虚拟未来智慧城乡的专用人机对话平台,涉及优化的广义翻译,其特征在于:把算术和语文视为广义双语,进而,把二进制数与十进制数视为一种狭义双语,而把英文与中文视为另一种狭义双语,其中蕴含的术语与俗语则可被视为另类双语;可在三类双语范围之内重新解释计算机之父的图灵测试和心智哲学大师塞尔的中文屋子,首先,用二进制数与十进制数这样的狭义双语替换英文来做图灵测试,进而,再用十进制数与书面汉语中文的基本结构单位即可间接形式化的单音节汉字这样的广义双语替换书面汉语构成的塞尔的中文屋子来做图灵测试,最终,可用二进制数与单音节汉字这样的广义双语来实现间接计算书面汉语即中文,就是把数字和文字以对称矩阵的方式在广义双语信息处理系统中建构人机对话平台提升机译质量。 法律状态: 公开 ,公开 http://d.g.wanfangdata.com.cn/Patent_CN201410157262.9.aspx
个人分类: 双语信息处理|1022 次阅读|0 个评论
从"Rose is a rose is a rose is a rose." 谈开去
carldy 2011-3-16 14:52
前天课后,有学生拿一张纸条问我,让我帮忙解释这两句话: 1) Rose is a rose is a rose is a rose. 2) If you're looking for my husband, he's gone fishing , just walk down to the bridge until you find a pole with a worm on each side. 关于第一句,我记得是美国一作家的名言。 搜索一下,结果如下: The sentence "Rose is a rose is a rose is a rose." was written by Gertrude Stein as part of the 1913 poem Sacred Emily, which appeared in the 1922 book Geography and Plays. In that poem, the first "Rose" is the name of a person. Stein later used variations on the sentence in other writings, and "A rose is a rose is a rose" is probably her most famous quotation, often interpreted as meaning "things are what they are," a statement of the law of identity, "A is A". In Stein's view, the sentence expresses the fact that simply using the name of a thing already invokes the imagery and emotions associated with it. As the quotation diffused through her own writing, and the culture at large, Stein once remarked "Now listen! I’m no fool. I know that in daily life we don't go around saying 'is a ... is a ... is a ...' Yes, I’m no fool; but I think that in that line the rose is red for the first time in English poetry for a hundred years." (Four in America) Gertrude Stein's repetitive language can be said to refer to the changing quality of language in time and history. She herself said to an audience at Oxford University that the statement referred to the fact that when the Romantics used the word "rose" it had a direct relationship to an actual rose. For later periods in literature this would no longer be true. The eras following romanticism, notably the modern era, use the word rose to refer to the actual rose, yet they also imply, through the use of the word, the archetypical elements of the romantic era. It also follows the rhetoric law of thricefold repetition to emphasize a point, as can be seen in speeches dating back to the sophists. http://en.wikipedia.org/wiki/Rose_is_a_rose_is_a_rose_is_a_rose The line is from Gertrude Stein's poem Sacred Emily, written in 1913 and published in 1922, in Geography and Plays. The verbatim line is actually, 'Rose is a rose is a rose is a rose': Rose is a rose is a rose is a rose Loveliness extreme. Extra gaiters, Loveliness extreme. Sweetest ice-cream. Pages ages page ages page ages. When asked what she meant by the line, Stein said that in the time of Homer, or of Chaucer, "the poet could use the name of the thing and the thing was really there." As memory took it over, the thing lost its identity, and she was trying to recover that - "I think in that line the rose is red for the first time in English poetry for a hundred years." Stein was certainly fond of the line and used variants of it in several of her works: - Do we suppose that all she knows is that a rose is a rose is a rose is a rose. (Operas and Plays) - ... she would carve on the tree Rose is a Rose is a Rose is a Rose is a Rose until it went all the way around. (The World is Round) - A rose tree may be a rose tree may be a rosy rose tree if watered. (Alphabets and Birthdays) - Indeed a rose is a rose makes a pretty plate. (Stanzas in Meditation) The meaning most often attributed to this is the notion that when all is said and done, a thing is what it is. This is in similar vein to Shakespeare's ' a rose by any other name would smell as sweet '. 斯泰因做为一位先锋派小说家,在文学创作中大量运用重复的手段来强调她的 “ 持续现在时 ” 。她在《有用的知识》( Useful Knowledge )一文中作了这样奇特的论述: “ 一加一加一加一加一 ……” 她继续这样数下去,一直达到一百。她认为这才是 “ 一百 ” 的真实涵义,每个 “ 一 ” 都是完整的独立存在。她的名言是: “ 玫瑰是一朵玫瑰是一朵玫瑰是一朵玫瑰。 ” ( Rose is a rose is a rose is a rose. )理解这句话如同观看一条电影胶片,片中的一系列画格中的图像几乎完全一样,然而每个画格都表达一个独立瞬间的图像,读者看到的是一个瞬间接着一个瞬间的画面的组合。 女作家用这样的文字,阐释了“白马非马,玫瑰是玫瑰”这样一个简单的命题。 玩文字游戏,这恐怕也算是高手了。 第二句,我认为也是在玩文字游戏,其中有几个词是多义的,如 pole , worm 等。 不同的理解,就有不同的阐释方式。 有趣。
个人分类: 读书心得体会 Harvest|19598 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-12 11:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部