科学网

 找回密码
  注册

tag 标签: 落地

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

高考并非决定人生的辉煌
热度 9 姜文来 2019-6-8 07:29
高考并非决定人生的辉煌 姜文来 6月7日是2019年全国统一高考的首日,约1031万人将走进考场。这一数字较2018年增加了56万,创10年来历史新高。高考是每年的教育大事件,牵动着亿万家庭的心。近期,国家及地方教育部门对高考准备工作均作出部署,从试卷管理、考场环境到交通状况等全方位提出严格要求,全力保障高考安全。(6月7日 人民网) 高考事关选拔人才的公平,牵动社会的神经。高考对考生而言,是人生的一个分水岭,考得好,学习的舞台条件更好,助长人生再上一个新台阶。考得不好,学习舞台条件不尽如意,伴随你的良师益友参差不齐,今后升学出国就业都面临着不少麻烦。如果考得更不理想,没有达到录取线,意味着与高校无缘,失去了进入大学校园学习机会,和上大学的同龄人相比,缺少了共同学习进步的舞台,是终生的遗憾。高考拨动考生和家长的心弦。高考对个人、对社会都极为重要,无论怎么重视都不足为奇。 纵观人生旅途,高考只不过是人生的一个节点,是结束高中学习的终点,是迈向下一段生活的起点,是告别高中生活同学、老师、学校的结业式,是人生第一次真正的大考。通过这次考试,同学会走向不同的人生轨道,有的继续学习深造,有的从此告别学校走向工作岗位。可以说高考是人生的另一个起点,不同的成绩造就了不同的起点,不同的起点会有不同的人生旅途,会有不一样的风景,人生的阅历、经验、知识、能力、视野、思想、行动力等等会显示出更大的差异。当年坐在同一个教室的同学,多少年后经历不同人生轨迹的同学再相聚,只是人的相聚,难以找回当年的同学的味道,更难以再找回当年的幼稚可爱共同的理想和目标。高考就是不同粗细的筛子,将你送向下一部分人生的起点。 尽管高考在人生的旅途中重要,但并非高考一锤定下人生的未来。高考春风得意者人生前途未必光明,高考马失前蹄者人生不一定黯淡无光。高考状元人生平淡、没有大的成就者比比皆是,没有考上大学奉献社会、创造一番事业的人大有人在。上大学、上好大学固然重要,如果没有继续奋斗,没有远大的理想,尽管在一下个起跑点上抢占了先机,注定是没有太大作为的普通人。尽管高考失利在下一段旅途中输在了起跑点上,但中途不断为自己加油,向自己的设定的理想不断迈进,一定会有自己满意的人生。奋斗是改变命运的催化剂,能改变高考决定的人生起跑线。 坐在考场的高考年年有,我们参加的次数是有限的,尽管高考十分重要,但高考毕竟只是人生旅途的一瞬。社会的“高考”天天有,我们都是考生,出题者是社会,答案考验我们的智慧,向社会交出一份满意的答卷,是社会“高考”的佼佼者,我们努力成为佼佼者一员,让社会更加美丽。 祝福考生考出如愿的成绩,也祝福我们的人生更加如愿,社会更加和谐美好。
6048 次阅读|10 个评论
升降中产生巨大灵感
geneculture 2019-5-29 07:01
升降中产生巨大灵感
个人分类: 生活点滴|1246 次阅读|0 个评论
【泥沙龙笔记:自然语言技术落地,主餐还是副食?】
热度 1 liwei999 2016-5-21 13:23
洪: @wei 你对idibon咋看?烧了7M,俩founders都是Stanford phd毕业的computational linguists (要关门大吉了: Natural language processing startup Idibon nears shutdown ... ) 我最近觉得王孟秋转向还是挺值得注意的。他学了十来年nlp,在斯坦福取得博士,然后转去做无人机,初步成果令人刮目相看 我: idibon 我没有follow,刚去看了一下,觉得他们来迟了,offering 没有特色,离落地产品还远,做中间件的话不容易开辟市场。所以这类公司最佳出路是被某个巨头看中收购最好。后面有斯坦福的光环,本来这条路是可能的。不知道为啥ai这么热的时候,没被人不傻钱多的啥巨头,譬如雅虎,看中呢?说是主攻sentiment,正打算offer NE,听上去是浅层的 component technology,NLP component technology 不好做,这一点自从 Inxight 衰亡就已经很清楚了。 洪: 嗯 我: Inxight 那条线,PARC,辗转下来的也有少数活下来的,但都很费劲。一个是做多语言的 Basis,重点是 浅层 morphology;另一个是从 Basis 拉出来的一帮人做的 Lexalytics, 重点放在 sentiment。这两路做中间件的勉强活下来了,但是也看不到起飞的迹象。 洪: 在北京时和在清华访问的UIC的刘兵教授切磋过几次,他是做sentimental的pioneer。对这方面创业也没啥兴趣了。 熊: 他以前美国创业过 洪: 是,我知道的 我: 根本原因之一是我以前提到过的,NLP 这个技术还没成熟到拿着第三方的中间件就可以自如开发产品的阶段。这个体会很深,如果真想充分利用NLP做产品,千万要内部开发,而不要用第三方。内部开发的确要多花一些时间,似乎不符合防止 reinventing wheels 的古训,但是,没有办法,NLP 里面有很大的部分属于内部协调,system internal,架构中组件接口、features 调控,等等,第三方的东西除非是完全的 open source 拿过来可以 internalized 消化到系统内部,否则是很不好用的。commercial offering 简直就是毒药。因为这种 commercial 中间件为了自保,一般都做成类似黑箱子一样,给个有限的接口,不让你进去 configure,它那边还不断升级,闹得你的系统鸡犬不宁。可你这边的痛点他又不能切身体验,又不让你进去 customize,所以只要你不是赶紧凑出一个项目去骗钱,而是真地用NLP去开发产品,有一个长期的打算,你就不应该用任何第三方的 commercial offering,不管它吹嘘质量有多好。 Nick: @wei @洪  你们哥俩能不能罗列三五个nlp主要events。我准备定理证明和五代机完后,再来个nlp大八卦。ai里,nlp我最缺乏第一手材料。@白 白老也给指点下哈 我: 你咋那么大劲头啊 @Nick 那次听说你听了四五十小时的AI档案录音,我就为你的AI大无畏精神所深深感动。 NLP 的前一半的历史就是 MT 历史,MT 历史被人津津乐道的事件和掌故的总结,有不少不同侧面的描述。 NLP 的后一半历史(最近30年)就是狼吃羊的历史,羊吃绝种了,就是狼与狼之间恶斗;极少跑出去逃生幸存下来的羊可以写一部 Jungle Book,怎么被野化为兽。 洪: 我想想,然后以我的理解,总结一下,nlp如何从ai里分离出来,然后最近又被吸收回去。天下大势,分久必合,合久必分 施: NLP 是赚钱的漂亮包装,属于装饰品。不是说不重要,是有一些致命的缺陷。或者说是配料和小菜,不是主食。 Nick: 为啥捏 主食是啥 我: 历史不断重复,NLP有好些漂亮包装的套话或NLP神话,耳朵都听得起茧子了,我睡着了都可以做 NLP marketing,施总是 real life 的体会,玩 text 大数据,到底玩的是NLP还是其他? 我吃NLP的饭,本来应该为NLP摇旗呐喊,但如果从现实来说,那又是另一个故事。这个故事可能与施总有某种呼应。当然不如施总的平台大,故事有可能是类似的。先听听施总高见,完了说这边的故事。 施: NLP做成工具不行,如分词,海量和计算所原来都有很好的系统,但那不可能卖出大钱。Parser 也一样。NLP最大的问题按照四川话来说就是“恼火”或者“脑壳疼”,-不准确。如我们通过聚类的技术来发现热点,但是用户一旦发现一条似是而非的结果就会挑战。从用户的角度,他不能忍受高技术的不准确性(用户是SB但他是上帝)。所以我觉得不要独立去宣传NLP的特性,还是从应用的角度出发,另外,要从赚钱的角度,NLP赚钱太难了,所以现在我们都不重点去宣传这类特性了。目前我觉得实体抽取对解决具体问题是有用的,特别是在所谓大数据情境下。情感分析貌似没有产生太多的商业价值。当然从研究的角度,NLP值得研究,需要科学家大力研究;但从商业的角度,尚没有发现很好的变现途径。 陈: 高 我: 施总没论主食。论了NLP不是主食,以及用户是SB+上帝。米国的故事也有类似的结论,客户是SB,不傻的少数。 施: 我也在找主食呢 我: 话说做大数据舆情的三年前有二三十家,一路厮杀,剩下了四家,其他的自生自灭了。这四家都各有自己的招儿诳住客户,features方面有很多就是互相模仿。因为一共就四家啊,大家都互相盯着,不管哪家弄出个玩意儿来,不久其他的就也弄出类似的 features 出来,结果是产品从客户角度来看,是越做越像。 我们是以NLP精度为卖点之一,谁叫咱NLP牛呢,但又不能完全靠这个。虽然我们的NLP精度绝对领先(大约20个百分点的优势),有第三方的独立评测以及很多反馈为证,但是客户是 SB 啊。跟 customer support 老总聊,他说客户中的多数是纯粹的 SB,靠所谓质量取胜对他们无感,工具是不是方便好用才是他们最容易上钩的地方。但是的确有少部分客户,成为死忠客户,不为别的,就为精准的数据质量。一般来说这样的客户是资深的分析好手,一辈子用过无数的工具,也善于通过不同的数据去把情报转化为 value,这时候,他就可以真正感受到 deep parsing 支持下的精准舆情以及其他情报为他的工作省去了多少麻烦。MD,要是客户有一半如此聪明,NLP不就大卖了吗?可惜不是。 陈: 同意施总,NLP做出解决问题的应用或产品是关键。才不管底层技术如何。底层是为了忽悠或支持之上产品的美妙。alphago,战胜了人类,是关键。至于技术是DL,还是A*,还是什么,完全看开发者怎么说。 查: 估计也是多种技术的混合 刘: 这也许是商业的本性 陈: 同理与pagerank对于Google 搜索的贡献。是很重要,但只有pr也是不行的。 我: 客户当中的确有一些具体案例(譬如某快餐店的某次产品投放,全过程大数据跟踪监测调整投放的过程带来的好处),证明用了我们的产品与此前没用产品,它省了很多钱了。尽管我们的价钱其实很贵(比 competitions 贵),但这钱他们花得心甘情愿。问题在能有这种直接感受的不是客户的多数。而且有这种感受的客户,也并不能很容易地传授经验,怎样的使用才产生价值。结果大部分客户,也还是糊里糊涂地用,懵懵懂懂感觉一些好处,但也说不出所以然来。最后的情形就是,对于财富500强,他们有特别的预算要做 market 和 consumer study,这个 study 在这个信息爆炸的年代,必须要用某一家的大数据解决方案才说得过去,于是大家都去抢这些客户。超出 500 强以后,这个市场就难了。 陈: 这么说,不是通用产品,需要定制或是咨询项目 我: 可是我觉得目前的市场成熟程度,500 强能养四家舆情方案提供商大概够呛。估计再厮杀两年,大约可以养得起两家吧,除非发展其他的产品方向,扩大市场规模。 这里面的根本一条是,你的 NLP 再强再精准,也不直接等于价值,精准只是缩短了到达价值的路程,最终还是 domain specislists 的火眼金睛才看到情报的价值。 大家都谈大数据情报怎么转化成可以测量的 ROI,你帮助人省钱了,人才愿意花钱,这个道理再简单不过。但这个转化很难,虽然不是无望。 施: 可度量的价值,这个最重要最难。 我: 如果你精准,你就给这些火眼金睛省力了。 没有精准,情报混杂在垃圾里面,容易让人失去耐心和注意力, 所以精准NLP还是用后劲的,就是落地为价值的效率因人而异,这就不好了。 产品要是能开发成一个傻子产品,只要用就能感觉到价值,那最理想了。 可惜NLP目前在情报应用方面的探索,还看不到直接转化成傻子产品的前景。 这是一路,就是纯粹靠NLP挖情报卖钱,决定于情报的市场。 基本是 B2B 的,只有 B, 才能用得起昂贵的NLP大数据产品。 B2C产品是另一路,那就是用 NLP 提升用户的粘性,最终通过广告变现。 白: 情报领域没有好,只有差与更差。 再挑剔的用户也改变不了这个事实 【相关】 【把酒话桑麻,MT 产品落地史话】 《泥沙龙笔记: 铿锵众人行,parsing 可以颠覆关键词吗?》 泥沙龙笔记:铿锵三人行 泥沙龙笔记:《Ruminations on NLP and Communism》 一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路 《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》 【立委科普:从产业角度说说NLP这个行当】 泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故 泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 【新智元笔记:中文自动分析杂谈】 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|4205 次阅读|1 个评论
【新智元笔记:语法糖霜论不值得认真对待】
热度 1 liwei999 2016-5-2 06:14
董: 让我们记住 Benjio 的这段话:“【 Yoshua 】深度学习指向与乔姆斯基完全相反。深度学习几乎完全依赖通过数据进行的学习。当然,我们设计了神经网络的构架,但在大部分时候,它都依赖于数据、大量的数据。至于乔姆斯基,则是聚焦于固有语法和对逻辑的使用,而深度学习则关注意义。我们发现,语法只是像蛋糕上的糖霜一样的表层的东西。相反,真正重要的东西是我们的意图:我们对词的选择决定了我们要表达什么意义,而与词相联系的意义是可以被学习的。这些思想都与乔姆斯基学派的观点针锋相对。“ 看看 5 年以后还有什么话? 我查了查,上面Benjio的那段话的出处: Machines that dream Understanding intelligence: An interview with Yoshua Bengio. By David BeyerApril 19, 2016 引文原文如下:YB: It suggests the complete opposite. Deep learning relies almost completely on learning through data. We, of course, design the neural net’s architecture, but for the most part, it relies on data and a lot of it. And whereas Chomsky focused on an innate grammar and the use of logic, deep learning looks to meaning. Grammar, it turns out, is the icing on the cake. Instead, what really matters is our intention: it’s mostly the choice of words that determines what we mean, and the associated meaning can be learned. These ideas run counter to the Chomskyan school. 把原文的最后一句送进流行机译系统,看看什么结果:These ideas run counter to the Chomskyan school. Google的:这些想法背道而驰乔姆斯基学校。 Baidu的:这些想法背道而驰的乔姆斯基学派。 看起来,就是缺了那些“糖霜”! 白 : 他们对数据和学习的偏爱,掩盖了一个重要的因素:想要学到的东西长什么样。这个“长什么样”决定了学习的上限,再多数据也突不破这个上限。 多层,循环,记忆,都是“长什么样”的创新。 从某种意义上,都是在向 Chomsky 靠拢 董 : 还记得 SMT 刚兴起时,有两条宣称: 1. 不需要语言学家的知识; 2. 依靠标注的数据,主要是对齐的数据。随着数据的增加,翻译的能力将提高。那时是有监督的数据,这把该是无监督的数据了。这就连语言的句法也知识 糖霜”了。这回大概是真正的智能了。难怪李彦宏宣称人工翻译很快将被机器取代了。太狂了,就不是科学了。 白 : 他们把数据的作用夸大了,把模型长什么样的作用低估了。 马 : 公司的喜欢说大话炒作,媒体人又喜欢跟着他们吵 我 : 那段话不仅仅是大话, 而是让人怀疑他知道不知道自己在说啥。 智人说梦罢, 不值得认真对待, 我不管他 or 她是谁。 另一方面,在一个非常狭窄的领域,一个非常粗线条的“语义落地”的应用,也许“ 毛毛虫”长成啥样 的制约可以让位。 这时候,大量的数据,从数据中学习一个黑箱子出来,是可能达到可用甚至超过人工水平的“落地”应用的。 只有细线条的语义落地,对语言的机制和结构有较强的依赖,这时候白老师说的再多的数据也突不破这个上限才真正是盲目迷信学习者的紧箍咒。 就举这个我最近五年一直在做的 sentiment analysis 为例。 如果领域是 movie reviews ,语义落地的目标定为褒贬分类, 可以利用 movie review 中读者打星作为客观度量, 学出一个系统来与人工标注的打星看其吻合度。 褒分类定义为四星五星,贬分类定义为一星或二星。实践证明这是一个适合机器学习的任务,如果打了星的训练数据足够多的话,其结果不亚于人工。可以做双盲试验。可是要是语义落地都是如此粗线条的“语义”目标的话,我们语言学家就不要吃饭了。 一旦语义落地的实际需要是细线条的,语言长成啥样的乔姆斯基或 quasi-Chomsky 的毛毛虫的机制开始发力:顺之者昌,逆之者 stuck。 对于 sentiment 细线条,社会媒体舆情挖掘类应用大体是 这样的语义落地需求 : ( 1 ) 分类不够,还必须把类与 topic 相关联。 movie review 讨巧的地方是, topic 是外定的,在标题或 meta data 里;而社会媒体的大多数 topic 是在文本里的; ( 2 ) 不能是 movie review 这样的狭窄领域,而是领域独立 ; ( 3 )不能是 movie review 这样的成段落的文本,而是以绝大多数短消息为主的社会媒体; ( 4 ) 不能是简单的褒贬情绪分类,必须找到情绪背后的种种理由。 多方面的来源(种种独立的benchmarking,加上我们自己的实验探索)表明,面对这样一个任务,即便单就(1)(2)(3)而言,目前的机器学习 sentiment 死定了,突破不了大约 60% 的“与 topic 关联的褒贬”精准度瓶颈(且不说(4)细线条的情绪背后的原因等的抽取挖掘)。而语言学的路子可以轻易达到 80%+ ,这就是语义落地时的差别度量,至少 20% 精准度差距。 现在的问题变成,在实际应用中,到底多大比例的语义落地需求是粗线条就可以满足,多大比例的应用必须对“语义”有比较深入的分析? 当年 Autonomy 那家公司做得蛮成功,其中主打的 text analytics 应该就是依赖粗线条的语义,分类聚类(classfication or clustering)之类,被倒霉的 HP 并购后,现在也不大听说了。否则还可以关注一下他们在粗线条落地的语用上到底能走多远,感觉上他们已经几乎做到极限了,充分采集了“ 低枝果实 ”。 MT 当然不属于粗线条的语义落地,好在有几乎无限的人工翻译积累作为带标大数据(labeled big data),所以一路高歌猛进到今天的百度 MT 、谷歌 MT 之类的普及程度。但是现在已经很清楚, it is stuck, 如果不在语言结构上下功夫的话。我是相信白老师和董老师的铁口的,本质上看,再多的数据也救不了它 除非做某种改弦易辙。 戴 : 如果结构化的方法也无法抽象出语义是如何结构化的话,最好的语法结构分析也是徒劳的。纯粹的机器学习方式至少可以绕过去这一步直接面向目标来处理。对于意图来说,并不是一定要理解意图是怎么构成的或者如何构成,直接针对意图使用的目的,比如返回合适的结果也是可以的 我 : “如果结构化的方法也无法抽象出语义是如何结构化的话”?? 太绕。说的是什么状况? 说到底不就是:通过结构还是绕过结构达到目标么? 戴 : 简单地说就是你语法结构如何走向语义这一步,现在不都卡在这里吗。而且也没有充分的理由说明必须由语法结构走向语义,这只是语言学上的思维而已 我 : 不能抽象谈语义:至少要分粗线条或细线条。现在的 argument 就是,绕过结构到达细线条的语义,基本走不通。 这个语义就是落地的语义,语用阶段的语义。 戴 : 问题是细线条的语义是什么?如果都不知道是什么,怎么说不能达到呢 我:我不是举例说明了粗细的区别了吗,还可以举更多的例。 戴 : 以什么样的形式呈现?需要结构化吗 我 : 估计是背景相差大,好像我们不在一个频道,因此对话很困难。 白 : 老乔所说的 logic form 也不是狭义的逻辑,只是填坑的结构而已。连填坑的结构都不要,还好意思说是扔下逻辑直奔语义。 董 : 如果有人写一篇论文,批评“语法 = 糖霜论“的,我不知道如果投稿给 ACL 或 COLING ,会通得过审阅吗?记得在我国的计算语言学研究中,也曾有过为多数人不太赞同的”学派“,但几乎没有一届国内的学术大会会完全枪毙那些论文的。学术研究要允许真正的百花齐放,不可以” squeeze out “( Church 语)。这就是为什么我不赞成现在 NLP 界的风气。 白 : 江湖归江湖,落地归落地 【相关】 《立委随笔:语言自动分析的两个路子》 泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器 【白硕 - 穿越乔家大院寻找“毛毛虫”】 【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 【立委科普:基于关键词的舆情分类系统面临挑战】 一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路 【立委科普:自动民调】 【立委科普:舆情挖掘的背后】 Coarse-grained vs. fine-grained sentiment extraction 【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 【新智元笔记:李白对话录 - RNN 与语言学算法】 【立委科普:语言学算法是 deep NLP 绕不过去的坎儿】 【泥沙龙笔记:NLP hard 的歧义突破】 【立委科普:结构歧义的休眠唤醒演义】 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 【Church - 钟摆摆得太远(5):现状与结论】 没有语言学的 CL 走不远 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|4882 次阅读|1 个评论
《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》
热度 1 liwei999 2016-2-2 08:11
湖: 让机器抓狂: 1.“他看到两个人”,到底是张三和李四还是李四和王五? 2.“金星”、“晨星”、“启明星”、“长庚星”竟是同指 3.“植物是靠它的根从土壤中吸收水分”、“他说的话里有很大的水分”,同是水分,机器怎么分呢? 这些最基础的命名就具有不确定性 从这可以推测出语言靠经验主义,没有经验,难以判断 白: 对影还可以成三人呢。缺省排除自己,例外包含自己同指还有个在不在知识库里的问题,不在的话,可以默认不同指。两个水分,在词典里可以处理成两个义项……当然急智的比喻总该给留下空间。 湖: 白老师说的知识库就是经验了,词典也是。 我: 机器抓狂,是指在语义“落地 的时候抓狂。在此前有什么抓狂的?多数情况,语义和知识的介入都是有限的,对于结构的 parsing 这些 WSD 的问题绝大多数都是可以绕过去的,没啥抓狂的。( 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】 )一旦到了落地的时候,那就是应用现场了。对于应用现场,很难说抓狂不抓狂,因为每个现场的要求是不同的,有的现场根本就不需要每个歧义都区分。当年批判 WSD 是 NLP 的基础的时候,就是秉持这个道理的。WSD 最好尽可能推后到语用层面做,此前 keep ambiguity untouched(也就是休眠多义)最佳。 湖: 当我们想让机器像人一样时,就不能休眠了。对某些工程应用,可以粗粒度处理。 我: 机器不会像人一样。“机器人”概念上是个骗人的东西。就如 AI 是 misnomer 一样。所谓机器人,其意义和价值都是在应用现场和domain,通用的机器人是不存在的。 湖: 同意您的观点,很多要留给语境,留给世界自身。 我: 很多通用的问题到了现场就不是挑战了:有的问题自动消弭,有的问题大大减弱,因为有了domain、有了局限的 world。很多时候 wsd 从人的理解看可以无比复杂,到底是张三还是李四啊?但是对于机器 就是一个 classification,胡乱猜的概率是 50%,如果是两个词义的话。然后到了现场,不管加上怎样的约束,包括频度的统计,一下子精度就改进了。总之是,能留到最后的就留到最后,能语用做的,不要语法去做。 湖: 两个人,怎么与张三李四关联,统计纯粹猜了。就如同在案发现场,证人说看见了两人,这两是谁,就连福尔摩斯也不一定能断出。语言天生就给了这种不确定性。 白: 所有的自然语言,都是“主述”。无定。就内部申请俩ID就得了。 我: 既然福尔摩斯都不知道,这个问题就不是问题了,还提它做甚。所谓语用现场的语义落地,指的是可以落地和应该落地的东西。本来就不能落地的或不必落地的,没有讨论的意义。 湖: 我观点是语言天生不确定,不确定变确定是世界给予的,不是语言符号系统自身。 白: 不确定,也是相对的。一只老虎......这只老虎 ...... 这只,就比一只,少了些不确定性。或者说,除了坐标原点有不确定性,其他还是确定的。星期二,也是一样。给定了周日,就可以通过偏移量算出来。 我: 举个例说明语用现场的语义落地:当 Siri 针对某个应用开发的时候,那就是。如果针对的是 Clock 这个 app,那就把世界缩小成询问时间的世界。 一切 input 都要落地到 Clock 这个 app 中可以执行的某个操作上,如果落地时候不能越过某个 thresholds 就认为越界了。 湖: 领域严格限定,自然好处理,就类同于编程语言了。 我: 说的就是这个。通用的机器人不存在。不要做无用功。通用的都是闹着玩的(如微软小冰,貌似通用,就是一个为了娱乐,娱乐也可看作广义的 domain),有用的都是 domain 的。 【相关】 【立委科普:歧义parsing的休眠唤醒机制再探】 《泥沙龙笔记:parsing 的休眠反悔机制》 【 NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈 】 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|4293 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-7 02:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部