科学网

 找回密码
  注册

tag 标签: 主谓宾

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

《泥沙龙笔记:再聊关键词和SVO》
热度 1 liwei999 2015-10-22 02:16
白: (关于SVO取代关键词)要我是广告商,这种变化不值得去搞。要搞就搞大的。 增加的定价复杂性和收益不一定匹配。 如果这种变化导致广告商不给钱了,搜索公司不会干。 不是说技术进步点在句法,广告标的的表现也一定在句法。 配套一系列东西,计量等等,都要动。包括博弈,在博弈中定价, 本来是清晰的,regex一来,糊涂了,SVO也一样问题。 我: 不过,从广告商的终极目标来看,这些问题都是技术层面的问题, 总是可以想到办法来规约双方的,前提是,加入了 regex 或更进一步 加入了 SVO,广告的精准投放可以获得大幅度提升。现在我想要鼓吹的就是,后者的条件已经成熟,越来越成熟, 精准投放不是梦。关键词对于传统广告,实现了针对客户的初级阶段的精准投放, 引起了互联网产业的革命。现在谈的是高级阶段的精准投放,也有一场革命。 白: 不见得,标的的属性和商业模式的匹配与否, 直接决定标的能否被采纳。胆子忒小了,步子也忒小了。太老实了呗。技术进步到句法, 标的就在句法里找。这就叫老实。 我: 这里有一个 backward compatibility 类似的考量。基本上说,新的模式应该是这样的 , 这是一个 backoff 模型: SVO backoff 到 regex; regex backoff 到 keywords 。 对于拥抱创新的广告商,让他尝到 SVO 高级阶段精准投放的甜头。等到这个甜头被广泛谈论以后, 整个产业就会整体上从关键词模式上升到SVO模式。 即便整体模式转变了,也不妨碍人们继续使用关键词, 但那个时候的关键词使用是在具体的场景下进行的。这就好比我们说话通常都是合法的相对完整的句子, 因为这是我们的语言能力决定的,但是这不妨碍我们在特定情形下, 躶体出境,说不太合法的话,譬如在社交媒体,譬如在打电报, 譬如尼克和冰在一起的时候。这些时候,SVO 不是必须的。 其实 SVO 根本不像人们想象的那样高深,它是相当 intuitive 的,不过是 who did what 这样的事件描述。如果说教育全民学 SVO 可能是一个艰巨的任务,对于广告商、对于搜索供应商、对于 Power users,这个 SVO 一点也不难。它比学会用 regex 容易,比 SQL 更是简单多了。 白: 兼容有另一种处理办法。首先要确定,广告商和广告所宣传的产品供应商不是重合的, 而且跨度可以很大,对不对?加上SVO, 标的数量即使没有关键词的立方级,至少也有平方级,对不对? 我的不同意见恰恰就在这里,广告代理越综合, 标的选择越不宜细粒度,细粒度的事儿,交给技术上去做。 精准投放和标的的粒度是两回事,可以解耦。 当标的规模出现量级的变化时,这种脱钩尤为显得重要。 我说的是,商业标的的粒度变粗、同时技术标的的粒度变细, 才对广告商有吸引力,否则他们会宁要关键词模式。 比如理发店,最终是想向客户推销某种储值卡, 但是客户可能更关注哪个发型师给你服务。因此, 推销卡的任务摊派给发型师好了,这就是粗粒度。 发型师再来细粒度因人而异。见什么人说什么话,理发师全管了, 但是包销多少卡,不需要用户级别的个性化。 关键词模式有一点是错的, 就是用户的粘性和他们使用的关键词有关。 regex和SOV要想继续这个错误,肯定走不远。 要想纠正这个错误,可参考理发店模式。有粘性才有广告, 精准投放是技术手段但不是产生粘性的必要条件。更精准, 不一定更有粘性。不管是谁,粒度一定很粗。性价比不会很高。 我: 先搞清白老师的问题。明确一下, 我和白老师现在谈的是关键词作为广告标的和广告入口这个模式的利弊, 以及可能不可能革命这个模式。 白老师提出了很有意思的疑问:细颗粒度的 SVO 不适合做广告的标的: 还是关键词合适。原因之一前面说过,就是关键词直观,少扯皮。 这一点我的回应是,确实有这个问题,但这是技术层面的, 终究可以解决扯皮和定量的问题,如果让“标的”与“入口”分离,并且找到它们合适接口的话。 对于广告商,终极目的不会变,他就是要精准投放,看到广告的 1000 个潜在客户,是100个真地感兴趣开始点击了,还是 200 个, 转换率就会不同, 这都是精准投放的硬指标,都是可以定量测量的。 咱们后退一步,我的问题是:广告商想表达的意思,关键词能不能表达?如果有难以表达的情形, 那就是现有关键词模式的局限。 而突破这种局限的唯一办法是给关键词增加新的维度,譬如 regex 或者 SVO 等关系。 还是举个容易说明的例子吧,如果一家 VC 想给自己做广告,其中一个场景就是,如果客户搜寻公司购并, 或者客户点击的网页谈的是公司购并, 那么我觉得那才是我应该显示广告的好地方。 这样一个广告的精准投放需求,关键词怎么表达? 现在的办法就是出卖两个关键词,或者一个合成词:公司购并。 这个效果差太远了,因为谈论公司购并或者搜寻公司购并的, 里面恰好提到这两个词的,是少数。 多数的情形都是,张三购并了李四、苹果要吃掉特斯拉之类,这个没有 SVO 怎么玩得转? 白: 咱们设想啊,假如一个发型师是冰冰,另一个是圆圆, 还有一个是娜娜,大家都有类似的精准程度……这时候粘性靠啥? 1000个变成1000000个, 广告商的工作量就大1000倍。 我: 性价比不高,确实可能是一个问题。这个层面的问题也是现存的关键词模式的问题。 白: 对,但是你的标的规模平方级放大的时候,问题也随之放大。 所以性价比不得不考虑。 具体地说, 是专业广告代理向智能搜索平台定制自己认可的人机交互虚拟代言人 。 数据是同一批数据,SVO是同一批SVO, 但是虚拟代言人决定粘性竞争力。 丁: 这里限定了广告投放的两个具体场景: 搜索公司的针对用户的搜索行为,出发点是“search string, 用户寻求内容,寻求解决方案 ,内容平台网站针对用户网页浏览行为,出发点是”page/ site content, 用户浏览特定领域内容“ , 理发师更类似于后一种(广告商直接投放垂直领域网站) 洪: @wei deep parsing用于广告投放好倒是好, 但可能对用户隐私是一种深度侵犯。 我: 不会吧,任何svo 都是抓取某类事件,而不是针对特定用户。如果特定用户的行为描述match了投放的 svo,那也是公共信息,抓到的不是某一位,而是一大批符合条件的人。换个角度 同样的信息关键词也可能抓到,只是抓得不够准而已。 举个例子,譬如, 如果某个广告想投放给并购了其他公司的那些大公司,那么这个 SVO 广告投放大概就是: V:购并|购买|买|吃 O: 注意谓语V的坑里面是枚举的关键词(SVO框架里称为驱动词),OR 的关系。 而宾语的坑则不同,它里面不是关键词,而是词的 feature or tag,这就克服了关键词没有概括性的缺点。 这里彰显了关键词的两大局限:(1)不能抽象概括, 只能用直接量;(2)不能规定语法关系。 这样的VO就抓住了一批做S的公司,如:微软,IBM,Facebook,。 。。, 这里面不涉及啥隐私,因为这些并购消息都是公开发布的。 洪: 在mail或用户文档中按keyword投广告, 只是scan文本,keyword spotting,除了一些敏感领域,隐私不是问题。 但parsing involved,理解分析让人担心隐私泄露。 regex matching,谷歌/百度的sponsed search应该已经在用。 我: boolean query 之所以在某些服务商和一些power users 可以无限复杂化,就是为了弥补简单关键词的这两个不足而生的, 可这不是 “人活儿”,而且毕竟是关键词框架内利用与或非而来, 因此捉襟见肘,比起SVO表达力还是远远不够,无法应对远距离的挑战。是没办法的办法。 因此,backoff 实际上是这样: simple query -- boolean query -- regex query -- SVO SVO,特别是VO,具有普适性,几乎可以涵盖一切事件,因为事件最自然的语言表达就是主谓宾,VO往往是定义一个事件的必 要条件,而主语在语言学上属于 external arg,是可以省略或隐藏的(譬如在被动语态或不定式短语中)。 动宾定义事件的例子很多,再给一些例示如下: 1. 撤销 ... 职务 (裁员事件 ) 2. 丢 ... 工作 (失业事件) 3 修理 ... (电器修理事件) 4. 发布 ... (产品发布事件 ) 5. 伤 ... (譬如车祸、事故等) 等等。 【相关】 泥沙龙小品:关键词必须革命,没商量的 2015-10-20 《立委科普:关键词革新》 2015-10-17 《立委科普:关键词外传》 2015-10-12 《泥沙龙笔记:铿锵众人行,parsing 可以颠覆关键词吗?》 2015-10-10 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|3782 次阅读|0 个评论
英语主谓宾地位全面高于汉语、主语单数谓语加后缀—英语研究心得
热度 1 hillside 2014-2-10 00:24
——英语时常“喧宾夺主”,但很少“喧副夺主” ——英语主谓宾关键词之间的距离往往比汉语近 在我的心目中,语言的所谓“约定俗成”观念非常淡薄,我总觉得“存在的就是合‘理’”的,只不过,合理的链条时常丢失。 尽管英语水平有限,但批判精神、质疑精神却并不缺乏。时不时地敲打一番英语或曰反刍现有的成见。 “ 英语主、谓、宾地位全面高于汉语,坚持次序不动摇 ”是我得出的新认识,不知是否他人有类似的见解。简单说来,就是英语主、谓、宾三大员(指关键词,不包括附加成份)的地位总是稳固的,无论在单用还是并用时,位置都是靠前的,其他修饰性成分只能屈居其后或不得不叨陪后座。名词词组、动词词组也有类似的情形。举几个简单例子(请自行译成英文):他努力学习,向雷锋同志学习、墙上的画、迎面起来的人是我的朋友。 另外,对“主语第3人称时,谓语动词加后缀”我也有新的认识。更合适、更严谨的说法应当是“ 主语单数时谓语动词加后缀,主语复数时谓语动词不变 ”。如此一变,此项语法规则就既简单又全面。原来例外的不再是大量使用的“主语第3人称”,反而是是使用情形非常有限的“主语第1人称与第2人称”。 说英语时常“喧宾夺主”,是指英语中的被动句较多,这在一定程度了体现了对于“宾”语的尊重、增添了“客”观性。此文“喧副夺主”中的“主”是广义的“主”,指英语的主谓宾三者,“副”指“定状补”。如此一来,英语中常见的“主语后置、定语后置、状语后置”并不是一般语法书上不知所云、云里雾里的所谓句子内部的“平衡”,而是给主谓宾关键词让路、后排就座。语法书上的这种“平衡”往往与“物理中的平衡”挨不上边,属于莫名其妙的“心理平衡”。 总体而言,以上几点理解,更能体现英语的程式性、规范性、客观性。 我并不寻求大家的共识,只是供有兴趣的人士们开阔眼界、增广见闻。 附:一篇相关博文(注:下文着眼于未来,我上面的博文针对的是英语现实)。说明:我是凭空想到上述文字 ,后来顺势上网检索,发现下篇的“地位”表达与我的博文相关。因下文网站不支持全文转载,故仅摘录部分文字。 http://www.chinaqw.com/news/2006/0509/68/27378.shtml 英语的强势地位与汉语文艺复兴 2006年05月09日 10:05    文/王晓华   一   2005年我在英国进行学术访问时,曾试图与当地的人文学者进行平等对话,但语言上的弱势地位使我最终只能扮演聆听者的角色。坦率地讲,我面对的并非英国学术界的顶尖人物,其思想在我看来也不算深奥,他们在交流中的优越位置完全来自于他们的母语。在他们世代传承的语言体系中,汉语学者几乎无法达到与他们等高的水平。倘若对话的语言改为汉语,那么,这种位置关系就可能会颠倒过来。然而,我的假设在大多数国际性的学术活动中难以成为现实,因为英语是当今世界上的主流语言。   即使在中国本土,英语的强势地位也毫无遮饰地展现着。全民学英语的激情早已显露了英语在国人心目中的地位。汉语学人即使对此局面心存不甘,但最终也不得不承认英语的强势地位。许多在中国召开的国际学术会议开始以英语为会议语言,便是这种态势的明证。承认英语的强势地位等于承认语言构成了一个阶梯体系,其潜台词无疑是其它语言的现实功效低于英语,英语学得好的人高于那些英语差的个体。在我们极力想进入英语体系之中时,我们也在服从英语内部的等级制。在以英语为母语的人中,人们也处于不同的位置。如果说英语大师在其中位于最高处的话,那么,中低英语水平的人则分别属于中间阶层和底层。由此形成了下面的阶梯:   英语大师   ∣   中等水平的英语人   ∣   低水平的英语言说者   以英语为第二语言的人大多数无疑处于第三层面,能达到第二层面的人已经极少,攀登到第一层面者则十分罕见。由于汉语与英语的巨大差异,汉语学人更难以在英语文化阶梯中处于较高位置。所以,承认英语的强势地位又等于承认我们在世界学术至多只能处于第二等级。进而言之,我们的地位将不但低于以英语为第一语言的学者,而且难以与那些同时使用本土语言和英语的双语学者相抗衡(如当代印度学者在国际学术界的影响就远远大于为中国学者)。我们要在英语文化阶梯中处于较高位置,最有效的方法无疑是放弃汉语作为国语的地位,以英语为第一语言,但这样做必然丧失本土文化之根,很难被大多数国人所认同。要想既保护本土文化的血脉,又在英语文化阶梯中占据较高位置,只能建构双语文化,同时以汉语和英语为日常语言乃至官方语言。为此,我们必须重新筹划中国文化,从幼儿园阶段就开始实行严格的双语教育,同时办更多的英文报纸、电台、电视台、网络。然而,汉语本身不但很难学,而且与英语属于不同的语言谱系,因此,实行双语教学必然使学习语言成为一种重负,让大多数国人在双语实践中达到西方人的英语水平更属于奢望。   既然大多数中国人在英语文化中获得较高位置的可能性微乎其微,那么,振兴汉语文化就是我们所能做的最好选择。以英语为母语的人进入汉语文化体系后,便立刻成为学生,不能不持谦逊的学习态度。由此可以预见,在汉语文化能在与英语文化的竞争中处于有利地位后,所谓英语强权自然就会被消解。但是,要振兴汉语文化,单单转变关注的焦点和喊喊口号是不够的,关键的是完成汉语文化必须完成的转型。   二   首先,汉语要经历从前现代到现代的转型,破除积淀在汉语字、词、句子、文本中的等级观念、中心主义、家族本位思想,以自由、民主、平等、博爱、实证等理念扬弃之。现代英语在历经多次转型和变革之后,已经成为一种尊重个体自由的语言体系。各种带有歧视意味的语言被清除和禁止。 ……
个人分类: 语言文化杂谈|2730 次阅读|2 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 08:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部