科学网

 找回密码
  注册

tag 标签: cascade

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

《泥沙龙笔记:谈parsing的深度与多层》
liwei999 2016-6-12 19:05
我: 说到层次也有意思。 自从深度神经大热以后,我也沾光了,甚至连术语词汇,与有荣焉。 第一是深度(deep),第二就是这个多层(multi-level),其实说的是一回事。 我践行和呼吁 deep parsing 快 20 年了。 这 20 年,主流学习一直在浅层挣扎,把浅层 ngram 和一包关键词(bag of words)的密度做到了极致, 没人理睬深度 NLP 和 parsing 大概两三年前吧,忽然发现我谈深度parsing有市场,有听众了,deep 成了 buzz word, 大家唯恐不深。 事实是,此深非彼深 刘: @wei ,在上海会有大量女听众 Nick: 建议你不要用deep parsing,用big parsing deep有点黄 我: 直到今天,深度神经的绝大多数还是没有用到结构。 开始深度结构的是 SyntaxNet 但是那个深度神经项目不是NLP应用,而是 pure NLP 离开应用还八丈远呢,而且局限于新闻领域,根本就不讲 efficiency,实际上就是一个 research 我说的深度 parsing 与 NLP 应用是天衣无缝衔接的,前者有领域独立性,后者有domain portability,与 SyntaxNet 天壤之别 不过还是得益于深度学习(DL)的热潮,我现在可以理直气壮地大谈深度 NLP、deep parsing, 以前谈 deep 会被人暗笑或忽略的 本群@Jin 老友是第一个夸赞我的 deep 的, 人家也是老革命了 知道深浅 QUOTE: I worked directly with Dr. Li when providing consultation services to NetBase on statistical language processing and machine learning. By then we had been keeping in professional touches for over a decade, centered around our common interests in computational linguistics and natural language processing, especially in Chinese. Even today we had quite intensified technical exchanges on Chinese NLP. To me, Dr. Li is essentially the only one who actualy builds true industrial NLP systems with deep parsing. While the whole world is praised with heavy statistics on shallow linguistics, Dr. Li proved with excellent system performances such a simple truth: deep parsing is useful and doable in large scale real world applications. It's really fun to work with, or simply debate with, Dr. Li, given his broad experiences, deep knowledge, insightful vision, and most importantly, his love of NLP. January 3, 2012, Jin was a consultant or contractor to Wei at NetBase Solutions, Inc. 2012 年的 endorsement 啊,多么宝贵。 Nick: 以为这是研究生推荐信 我: 你外行,看不懂。 我与Jin心有灵犀。 他当年把 Chinese NLP 半个世纪的核心工作切词,做到极致,是理论和实践的集大成者和终结者。 我一直不隐瞒我的观点:在他以后,汉语切词已经做无可做。Jin 以后,无切词。有的只是工程细节。 汉语 NLP 必须翻过这一页了。( 应该立法禁止切词研究 ) Nick: deep throat本是一部毛片,但水门事件里那个隐藏极深的人代号也是deep throat,才把这个词洗白了。但deep还是不好。 我: 现在可不同了,一个 deep 一个 big 都是不得了的 buzz words:深度神经,深度文本(脸书所谓 deep text),大数据,大知识,不一而足。 也许可以预见 不就将会流行 thick 和 hard 春江水暖鸭先知,hard NLP 我已经开始用到了: 【 泥沙龙笔记:NLP hard 的歧义突破 】 关于 thick,就是我下面要说的 多层。层多了,自然就厚了。 本来,传统的规则学派都是乔姆斯基 CFG 那套, 每个学 CL 的人都玩过 chart parsing 的算法, 那玩意儿是一锅炒,根本没有厚度,就是薄薄一层,路径组合爆炸,根本不可能有线性算法,自然也做不了深入的语言分析。 本群雷司令为了给 CFG 找线性或接近线性的算法,博士阶段苦苦钻研了好几年, 到头来不得不承认,没辙,只要有所谓 center recursion,线性就永无出头之日。 这意味着,那一套规则系统基本上就是局限于实验室,是象牙塔里面的玩具。 可我除了博士阶段的玩具课题不得不跟随导师做 CFG 机制上的 HPSG 以外,一辈子做的都是有限状态。 打从社科院起,做了30年的有限状态 成精了。 有限状态自动机(FSA),说白了就是扩展了的 regex, 一般人都笑话这个机制的简陋 乔姆斯基对它也有经典批判 哪里想到有限状态颜如玉,FSA++ 里面有黄金 就是白老师说的 穿越乔家大院的“毛毛虫” 以有限状态为基础,增加层次,做适当延伸,这就是白老师说的毛毛虫 我叫做 FSA++ FSA++ 是梦寐以求的东西啊,上下而求索,还要加上运气,才可得。 现如今,深度神经为了比粗度,宣传上可了不得。 昨天说谷歌做了 32 层,叫什么来着,卷积。今天的新闻就说,Facebook 做到 36 层卷积了。 我就回想我做的多层,如今也有宣传效应了。 社科院那阵,在导师手下,那个 formalism 比较简陋,导师也保守一些,我们当时做了四五层。 到了我来美投身互联网泡沫革命的时候,在水牛城,我最多做到 100 层的 parsing, 我们不叫卷积,我们这边叫 cascade 就是一层一层自底而上、由浅入深 叠加去 parsing。 你想想,我的分析深度比传统的乔姆斯基经典 CFG parsing 要深入多少。 自然语言复杂啊,多层了就化繁为简,模块化,各个击破了 这其实是所有大型软件工程的常识。 但是大家也不是傻子,为什么这么多年做 多层 parsing 的人不多呢? 做不出来啊,千丝万缕,这一刀一刀不好切。 没有这个语言学的素养 悟性 而更重要的是无数的摸滚爬拿、皮青脸肿的炼狱一样的经历 你想多层 根本无从下手。 庖丁解牛 游刃有余 那是多少年练出来的把式 所以说 难者不会 会者不难。 如何处理模块之间的接口 以及相互依赖(interdependency)的关系? 多数人根本没门儿,不是不想深入,是缺少伟哥。 好了 到硅谷这边重起炉灶 我仔细想了这个多层的设计问题 结论是 100 层没必要 太过叠床架屋,过犹不及,并不是越深越好,开发维护都不合算。 如今稳定在 30-40 层之间,已经足以对付人类语言的绝大多数了。 姻缘巧合,如今深度神经也是 30 多层训练。 不过此层非彼层,前面说过的。 刘: @wei ,太强了 学习中 我: 此层非彼层,深度神经对于 语言处理的应用,不管训练多少层,还是在浅层 根本就没有结构的支持,怎么能成事儿呢? 本质上还是传统机器学习的延伸 语言学上没有长进 这就不怪在 speech 和 image 上高歌猛进的深度神经会遭遇 text NLP 的滑铁卢。 这就是我为什么说,今后三五年,深度神经 在 text NLP 应用上如果想要突破的话 很可能是要借助 deep parsing 的伟哥式 support, 无论是我提供这种 support 还是 SyntaxNet 提供 总之是要引进结构。 自然语言就两条腿,一条是 node (词汇),一条是 arc (结构)。 任何一条腿都可以推向极致,但是总也不如两条腿走路。 深度神经不用我操心了,他们碰壁之后一定会长教训,一定会求助于结构。 我这边,应用层面的开发一直就是无缝连接在 deep parsing 之上,历来如此 刘: 建议李兄尽快回国开干 我: 而且语用层面的开发由于独立于领域的 deep parsing 的神力支持,只需要薄薄的一层 领域移植性特别强 吹牛完了。该干实事了。 Jing: @wei 有个创业公司metamind,做的是这二者的结合,斯坦福一个AP开的,不过没多久就被salesforce买了 我: 10多年前我们也尝试过学习引进结构,不过没有机会深入研究,初步试了一下 结论是:有希望,有难度。promising 但不是一合并就能成事儿 Jing: 这个公司就基于funder的论文搞的,融了不少钱,应该也卖得不错。@wei 可以参考一下嘛 方法非常简单,尤其是parsing部分,您肯定能做得更好,包装得更牛 我: 如果机缘中遇到投缘的机器学习牛人,很愿意合力去做,取长补短。否则就一条路走到黑,反正到目前为止 text DL 我看不出有赶上我的可能。 无论是 parsing 本身的质量,还是 NLP 深度应用。 浅层 NLP 应用没办法,人家已经占领了。 Nick: 嗨,伟哥现在的问题是又想套狼又不舍娃。其实有啥,我都再次下海了。再想想毛老到美国留学都44还没高中文凭。嗨,等我回去喝酒啊。 Jing: 就是,舍得一身剐 我: Nick 站着说话不腰疼 Nick: 我腰不疼腰子疼 我: 你老弟狼也套了 牌也立了 无后顾之忧 自然乐不思蜀。 腰子疼还不赶紧回到米国的一片蓝天净土修养 岁数大了 不要到处去做风水大神了 坑害上进青年 正经做 AI 评书 Jing: 搞个象metamind这样的一点风险也没有 我觉得教授能搞的您都能搞 马: 冰冰上进吗? 我: 这个要问尼克了 Nick: 非常上进 我: 我早发现 IT 成功人士都是怎么个活法了 羡慕嫉妒恨得咬牙切齿啊。 譬如尼克吧 一边 AI 评书,一边风水女青年,一边还下海捞着外快,享受着光环,这是做人的极致。 譬如吴军吧,满世界旅游和演说,粉丝无数 写书 写一本畅销一本 演说吧 万人空巷 马: 喜欢尼克的AI评书 我: 马老师说的极是,尼克AI评书特别好 我20年不读书了,不读纸质的书,可尼克送了我一本以后,我就破戒了 洪: 自己不读书,只让机器做parsing,这也是一绝 我: 哈 这世界奇事儿多着呢 我不读,爱写,只出不进。 Nick: @wei 别吓扯,人家失着恋呐 我: 这种生活状态 他失恋才好呢 后面还不是无数 洪: @wei 你这是诅咒自己的未来啊。可不能对未来的自己羡慕嫉妒恨啊 马: “人家”一般指说话人自己? Nick: 我失着恋呐 马: 果然是 Nick: 马老师的small parser better than伟哥的big parser Jing: 就做nlp的伟哥不理解 呵呵 我: 吴军 尼克 洪爷 都是学富五车的侃爷 有这个本钱 我学是差了点,但勤以补拙 论侃不比各位差 到我后顾无忧那天,我就满世界侃 直侃得昏天黑地 Nick: 千万别把吴军和我洪爷搁一块 Jing: 故事讲得好需要天赋 刘: 尼克的八卦能力见识过,强 我: 吴军真心会制造buzz 当年李开复也好这个 大病一场后终于收手了 尼克还在兴头上呢 电视节目还在做吗? 洪爷还邀请我跟你们搞个铿锵三人行啥的 Nick: 千万别把李开复和我搁一块啊。 我: 【 社媒挖掘:社会媒体眼中的李开复老师 】 开复前辈社会媒体形象很不好 是不是过分张扬或者树敌太多造成的? 前者是实,后者觉得有点冤枉他,毕竟书生 我: QUOTE 特别是最后这张好恶(likes/dislikes)理由对比图,主调是贬,红呼呼一片谴责之声,是不是有些令人吃惊?开复老师到底怎么得罪网民了,还是中国文化的酱缸性质容不下张扬一点的英雄? 大数据不会说假话。 Jing: 再张扬比得过王思聪? 【相关】 【泥沙龙笔记:关于语法工程派与统计学习派的总结】 【新智元笔记:工程语法与深度神经】 【李白对话录:你波你的波,我粒我的粒】 【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】 【新智元笔记:李白对话录 - RNN 与语言学算法】 【科普小品:NLP 的锤子和斧头】 【新智元笔记:两条路线上的NLP数据制导】 《立委随笔:语言自动分析的两个路子》 《立委随笔:机器学习和自然语言处理》 【 社媒挖掘:社会媒体眼中的李开复老师 】 【 泥沙龙笔记:NLP hard 的歧义突破 】 【白硕 - 穿越乔家大院寻找“毛毛虫”】 再谈应该立法禁止切词研究 应该立法禁止切词研究:=) 中文处理的迷思之一:切词特有论 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|3659 次阅读|0 个评论
东游西逛之流瀑秋色
热度 7 zhangt10 2011-10-26 01:41
东游西逛之流瀑秋色
美国二号公路从波音公司所在的Everrett开始,往西走大概50英里就是Cascades Range(流瀑山脉?)的一个1238米垭口Stevens Pass,翻过山就是一个德国风情的旅游小镇Leavensworth. 周末正是秋意最浓的时候,海边还是多云的天气,到了山里就细雨蒙蒙,高处的山梁上已经有薄雪了。 这美西的秋天似乎金黄色更多些。 这片居民区的秋色不错 US HWY 2, Cascade Loop 路边的激流 山上的流瀑 半山云起 上游小镇的河滩
个人分类: 东游西逛|3552 次阅读|15 个评论
当trophic cascade遇到spatial subsidy
热度 2 kestrelwing 2009-5-18 14:17
trophic cascade,中文大概翻译成营养级联,是一种间接的作用(indirect effect),即捕食者作用于猎物,最终反映在猎物的猎物身上,比如东北虎捕食野猪,降低了野猪种群数量,野猪数量的减少进而减少了野猪对某些植物的取食,从而东北虎对植物有一个间接的效应。最近有大量文献比较陆地和水体生态系统间营养级联效应的强弱,总体趋势是营养级联在水生生态系统中比较明显,而陆地生态系统中相对要弱。很多假说都试图解释这一现象,比如1)体型假说(body size hypothesis),即消费者和他们的资源之间相对体型大小决定了营养级联效应的强弱;2)初级消费者效率假说(primary consumer efficiency hypothesis),即初级消费者代谢效率决定营养级联效应强弱;3)初级生产力假说(primary productivity hypothesis),即生态系统初级生产力决定的;4)食物质量假说(food quality hypothesis),初级消费者利用的资源的质量决定;5)生产者多样性假说(producer diversity hypothesis)生产者多样性决定的;6)取食-捕食风险权衡假说,即捕食者的关键功能特征决定。这些假说都是通过meta-analysi或者在综述的基础上提出的,应该说基本上没有实验性的或者经验性的验证,就算有也很少了。 trophic cascade在wiki百科上的解释: http://en.wikipedia.org/wiki/Trophic_cascade 验证营养级联存在的实验有挺多种,常用的两种,一种是去除捕食者(predator),看去除的与没有去除的情况下,较低营养级的反应,还是上面虎猪植物的例子,如果老虎对植物的营养级联效应存在,那么移除老虎以后,野猪应该增加,植物也会被野猪吃掉很多,而移除和没有移除老虎情况下,植物的生物量或者其他参数变动的百分比就用来表示这一营养级联关系的强弱;另一种方法就是增加营养物质促进生产者的生长,比如增加N,促使植物生长,同时辅以捕食者移除,这种情况下,移除和不移除的处理之间,植物的表现的差异会得到放大,从而表现出明显营养级联效应,营养级联的强度也得以增加。这个应该比较好理解,因为植物生长好,生物量比较大,因此一旦有被取食(捕食者移除),差异就会比较明显了。 再来看spatial subsidies或者allochthonous input,简单的说就是一个地方的物质或者能量转移到另一个地方,成为另一个地方的辅助能,权且称为外来物质输入吧。转移的物质可以是有机物、营养元素,也可以是移动的生物体,比如河流里的水生昆虫羽化成成虫以后,进入陆地上,就成为了陆地生态系统的subsidies。这种subsidies可以通过食物网产生,也可以因为重力作用(无处不在)而产生,正因为这种无处不在的重力作用,从海拔高的地方到海拔低的地方外来物质输入速率或者强度逐渐增强(图1)。也就是说整体上水体得到的外来物质的输入要高于陆地。 图1 外来物质输入随着海拔的连续变化(改自Leroux and Loreau 2008) 再回到前面营养级联上,前面也说过通过施肥可以加强营养级联效应强度,这种水体高于陆地的外来物质的输入对营养级联的影响就体现出来了,因此得到了解释水体营养级强度高于陆地的第七个假说:辅助能假说(subsidy hypothesis),这一假说得到了理论的验证,但是目前为止还没有实验或者经验验证,这和上面6个假说类似,都是通过meta分析、综述或者理论验证以后提出的。辅助能假说的突破点在于,前六个假说都是基于单一生境里的营养级联效应,而辅助能假说把广泛存在于各生态系统的外来物质输入纳入到营养级联效应影响参数中。 实际上之前,外来物质输入或者跨生境或者跨生态系统的能量物质转移得到相当多的关注,大量的实验、观测研究表明空间物质转移对生态系统特征具有显著的影响。最经典的工作是美国的Polis和日本的Nakano做出来的,Polis主要做海洋和陆地之间的食物网关系,而Nakano主要做河流和河岸之间。 还是回到我关注的湿地吧。从图1可以看出,湿地也处在比较高的外来物质输入的位置,但是湿地上的营养级联效应并没有单独列出,ms大部分比较陆地和海洋的营养级联强度的文章都把湿地归在陆地生态系统里了,个人感觉不爽,嘿嘿。图1的外来物质输入连续变化都是基于重力作用,而实际上湿地,尤其是潮滩湿地,由于受到潮汐作用,其外来物质输入除了因为重力由上而下的部分,还包括从海洋或者河流中通过潮汐作用带来的部分,因此湿地跨在陆地和水体之间应该是同时受到水体和陆地外来物质输入影响的,这个意义上来看,湿地的外来物质输入量可能要高于至少不会低于水体。然而很遗憾,现有的大量研究都关注的是湿地初级生产如何进入临近水体,如何影响临近水体的生态系统,比较少有研究关注临近水体或者临近陆地生态系统物质进入湿地,以及是否和如何影响湿地生态系统,尤其是通过食物网关系的。当然主要是因为追踪和量化外来物质的输入存在困难。 补充一点,上述的trophic cascade偏重于top-down trophic cascade,即高营养级对低营养级的影响,实际上还存在大量的bottom-up trophic cascade,因为top-down和bottom-up的强度只是相对的,某个生态系统某个时间可能是其中一个表现比较强劲。 另补充一点,pulsed resource也广泛存在于各生态系统中,而spatial subsidy实际也可以看成是pulsed resource,湿地生态系统中比较强调pulse的影响,也即系统不是稳定的,从这个意义上来看,把spatial subsidy和湿地生态系统联系起来完全是可行。而且我想以后的湿地生态学研究应该多在湿地生物之间营养关系上多下功夫,以丰富陆地和水体生态系统营养级联研究的范例,或者看看是否水体和陆地生态系统里结合了spatial subsidy的规律是否在湿地生态系统中也适用。 wikipediatric上关于top-down和bottom-up: http://en.wikipedia.org/wiki/Top-down 部分参考文献: Leroux, S. J. and Loreau, M. 2008. subsidy hypothesis and strength of trophic cascades across ecosystems. Ecology Letters 11: 1147-1156. http://doi.wiley.com/10.1111/j.1461-0248.2008.01235.x Shurin, J. B. and Seabloom, E. W. 2005. the strength of trophic cascades across ecosystems: predictions from allometry and energetics. J. Anim. Ecol. 74: 1029-1038. http://doi.wiley.com/10.1111/j.1365-2656.2005.00999.x Shurin, J. B., Gruner, D. S. and Hillebrand, H. 2006. All wet or dried up? Real differences between aquatic and terrestrial food webs. Proc. R. Soc. Lond, B. Biol. Sci., 273: 1-9. http://rspb.royalsocietypublishing.org/content/273/1582/1.full Schmitz, O. J., Hamback, P. A. and Beckerman, A. P. 2000. trophic cascades in terrestrial systems: a review of the effects of carnivore removals on primary producers. Am. Nat. 155: 141-153. http://www.journals.uchicago.edu/doi/abs/10.1086/303311 Polis, G. A. and Hurd, S. D. 1995. Extraordinarily high spider densities on islands: flow of energy from the marine to terrestrial food webs and the absence of predation. PNAS 92: 4382-4386. http://www.pnas.org/content/92/10/4382.full.pdf Nakano, S. and Murakami, M. 2001. reciprocal subsidies: dynamic interdependence between terrestrial and aquatic food webs. PNAS 98: 166-170. http://www.pnas.org/cgi/reprint/98/1/166?ck=nck Borer, E. T., Seabloom, E.W., Shurin, J. B., Anderson, K. E., Blanchette, C. A., Broitman, B. 2005. what determines the strength of a trophic cascade? ecology, 86: 528-537. http://www.esajournals.org/doi/abs/10.1890/03-0816 Lindeman, R. L. 1942. The trophic-dynamic aspect of ecology. Ecology 23: 399-418. http://www.esajournals.org/doi/abs/10.2307/1930126 Odum, W. E., Odum, E. P. and Odum, H. T. 1995. Nature's pulsing paradigm. Estuaries 18: 547-555. http://www.jstor.org/stable/1352375 Yang, L. H. 2004. Periodical cicadas as resource pulses in North American forests. Science, 306: 1565-1567. http://www.sciencemag.org/cgi/content/full/sci;306/5701/1565
个人分类: 系统生态|16565 次阅读|4 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-16 14:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部