科学网

 找回密码
  注册
科学网 标签 深度学习 相关日志

tag 标签: 深度学习

相关日志

【新智元笔记:工程语法与深度神经】
热度 2 liwei999 2016-5-29 13:45
我: 汉语的类后缀(quasi-suffix)有不同的造词程度,“-者” 比“-家”强。“ 者” 是 bound morpheme,“家(home)” 通常是 free morpheme,突然来个“冷笑家”,打了个措手不及 @白老师。 不敢轻易给这种常用的 free morpheme 增加做类后缀的可能性,怕弄巧成拙。即便是人,乍一听这句子中的“冷笑家”也有点怪怪的感觉,怎么这样用词呢?如果硬要去模拟人的造词和理解合成词的功能,倒是有 heuristics,不知道值得不值得 follow:“冷笑”是 human 做 S 的动词,-家 是表示 human 的可能的后缀(“者” 比 “家” 更宽泛一些,可以表示机构或法人),这就为“冷笑家”作为合成词增添了一点语义的搭配证据,但还不足以站住,于是还有另一个 heuristic:“冷笑”的 subcat 的 human 语义坑不仅仅是S,其 O 也是 human: “张三冷笑李四”。而另一条路径(上面输出的 parse)是:冷笑 的 O 是赞成“, 不搭。 这两个 heuristics (一个morphological,一个 syntactic)是如何在人脑里合力促成了正确的理解的,是一个可以想象但并不清晰的下意识过程。机器可以不可以模拟这个过程,利用这种合力做出逼近人类的语言理解呢?道理上当然可以。既然我都可以描述出来,那么硬做也可以做出它来。但是,在遇到这样的语料的时候,说句实话,通常选择不做。原因就是我以前说的:编制一个 NLU 系统,不能太精巧。【 科研笔记:系统不能太精巧,正如人不能太聪明 】 白: 赞成有俩坑,一个human,一个内容。就算被“的”强制为名词,这俩坑仍旧在。 我: 是,我还没来得及加上 “赞成” 的坑的考量进来,问题的复杂度更增加了。 精巧的路线是老 AI 的人和语言学家最容易陷入的泥潭。 老 AI 陷入精巧还不当紧,因为 老 AI 做的都是玩具,domain 极为狭窄,精巧不至于造成太大偏向。 白: “这本书的出版”和“冷笑家的赞成”异曲同工,都是用填坑成分限定有坑的临时名词。 所以,两个坑其中一个是human,会给“-家”结构加分。 这是系统性的现象,与精巧无关。 我: 我就怕聪明反被聪明误。在 data driven 的NLU开发过程中,对于偶然出现的“怪怪“ 的语词或句子, 我通常是无视它的存在(除非这个现象反复出现)。 白老师总说是系统性的现象, 但举出的例子常常是 “怪怪”的, 是那种介于人话与“超人话”之间的东西, 超人指的是,这类话常常是语言学家从头脑里想出来的, 或者是高级知识分子抖机灵的作品。 白老师宋老师,还有 yours truly 都擅长写出这样句子,可是普罗不这样说话。 用白老师自己的话说,就是这类现象处于毛毛虫的的边缘毛糙的地方。 虽然是毛毛虫的一个部分,没有它其实无碍。 我指的是 “家” 作为类后缀的现象。 白: 对付这种既没有截然的肯定也没有截然的否定,而只是“加分”/“减分”的逻辑,统计比规则更在行。关键是模式长啥样。 mei: Deep learning 死记硬背,套模式,有了training data,做第四层,第五层,做不出吗? 我: 我对这个统计的能力,好奇多于怀疑。统计或深度神经,真有这么神吗? 连毛毛虫的毛边、灰色地带、长尾,也都恰好能学出来? mei: 那就需要多run experiments,机器多。一部分靠知识,一部分靠实验。应该能的。 白: 模式过于稀松平常,深度学习或可用上,但效果很差。模式过于稀奇古怪,深度学习可能完全没有用武之地。 我: “家”作为后缀的产生性不强,基本属于长尾。而“家(home)”作为自由语素则是压倒性的。统计的系统不会看不见这一点。 白: 在找到合适的模式之前,过于乐观或过于悲观都是缺乏凭据的。 mei: 中文的data多啊。再sample一下 白: 都不知道模式长什么样,sample啥呢?我们的关键是看模式长什么样 mei: 做语音识别深度学习的,也是做很多实验,然后发现模式的。 白: 语音的结构是扁平的,拿来套语言,未必灵。假定了扁平再来发现模式,说不定已经误入歧途了。 mei: 不是100%灵,但有analogy 白: 实验不可能对所有模式一视同仁,一定有先验假设的。也许藏在心里没说出来,但是模型会说明这一切的。 我: 【 科研笔记:系统不能太精巧,正如人不能太聪明 】里面有 事不过三的原则。事不过三,无论是中心递归,还是我文中举的否定之否定之否定的叠加。表面上是程序猿的经验之谈,其实属于设计哲学。 mei: 哲学有用的 白: 如果藏在心里的先验假设是错的,多少数据也救不了你 mei: 先验假设 不是不好-立委的知识都可以用到深度学习上 白: 都能用上就好了。问题是他的知识长的样子,深度学习消化得了么? mei: 那就combine啊 白: 在使用深度学习对付语言结构这件事情上,1、有迷信;2、有办法;3、迷信的人多半不知道办法。 combine会引发什么问题,不做不知道 mei: 深度学习一点不迷信,又有定律,又有实践。 我: 哈,曾经遇到一个“超级”猎头,说超级是说的此女士居然对AI和NLU如数家珍的样子,包括人工智能符号逻辑派与统计学习派的两条路线斗争,不像一般的IT猎头简单地认为AI=DL。她的最大的问题就是(大体):你老人家是经验性的,骨灰级的砖家了,你能简单告诉我,你怎样用你的经验为深度学习服务呢? (哇塞)无语。语塞。 全世界都有一个假定,至少是目前的AI和NLP领域,就是深度神经必然成事。只有在这个假定下,才有这样的问题:你无论多牛,不靠神经的大船,必然没有前途。 白: 深度学习假定的空间是欧氏空间,充其量是欧氏空间的时间序列。万事俱备,只差参数。这个假定要套用到语言结构上,还不失真,谈何容易。其实就是把目标空间的判定问题转化为参数空间的优化问题。 mei: 没说容易啊。现在的深度学习当然有局限性。 还要懂data science,the science of data 白: 目标空间错了,参数空间再优化也没有意义。 我: 非常好奇,这么深奥的深度神经是怎样做的 AI marketing 洗脑了全社会,以致无论懂行的、不懂行的、半懂行的都在大谈深度神经之未来世界,把深度神经作为终极真理一样膜拜。 第一,我做工程语法(grammar engineering)的,句法分析和主要的语义落地场景都验证非常有效了,为什么要服务深度神经?本末倒置啊。他本来做得不如我,无论parsing还是抽取,为啥反倒要我服务他成就他呢?不带这样的,当年的希拉里就被奥巴马这么批评过:你不如我,为啥到处谈要选我做你的副总统搭档呢? 第二,深度神经也没要我支持,我自作多情什么,热脸贴冷屁股去?据说,只要有数据,一切就自动学会了,就好比孩子自动学会语言一样。哪里需要语言学家的出场呢? 最奇妙的是把一个软件工程界尽人皆知的毛病当成了奇迹。这个毛病就是,学出来的东西是不可理解的,很难 debug 。假设学出来的是一个完美系统,不容易 debug 当然可以,因为根本就没有 bugs。可是,有没有 bugs 最终还是人说了算,数据说了算,语义落地的应用说了算。如果发现了 bug,在规则系统中,我一般可以找到症结所在的模块,进去 debug,然后做 regressions,最后改进了系统,修理了 bug。可是到了神经系统,看到了 bugs,最多是隔靴搔痒。 张: 感同身受 我: 要指望在下一轮的训练中,通过 features 的调整,数据的增加等等。幸运的话,你的bugs解决了,也可能还是没解决。总之是雾里看花,隔靴搔痒。这么大的一个工程缺陷,这也是谷歌搜索为什么迄今基本是 heuristics 的调控,而不是机器学习的根本理由之一(见 为什么谷歌搜索并不像广泛相信的那样主要采用机器学习? ),现在被吹嘘成是深度学习的优点:你看,机器多牛,人那点脑量无论如何不能参透,学出来是啥就是啥, 你不认也得认。是缺点就是缺点。你已经那么多优点了,连个缺点也不敢承认?牛逼上天了。 mei: 不是这样的。内行的不否认深度学习的长处,但对其局限性都有认识的 我: @mei 这个是针对最近某个封面文章说的,白老师不屑置评的那篇:【 泥沙龙笔记:学习乐观主义的极致,奇文共欣赏 】 mei: 我的观点: There is nothing wrong with 1) and 2), in fact, they have helped advancing AI big time. But 3) is a serious problem . 我:赞。 宋: 自然语言处理 不同于图像处理和语音处理,相当一部分因素是远距离相关的。词语串的出现频率与其长度成倒指数关系,但语料数据的增加量只能是线性的,这是机器学习的天花板。 我: 宋老师的解释听上去很有调性。 image 不说它了,speech 与 text 还是大可以比较一下的, speech 的结构是扁平的?怎么个扁平法? text 的结构性和层级性,包括 long distance 以及所谓 recursion,这些是容易说清楚的,容易有共识的。 宋: @wei 什么叫“调性”? 我: 这是时髦的夸赞用语。:) 宋: tiao2 or diao4? 我: diao4,就是有腔调。 深度神经没能像在 speech 一样迅速取得期望中的全方位的突破,这是事实,是全领域都感觉困惑的东西。 全世界的 DLers 都憋着一股劲,要不负众望,取得突破。 终于 SyntaxNet 据说是突破了,但也不过是达到了我用 grammar engineering 四五年前就达到的质量而已,而且远远没有我的领域独立性(我的 deep parser 转移领域质量不会大幅度下滑),距离实用和落地为应用还很遥远。 宋: 在不知道结构的情况下,只能看成线性的。知道有结构,要把结构分析出来,还得先从线性的原始数据出发,除非另有外加的知识可以直接使用。 我: 这个 text 迄今没有大面积突破的困惑,白老师说的是模型长什么样可能没弄清楚,因此再怎么神经,再多的数据,都不可能真正突破。 宋老师的解释进一步指出这是结构的瓶颈,特别是long distance 的问题。 如果是这样,那就不复杂了。 将来先把数据结构化,然后再喂给深度神经做NLP的某个应用。 这个接口不难,但是到底能有多奏效? 宋: SyntaxNet宣称依存树的分析准确率达到94%。也就是说,100个依存弧,平均有6个错的。n个词的句子有n到2n个依存弧。因此,10几个词的句子(不算长),通常至少有一条弧是错的。即使不转移领域,这样的性能对于机器翻译之类的应用还是有很大的问题,因为每个句子都会有翻错的地方。 我: 错了一点弧,只要有backoff,对于多数应用是无关大局的, 至少不影响信息抽取, 这个最主要最广泛的NLP应用,对于不完美parsing是完全可以对付的, 几乎对抽取质量没有啥影响。 即便是 MT,也有应对 imperfect parsing 的种种办法。 宋: 这个数据的结构化不仅是clause层面的,而是必须进入clause complex层面。 首先需要人搞清楚clause complex中的结构是什么样子的。就好像分析clause内的结构,要让机器分析,先得让人搞清楚clauses 内的结构体系是什么,还需要给出生成这种结构的特征和规则,或者直接给出一批样例。 我: 现在的问题是,到底是是不是因为 text 的结构构成了深度神经的NLP应用瓶颈? 如果真是,那只要把结构带进去,今后几年的突破还是可以指望的。 结构其实也没啥神奇的。 不过是 (1) 用 shallow parsing 出来的 XPs 缩短了 tokens 之间的线性距离(部分结构化);(2)用 deep parsing 出来的 SVO 等句法关系(完全结构化),包括 reach 远距离。 这些都是清晰可见的,问题是深度神经是不是只要这个支持就可以创造NLP奇迹? 宋: 把结构带进去了再机器学习,当然是可能的。问题就是怎么把结构带进去。什么都不知道的基础上让机器去学习是不可能的。 我: 以前我们就做过初步实验做关系抽取,把结构带进ML去, 是有好处,但好处没那么明显。挑战之一就是结构的 features 与 原来的模型的 features 之间的 evidence overlapping 的平衡。 宋: clause complex的结构与clause的结构不一样。google把关系代词who、what往往翻译成谁、什么,就是没搞清楚层次区别。 【相关】 【 科研笔记:系统不能太精巧,正如人不能太聪明 】 【 泥沙龙笔记:学习乐观主义的极致,奇文共欣赏 】 【李白对话录:你波你的波,我粒我的粒】 【白硕- 穿越乔家大院寻找“毛毛虫”】 为什么谷歌搜索并不像广泛相信的那样主要采用机器学习? 《新智元笔记:再谈语言学手工编程与机器学习的自动编程》 《新智元笔记:对于 tractable tasks, 机器学习很难胜过专家》 《立委随笔:机器学习和自然语言处理》 《立委随笔:语言自动分析的两个路子》 【 why hybrid? on machine learning vs. hand-coded rules in NLP 】 钩沉:Early arguments for a hybrid model for NLP and IE 【置顶:立委科学网博客NLP博文一览(定期更新版)】 《朝华午拾》总目录
个人分类: 立委科普|5497 次阅读|2 个评论
谷歌研发出Tensor Processing Unit人工智能芯片
热度 1 swordbell 2016-5-20 10:15
我们都知道,谷歌去年发布了TensorFlow深度学习开源库,最近,谷歌宣布研发了用于深度学习的芯片Tensor Processing Unite。 据知情人士说,TPU已经在谷歌的数据中心运行了一年时间,由于谷歌严守TPU的秘密,所以TPU一直不为外界所知。这位知情人士说,从目前的运行效果来看,TPU每瓦能耗的学习效果和效率都比传统的CPU、GPU高出一个数量级,达到了摩尔定律预言的七年后的CPU的运行效果。这位知情人士不无煽情的说,请忘掉CPU、GPU、FPEG吧。 如此看来,在深度学习方面,TPU可以兼具桌面机与嵌入式设备的功能,也就是低能耗高速度。 据报道,TPU之所以具有良好的机器学习能力,是因为这种芯片具有比较宽的容错性,这就意味着,达到与通用芯片相同的学习效果,TPU不需要通用芯片那样多的晶体管,不需要通用芯片上那样多的程序操作步骤,也就是说,相同数量的晶体管,在TPU上能做更多的学习工作。 但是,前边知情人士的煽情并非谷歌的本意,谷歌研发TPU并非要取代CPU或者FPGE,谷歌认为,TPU是介于CPU和ASIC (application-specific integrated circuit:应用集成电路)之间的芯片。ASIC用于专门的任务,比如去除噪声的电路,播放视频的电路,但是ASIC明显的短板是不可更改任务。通用CPU可以通过编程来适应各种任务,但是效率能耗比就不如ASIC。一如前边所言,在机器学习方面,TPU同时具备了CPU与ADIC的特点,可编程,高效率,低能耗.
3848 次阅读|1 个评论
【泥沙龙笔记:学习乐观主义的极致,奇文共欣赏】
热度 1 liwei999 2016-5-20 05:58
洪: 大数据上火车跑, 告别编程规则搞。 garbage in garbage out, 烧脑码农被废掉。 AI不再需要“程序猿”,未来数据比代码重要-新智元-微头条(wtoutiao.com) 我: 最近心智元那篇深度学习要代替程序猿的译文很有看头,是学习(ML)乐观主义的极致,但又呈现了两条路线合流的某种迹象,有的可唠。白老师洪爷尼克一干人熟悉ai两条路线你死我活斗了半个多世纪的,跟我党10次路线斗争类似,看这篇的极端乐观主义,最终宣告斗争结束世界大同的架势,可以评评掐掐。抛几个玉看能不引来啥砖砸。 【1】 quote: 编程将会变成一种“元技能(meta skill)”,一种为机器学习创造“脚手架”的手段。就像量子力学的发现并未让牛顿力学失效,编程依旧是探索世界的一种有力工具。但是要快速推进特定的功能,机器学习将接管大部分工作。 这个说法听上去怎么与白老师前一阵说的有类似或平行的味道? 洪: 这种鸡血文,可别仔细读,否则@wei 你就前功尽弃邯郸学步了 我: 它代表了这股“热”的一种极致。还是比ai取代或消灭人类,更加“理性”一些,调子是乐观主义的。 洪: 老@wei 你还是要待价而沽,找机会当老黄忠,杀一回nlp夏侯渊啥的,抖抖威风。赶紧做benchmark,你为刀斧手,syntaxnet啥的为鱼肉。 我: 杀一回nlp夏侯渊根本不是问题。 现在说的是取代程序猿,凭什么他们成为劳工中的贵族。 【2】 谷歌搜索真地从规则和 heuristics 调控正在过度到深度学习吗?这是里面爆料的新发展? (benchmarking 我心里有数,稳操胜券:新闻媒体如果所报 94 为确,那么大家都已经登顶,基本不分伯仲,没多大余地了。一旦超越领域限制,哈哈) 我疑惑的是这个报料:quote 甚至,Google搜索引擎这座由人工规则建立起来的“大厦”也开始仰仗这些深度神经网络。2月份,Google用机器学习专家John Giannandrea替换掉了多年以来的搜索部门负责人,还开始启动一个针对工程师的“新技能”再培训项目。“通过培养学习机制,我们不一定非要去编写规则了。”Giannandrea告诉记者。 这个转移如果是真地,对于搜索这么大的一个产业,在根基上做这种转移,在这种热昏的大气候下,哈哈,是福不是祸,是祸躲不过,谷歌这座搜索大厦是不是面临倾覆的前兆?不过想来即便想在 existing 手工调控的搜索路线中夹带新货,management 也不会冒进,估计是逐渐渗透和试验,否则不是自杀? 关于这个,有一些背景,见我以前的博文:《 再谈机器学习和手工系统:人和机器谁更聪明能干? 》 还有 为什么谷歌搜索并不像广泛相信的那样主要采用机器学习? Nick: 我赶脚伟哥最近修改resume和google开源parser有关系。再不改嫁就真砸手里了。 说到两条路线斗争,最极端的符号派当属定理证明,我最近在写篇定理证明简史。你们想听啥,告我一声,我再加料。 白: 那篇不需要“程序猿”的文章,理论上是错的,懒得转也懒得评。 我: 谁能证实谷歌搜索要走深度学习取代规则调控的路线? Nick 真以为 SyntaxNet 对我是威胁吗?是一个 alert,是实。 南: Nick大师逗你玩呢 我: 威胁还太远。alert 是因为确实没想到这一路在新闻领域训练能这么快达到94的高度,因为这个高度在我四五年前达到的时候,我是以为登顶了,可以喘口气,不必再做了。从应用角度,确实也是 diminishing returns 了,没有再做的价值了。如果想争口气的话,有些已知的地方还可以再做圆,那还是等退休没事儿的时候玩儿比较合适。 问题不在那里,问题在这儿: 【3】 领域转移和语义落地 机器学习的系统天生地难以领域转移,SyntaxNet 恐非例外。你花费牛劲儿,把各种 features 设计好,优化了,加上真正海量的训练数据,在一个领域 譬如新闻媒体,达到了最优的 benchmark 譬如 94%,但是一旦转换领域,performance 直线下滑是常见的问题。除非 retrain,这个谈何容易,不论。 陈: 新闻能做到的话,在其他领域,无非就是积累数据 我: 你的说法是经典的。 quote 当然,还是要有人来训练这些系统。但是,至少在今天,这还是一种稀缺的技能。这种工作需要对数学有高层次的领悟,同时对于“有来有往”的教学技巧有一种直觉。“使这些系统达到最优效果的方法差不多是一门艺术”,Google Deepmind团队负责人Demis Hassabis说。“世界上只有寥寥数百人能出色地完成这件事。” (这么说来还不错,世界上还有几百号大牛可以玩转它。另一条路线断层了,能玩转的会有几十人吗?) 以前就不断听说,同一个算法,同一批数据,甚至基本相同的 feature design,不同人训练出来的结果大不相同。虽然科学上说这个现象不合理,科学的东西是可以完全重复的,但是如果参杂了艺术或某种 tricks,说不清道不明的经验因素啥的呢。不用说得那么玄,重新训练的确不是一个简单的过程重复。 Self-quote: 问题的另一方面是,机器学习是否真地移植性那么强,象吹嘘的那么神,系统无需变化,只要随着新数据重新训练一下就生成一个新领域的系统?其实,谈何容易。首先,新数据哪里来,这个知识瓶颈就不好过。再者,重新训练的过程也绝不是简单地按章办事即可大功告成。一个过得去的系统常常要经历一个不断调控优化的过程。 说到这里,想起一段亲历的真实故事。我以前拿过政府罗马实验室10多个小企业创新基金,率领研发组开发了一个以规则系统为主(机器学习为辅,主要是浅层专名标注那一块用的是机器学习)的信息抽取引擎。我们的政府资助人也同时资助另一家专事机器学习的信息抽取的团队(在美国也是做机器学习很牛的一家),其目的大概是鼓励竞争,不要吊死在一棵树上。不仅如此,罗马实验室还选助了一家系统集成商开发一套情报挖掘应用软件,提供给政府有关机构试用。这套应用的内核用的就是我们两家提供的信息抽取引擎作为技术支撑。在长达四年的合作中,我们与集成商有过多次接触,他们的技术主管告诉我,从移植性和质量改进方面看,我们的规则引擎比另一家的机器学习引擎好太多了。 我问,怎么会,他们有一流的机器学习专家,还常年配有一个手工标注的团队,引擎质量不会太差的。主管告诉我,也许在他们训练和测试的数据源上质量的确不错,可是集成商这边是用在另一套保密数据(classified data)上,移植过来用效果就差了。我说,那当然,训练的数据和使用现场的数据不同类型,机器学习怎么能指望出好结果呢,你们该重新训练(re-training)啊。你们用他们引擎五年来,重新训练过几次,效果如何?主管说:一次也没有重新训练成过。重新训练,谈何容易?我问:你们不可以组织人自己标注使用领域的数据,用他们的系统重新训练?主管说:理论上可行,实践上步步难行。首先,要想达到最优效果 ,当然是根据我们的数据重新标注一个与引擎出厂时候大体等量的训练文本集来。可那样大的数据标注,我们根本无力做成,标注过程的质量控制也没有经验。结果是我们只标注了部分数据。理论上讲,我们如果把这批自己的数据加到引擎提供者的训练数据中,重新训练可以把系统多少拉到我们的领域来,效果总会有 提高。但是我们不是信息抽取和机器学习专家,我们只擅长做系统集成。机器学习用新旧数据混合要想训练得好,要牵涉到一些技术细节(甚至tips和tricks) 和一些说明书和专业论文上不谈的微调和小秘密。尝试过,越训练效果反而越差。我问:那怎么办?遇到质量问题,怎样解决?他说:没什么好办法。你们不同,我们只要例示观察到的错误类型,你们下一次给我们 update 引擎时基本上就已经解决了。可我们把问题类型反馈给机器学习开发者就不能指望他们可以改正,因为他们见不到这边的数据。结果呢,我们只好自己在他们的引擎后面用简单模式匹配程序打补丁、擦屁股,可费劲了。 我当时的震惊可想而知。一个被NLP主流重复无数遍的重新训练、移植性好的神话,在使用现场竟然如此不堪。学习大牛做出来的引擎在用户手中四五年却连一次重新训练都实施不了。系统成为一个死物,完完全全的黑箱子。所有改进只能靠隔靴搔痒的补丁。 from 【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】 即便是同一个大厨,做了一锅好饭菜以后,下一锅饭菜是不是同样好,也不是铁定的。 【4】 这一点最重要,白老师批评。如果你的“模型”就不对,你怎么增加数据,怎么完善算法,你都不可能超越。这里说的是自然语言的“样子”,即白老师说的“毛毛虫”(见 【白硕- 穿越乔家大院寻找“毛毛虫”】 )。 整个自然语言的边界在哪里?不同语言的“样子”又有哪些需要不同调控的细节? 这些东西有很多体悟,并不是每一种都可以马上说清楚,但是它是的确存在的。无视它,或对它缺乏认识,最终要栽跟头的。 Nick: 那得看是什么餐馆,麦当劳每天味道都同样,路边馄饨摊每天各不相同。 我: exactly 麦当劳每天一样的代价是低品质,它要保持 consistency 就不可能同时保持高品质,只能永远在垃圾食品的标签下。 Nick: 我意思是你今能卖麦当劳的价钱,再不嫁,明就馄饨摊了。 我: 鼎泰丰来湾区了,小笼包子比他家贵出好几倍。前两天一尝,果然名不虚传。被宰认了,因为心甘情愿,谁叫它那么好吃呢。 我又饿不死,何苦卖麦当劳呢?怎么也得成为鼎泰丰吧。 最不抵,我开个咨询公司也有饭吃,没必要看贱自己。 现在就是,如何领域突破,如何语言突破?换一个语言,本质上也是换一个领域。因为只有这两项突破,才能真正NLP广泛落地为产品。94 很动听了,后两项还在未定之数。这种领域和语言的突破与毛毛虫什么关系 很值得思考。 洪爷说的“鸡血”文的最有意思的地方是,机器学习终于从过去遮遮掩掩的自动编程黑箱子,被鸡血到正式宣告和标榜为终极的自动编程。程序猿下岗,资料员上岗,在最上面的是几百号能玩转黑箱子魔术的超人。一切搞定,环球太平。一幅多么美妙的AI共产主义图景。 【相关】 AI不再需要“程序猿”,未来数据比代码重要-新智元-微头条(wtoutiao.com) 【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】 《 再谈机器学习和手工系统:人和机器谁更聪明能干? 》 为什么谷歌搜索并不像广泛相信的那样主要采用机器学习? 【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】 【白硕- 穿越乔家大院寻找“毛毛虫”】 【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】 Comparison of Pros and Cons of Two NLP Approaches 《立委随笔:语言自动分析的两个路子》 why hybrid? on machine learning vs. hand-coded rules in NLP 【科普随笔:NLP主流成见之二,所谓规则系统的移植性太差】 【科普随笔:NLP主流最大的偏见,规则系统的手工性】 【科普随笔:NLP主流的傲慢与偏见】 【科研笔记:系统不能太精巧,正如人不能太聪明】 【NLP主流的反思:Church - 钟摆摆得太远(1):历史回顾】 《立委随笔:机器学习和自然语言处理》 与老前辈谈 NLP 及其趋势 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|2824 次阅读|1 个评论
“深,可测”——向阿法狗学习深度学习
热度 7 lvnaiji 2016-3-18 09:03
吕乃基 第一次工业革命后,技术开始了追赶人类的进程。在自然界的各种运动形式中从基本物理运动起步。 所谓“基本物理运动”也就是机械运动、热运动和电磁运动,自然界所有运动方式都包含基本物理运动并以此为基础。技术的发展同样如此,从各种机械、蒸汽机、内燃机和电机开始。在这一阶段,人类弯腰俯看技术,批判技术,是机械技术拉低了人的身段,让人成为机器,这就是卓别林在《摩登时代》的表演。由第二次工业革命到20世纪上半叶,随着染料、化纤和各种材料问世,技术进入化学运动阶段,人类既赞美技术,也憎恨由此带来的种种弊端。上世纪末,技术由基因工程等迈上生命运动的高度,与此同时,信息技术、电脑、互联网的发展意味着技术的发展正在开启意识运动的大门。在技术亦步亦趋接近人类之时,人类开始恐惧技术。而今,技术追赶人类的脚步不仅就在身后,而且在某种意义上已经与人并驾齐驱,在某些方面甚至有所超越,技术进入了与人之间你追我赶的局面。 值得注意的是,技术与人的你追我赶远不限于比试围棋,实际上,阿法狗战胜李世石只是一种标志和象征。技术的每一步发展对人类社会的影响都远远超过其直接的效果,阿法狗也是这样,其影响在围棋之外的第一步扩展是深度学习。 有网友称,人通常把有谁能够“理解”解释不了的东西就叫做有悟性,而只能理解解释了的东西就是没有悟性。这一说法十分形象。而“没有悟性”,基本上也就划定了一个人能力的边界。 在探索人类的学习过程中,人工智能发展出包含蒙特卡洛树在内的深度学习。第二局中阿法狗第37手“天外飞仙”,在职业棋手看来是神一样的悟性,而在阿法狗那里,可以条分缕析,化神奇为常理。而且,阿法狗所依据的算法具有极强的通用性,意味着它不经改写就可以应用于别的游戏或者工作。 在《三体》中,三维世界看四维世界叫做“方寸之间,深不见底”。随着人工智能一步步解析悟性、顿悟之类说不清道不明的心理过程,随着更多人向人工智能学习如何深度学习,以及在人工智能的协助下深度学习,那么以往难以理解的悟性等等,就有可能是“深,可测”。 人工智能自从降生以来,一直是在向人类学习如何学习,现在,人类可以向人工智能学习如何深度学习,以及可以合起来共同深度学习——这才是围棋大赛最重要的成果。 以往的悟性,是自为而非自觉,对于人类来说是“必然王国”而非“自由王国”。一旦由人工智能揭示悟性之奥秘,认识过程就可能由“必然王国”进入“自由王国”,成为人类自觉的行为。 人类的能力因此将获得前所未有的扩展与提升。
个人分类: 科技|4418 次阅读|18 个评论
智能的进化
热度 16 xying 2016-3-18 07:51
我们对世界的认知,对智慧的了解,一直摇摆在感性和理性的不同主导中。这不仅反映在艺术与科学的不同,传统思维和现代文化的冲突,人文主义和理性思考的矛盾上,即使在人工智能研究的几十年发展史上,也反映在符号主义和联接主义不同发展路线的竞争上。 在今日大数据热潮中,重新焕发青春的神经网络,模式识别,机器学习和人工智能,都始于 20 世纪 50 年代。 1957 年美国海军研究室 Frank Rosenblatt ,提出了一种模拟神经元的感知,有识别智能的数学模型—— Perceptron 。这个能够在线学习,具有图像识别功能的原型,在计算机模拟试验后,其硬件的实现, Mark 1 Perceptron ,由 400 个光学传感器,用变阻器作为电导的权重,随机连接到一组“神经元”而成。这里每个神经元电路对应于一个视觉的判断,神经元汇合传感来的电流,以是否超过域值来输出逻辑判断。它是可以通过样本来学习的,在训练中根据误差的反馈,用马达调节变阻器来改变神经元中联接的权重。这是只有输入输出无隐含层的人工神经元网络。当它连接有 n 个传感器的输入,每个神经元在数学上,实现了以一个 n 维空间的超平面,来区分样本点的数学模型。其学习的过程是用迭代的算法,调节这个超平面的参数,使得它对样本区分的误差为最小。这实际上也是一种统计分类,其收敛的算法,成为模式识别中线性分类法基础。这也是认知、心理和智能研究上联结主义的开端。 在 1958 年由美国海军组织的发布会上, Rosenblatt 公布了这个研究,在当时还是雏形的人工智能社区引发了热烈讨论和广泛联想。《纽约时报》报道说:“ Perceptron 将会是能够行走,会交谈,有视觉,能写作,自我繁殖,感知自身存在的电脑胚胎。”这种智能基于感知和联想,对输入的数据学习分类和类比判断,是在模拟动物的本能和应用经验的方式。 随后的年间,人们很快发现了它的局限性。对于许多模式, Perceptron 并不能通过训练来分辨,比如说,在二维平面 1 , 3 象限上同属一类的点与 2 , 4 象限上属另一类的点,无法用一条直线来划分,这意味着 Perceptron 不能识别 XOR 逻辑的模式。研究的热情在失望中消退。 1969 年,当时 AI 界的领军人物 Marvin Minsky 和 Seymour Papert 在《 Perceptrons 》书中总结说: Perceptron 神经网络只能区分线性可分的模式,它甚至不可能学习简单的 XOR 逻辑。尽管他们知道,这对多层网络并非如此,其后也有人发表了多层网络的 XOR 逻辑实现的研究,但人们对 AI 的研究已被新的方向所吸引, Perceptron 已是昨日黄花,大家都认为 Minsky 权威的论断,已经终结了人工神经元网络的前途。不幸地让这方向的研究停滞了十几年, AI 由此转入研究用逻辑的方法,搜索推理知识的轨道。 其实早在 Perceptron 之前,人们就开始探索采用机械化的方式,代替人类理性推想的可能性。笛卡尔希望把一切问题变为数学问题,用解析几何把几何问题化成代数问题。莱布尼茨开始研究符号思维,形式逻辑。希尔伯特设想建立一个公理化的体系,把一切数学问题,变成可以采用机械化的方式,进行形式逻辑推理。虽然哥德尔证明了这总体上是不可能的。但许多定理的机械化证明,不仅是可能的还是可行的。王浩在这方面做了先驱性的工作, 1959 年他用 IBM 704 型计算机上证明了罗素与怀特海《数学原理》中几百条有关命题逻辑的定理。吴文俊把几何命题转换成多项式,根据“多元多项式环中的理想都是有限生成的”,把几何证明问题变成计算机判定理想成员的运算。吴方法目前仍是机器证明研究的高峰。这些数学家的工作,只把计算机当作机械运算的工具,不认为有什么智能。 AI 这词是在 Perceptron 热潮中,研究社区的群体叫出来的。机器证明到了后来,因为专家系统才被宗为 AI 中符号主义的先驱。它实现的是人类逻辑推理的智能。 Feigenbaum 的 DENDRAL 专家系统和指导性的论文,正值人们对 Perceptron 失望之时,沿符号主义的思路出现。它根据给定的有机化合物分子式和质谱图数据,在保存有化学和质谱仪知识的数据库中,用逻辑推理的方法,从几千种可能组合中挑选出正确的分子结构。这是个能产生高端实用价值的计算机新用法。人们憬然而悟,为什么我们不参考理性人思考的方式,直接从成熟的知识系统中,用逻辑来猜测搜索求解?几百年发展的科学研究知识已是一个巨大的宝藏,科学用因果关系,构造了一个可以理解的世界模型,以此发现了许多的规律,作为站在智慧高端的人类,我们不必再模仿生物的低级智能了,只要模仿人类的理性,以谓词逻辑的运算和启发式的搜寻,就有了高级的智慧。如同机械放大了人力,我们可以用计算机来提高推理能力!这个基于科学推理和知识系统的计算主义智能研究路线,使得专家系统在 70 和 80 年代成为人工智能的代名词。人们相信,实现具有人类智慧的机器,只是一个工程问题了。 1981 年,日本投入了大量的资金,开始了雄心勃勃第五代计算机的研究。然而在专家系统长达十几年探索中,人们认识到有两个根本的问题绕不过去。一是互动( interaction )问题,专家系统只能模拟人类深思熟虑的理性,对于机器人最需要的是感知、移动、互动,而不是人类最无趣的抽象思维技能。二是放大( scaling up )问题,想象中无限美好的前景,只限于较窄一类问题的专家咨询,或小尺寸游戏问题的演示;将这些证明过原理的设计应用在实践时,各种复杂因素产生了组合爆炸。人类瞬间都能做出的判断,例如识别人脸,穿过有家具的房间,对计算机都艰难无比。这让 AI 的主流研究在 80 年代,虽然有些商业应用,但思想上沉闷乏味,终于进入冬天。 科学研究的激情也如新颖时装的热潮,不同的思路总要等到主流新奇穷尽、精彩衰竭之后,才会引人注目。人们早就知道一个人工神经元( Perceptron ),能在 n 维空间中确定一个超平面。不难证明两层的人工神经元网络,有能力进行任给的样本组分类,也可以实现输出输入任定的布尔值映射。这意味着任何分类和逻辑问题的答案,都可以通过网络中合适的联结权重来实现。关键是怎么通过样本的学习,自动地调节这些权重,来实现这个映射。这才是机器自己获得的,而不是设计者赋予的“智能”! 1982 年,美国加州工学院物理学家 J.J. Hopfield ,在有隐含层的神经网络上,用 Back Propagation 算法完成了 XOR 逻辑的学习,他解释学习算法收敛性的物理类比,直观易懂,又欣起了联结主义智能的热浪。其实多层神经网络能够实现 XOR 逻辑,早在 70 年代就有研究论文, 1974 年 Paul Werbos 也已给出如何训练一般网络的 BP 学习算法,当时却无人重视。直到 80 年代, BP 算法才被 David Rumelhart , Geoffrey Hinton , Ronald Williams , David Parker , Yann LeCun 重新发现。对具有可微的激励函数的多层神经网络, BP 对各层的误差梯度有简单的链式法则,因此最快地缩小误差的迭代计算便是个学习过程。 单层的 Perceptron ,只能辨识线性可分的模式,在输入输出之外具有隐层(多层)的神经网络,理论上能够识别任给的模式和实现逻辑推断, BP 算法奠定了它们学习算法的基础。经此突破后,得力于语音和手写体字的识别的市场需求和硬件支持成熟, 90 年代对人类智能模仿的研究,又回到以模式识别为主的路子上。但是 BP 算法虽然在理论上适用于任意多层的神经网络,其误差传播的梯度随着层数加多而弥散,对非凸目标函数容易陷入局部稳定平衡点而无法提高效益,或陷入“死记硬背”( Overfitting ),只记住样本而不会类推的局面。所以对这算法真正有效的还只有浅层的网络。许多的研究集中在多层神经网络学习算法的改进上。几年间,类比于统计热力学模拟退火技术,用波耳兹曼模型说明趋于全局稳定的学习算法,模拟进化过程能迅速收敛的遗传算法等等纷现。但是从 80 年代起近二十年间,各种效率较高模式识别模型,如向量机, Boosting 等也不过是与浅层神经网络相似的数学模型。 浅层的神经网络仅仅具有简单分类能力的低阶智能。模式辨识在技术上是用特征来分类的,通常依赖于人工选择辨识的特征。这对于复杂的情况,模糊的特征以及即时的需求有着极大的局限。而人类的大脑甚至动物的大脑都具有深层的网络结构,低层对感知的信号作出特征的抽象,高层对这些特征归纳再进一步抽象,逐层辨识抽象使得能够分析复杂的情况。学习的关键是如何将这深层的潜力变成功能。对深层神经网络的学习,在 2006 年 Hinton 等发表深度学习文章之前,都未能在理论上有突破。 每层神经元的映射也可以看成对输入属性的抽象。那么用某种反馈奖励机制的的方法来作预先学习,有可能在样本中自动地聚合出一些属性的抽象,而合适的抽象又能在后续样本训练中被强化,作为下一层模式识别所需要的特征。这作预习的前者是无监督学习( Unsupervised Learning ),类比于人的智商悟性;有目标训练的后者称为监督学习,好比是上课学习。 Hinton 的创意是深信度网( Deep Belief Nets ,简称 DBN )的深度学习,在深层网络中逐层采用无监督的预先学习和随后的监督学习,来提高学习效率。这在语音识别上获得很大的成功。另一方面,动物脑子在出生之始,并非是同质通用的构造,其低层如视神经,听觉神经都有遗传而来的分化结构,早在 60 年代 Hubel 和 Wiesel 就发现猫脑皮层中其独特的网络结构可以有效地降低学习的复杂性,于是人们提出了卷积神经网络( Convolutional Neural Networks- 简称 CNN )。具有局部联接和参数共享的卷积数学模型,含有较少的参数和位移,缩放扭曲等不变性,作为神经网络的低层很容易学习二维图像特征提取,可以用直接输入原始图像的监督训练,这种具有“先天”视觉低层结构的人工大脑很快地就在图像识别上放出异彩。 2014 年 Facebook ,应用 9 层神经网络的深度学习方法,对人脸的识别率可达到 97.25% ,而在电话答复系统, iPad 的 Siri 中,各种代替人力的语音辨识技术已被广泛地应用。机器在模拟视觉和听觉的辨识能力上已经非常接近于人类了。用人工智能技术创作的绘画和音乐作品,已经达到可以让人欣赏享受的水平了。 我们越来越难以理解其细节的机器智能在涌现,而我们能理解的世界必须有清晰的逻辑构造。 逻辑是用于形式语言精确交流的一种约定,逻辑和数学并不产生新的信息,不作任何(物理或其他科学的)新发现,它只是把已有的发现,做出新的表达,让你知道原来没理解到的部分。只不过,人类头脑是按照联想方式工作的,人们必须通过训练,才能充分运用逻辑和数学概念下的结果,所以科学需要用它,作为严谨表达和充分发掘拥有信息的工具。 客观世界并不是由逻辑驱动或构造的,它只因生物的智能而被感知。对智能而言,逻辑不过是一种对不同语句表达蕴含或否定等关系的辨识模式,生物对事物间的感知经验只有关联性( correlation ),而因果性( causality )则是建立在逻辑基础上的推理模式,它被认定、传播和学习后,成为现在人类理性认知结构的基础,对世界的认识就变成逻辑推理的运算。科学建立在使用因果关系结构模式,对世界描绘的图谱上,而真实的世界不一定都能很好地纳入这个模式的描述。我们理解的世界只不过是用象征符号,依逻辑和谐构造出来的幻象,它忽略了无数不能纳入这个图像的事实,以及我们理解能力之外的因素。 实际上,我们对音乐的感受,艺术的领会,情感的交流,人性的共鸣,直觉和灵感,同样是一种智能的表现,同样在学习中进步,同样在生存竞争中扮演着重要的角色,而这些不能被象征符号充分表达,难以纳入理性认识的模式,被排斥在科学之外,过去都被人们忽视了。 联结主义智能机器的到来,我们面临着一个 渐 渐难以理解的新世界。过去符号主义的 AI 只是帮助人类逻辑推理的忠实劳工,无论是机器证明还是专家系统,计算机只是严格按照设计者给定的规则,对人类的知识进行逻辑运算,不会产生逻辑之外的新结果,一切的举动和结果都在人类可以理解和希望的范畴。所以过去科幻谈到机器人的自我觉醒,都要借助于无法理解其机制的短路来实现。而联接主义的 AI ,其智能是由海量的联结参数决定的,这些联结参数不是设计者赋予的,而是通过对样本(数据)的学习自动调整形成的。 现在商业应用的人工神经网络的参数已经高达百亿数量级,拆开硬件,企图分析这些联结的数据来了解机器的功能,在原理上很简单,效用上很有限。就像我们通过核磁共振,查出某一活动的兴奋在人脑哪个区域,可以了解其功能区的拓扑,但想进一步通过分析几万个神经联接,推测他下一步要做什么是不可能的,海量参数的联结主义机器,也将有这样实践上莫测的“自由意志”。而这样的智能机器已经在我们的商业中,参与人类的日常活动,只是与我们综合智能相比现在还像雨人那样幼稚,但其智能与日俱增。我们将舒适地享受,越来越无法理解其所以然的技术服务。 互联网海量的数据,强大的并行计算能力,大量商机的即时应用需求,呼唤着大数据时代的到来,推动着工程师寻找新技术,技术渴望着智能研究的支持。传统科学那种从统计数据,总结规律,逻辑分析,先了解“为什么”,再得出“是什么”的理性方法,已经不敷这多变,复杂,即时的应用了。市场需要类似于动物的本能,基于经验及时反应的智能,现在大数据深度学习的智能,深植在联结主义模式识别和分布式计算的方向上。人工智能在大数据时代从理性科学方法,转向直接从数据中在线学习模式反应的“感性”方法。我们的工程师也已经成为这个联结网络庞大机器中的一环,以仅仅部分理解和猜测的方式,为 机器 涌现出来的智能工作。这让我们反思。人类能够坚持我们骄傲的理性掌控这世界吗?为什么不改变自己与其共进? 现在机器智能的进化,也许也正引导着人类思想模式的改变。 【说明】此文是我已发表在《中国计算机学会通讯》( P50 , 114 期, 2015 年 8 月)有关深度学习的专栏文章“智能的进化与博弈”的部分内容。这里略有补充修改。
个人分类: 科普|11023 次阅读|33 个评论
[转载]干货:深度学习 vs 概率图模型 vs 逻辑学
alaclp 2016-1-6 01:18
干货:深度学习 vs 概率图模型 vs 逻辑学 1,886 次阅读 - 2015.05.04 - 人工智能 - 小林子 在上个月发表博客文章《 深度学习 vs 机器学习 vs 模式识别 》之后,CMU博士、MIT博士后及vision.ai联合创始人Tomasz Malisiewicz这一次带领我们回顾50年来人工智能领域三大范式(逻辑学、概率方法和深度学习)的演变历程。通过本文我们能够更深入地理解人工智能和深度学习的现状与未来。 以下为正文: 今天,我们一起来回顾过去50年人工智能(AI)领域形成的三大范式:逻辑学、概率方法和深度学习。如今,无论依靠经验和“数据驱动”的方式,还是大数据、深度学习的概念,都已经深入人心,可是早期并非如此。很多早期的人工智能方法是基于逻辑,并且从基于逻辑到数据驱动方法的转变过程受到了概率论思想的深度影响,接下来我们就谈谈这个过程。 本文按时间顺序展开,先回顾逻辑学和概率图方法,然后就人工智能和机器学习的未来走向做出一些预测。 图片来源:Coursera的概率图模型课 1. 逻辑和算法 (常识性的“思考”机) 许多早期的人工智能工作都是关注逻辑、自动定理证明和操纵各种符号。John McCarthy于1959年写的那篇开创性论文取名为《常识编程》也是顺势而为。 如果翻开当下最流行的AI教材之一——《 人工智能:一种现代方法 》(AIMA),我们会直接注意到书本开篇就是介绍搜索、约束满足问题、一阶逻辑和规划。第三版封面(见下图)像一张大棋盘(因为棋艺精湛是人类智慧的标志),还印有阿兰·图灵(计算机理论之父)和亚里士多德(最伟大的古典哲学家之一,象征着智慧)的照片。 AIMA 的封面,它是CS专业本科AI课程的规范教材 然而,基于逻辑的AI遮掩了感知问题,而我很早之前就主张了解感知的原理是解开智能之谜的金钥匙。感知是属于那类对于人很容易而机器很难掌握的东西。(延伸阅读:《 计算机视觉当属人工智能 》,作者2011年的博文)逻辑是纯粹的,传统的象棋机器人也是纯粹算法化的,但现实世界却是丑陋的,肮脏的,充满了不确定性。 我想大多数当代人工智能研究者都认为基于逻辑的AI已经死了。万物都能完美观察、不存在测量误差的世界不是机器人和大数据所在的真实世界。我们生活在机器学习的时代,数字技术击败了一阶逻辑。站在2015年,我真是替那些死守肯定前件抛弃梯度下降的傻子们感到惋惜。 逻辑很适合在课堂上讲解,我怀疑一旦有足够的认知问题成为“本质上解决”,我们将看到逻辑学的复苏。未来存在着很多开放的认知问题,那么也就存在很多场景,在这些场景下社区不用再担心认知问题,并开始重新审视这些经典的想法。也许在2020年。 延伸阅读: 《逻辑与人工智能》斯坦福哲学百科全书 2. 概率,统计和图模型(“测量”机) 概率方法在人工智能是用来解决问题的不确定性。《人工智能:一种现代方法》一书的中间章节介绍“不确定知识与推理”,生动地介绍了这些方法。如果你第一次拿起AIMA,我建议你从本节开始阅读。如果你是一个刚刚接触AI的学生,不要吝啬在数学下功夫。 来自宾夕法尼亚州立大学的概率论与数理统计课程的PDF文件 大多数人在提到的概率方法时,都以为只是计数。外行人很容易想当然地认为概率方法就是花式计数方法。那么我们简要地回顾过去统计思维里这两种不相上下的方法。 频率论方法很依赖经验——这些方法是数据驱动且纯粹依靠数据做推论。贝叶斯方法更为复杂,并且它结合数据驱动似然和先验。这些先验往往来自第一原则或“直觉”,贝叶斯方法则善于把数据和启发式思维结合做出更聪明的算法——理性主义和经验主义世界观的完美组合。 最令人兴奋的,后来的频率论与贝叶斯之争,是一些被称为概率图模型的东西。该类技术来自计算机科学领域,尽管机器学习现在是CS和统计度的重要组成部分,统计和运算结合的时候它强大的能力才真正释放出来。 概率图模型是图论与概率方法的结合产物,2000年代中期它们都曾在机器学习研究人员中风靡一时。当年我在研究生院的时候(2005-2011),变分法、Gibbs抽样和置信传播算法被深深植入在每位CMU研究生的大脑中,并为我们提供了思考机器学习问题的一个极好的心理框架。我所知道大部分关于图模型的知识都是来自于Carlos Guestrin和Jonathan Huang。Carlos Guestrin现在是GraphLab公司(现改名为Dato)的CEO,这家公司生产大规模的产品用于图像的机器学习。Jonathan Huang现在是Google的高级研究员。 下面的视频尽管是GraphLab的概述,但它也完美地阐述了“图形化思维”,以及现代数据科学家如何得心应手地使用它。Carlos是一个优秀的讲师,他的演讲不局限于公司的产品,更多的是提供下一代机器学习系统的思路。 概率图模型的计算方法介绍( 视频和PPT下载 ) Dato CEO,Carlos Guestrin教授 如果你觉得深度学习能够解决所有机器学习问题,真得好好看看上面的视频。如果你正在构建一套推荐系统,一个健康数据分析平台,设计一个新的交易算法,或者开发下一代搜索引擎,图模型都是完美的起点。 延伸阅读: 置信传播算法维基百科 图模型变分法导论 Michael Jordan的技术主页 (Michael Jordan系推理和图模型的巨头之一) 3. 深度学习和机器学习(数据驱动机) 机器学习是从样本学习的过程,所以当前最先进的识别技术需要大量训练数据,还要用到深度神经网络和足够耐心。深度学习强调了如今那些成功的机器学习算法中的网络架构。这些方法都是基于包含很多隐藏层的“深”多层神经网络。注:我想强调的是深层结构如今(2015年)不再是什么新鲜事。只需看看下面这篇1998年的“深层”结构文章。 LeNet-5,Yann LeCun开创性的论文《基于梯度学习的文档识别方法》 你在阅读LeNet模型导读时,能看到以下条款声明: 要在GPU上运行这个示例,首先得有个性能良好的GPU。GPU内存至少要1GB。如果显示器连着GPU,可能需要更多内存。 当GPU和显示器相连时,每次GPU函数调用都有几秒钟的时限。这么做是必不可少的,因为目前的GPU在进行运算时无法继续为显示器服务。如果没有这个限制,显示器将会冻结太久,计算机看上去像是死机了。若用中等质量的GPU处理这个示例,就会遇到超过时限的问题。GPU不连接显示器时就不存在这个时间限制。你可以降低批处理大小来解决超时问题。 我真的十分好奇Yann究竟是如何早在1998年就把他的深度模型折腾出一些东西。毫不奇怪,我们大伙儿还得再花十年来消化这些内容。 更新: Yann说(通过Facebook的评论)ConvNet工作可以追溯到1989年。“它有大约400K连接,并且在一台SUN4机器上花了大约3个星期训练USPS数据集(8000个训练样本)。”——LeCun 深度网络,Yann1989年在贝尔实验室的成果 注:大概同一时期(1998年左右)加州有两个疯狂的家伙在车库里试图把整个互联网缓存到他们的电脑(他们创办了一家G打头的公司)。我不知道他们是如何做到的,但我想有时候需要超前做些并不大规模的事情才能取得大成就。世界最终将迎头赶上的。 延伸阅读: Y.LeCun, L.Bottou, Y.Bengio, and P.Haffner. Gradient-based learning applied to document recognition .Proceedings of the IEEE, November 1998. Y.LeCun, B.Boser, J.S.Denker, D.Henderson, R.E.Howard, W.Hubbard and L.D.Jackel: Backpropagation Applied to Handwritten Zip Code Recognition , Neural Computation, 1(4):541-551, Winter 1989 Deep Learning code: Modern LeNet implementation in Theano and docs. 结论 我没有看到传统的一阶逻辑很快卷土重来。虽然在深度学习背后有很多炒作,分布式系统和“图形思维”对数据科学的影响更可能比重度优化的CNN来的更深远。深度学习没有理由不和GraphLab-style架构结合,未来几十年机器学习领域的重大突破也很有可能来自这两部分的结合。 原文链接: Deep Learning vs Probabilistic Graphical Models vs Logic (翻译/zhyhooo 审校/王玮 责编/周建丁) 文章出处:http://www.csdn.net/article/2015-04-30/2824600 注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。 来源:http://dataunion.org/16436.html
个人分类: 人工智能|2387 次阅读|0 个评论
[转载]一篇宏观关于深度学习的科普帖——必看,很轻松
alaclp 2016-1-6 01:04
这个必须赞!文科生也能读懂的 Deep Learning 科普帖 2,558 次阅读 - 2015.06.27 - 人工智能 - 小林子 出处:微信公众号_依图科技(yitutech) 注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。 来源:http://dataunion.org/19812.html
个人分类: 人工智能|2081 次阅读|0 个评论
[转载]如何在Jetson TK1上安装Caffe深度学习库
alaclp 2015-12-3 13:53
Caffe 的创造者 Yangqing Jia ,最近花了些时间在NVIDIA Jetson 开发板上运行 caffe 框架。 Jetson TK1 有 192 个 CUDA 核,是非常适用于深度学习这种计算任务的。未来,如果我们想在移动设备上做一些事情的话, Jetson 是一个不错的选择,而且它预装 Ubuntu 操作系统,因此也是非常易于开发的。 Caffe内置了Alexnet模式,这是Imagenet-winning 架构的一个版本,可以识别1000 个不同种类的物体。用这个作为一种 benchmark , Jetson 可以在 34ms 里分析一个图像。 接下来,介绍如何在Jetson 上安装并运行 Caffe. 安装 你从盒子里拿到Jetson 的第一步是登录。你可以接一个显示器和键盘,但我倾向于你将它跟一个本地路由连接,然后 ssh 访问。 elinux.org/Jetson/Remote_Access 上有具体的步骤(不明白的地方可以在我们的QQ 技术群里询问) ,这时候在你的本地网络上会出现 tegra-ubuntu.local , username 是ubuntu: ssh ubuntu@tegra-ubuntu.local 默认密码是 ubuntu,接下来我们需要安装NVIDIA 的驱动,然后重启: sudo NVIDIA-INSTALLER/installer.sh sudo shutdown -r now 一旦开发板重启后,你可以登录进去,然后继续安装Caffe 所需的环境: ssh ubuntu@tegra-ubuntu.local sudo add-apt-repository universe sudo apt-get update sudo apt-get install libprotobuf-dev protobuf-compiler gfortran \ libboost-dev cmake libleveldb-dev libsnappy-dev \ libboost-thread-dev libboost-system-dev \ libatlas-base-dev libhdf5-serial-dev libgflags-dev \ libgoogle-glog-dev liblmdb-dev gcc-4.7 g++-4.7 你需要安装 Cuda SDK 以建立和运行GPU程序 ( CUDA 环境安装步骤都已经放在 QQ 技术群里,安装过程有任何问题,请随时在群里提出)。 如果一切顺利,你运行‘nvcc -V可以看到一个完整的编译器版本信息。这个时候你需要安装Tegra 版本的 OpenCV. ( 安装步骤同样在 QQ 群里找) 我们需要下载并安装Caffe sudo apt-get install -y git git clone https://github.com/BVLC/caffe.git cd caffe git checkout dev cp Makefile.config.example Makefile.config sed -i s/# CUSTOM_CXX := g++/CUSTOM_CXX := g++-4.7/ Makefile.config 我们必须使用gcc 4.7 版本,因为默认 4.8 会有一些问题。你应该可以完成整个安装。 make -j 8 all 一旦完成这可,你可以运行一下Caffe 的测试包来检查是否安装成功。这个可能需要花费一些时间,但希望一切顺利。 make -j 8 runtest 最后,你可以运行一下Caffe 的基准代码来检测一下性能。 build/tools/caffe time --model=models/bvlc_alexnet/deploy.prototxt --gpu=0 这个可能需要花费30 秒,输出一组统计数字。它运行 50 迭代的识别 pipleline 。每个分析 10 个不同的输入图像。因此看一下“‘ Average Forward pass ”时间,然后除以 10 就可以得到每个识别时间。我的结果是 337.86ms ,所以每个图像大概是 34ms 。你也可以把 -gpu=0 的标志去掉,看一下 CPU 的结果。在我这里看是大概 585ms ,所以你看 CUDA 还是起到作用了。 来源:http://www.gpus.cn/qianduan/front/getNewsArc?articleid=83
个人分类: GPU|3092 次阅读|0 个评论
[转载]深度学习和拓扑数据分析的六大惊人之举
alaclp 2015-11-30 03:16
来源:LinkedIn 作者:Edward Kibardin   假如你有一个一千列和一百万行的数据集。无论你从哪个角度看它——小型,中型或大型的数据——你不可能看到它的全貌。将它放大或缩小。使它能够在一个屏幕里显示完全。由于人的本质,如果能够看到事物的全局的话,我们就会有更好的理解。有没有办法把数据都放到一张图里,让你可以像观察地图一样观察数据呢?   将深度学习与拓扑数据分析结合在一起完全能够达到此目的,并且还绰绰有余。   1、它能在几分钟内创建一张数据图,其中每一个点都是一个数据项或一组类似的数据项。   基于数据项的相关性和学习模式,系统将类似的数据项组合在一起。这将使数据有唯一的表示方式,并且会让你更清晰地洞察数据。可视化图中的节点由一个或多个数据点构成,而点与点之间的链接则代表数据项之间高相似性。      2、它展示了数据中的模式,这是使用传统商业智能无法识别的。   下面是个案例,展示的是算法是如何仅仅通过分析用户行为来识别两组不同的人群。典型的特征区分,黄色和蓝色点:女性和男性。      如果我们分析行为类型,我们会发现,其中一组大部分是发送信息(男性),而另一组则多为接收信息(女性)。      3、它能在多层面上识别分段数据   分段数据表现在多种层面上——从高层次分类到具有相同数据项的分组。   在一个Netflix数据集的例子中,每个数据项是一部电影。最高层次的一组是音乐,孩子,外交和成人电影。中层次的部分包含不同分段:从印度片和港片到惊悚片和恐怖片。在低层次中是电视连续剧分组,比如“万能管家”,“办公室”,“神秘博士”等。      4、它能分析任何数据:文本,图像,传感器数据,甚至音频数据。   任何数据都可以被分段并理解,如果可以将它展现为数字矩阵,其中每一行是一个数据项,列是一个参数。下面这些是最常见的用例:      5、如果你引导它,它能学习更复杂的依赖关系。   选择一组数据项,将它们分组,算法就会发现所有相关或类似的数据项。重复这个过程数次,那么神经网络可以学习到它们之间的差异,比如Mac硬件,PC硬件和一般电子文本的差异。   对20000篇属于20个不同主题的文章进行了初步分析,得出一个密集的点云图(左图)。在使用深度学习迭代几次之后,算法会将它们进行分类,错误率仅仅1.2%(右图)。      6、即使没有监督它也能够学习   深度学习和自编码器模拟了人类大脑活动,并且能够在数据集中自动识别高层次的模式。例如,在谷歌大脑计划中,自编码器通过“观看”一千万条YouTube视频截取的数字图像,成功地学习并识别出人和猫脸:      我最近在使用拓扑数据分析和深度学习,并开发出一套工具,它将这些技术转换成了一个用户友好型界面,能够让人们观察数据并发现潜在联系。去这个网站看看,并让我知道你是否愿意创建你自己数据的地图。 来源:http://www.chinacloud.cn/show.aspx?id=22138cid=17
个人分类: 人工智能|1522 次阅读|0 个评论
2015机器学习--深度学习进展摘要
alaclp 2015-11-30 03:12
如今深度学习是AI和机器学习领域最热门的学习趋势。我们来审查为深度学习而开发的软件,包括Caffe,CUDA convnet,Deeplearning4j,Pylearn2,Theano和Torch。 深度学习是现在人工智能(Artificial Intelligence)和机器学习(Machine Learning)最热门的的趋势,每天的报刊都在报道令人惊异的新成就,比如在IQ测试中超越了人类( doing better than humans on IQ test )。 2015 KDnuggets Software Poll 中添加了一个深度学习工具的新类别,民意调查最流行的工具的结果显示如下。 Pylearn2 (55 users) 这里是一个 快速入门教程 来引导您完成Pylearn2的一些基本思路的学习。 Theano (50) 这里是Theano培训的一个 直观的例子 。 Caffe (29):评价--“Caffe是最快的可用的convnet实现工具。” Torch (27) Cuda-convnet (17) Deeplearning4j (12) ---是一种“基于Java的,聚焦工业,商业支持的,分布式的深度学习框架。” Other Deep Learning Tools (106) 原文链接: Popular Deep Learning Tools – a review
个人分类: 人工智能|2396 次阅读|0 个评论
《泥沙龙笔记:deep,情到深处仍孤独》
liwei999 2015-10-28 03:05
我: 《 泥沙龙铿锵三人行:句法语义纠缠论 》 且喷且整理。 白: 这篇语言学的味道太浓了,不知道的还以为我是文科生呢。 我:最近看到AI和deep learning顶尖大腕坐而论道,豪气冲天。可见行业之热,大数据带来的机遇和资源。只是一条,说模式匹配(pattern matching)是毒药,我就不明白,这个结论怎么这么快就下了。你得先把 deep learning 弄到 parsing 上成功了可以匹敌模式匹配以后再下断语吧,也让咱们吃了一辈子毒药已经五毒不侵了的人服气一点不是? 再说,模式匹配可以玩的花样多去了,绝不是乔姆斯基当年批判的单层的有限状态一样的东西了(正如在DL兴起之前 敏斯基 批判单层神经网络一样),怎么就能 jump to conclusion? speech 和 image,咱服输投降,不跟你玩,text 咱还要看两年,才知道这 deep 的家伙到底能做到多deep,是不是能超过多层模式匹配的deep? 如果这一仗 deep learning 真地功德圆满,就像当年统计MT 打败了规则MT一样,我就真地洗手不干NLP,乐见其成,回家专门整理家庭录像和老古董诗词校注去了。 白: 伟哥,淡定 洪: 别介!不过你可以让你女儿做 deep learning,万一要败,也败在女儿手下。 Philip: 好主意,不然伟哥难以释怀 我: good idea, 要败,也败在女儿手下。 Xinan: 我觉得做PARSING的人没有把当前的计算能力挖掘出来。人家都GPU用上了,你们能把多核用起来吗? 白: 我可以断定,统计思路向深层NLP发展的必由之路就是RNN。RNN的deep与视觉/图像用的CNN的deep,有本质差别。用RNN学出正则表达式或者更强表达力的东东是自然而然的事情。因为它考虑了一个更根本的东西,时序。做到相当于多层有限状态机的能力,毫不奇怪。如果工程上再做一些贴近实际的适配,会更好。此外,RNN天然可硬件级并行,做出的专用硬件比通用机上软件实现的FSA,性能只会更好。 我: 白老师,这 RNN 是不是姓 DL ? 白: 是这杆大旗下的一支。但是RNN用纯学习的方法获得,尚有难关,但用编译的方法获得,我已经走通了。在编译基础上再做小规模的学习,是make sense的。 我: 那么 training 的 corpus 怎么弄呢? 干脆我来提供 training corpus 要多少给多少。 白: 哈哈。 我: 为的就是:取法乎上仅得其中。 当然也可以想见,取法乎中可得其上,这不是科幻。 因为我自己就做过 “句法自学习”的实验,确实可以通过 self-learning 自我提高的,就是 overhead 太大,反正我没本事让它实用化,虽然理论上的路子在实验中是走通了。 白: 可以认为,之前,统计和浅层是同义词,规则和深层是同义词,但是,随着RNN/LSTM这些东东的出现,这同义词都是老黄历了。所以,复旦的美女教授教导我们说,不要一提统计就断定是浅层。是吧?  黄: 现在做浅层,发不了论文,所以越来越深。 我: 统计也的确在浅层里扎了太久。主要还是以前的低枝果实太多了。 在水牛城的时候,我的搭档牛博士尝试过做统计深层,他用我提供的parsing 做基础,去做 IE 抽取,试图突破关键词技术的质量瓶颈,当时的有限的试验是:(1) 很难, keywords are often hard to beat ;(2) 但不是完全没有希望。 白: 我说的编译算统计还是规则,我自己都糊涂,输入是规则,输出是权值。 雷: rnn是胡子眉毛一把抓吗? 白: 不是。很多是“可解释的”。 我: 白老师的编译 不就是 symbolic rule learning 的一种么?提供规则模板,让统计从数据中去学具体的规则。甚至 Brill 的那套也是这个思路。当然,设计规则模板里面牵涉到的语言学,比单纯加上一些简单的 features ,要深。 白: @wei 不是,我不学规则,只是把规则实现为RNN。 雷: 是不是一个矩阵呢? 白: 差不多。 雷: 内有各种特征,这些特征上上下下的都有? 白: 隐节点和FSA的状态有的一比。输入,输出节点都是可解释的。隐节点的可解释程度不差于有限状态自动机状态的可解释程度。 我: 还是不知道你的训练集从哪里来,如何扩大你的训练集?或者只需要有限的训练集,然后加上大量的没有labelled的数据? 白: 训练是下一步的事情。准确实现规则,regex已经可以了。 我: sparse data 会成为瓶颈么?不过你的起点就是规则的话,这个问题也许不那么严重 黄: @wei 是的,现有带标数据不够,严重不够。 白: 现在想的是,稍微把毛毛虫的身材再撑胖一点,覆盖力再强大一点。但是不允许突破线性复杂度。 @黄 所以不能白手起家学习。先有点啥垫底。 我: @黄 你要多少带标数据都可以给你,你赢了,给我一点儿 credit 就可以了。 阮: 如果能够用无监督的方法,在弱可用数据上学习就好了。 我: 无监督,除了做clustering,谈何容易。 黄: 您老有多少句parsed sentence?@wei 我: 没有上限,不过是让机器跑几天,输出grammar tree 的XML而已。 认真说来,用 我们的自动标注做底子是一个出路,就看能不能通过大数据青出于蓝了,不是不可能。 其实,我们的手工系统,有时候为了照顾 recall 是对 precision 做了牺牲的,我完全可以 cut 掉那些照顾性规则,做一个接近 100% precision 的标注来,漏掉的不算。这样我的已经标注的东西可以超过人工的水平,因为人会打瞌睡,系统不会。譬如我可以自动标注70%,准确率达到 95%,剩下的 30% 再去找人做标注,或者不管它,以后系统用缺省的办法或 smoothing 啥的来对付。这应该是可行的。 黄: 您正式release吧,我们引用您。 白: 伟哥,你这是拿规则系统训练统计系统,整下来,统计还是超不过规则。 我: 所以我说,你需要青出于蓝呀。 以前想过给 LDC , 后来就算了,毕竟还是需要 costs,公司也没看到好处(他们不懂学界,只要人家用了,用得多了,这就是 marketing 啊)。 雷: 现在目下公开的中文标注文本,除了penn的ctb,还有什么? ctb中还是有不少错误的。 黄: @wei 您就辛苦些,包装包装给LDC吧。 雷: ctb也是收费的。 白: 我是深度不学习,而是深度编译。 我: 我是不深度学习(DL),而是深度分析(deep parsing)。 雷: 学习没深度。 我: 咱这帮三教九流不同背景来的,成群口相声了。 雷: @白,编译=置换? 白: 不是置换 雷: 那是什么? 白: 从句法规则映射到权值。让相应的网络在实际跑起来的时候,做的动作恰好是分析。 雷:  再把权值映射到规则? 白: 不了。 雷: 画个图? Nick: @wei 你这篇码出来就叫情到深处仍孤独。 我:yeh, deep, 情到deep仍孤独 whether deep learning or deep parsing 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|5120 次阅读|0 个评论
(译文)开始主义(Inceptionism):进入神经网络的内部
ywan 2015-9-20 04:17
下面是一篇对谷歌研发团队最新研究成果的博客(Inceptionism: Going Deeper into Neural Networks)的翻译。这项研究的主要目的是观察深度学习神经网络的某一个隐层都提取了哪些特征以及这些特征提取的的是否准确。但出人意料的是他们发现了这里面的创造性过程有可能揭示出人类大脑本身是如何进行创新的。(英文为图像版权信息) Images in this blog post are licensed by Google Inc. under a Creative Commons Attribution 4.0 International License . However, images based on places by MIT Computer Science and AI Laboratory require additional permissions from MIT for use. 人工神经网络技术引发了近期图像分类和语音识别领域的显著发展。但是即便这些都是基于大家普遍了解的数学方法之上的非常有用的工具,我们仍然对为什么某些神经网络模型有用但另外一些没有用知之甚少。下面让我们来看看用一些简单的技术来窥视一下这些神经网络的内部机制。 为了训练一个神经网络,我们通常展示给其以百万计的训练样本,并逐步调整其权重参数,直到它给了我们想要的分类结果。一个神经网络通常包含10-30个堆叠在一起的人工神经元层。每个图像首先由输入层导入,然后传递到下一层,直到到达最后的“输出”层。神经网络根据图像给出的“答案”就来源于最终输出层。 了解神经网络的挑战之一是再图像处理的每一层中都发生了些什么。我们知道经过训练的神经网络的每一层都逐步提取更抽象的图像特征,直到最后一层对图像显示的是什么做个决定。例如,第一层可能只查找图像中的物体边缘或角。中间层通过对前面收集的基本特征的理解来寻找更加整体的轮廓和构件,比如一扇门或者一片树叶。最后几层将这些整体轮廓和构件组合在一起形成对图像的完整解释 – 这些神经元只对非常复杂的对象呈现出激活反应,比如整栋建筑物或者树木。 将神经网络中每一层对图像的特征抽取进行可视化的方法之一是把该网络前后倒置,要求某一层将输入图像,以引发特定的解释。假设你想知道哪种图像会让该网络形成“香蕉”的结果,你可以一开始输入一个充满随机噪声数据的图像,然后逐渐调整该图像直到该神经网络认为它是香蕉(见相关文献 , , , )。这种方法本身效果不太显著,但是当我们加上一个限制,使整个过程中的像素分布与自然生成的图像具有相似的统计规律,比如相邻像素需要高度相关,那么效果就出来了。 所以这里有一个惊喜:经过训练后可以识别不同图像的神经网络也同时积累了可以产生图像的大量信息。看下面再不同类别的更多的例子: 为什么这很重要?好了,我们通过简单地展示给一个神经网络大量的我们希望它们学习的例子来训练它们,希望他们能够从中提取这些例子共性(例如,一把叉子由一个把柄和2-4叉齿组成),同时学会忽略不重要的东西(一个叉可以是任何形状,大小,颜色或放置方向)。但你如何检查一个神经网络是否正确学习到对象的共性特征?通过观察该神经网络对它形成的叉子的概念的展示可以有所帮助。 事实上,这种方法揭示出在某些情况下,我们认为神经网络已经找到的并不完全是我们想让它找到的东西。例如,这是我们设计的一个神经网络经过训练后认为的哑铃的样子: 没错这些图片里都有哑铃,但似乎没有一张图片里哑铃的是不带有一段充满肌肉的臂膀的。在这种情况下,该神经网络并没有完全参透哑铃的共性。也许它从来没有看到过没有一只胳膊抱着的哑铃。可视化可以帮助我们纠正类似的训练失误。 有时我们可以不去精确描述我们希望神经网络突出的特征,而是让神经网络自己做出决定。这时我们可以首先简单地给它任意图片或照片,并让它进行分析。然后,我们选择网络中的一个层,让它强调显示它抽取的特征。神经网络中的每一层抽取的特征的抽象度都不同,所以特征的抽象度取决于我们选取的层面。例如,较低层往往会产生特定笔画或简单装饰状图案,因为这些层面对边和边的方向等特征最为敏感。 Left: Original photo by Zachi Evenor . Right: processed by Günther Noack, Software Engineer Left: Original painting by G eorges Seurat . Right: processed images by Matthew McNaughton, Software Engineer 如果我们选择更高层,由于它们识别图像更复杂特征,这种方式可以使复杂特征甚至某个物体出现在画面中。这次我们仍然给我们的神经网络一张图像。我们要求它:“你如果看到了什么,就多给我一点你看到的!”这就创建了一个反馈循环:如果一朵云看起来有一点点像一只鸟,我们的网络就让使它看起来更像一只鸟。这样一来,重新读入的数据会让它更像一只鸟,直到一只看上去非常逼真的鸟好像凭空出现。 这一结果耐人寻味-即使是一个相对简单的神经网络都可用于对图像进行过渡解释,就像我们小时候喜欢看云并且喜欢将那些随机形状的云解释为我们熟悉的对象。该网络的主要训练对象是动物,所以它自然也容易将遇到的各种形状解释为动物。但是因为特征数据来自高抽象层,所以结果是这些特征的有趣混合。 当然,用这种技术我们可以做比看云更多的事情。我们可以把它适用于任何种类的图像,结果差别很大,因为强调的特征不同。例如,地平线线往往会被塔充满。岩石和树木变成建筑。鸟和昆虫出现在叶子里面.. 这一技术可以让我们了解神经网络中的某一层对图像特征的了解程度。根据我们使用的神经网络的架构,我们将其称为“开始主义 (Inceptionism)”。请参阅我们的开始注意画廊,里面有更多的图像和对它们的处理结果,还有一些很酷的视频动画。 我们必须更进一步:迭代 如果我们将该算法反复在每次输出的结果上进行迭代,并且每次在迭代前做一些放大,我们就可以得到层出不穷的新印象,探索该神经网络所了解的更多的特征。我们甚至可以从随机噪声图像开始该过程,使得最后结果成为某一个神经网络自己的作品,比如下面的图像: Neural net “dreams”— generated purely from random noise, using a network trained on places by MIT Computer Science and AI Laboratory . See our Inceptionism gallery for hi-res versions of the images above and more (Images marked “Places205-GoogLeNet” were made using this network). 这里介绍的技术可以帮助我们理解并视觉化神经网络如何进行复杂的图像分类任务,提高网络架构,并检查一下神经网络在训练期间学会了些什么东西。这也使我们联想到神经网络是否能成为一个艺术家的新工具 – 一种新的混合视觉体验的方式 – 亦或向我们揭示出一点一般性创新过程的根源所在。 原文链接
个人分类: 人工智能|6581 次阅读|0 个评论
人类会葬送在机器人手里吗
duxingren14 2015-7-31 23:35
《终结者》5正在热映,趁这个机会再聊聊这个问题。英明神武的人类一直在思考自身终结的问题,其中一个假设就是人类葬送在机器人手里。《终结者》描绘了一幅关于人类未来的悲惨景象,就是人类将来被机器人大量屠杀,被迫组建人类军队抵御机器人的围剿和绝杀。机器人会不会成为人类的威胁?这个问题自人工智能这个概念诞生之日起,就是社会和学界关注的焦点。特别是近十年来,神经网络重回生机,深度学习在图片识别、语音识别、自然语言处理等任务上的表现接近甚至超过人类,于是又引来了不少人的恐慌和忧虑。这其中包括著名的霍金和比尔盖茨。下面分享一下我个人对这个问题的看法。 我认为机器人并没有那么可怕,机器人要灭绝人类也没有那么容易,原因有三。 机器人变坏需要一定的条件,而且需要一定的过程 《终结者》当中描述的当时地球上最智能的机器人(也就是“天网”)从一开始就是以杀人和灭绝人类为目的,搞得人类防不胜防,这是一种很极端的状态,概率其实非常小。随着人工智能的发展,机器人可以产生与人类类似的动机、目的、意识、注意、情感、逻辑、想象等思维活动,机器人的行为会受这些思维活动的直接引导或者间接干预。机器人意识观念情感态度的改变,会受社会整体观念和大环境的影响,如果某一天产生了新奇的想法,也不一定就是仇恨人类,有可能是仇恨狗,仇恨其它机器人,或者讨厌超声波。即便某个机器人某天产生了仇恨人类的想法,但很小概率是最厉害的机器人。机器人也不会一开始或突然仇恨人类,而是存在一个循序渐进、思想观念渐变的过程,这个道理跟人类变坏是类似的。这个过程或快或慢,但只要有先兆,人类就有足够的时间提前预防。 有坏机器人也有好机器人, 机器之间能形成制衡 未来机器人进行智能决策的院里和人类是类似的,机器人大脑的逻辑结构也不外乎是神经网络,唯一的区别是机器人的生理基础和人类不一样,机器人是由人工材料组成、电供能、没有衰老但有死亡(因为软件过时,没人更新,性能跟不上就可能被淘汰)。人类当中有好人也有坏人,机器人当中也有好机器人和坏机器人,这个道理不难解释。人类当中的坏人给人类带来的威胁,丝毫不亚于机器人的威胁,但从历史经验来看,正义总能战胜邪恶。我觉得这个道理用到机器人也适合,机器人当中的好机器人必然能形成与坏机器人制衡的力量。何况,人类是站在好机器人一边的,人类和机器人取长补短,相互协作,必然能产生比单独机器人更大的威力。 机器人没有那么神通广大 现在机器人许多单项赛事上已经超过了人类,但在通用智能上离人类差距还有很大距离,机器人要么只会下棋,只会识别图片中的物体,只会知识竞赛,只会开车 或者只会在生产线上操作。以后发展的趋势是,机器人会在更多的单项上超过人类,而且在通用智能上越来越接近人类甚至超过人类的平均水平 (要超过人类当中的天才,需要更长时间,要以一敌百,那更不用说)。《终结者》当中的”天网“机器人要变成影片中描述的那样,与全人类为敌,需要过第一关(观念上要极端仇恨人类,没有恻隐之心),第二关(要有这个能耐,能把自己的观念克隆到其它机器,并迅速建立起一支由机器人组成的军队),听起来要比希特勒还绝。“天网”研制之初只是一个防御体系,专长在于防御,要成为“希特勒”,它得首先把自己训练成无敌黑客,这样它才能够入侵其它机器人的大脑来篡改他们的观念,然后它还得成为政治家、军事家,了解人类军事状况、了解人类动机、发现人类军队防御体系的弱点,制定相应的战争策略,指挥军队作战,再然后它还得把自己变成一个工程师,能研制和生产新的更具战斗力的机器人。好像在《终结者》当中,这三个重要的能力,”天网“都在瞬间得到(要知道,这对于人类,只有人类当中的天才花费毕生时间在反复实践中才能练就)。大家对于人工智能的一个误解是,计算机的速度如此快,机器人学新东西、获取新知识也应该是瞬间的。其实不是,机器人学习新事物、获取新技能新知识的过程也是受计算机运算速度、网速甚至能源的限制,运算速度限制了学习速率,网速限制了获取学习素材(训练样本)的速度,神经网络在训练过程中的耗能也是一个重要限制因素。现在谷歌微软百度训练的图像识别神经网络,使用了由数百台甚至数千台的带GPU的高性能计算机集群,在连续运行一周的情况下,才能训练出一个能识图的神经网络。而且,它们使用的训练数据都是人类提前给收集和标注好的(imageNet)。即便以后计算机运算速度越来越快(使用更好的GPU,或者专用芯片,甚至量子计算机),要让机器人完全凭一己之力获取 前面提到的三大技能之一,所需要的时间 、信息资源和功耗可见一斑,要制定机器人在得到这三个能力之前,这些资源都是人类给它提供的。机器人的学习效率、办事效率都受制于硬件条件和信息资源,就算集结全世界的计算机资源和信息资源来“服务”这个机器人,有些能力在纯虚拟的计算场景下也是获取不到的。 这篇文章的主要告诉大家人工智能其实没有那么可怕。但笔者仍然强调,人类还是有必要保持一颗忧患的心。人工智能技术的广泛应用是不可阻挡的潮流,我们在利用它为人类造福的同时,也应该把更多的精力放在如何更好地控制它、如何更好地让人机和谐相处、互敬互爱。
个人分类: 人工智能|3878 次阅读|0 个评论
文本分析总结
热度 1 leolin 2015-7-16 10:57
文本分析又称为观点挖掘,旨在通过对文本特征的选取并量化来实现文本信息表达。传统文本分析是通过对人们的观点、情绪、评论和态度进行有效挖掘的一项技术。主要内容包括文本信息分类、抽取和应用 。文本分析将文本从一个无结构的原始文本转化为结构化的计算机可以识别的矢量信息。通过对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来结构化文本向量,即直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维(向量的维度数目将高达几万维,造成“维度灾难”)。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,除了对文本做预处理外,我们还通过卡方检测、词频逆文档和信息增益等方法来降维。之后再利用支持向量机、贝叶斯、最大熵和随机森林等机器学习方法构建合适的分类回归模型。 以上文本分析所用的机器学习策略,被称为浅层学习。针对浅层学习的研究最早由 Pang 等人 在由两个类别组成的电影评论领域进行了实验,结果表明借助于 naiveBayesian 和 SVM 都能取得较好的分类效果。 Bo Pang 等人 对文本分析的发展历史做出归纳,指出对认知系统的研究 可以作为文本分析的先驱。之后文本分析的研究主要集中在文本中隐喻、叙述的解释,文本的观念、情感和与之相关的领域实践。浅层学习在实际建模的过程中使用到的函数简单,计算方法容易实现,计算量小,在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制,同时对于复杂的分类问题的泛化能力也在一定程度上受到制约。 相对浅层机器学习, Hinton 等 提出了深度学习( Deep Learning )。深度学习概念是来自于对人工神经网络的研究(多层感知器( MLP , MultilayerPerceptron )就是一种前馈人工神经网络模型,属于一种深度学习结构 ) 。分布式的特征表示方式是深度学习相较于浅层学习的一个重大进步。深度学习通过将底层特征进行组合,形成更加抽象的高层特征形式,并在此基础上获得样本数据的分布式表示 。这些分布式特征通过深度学习神经网络结构中的多个隐层结构逐层计算获得。然而,深度学习的网络结构因其涉及到多个非线性的处理单元层而导致它的非凸目标的代价函数计算过程中普遍存在着局部最小的问题,优化的过程中极有可能在找到全局最小值之前因局部最小值的出现而终止了优化的计算,这也正是深度学习在训练上比较困难的主要原因。尽管深度学习有着这样的困难,但深度学习具有多层结构,且这些结构之间均是非线性映射的,这使得深度学习可以很好的完成复杂函数的逼近,这也是深度学习能够成功应用的优势之一,让很多研究者趋之若鹜,让深度学习成为当前机器学习研究的热点课题。 国内外关于文本分析研究现状如下: 目前,文本分析研究的方法可以分为采取基于规则的方法和基于统计学习的方法。就前者而言,大部分的工作集中于分析规则的制定,这部分工作需要消耗大量的人力和时间,而且当目标样本中的语言现象较多或者较为复杂的时候,规则的制定就是一项非常艰难的任务。而且这种方法与研究目标紧密关联,导致制定的规则的迁移性非常差。这种方法往往利用情感词典、领域词典以及文本中的组合评价单元来获取最终的文本情感极性、评价词抽取和评价词语判别 。目前,多数研究文本分析的学者采用基于统计学习的方法学习目标样本的特征,并根据特征的分布对文本做出类别的判断。文本分析根据研究的任务可划分为文本信息分类和文本信息抽取两类。文本信息分类又可以依据划分的类别分为二元分类,即褒贬分类,和多元分类,如褒义,贬义和中性三类。根据研究的粒度可划分为篇章级分析、段落级分析、句子级分析以及属性级分析四类(已有文献中大多数的研究成果都是篇章级或者是句子级的文本分析研究)。基于统计学习的方法,大致可以归纳为三类:有监督方法,无监督方法以及半监督方法。其中有监督学习方法以 pang 在 2002 年的文献 为代表,学习方法有朴素贝叶斯、支持向量机和最大熵。 文本分析除了情感分析外,还有情感文摘、实体抽取、新闻文摘和文本分类等其他运用。实质上,这些运用都是使用不同的文本特征提取方法,使用机器学习或者规则作为工具的分类任务。以观点持有者实体抽取为例:有学者 将句子分词序列化后借助于命名实体识别规则来获取观点持有者,也有学者 曾尝试借助语义角色规则标注来完成观点持有者的抽取。 还有学者将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。如 Choi 将其看作 一个序列标注问题 , 并使用 CRF (conditional random field) 模型融合各种特征来完成观点持有者的抽取。相似地, Kim 将所有名词短语都视为候选观点持有者,使用 ME(maximumentropy) 模型来进行计算。这些方法较为依赖自然语言处理的基础技术,语言覆盖低和领域适应性差。 随着技术的发展和科技的进步,人们对分类与回归任务的要求也随之增高。就在此时,深度学习兴起。深度学习的提出者 Hinton 曾经非正式的指出的:“机器学习的第一次浪潮是浅层学习,深度学习则是机器学习的第二次发展浪潮”。目前, Hinton 的观点越来越被人们所接受。人们将焦点转移到深度学习的研究上,掀起了深度学习的研究热潮。 早期的深度学习应用于文本分析围绕语言模型(语言模型即判别一句话是否符合人类语法要求和使用习惯的模型)进行。用神经网络训练语言模型的思想最早由百度 IDL 的徐伟 于 2000 提出,提出一种用神经网络构建二元语言模型的方法。 Bengio 等 在 2003 提出三层的神经网络来构建语言模型 , 同样也是 n-gram 模型 , 根据这已知的 ( n−1 )个词,预测下一个词 。整个模型中使用的是一套唯一的词向量,并使用随机梯度下降法把这个优化模型,得到的语言模型自带平滑,无需传统 n-gram 模型中那些复杂的平滑算法。 2006 年, GeoffreyHinton 在《 Science 》发表了文献,指出两个重要观点:其一,多隐层的人工神经网络具备着优异的学习特征的能力,它学习到的特征对样本数据有着更加本质的刻画,使其更加有利于图像可视化或者文本等的分类任务;其二,深度神经网络在训练的时候存在一定的难度,可通过“逐层初始化”( layer-wise pre-training )的方法有效克服。 Hinton 在文章采用无监督学习实现逐层初始化工作 。 Hinton 在文献 中提到的深度学习方法是机器学习研究的一个新的领域,它的动机是建立、模拟人脑的分析学习的神经网络,模仿人脑的机制进行数据的解释,比如声音,图像和文本。深度学习方法的自编码网络是无监督的一种,在文章中提出了使用快速学习的办法,主要分为两步:第一步,每次训练其中一层网络,第二步是调优,保证原始的表示 x 向上产生的高级表示 r 和向下产生的表示 x ’尽可能的保持一致。这一思想在本文提出的基于深度学习的方法处理文本分析问题时依然被采纳。 除此之外, Lecun 等人在文献 中采用的是卷积神经网络( CNNs , Convolutional Neural Networks ),这是第一个真正具有多层结构的学习算法,它使用空间的相对关系来减少参数数目进而提高 BP ( BackPropagation )训练性能。深度学习研究中还有许多的变形结构,比如文献 中采用的去噪自动编码器( DenoisingAutoencoders ),文献 中使用的 DCN 方法,文献 中提出的 sum-product 方法等。 目前,深度学习的方法在词编码( Word Embedding )上取得了卓越的成效。词编码不同于传统词向量。传统词向量使用的每个维度表示特定的词,出现为 1 ,否则为 0 ,词编码的每个维度表示某种语义信息,从大量未标注的普通文本数据中无监督地学习出词向量。目前词向量研究最经典的文献为 CW 2011 、 MH 2008 和 Mikolov 2012 。 CW 的工作而在于用这份词向量去完成 NLP 里面的各种任务,比如词性标注、命名实体识别、短语识别和语义角色标注等。直接去尝试近似 t 个词的概率 P(w1,w2,…,wt) ,求窗口连续 n 个词的打分 f , f 越高的说明这句话越正常;打分低的说明这句话不是太合理;如果是随机把几个词堆积在一起将会是负分。打分只有相对高低之分,并没有概率的特性。有了这个对 f 的假设, CW 就直接使用 pair-wise 的方法训练词向量。他们在实验中取窗口大小 n=11 ,字典大小 |V|=130000 ,在维基百科英文语料和路透社语料中一共训练了 7 周,终于得到了所需要的词向量。 MH 的工作提出了一种层级的思想替换了 Bengio 的方法中最后隐藏层到输出层最花时间的矩阵乘法,在保证效果的基础上,同时也提升了速度, Mikolov 在 Bengio 的研究基础上,使用循环神经网络( Recurrent neural network )降低参数个数,并在准确率和算法效率上进行各种尝试。循环神经网络与前面各方法中用到的前馈网络在结构上有比较大的差别,但是原理还是基于多层神经网络模型。 目前深度学习用到文本分析的方法中可以归纳为两种: 1. 训练词向量直接用于神经网络模型的输入层。如 CW 的 SENNA 系统中,将训练好的词向量作为输入,用前馈网络和卷积网络完成了词性标注、语义角色标注等一系列任务。再如 Socher 将词向量作为输入,用递归神经网络完成了句法分析、情感分析等多项任务。 2. 作为辅助特征扩充现有模型。如 Turian 将词向量作为额外的特征加入到接近 state of the art 的方法中,进一步提高了命名实体识别和短语识别的效果。 国内使用词编码或者深度学习的研究学者并不多,但是正处于上升阶段,其中以贺宇和梁军等人为代表。贺宇等人 使用自编码算法,研究中文评论具有是否具有解释性的二分类问题 。梁军 使用递归神经网络对微博情感进行划分。两人工作都具有一定的创新性。 参考文献: 赵妍妍 , 秦兵 , 刘挺 . 文本情感分析 . 软件学报 ,2010,08:1834-1848. Pang B, Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learningtechniques //Proceedings of the ACL-02 conference on Empirical methods innatural language processing-Volume 10. Association for ComputationalLinguistics, 2002: 79-86. Pang B, Lee L.Opinion mining and sentiment analysis . Foundations and trends in informationretrieval, 2008, 2(1-2): 1-135. Carbonell J G.Subjective Understanding: Computer Models of Belief Systems . YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979. Wilks Y, Bien J.Beliefs, Points of View, and Multiple Environments* . Cognitive Science,1983, 7(2): 95-119. Carbonell J G.Subjective Understanding: Computer Models of Belief Systems . YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979. Esuli A, SebastianiF. Sentiwordnet: A publicly available lexical resource for opinionmining //Proceedings of LREC. 2006, 6: 417-422. Turney P. Mining theweb for synonyms: PMI-IR versus LSA on TOEFL . 2001. Riloff E, Wiebe J,Phillips W. Exploiting subjectivity classification to improve informationextraction //Proceedings of the National Conference On ArtificialIntelligence. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press;1999, 2005, 20(3): 1106. Bakliwal A, Arora P,Madhappan S, et al. Mining sentiments from tweets . Proceedings of the WASSA,2012, 12. Kamps J, Marx M J,Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives .2004. Dave K, Lawrence S,Pennock D M. Mining the peanut gallery: Opinion extraction and semanticclassification of product reviews //Proceedings of the 12th internationalconference on World Wide Web. ACM, 2003: 519-528. Golder S A, Macy M W.Diurnal and seasonal mood vary with work, sleep, and daylength across diversecultures . Science, 2011, 333(6051): 1878-1881. Kim SM, Hovy E.Determining the sentiment of opinions. In: Nirenburg S, ed. Proc. of the Coling2004. Morristown: ACL, 2004. 1367−1373. Kim SM, Hovy E.Extracting opinions, opinion holders, and topics expressed in online news mediatext. In: Dale R, Paris C, eds. Proc. of the ACL Workshop on Sentiment andSubjectivity in Text. 2006. 1−8. Choi Y, Cardie C,Riloff E. Identifying sources of opinions with conditional random fields andextraction patterns. In: Mooney RJ, ed. Proc. of the HLT/EMNLP 2005.Morristown: ACL, 2005. 355−362. Kim SM, Hovy E.Identifying and analyzing judgment opinions. In: Bilmes J, et al., eds. Proc.of the Joint Human Language Technology/North American Chapter of the ACL Conf.(HLT-NAACL). Morristown: ACL, 2006. 200−207. Xu W, Rudnicky A I.Can artificial neural networks learn language models? . 2000.] Bengio Y, DucharmeR, Vincent P, et al. A neural probabilistic language model . The Journal ofMachine Learning Research, 2003, 3: 1137-1155. Hinton G. E.,Salakhutdinov R. R. Reducing the Dimensionality of Data withNeural Networks . Science, Vol. 313. No. 5786, 2006, 28(7): 504-507 . Hinton G. E.,Osindero S. A fast learning algorithm for deep belief nets .NeuralComputation, 18, 2006: 1527-1554 Joachims T.Transductive inference for text classification using support vectormachines . Proceedings of the 16th International Conference on MachineLearning. SanFrancisco, CA, USA: Morgan Kaufmann, 1999: 200-209 . Blum A, Chawla S.Learning from labeled and unlabeled data using graphmincuts . Proceedings ofthe 18th International Conference on Machine Learning. San Francisco, CA, USA:Morgan Kaufmann, 2001: 19-26 . Szummer M, JaakkolaT. Partially labeled classification with Markov random walks . Advances inNeural Information Processing Systems 14: Proceedings of the 2001 Conference.Cambridge, MA, USA: MIT Press, 2001: 945-952 . Chapelle O, Weston J,Schoelkopf B. Cluster kernels for semi-supervised learning . Advances inNeural Information Processing Systems 15: Proceedings of the 2002 Conference.Cambridge, MA, USA: MIT Press, 2002:585-592 . Ronan Collobert,Jason Weston, Léon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing (Almost) fromScratch. Journal of Machine Learning Research (JMLR), 12:2493-2537,2011. Andriy Mnih Geoffrey Hinton. A scalable hierarchical distributed language model. TheConference on Neural Information Processing Systems (NIPS) (pp. 1081–1088).2008. Mikolov Tomáš.Statistical Language Models based on Neural Networks. PhD thesis, BrnoUniversity of Technology. 2012. Eric Huang, RichardSocher, Christopher Manning and Andrew Ng. Improving word representations via globalcontext and multiple word prototypes.Proceedings of the 50th Annual Meeting of the Association forComputational Linguistics: Long Papers-Volume 1. 2012. Turian Joseph, LevRatinov, and Yoshua Bengio. Wordrepresentations: a simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for ComputationalLinguistics (ACL). 2010. 贺宇 , 潘达 , 付国宏 . 基于自动编码特征的汉语解释性意见句识别 . 北京大学学报 ( 自然科学版 ), 2015, 2: 006. 梁军 , 柴玉梅 , 原慧斌 , 等 . 基于深度学习的微博情感分析 . 中文信息学报 , 2014, 28(5): 155-161.
5933 次阅读|2 个评论
基于cuda的深度学习资料记录
lorrin 2015-3-17 15:23
1. 安装cuda+caffe http://www.cnblogs.com/platero/p/3993877.html http://blog.csdn.net/u013476464/article/details/38071075 2. 配置python+QT+eric开发平台 http://blog.csdn.net/idber/article/details/40076821 3. theano学习 1)http://www.cnblogs.com/xueliangliu/archive/2013/04/03/2997437.html
1803 次阅读|0 个评论
值得好好看的深度学习的网页
lorrin 2015-2-25 11:24
一个值得好好看的深度学习的网页 http://www.36dsj.com/archives/19285 今天第一次接触到深度学习,这个专题网页可以快速知晓什么是深度学习。 http://blog.csdn.net/zouxy09/article/details/8775360, 翻译和总结的相当好。 Stanford 教授 Andrew Ng的机器学习教程链接(中英文版): http://deeplearning.stanford.edu/wiki/index.php/UFLDL http://ufldl.stanford.edu/tutorial/ 总结很好的学习blog http://www.cnblogs.com/tornadomeet/tag/Deep%20Learning/ 机器学习干货网 http://www.52ml.net/categories/DeepLearning
1919 次阅读|0 个评论
深度学习火了: 最大汇集剽窃?
热度 5 wengjuyang 2015-1-22 11:51
深度学习是指一种人工神经网络的学习。这种神经网络由多个非线性处理层连成一个级联结构。深度学习近来引起了工业界的广泛兴趣 , 如谷歌、微软、 IBM 、三星、百度等。我汇报一个称为生长认知网 (Cresceptron) 的深度学习网的关键机制——现在所熟知的最大汇集 (max-pooling) ——并向读者请教是不是 HMAX 网剽窃了生长认知网。在这篇报道中我并不声称这就是剽窃。 2014 年8月,《国际新闻界》期刊发布了一则消息, 称北京大学博士研究生于艳茹女士在此期刊的2013 年第7期发表了一篇论文。此论文剽窃了妮娜·吉尔波特在《十八世纪研究》期刊的1984 年第4期上发表了的另一篇论文。《国际新闻界》撤销了这篇剽窃论文, 并对作者作了惩罚。这则消息被广为报道,包括了BBC 中文网站。于艳茹是一个研究生, 但以下牵涉到一个资深研究员。 梅里厄姆 -韦伯斯特在线词典为剽窃词条的定义为:“偷窃或冒充(其他人的思想或语句) 当作自己的;使用(其他人的成果) 而没有指出来源。”  1991 年之前,深度网被用于识别单个的两维手写数字上。那时的三维物体识别还是使用基于三维模型的方法——找出两维图像与一个手工建造了的三维物体模型之间的匹配。 翁巨扬等人假设人脑内没有任何整块的三维物体模型。他们于 1992 年发表了生长认知网(Cresceptron) 。其目的是从自然的和混杂的两维图像中检测和识别学习过的三维物体并从这些两维图像中分割出识别了的物体。机器学习了的物体的实验例子 , 包括了人脸、人体、步行道、车辆、狗、消火栓、交通标志牌、电话机、椅子、桌面计算机。自然和混杂的实验场景 , 包括了电视节目场景、大学校园户外场景、室内办公室场景。生长认知网内的表示是由很多物体共享的分布式特征检测器的反映。 生长认知网是全发育性的 , 即它通过经验来增量地生长和适应。它由一个级联的多个非线性处理模块组成。每个模块由几个层组成。每个模块的前层由一或二层被称为模板匹配层的处理层构成。每个模板匹配层进行卷积运算——每个卷积核从一个位置学了然后用到所有其它位置上去,这样这个特征可以被用到其它所有位置上去检测。所以, 卷积是为了层内的位移不变性。 但是 , 一个主要的挑战是训练图像的数目是有限的。为了识别相似但生长认知网没有观察到过的图像,它必须宽恕物体图像的变形。 生长认知网有一个宽恕物体图像变形的关键机理是在每个模块里用 2x2 到1 的方法减少结点,用一个取最大值的运算。这相当于在每个2x2 结点组里对4 个发放率做了一个逻辑或。在1993 年发表的生长认知网论文 给出了执行最大汇集的层次化最大运算的数学表达式。 现在这被称为最大汇集。譬如 , 查看于尔根·史密贺伯(JuergenSchmidhuber) 关于深度学习的一篇综述文章 。根据这篇综述文章,生长认知网是第一次用了最大汇集。“最大汇集广泛地应用在今天的深度前馈神经网络” 。 譬如, 图像网(ImageNet) LSVRC-2010 和ILSVRC-2012 竞赛的第一名使用了由先卷积后最大汇集的模块而组成的级联结构 。 1994 年10月19 日, 应托马索·泼吉奥教授的友善的邀请,翁巨扬在在麻省理工学院的生物和计算学习中心给了一个演讲。在麻省理工学院的一个研讨会会场内, 几乎座无虚席, 他作了题为“视觉学习的框架”的演讲, 介绍了生长认知网。翁巨扬说他很感激这次旅行, 其机票和膳宿是由接待方支付的。 翁巨扬对我解释说 , 这个层次最大汇集结构至少有四个优点:(1) 层次地宽恕局部的位置扭曲, (2) 增加感受野的大小的同时不一定要增加卷积核的大小,因为大卷积核在计算上很昂贵, (3) 减少特征检测的密度来宽恕特征模板匹配的误差,(4) 允许局部漏失(譬如因遮挡而造成的部件的缺失), 由于4 个数的最大值与其它三个较小的值无关。 尽管如此 , 最大汇集不保证深度卷积网的输出不随着物体在像素平面上的平移而变。这一点在生长认知网的全细节期刊论文 内有解释。与此同时, 深度级联结构还是根本性地弱——因为它没有任何机制来像人脑能做的那样为训练集和测试集自动地进行图形-背景分割。而更加新的发育网(DN) 有这样的机能 ,是通过增量和自主的发育途径实现的。 在翁巨扬的 1994 年10 月19日在麻省理工学院的访问后大约五年后, 马克思米兰·里森贺伯和托马索·泼吉奥在《自然神经科学》发表了一篇论文 。这篇投稿1999 年6 月17日收到。它的摘要写道:“令人惊奇地, 量化模型几乎还没有... 我们叙述一个新的层次模型... 这个模型是基于类似最大的操作。”它的图2 的图解引用了福岛邦彦 , 但全文没有为这个模型的关键性最大运算引用过生长认知网或它的最大汇集方法。 福岛邦彦 手选了特别层来降低位置精度 ,但是没有用最大汇集的两个关键机理:(1)最大化运算(看 的等式(4)),和(2)在整个网络里用机算机自动地逐级降低位置精度。 后来托马索·泼吉奥把他们自己的模型称作 HMAX 但 还是没有引用生长认知网。 为了调查是不是思想剽窃 ,譬如 ,比较 的124 页的左列显示公式, 的公式(17), 的1024 页左列的最后一行里的公式, 和 的公式(3)。也比较 的图10(c) 和 的图2 中的虚线箭头 。 由于引入一些关键系统结构的机制 , 如最大汇集, 和大规模平行计算机越来越实用,如显卡平行计算, 深度学习网络在一些模式识别任务的很多测试中展示了持续增加的性能,日益吸引了工业界的兴趣, 如谷歌、微软、IBM、三星、百度等。 自然出版集团的关于剽窃的政策文件规定 :“关于已经出版了的结果的讨论: 当讨论其他人的出版了的结果时, 作者必须恰当地描述这些先前结果的贡献。知识的贡献和技术开发两者都必须相应承认和妥当地引用。” 例如 , 有一篇文章 的一个段落改述了一个贡献而没有引用此贡献的出处被两个独立的委员会, 审查委员会和调查委员会,判定为剽窃 . 为了此问题翁巨扬曾尊重地并私下地几次和托马索·泼吉奥教授联系但他没有回答。翁巨扬说 :“希望你提起这个问题不会激怒托马索·泼吉奥教授。他是我尊敬的老师之一,因为他的早期文章在我1983 年至1988 年期间当研究生时向我介绍了处于早期的计算脑科学。” 1997 年托马索·泼吉奥教授光荣地成为一名美国艺术和科学院院士。 (此文作者: Juan L. Castro-Garcia ) 参考文献 K. 福岛(Fukushima).“Neocognitron: 一个自组织的神经网络模型为了一个不受位置平移影响的模式识别的机能,”生物控制论,36,193-202,1980. A. 科里兹夫斯基(Krizhevsky),I. 苏兹凯夫(Sutskever), and G.辛顿(Hinton).“用深度卷积网络归类图像网,”在神经信息处理系统的进展25,1106–1114, 2012 年. Z. 麦克米林(McMillin).“密西根州立大学一个教授承认在2008年的一篇文章内剽窃,”州消息报, 2010 年4 月6日. M. 里森贺伯(Riesenhuber),T.泼吉奥(Poogio). “脑皮层内物体识别的层次模型,”自然神经科学, 2(11):1019–1025, 1999. J. 史密贺伯(Schmidhuber).“在神经网络里的深度学习: 一个综述,”技术报告IDSIA-03-14, 瑞士人工智能实验室IDSIA, 瑞士, 马诺-路伽诺(Manno-Lugano),2014 年10 月8 日. T. 希瑞(Serre),L. 沃尔夫(Wolf),S.拜尔斯基(Bileschi),M. 瑞森哈勃(Riesenhuber),T. 泼吉奥(Poggio). “似皮层机制的鲁棒的对象识别,”IEEE 模式分析与机器智能学报,29(3),411-426 2007. M. B. 思狄克棱(Sticklen). “撤回: 生物燃料生产的植物基因工程: 面向負擔得起的纤维素乙醇,”自然综述基因学, 11(308), 2008. J. 翁(Weng). 自然和人工智能: 计算脑心智导论 , BMI 出版社, 密西根, 欧科模斯, 2012. J. 翁(Weng)N. 阿乎嘉(Ahuja), T. S. 黄(Juang).“Cresceptron: 一个自组织的神经网络适应性地生长,” 国际联合神经网络会议录(IJCNN), 美国, 马里兰州, 巴尔的摩市, 第1卷(576-581),1992 年6 月. J. 翁(Weng)N.阿乎嘉(Ahuja), T. S. 黄(Juang). “学习从两维图像识别和分割三维物体,”IEEE 第4 届国际计算机视觉会议录(ICCV)”121-128, 1993 年5 月. J. 翁(Weng)N.阿乎嘉(Ahuja), T. S. 黄(Juang). “用生长认知网学习识别和分割,”国际计算机视觉期刊(IJCV),25(2),109-143,1997 年11 月. J. 翁(Weng),M. D. 卢契(Luciw), “脑启发的概念网: 从混杂的场景中学习概念,”IEEE 智能系统杂志,29(6), 14-22, 2014 年. Deep Learning is Hot: Max-Pooling Plagiarism? By Juan L. Castro-Garcia Deep learning is a term that describes learning by an artificial neural network that consists of acascade of nonlinear processing layers. Deep learning networks have recently attracted great interest from industries, such as Google, Microsoft, IBM,Samsung, and Baidu. I report a key architecture mechanism of deep learning network Cresceptron — well-known now as max-pooling — and ask the readerwhether HMAX plagiarized Cresceptron. In this report I do not claim that this is a plagiarism. August 2014, the Chinese Journal of Journalism Communication, announced that Ms. Yu,Yanru, a PhD student at Peking University, published an article in the journal,issue 7, 2013, that plagiarized from another article by Nina R. Gelbertpublished in the Eighteen-Century Studies journal, issue 4, 1984. The plagiarizing article was withdrawn from the journal and the author was disciplined by the journal. This announcement was widely reported, including BBC China online. Ms. Yu, Yanru was agraduate student, but the following involves a senior researcher. The word “plagiarize”was defined in the Merriam-Webster online dictionary: “to steal and pass off(the ideas or words of another) as one’s own; use (another’s production) withoutcrediting the source.” Until 1991, deep neuralnetworks were used for recognizing isolated two-dimensional (2-D) hand-writtendigits. Three dimensional (3-D) object recognition until then used 3-D model-based approaches— matching 2-D images with a handcrafted 3-D object model. Juyang Weng et al. assumed that inside a human brain a monolithic 3-D object model does not exist, although one may subjectively feel otherwise. They published Cresceptron in 1992 fordetecting and recognizing learned 3-D objects from natural and cluttered 2-D images and for segmenting the recognized objects from the 2-D images. Experimental examples of the learned objects , included human faces,human bodies, walkways, cars, dogs, fire hydrants, traffic signs, telephones, chairs, and desktop computers. Experimental examples of the natural andcluttered scenes , included TV program scenes, university campus outdoors, and indoor offices. Representations in Cresceptron are responses of distributed feature detectors that share among many objects. A Cresceptron is fully developmental in the sense that it incrementally grows and adapts through experience. It consists of a cascade of nonlinear processing modules where each module consists of a number of layers. Early layers in each module consist ofone or two pattern matching layers where each layer performs convolution — each convolution kernel learned at one image location is applied to all otherlocations so that the same feature can be used to detect at all other locations. Therefore, the convolution is for within-layer shift-invariance. However, a key challenge is that the number of training samples is limited. In order to recognize similar object views that Cresceptron has not observed, it must tolerate deformation in object views. The key mechanism in Cresceptron to tolerate deformation is the (2x2) to 1 reduction of nodes in every module using a maximization operation, to implement a Logic-OR for the firing rates of each group of (2x2) neurons. The 1993 publication of Cresceptron gave the mathematical expression forhierarchical max operations in the max-pooling. This is now commonly called max-pooling, see, e.g., a deeplearning review by Juergen Schmidhuber . According to the review, Cresceptronwas the first to use max-pooling. “Max-pooling is widely used in today’s deep feedforward neural networks” . For example, the winner of ImageNet LSVRC-2010 and ILSVRC-2012 contests used an architecture of a cascade ofmodules in which convolution layer(s) are followed by a max-pooling layer . Kindly invited by Prof. Tomaso Poggio, Weng gave a talk atthe Center for Biological and Computational Learning, Massachusetts Instituteof Technology, Cambridge, Massachusetts (MIT), Oct. 19, 1994. In a seminar roomat MIT that was an almost full audience, he presented Cresceptron under thetitle “Frameworks for Visual Learning.” Weng said that he greatly appreciatedthe visit with the host paying for the air ticket and accommodations. Weng explained to me that the hierarchical max-pooling hasat least four advantages: (1) hierarchical tolerance of local location deformation, (2) increasing the size of receptive fields without necessarily increasing the size of the convolution kernels because large convolution kernels are computationally veryexpensive, (3) reduction of feature detection density to tolerate feature-template matching errors, and (4) permit local dropouts (absence ofcomponents due to, e.g., occlusions) because the maximum of the four values is independent with the three smaller values. However, hierarchical max-pooling does not guarantee that theoutput of the deep convolutional networks is invariant to object shifts in the pixel plane, as explained in the fully detailed 1997 journal publication of Cresceptron . Furthermore, the deep cascade architecture is still fundamentally weak — regardless the size of training set and the power of computers— because it does not have any mechanism to do, like what a brain can,figure-ground automatic segmentation on training sets and testing sets. Thenewer Developmental Network (DN) architecture has such a mechanism , through autonomous and incremental development. About five years after Weng’s MIT visit Oct. 19, 1994,Maximilian Riesenhuber and Tomaso Poggio published a paper in NatureNeuroscience that was received June 17, 1999. Its abstract reads “Surprisingly,little quantitative modeling has been done ... We describe a new hierarchicalmodel ... The model is based on a MAX-like operation ... ” Its Fig. 2 captioncited Kunihiko Fukushima but the entire paper did not cite Cresceptron or its max-pooling method for the key max operation in their model. Fukushima handpicked particular layers to reduce thelocation precision, but he did not use the two major mechanisms of max-pooling:(1) maximization operation (see Eq. (4) in ) and (2) computer automatic reduction of the location resolution through every level of the network. Later, Tomaso Poggio called their model HMAX but still didnot cite Cresceptron. To investigate whether idea plagiarism took place, forexample, compare the left-column display equation on page 124 of , Eq. (17)of , the last equation in the last line of the left column on page 1024 of , and Eq. (3) of .Also compare Fig. 10(c) of and the dashed arrows in Fig. 2 of . Due to the introduction of some key architecture mechanismslike max-pooling and the practicality of massively parallel computers such as GPUs, deep learning networks have shown increasing performance in many tests for some pattern recognition tasks and have attracted increasing interest from industries, suchas Google, Microsoft, IBM, Samsung, and Baidu. The Nature Publishing Group’s policy document on plagiarism reads:“Discussion of published work: When discussing the published work of others,authors must properly describe the contribution of the earlier work. Both intellectual contributions and technical developments must be acknowledged assuch and appropriately cited.” For example, a paragraph within a paper that paraphraseda contribution without attribution to the contribution source was found by two independent committees, inquiry and investigative, to be a plagiarism . Respectfully and privately, Weng contacted Prof. Poggio a few times with regard to this issue but he did not reply. Weng said: “I wish that your raising this issue does not upset Prof. Tommy Poggio. He is one of my respected teachers because his early papers introduced me to computational neuroscience at its early stage when I was a graduate student 1983-1988.” 1997 Prof. Poggio was elected as a fellow of the American Academy of Arts and Sciences (AAAS). REFERENCES K. Fukushima. Neocognitron: A self-organizing neuralnetwork model for a mechanism of pattern recognition unaffected by shift inposition. Biological Cybernetics, 36:193–202, 1980. A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in NeuralInformation Processing Systems 25, pages 1106–1114, 2012. Z. McMillin. MSU professor admits to plagiarism in 2008 article. The State News , April 6,2010. M. Riesenhuber and T. Poggio. Hierarchical models of object recognition in cortex. Nature Neuroscience , 2(11):1019–1025, 1999. J. Schmidhuber. Deep learning in neural networks: Anoverview. Technical Report IDSIA-03-14, The Swiss AI Lab IDSIA, Manno-Lugano,Switzerland, October 8 2014. T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, and T.Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Analysis and Machine Intelligence, 29(3):411–426, 2007. J. Weng. Natural and Artificial Intelligence: Introduction to Computational Brain-Mind . BMI Press, Okemos, Michigan, 2012. J. Weng, N. Ahuja, and T. S. Huang. Cresceptron: A self-organizing neural network which grows adaptively. In Proc. Int’l Joint Conference on Neural Networks, volume 1, pages 576–581, Baltimore, Maryland,June 1992. J. Weng, N. Ahuja, and T. S. Huang. Learning recognitionand segmentation of 3-D objects from 2-D images. In Proc. IEEE 4th Int’l Conf.Computer Vision, pages 121–128, May 1993. J. Weng, N. Ahuja, and T. S. Huang. Learning recognition and segmentation using the Cresceptron. International Journal of Computer Vision , 25(2):109–143, Nov. 1997. J. Weng and M. D. Luciw. Brain-inspired conceptnetworks: Learning concepts from cluttered scenes. IEEE Intelligent Systems Magazine , 29(6):14–22, 2014.
个人分类: 生活科学|10189 次阅读|22 个评论
Deep Learning 深度学习 学习教程网站集锦
fendi 2014-12-20 12:50
学习笔记: 深度学习是机器学习的突破 2006-2007年,加拿大多伦多大学教授、 机器学习 领域的泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》以及在Neural computation 和 NIPS上发表了4篇文章,这些文章有两个主要观点: 1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类; 2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。 在其后2012年GOOGLE BRAIN应用深度学习实现了对’猫‘特征的无监督学习后,正式 开启了深度学习在学术界和工业界的浪潮。 深度学习是 机器学习 研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无监督学习的一种。 深度 学习 的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的 分布式 特征表示。 当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据 分布式 表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。(多层的好处是可以用较少的参数表示复杂的函数,比 如下图中的右图,即将复杂函数分解成多层函数递进表示) 深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度 模型 ”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将 样本 在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来 学习 特征,更能够刻画数据的丰富内在信息。 如下是深度学习的非常好的一批教程网站 ufldl的2个教程(入门绝对的好教程,Ng的,逻辑清晰有练习):一 ufldl的2个教程(入门绝对的好教程,Ng的,逻辑清晰有练习):二 Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考 deeplearning.net主页,里面包含的信息量非常多,有software, reading list, research lab, dataset, demo等,强烈推荐,自己去发现好资料。 Deep learning的toolbox,matlab实现的,对应源码来学习一些常见的DL模型很有帮助,这个库我主要是用来学习算法实现过程的。 2013年龙星计划深度学习教程,邓力大牛主讲,虽然老师准备得不充分,不过还是很有收获的。 Hinton大牛在coursera上开的神经网络课程,DL部分有不少,非常赞,没有废话,课件每句话都包含了很多信息,有一定DL基础后去听收获更大。 Larochelle关于DL的课件,逻辑清晰,覆盖面广,包含了rbm系列,autoencoder系列,sparse coding系列,还有crf,cnn,rnn等 。 虽然网页是法文,但是课件是英文。 CMU大学2013年的deep learning课程,有不少reading paper可以参考。 达慕思大学Lorenzo Torresani的2013Deep learning课程reading list. Deep Learning Methods for Vision(余凯等在cvpr2012上组织一个workshop,关于DL在视觉上的应用)。 斯坦福Ng团队成员链接主页,可以进入团队成员的主页,比较熟悉的有Richard Socher, Honglak Lee, Quoc Le等。 多伦多ML团队成员链接主页,可以进入团队成员主页,包括DL鼻祖hinton,还有Ruslan Salakhutdinov , Alex Krizhevsky等。 蒙特利尔大学机器学习团队成员链接主页,包括大牛Bengio,还有Ian Goodfellow 等。 纽约大学的机器学习团队成员链接主页,包括大牛Lecun,还有Rob Fergus等。 Charlie Tang个人主页,结合DL+SVM. 豆瓣上的脑与deep learning读书会,有讲义和部分视频,主要介绍了一些于deep learning相关的生物神经网络。 Large Scale ML的课程,由Lecun和Langford讲的,能不推荐么。 Yann Lecun的2014年Deep Learning课程主页。 视频链接 。 吴立德老师《深度学习课程》 一些常见的DL code列表,csdn博主zouxy09的博文,Deep Learning源代码收集-持续更新… Deep Learning for NLP (without Magic),由DL界5大高手之一的Richard Socher小组搞的,他主要是NLP的。 2012 Graduate Summer School: Deep Learning, Feature Learning,高手云集,深度学习盛宴,几乎所有的DL大牛都有参加。 matlab下的maxPooling速度优化,调用C++实现的。 2014年ACL机器学习领域主席Kevin Duh的深度学习入门讲座视频。 R-CNN code: Regions with Convolutional Neural Network Features. 以上文字和网站链接资料摘编自如下网址: http://www.myexception.cn/other/1266691.html http://www.cnblogs.com/tornadomeet/archive/2012/05/24/2515980.html 另外给出2006年的3篇关于深度学习的突破性论文: Hinton, G. E., Osindero, S. and Teh, Y.,A fast learning algorithm for deep belief nets. Neural Computation 18:1527-1554, 2006 Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle,Greedy LayerWise Training of Deep Networks, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007 Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007
个人分类: 科研交流|10555 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 15:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部