科学网

 找回密码
  注册

tag 标签: 深度学习

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[转载]深度学习论文之Do Deep Nets Really Need to be Deep?
zhuwei3014 2014-11-24 15:34
今天我们要谈论的文章为: Lei Jimmy Ba, and Rich Caurana. Do Deep Nets Really Need to be Deep?. ICLR2014 openreview中有下载链接和讨论: http://openreview.net/document/9a7247d9-d18e-4549-a10c-ca315d84b6db#9a7247d9-d18e-4549-a10c-ca315d84b6db 引言: 神经网络的提出已经有半个多世纪,BP算法的发现也已经过了三十年。但是,直到2006年, 大牛Hinton才 成功 训练出多层神经网络,并在图像识别和语音识别等领域大放异彩。在各大公开的竞赛中,基于深度神经 网络(DNN) 方法的性能稳居头把交椅的位置,并且,甩传统的机器学习方法好几条街。 为了区别于 之前的 学习算法,Hinton给 它取了一个 响亮的名字——deep learning。 据说,相对于传统的神经网络、SVM、adaboost、随机森林等机器学习算法,DNN最大的好处在于其网络结构 是 deep的,这种结构和人的视觉感知原理一致,可以提取输入数据不同抽象层次的特征,因而更适合来进行 数据表达。 具体介绍/讨论参见: 1) pluskid的博客 Deep Learning and Shallow Learning 2) Bengio Y. Learning deep architectures for AI. Foundations and trends® in Machine Learning, 2009 3) zouxy09的CSDN: Deep Learning(深度学习)学习笔记整理系列 但是,如果,有一种方法,使得shallow neural network也可以达到deep neural network的性能,并且,两者 的parameter的个数差不多,是不是很神奇?如果这样,neural network是不是一定需要是deep的呢? 文章内容: 文章在TIMIT数据库上做实验,一共训练了7个neural network。结果如下: 其中,SNN代表Shallow Neural Network,是一个只有一个隐含层的神经网络;DNN代表Deep Neural Network, 有三个以全连接层组成的隐含层;CNN代表Convolutional Neural Network,其隐含层包含1个卷积maxpooling 层, 然后接上三个全连接层。SNN-MIMIC是通过model compression得到的Mimic Shallow Neural Network。 其中,SNN,DNN和CNN用的都是标准的训练算法得到的结果。SNN-MIMIC的具体训练过程如下: 将多个CNN给ensemble起来,形成一个宇宙无敌的super CNN。然后,对于训练集的每一个sample,由这个 super CNN给出一个output,然后,将训练集中的label替换成这个output作为groundtruth,再用标准的BP算法 进行训练。可以把这里的super CNN当做一个函数,然后,我们训练一个Mimic的SNN来逼近这样一个函数, 只要这个Mimic SNN在训练集的临域能近似这个super CNN就可以了。 在训练SNN和SNN-MIMIC的过程中,当隐含层的节点数增多时,训练的过程会变得相当慢。这里可以用低秩矩阵 来近似原来的大的矩阵,加快训练过程。 作者的结论: 通过model compression的方法训练得到的SNN的性能与DNN的差不多,居然,它们的参数的个数也差不多, 那么,是不是有一种训练方法,可以使得SNN直接在训练集里进行,也能达到这个性能?所以,作者的结论是, 当前的BP随机梯度下降的训练算法对deep的neural net更有效。于是,在这个宇宙中,似乎存在一种算法, 使得SNN能得到更好的训练。 Yoshua Bengio的评论: 这篇文章上传到openreview,得到了大牛 Yoshua Bengio的关注。 这位大牛的观点是, the depth (and convolutions) provide a PRIOR that helps GENERALIZING better. 第一个证据就是,要得到与CNN性能差不多的SNN-MIMIC,需要比CNN多得多的参数(13M vs 180M),而 CNN当然提供了一个很强的 PRIOR ; 第二个证据就是训练误差,只需要看看DNN和SNN的训练误差是否差不多就可以了。因为,如果差不多,则 说明这些模型 fit 已知样本(训练样本)的能力差不多,但是 fit 未知样本(测试样本)的能力DNN比SNN强, 说明DNN的generalization的能力更强。 其他的一些知识: model compression通过一个小的model来逼近一个大的model(或者一个model ensemble)的性能。通常情况 下,需要大量的unlabeled的样本,将这些样本送到大的model里,得到一个输出,然后,将这些样本和对应的 输出组合,用supervised learning得到这个小的model。这里有两个需要注意的地方:第一,unlabeled的样本 不能只是将大的model的训练集中的label去掉而得到的样本,因为大的model往往在这些样本点上有overfitting; 第二,unlabel的样本数需要比大的model的训练集中的样本数要多得多,这样才能更可能的近似原来的这个大 的model。
个人分类: DL论文笔记|5317 次阅读|0 个评论
[转载]深度学习进阶线路图
zhuwei3014 2014-8-7 19:52
【研究动态】 深度学习 进阶线路图(一) 在应用机器学习的时候,最耗时和重要的阶段是对原始数据进行特征提取。 深度学习 是一个新的机器学习的分支,他要做的就是跨过整个特征设计阶段,而是直接从数据中学习得到。大部分的深度学习方法都是基于神经网络的,在这些结构中,复杂的高层结构是建立在多个非线性神经元函数的多层叠加上的。 其实最容易的介绍神经网络和深度学习的教程是Geoff Hinton’s Coursera course .(AITMR译者注:我以前上过这个课,需要有一定的基础才能听得懂的。)在这个课程中,你能学习得到一些关键思想并能让你自己完成一些简单的算法。( Geoff 是这个领域的先驱者,AITMR注:我们大家都习惯叫他祖师爷,他在06在Nature上发表了一篇关于深度学习的文章,被认为是这个领域的第一篇比较详细的文章,并附有代码。) 其实说白了 深度学习 就是从基本数据中学习,然后让模型工作得更好。但是这个领域目前来说还没有达到这个阶段,就是可以你把数据输进去,然后模型就完全自动的学习了。目前,你还需要判断很多问题:模型过拟合了吗?优化过程完成了吗?需要增加更多的神经元吗?需要增加更多的层数吗?不幸的是,现在对于这些个问题还没有一个共识,因此你需要不管的思考并做实验。为了达到这个水准,你需要深入理解算法的核心内容,和于此相关的一些机器学习的关键知识。这篇文章就是要根据这些点来给出一个进阶帮助你更好的理解深度学习。 如果你以前没怎么看过Metacademy,你可以在 here 找到这个网站内容的基本结构和内容简介。登陆Metacademy,基本概念已经用红色标明了。这些将给你一些基本的认识,例如: 随着更多的内容加入到Metacademy,学习内容会实时更新的。外链用绿色字体显示,尽管我们已经尽可能的去列得详细,但是你还是要根据自己的情况去选择一些。但是你也不同完全按照我们给出的线路图去完成,因为每个人的情况不一样。 You can also check out one of several review papers, which give readable overviews of recent progress in the field: Y. Bengio. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2009. Y. Bengio, A. Courville, and P. Vincent. Representation learning: a review and new perspectives. 2014 【研究动态】深度学习进阶线路图(二) Supervised models 如果你对使用神经网络感兴趣,意味着你也许喜欢自动的预测。监督学习是一种机器学习的框架,在这个框架里面你有一项特别想完成的任务,计算机通过有标签的数据集合学习得到模型。比如加入你想自动的判别邮件信息是垃圾邮件还是正常邮件,有监督学习框架中,你会有100,000封电子邮件被标注为“垃圾邮件”或者是“非垃圾邮件”,这些数据集合被用来训练分类器,使得它能够判别以前从未遇到过的邮件。 在深入理解神经网络之前,你应该先了解一点浅层网络机器学习算法比如线性回归( linear regression ),逻辑回归( logistic regression ),支持向量机( support vector machines (SVMs) )等。这些算法更容易完成,并且有一些很成熟的软件包可以调用(比如: AITMR译者注:scikit-learn确实是一个非常好的软件包,译者一直以来都是用这个软件包,而且你还可以通过研究软件包的源程序来深入的学习相关的算法。)。这些算法是你实现神经网络的一些基础内容。另外,神经网络的基本组成部分神经元和这些模型有很大的关联。因此,你花时间学习这些模型也是为更深度的理解神经网络打好了基础。 为了能更好的应用监督学习,你需要理解泛化( generalization )的概念,所谓泛化就是在新数据上的预测能力。你需要理解怎样去平衡过拟合与欠拟合之间的权衡:你既要使你的模型能够完全的表达你的数据,又不至于使得你的模型过于复杂使其过拟合。在回归方面,这个可以归结为 bias and variance ,这提供了一个更为直观的表达。当然 cross-validation 是一个你可以用来测量泛化能力的算法。 最开始的深度学习模型是前馈神经网络 feed-forward neural net 它是通过反向传播 backpropagation 来学习的。 视觉是深度神经网络的一个主要的应用方向,而卷积神经网络 convolutional nets 在此方面已经取得了突破性的进展。 递归神经网络 Recurrent neural nets 是把数据表示成时间结构的一类神经网络。伴随时间的Backpropagation是一种优雅的训练算法,但是在实用性方面还是有一定问题的。 【研究动态】深度学习进阶线路图(三):非监督学习 监督模型中,有标签数据可用来训练模型进行预测。但是在很多情况下,标签数据很难获取,或者是很难定义标签。你有的可能只是些非标签数据。这种情况下的学习叫做非监督学习。例如,你想对邮件进行“垃圾邮件”和“非垃圾邮件”的分类,但是你却没有标签数据集。那么,用这些非标签数据集,你能做些什么事呢?第一,你可以简单的分析数据模式。你的非标签数据也许蕴含着某些潜在的属性,这些潜在属性可以通过主成分分析( principal component analysis )或者是因子分析( factor analysis )得到。第二,你也可以对你的数据进行聚类研究,一类的数据比其他类的数据更为近似,聚类算法主要有 k-means 和 mixture of Gaussians 在神经网络领域,非监督学习还有另外一种作用:他能对监督学习提供一些帮助。尤其是非标签数据比标签数据更容易获取。假如你正在进行目标识别方面的工作,给图像中的目标做标签是一件非常繁琐的事情,然而非标签的数据却可以从网上成千上万的下载。 非监督预训练( Unsupervised pre-training )已经在很多领域证明了其可极大的提供识别率。他的思想就是你通过非标签数据训练一个非监督神经网络,然后把类似的结构联合起来构成监督神经网络。目的都是为了给原始数据进行建模,而预训练能够为预先提取一些数据的相关结构。另外,深度非监督模型也比深度监督模型更容易训练(当然,关于这一点现在大家还不知道具体原因。)。非监督网络的预训练初始化使得整个网络训练时不至于陷入局部极值。 关于分监督训练好处的证明仍然是复杂的,很多成功应用的深度神经网络已经避免使用它,尤其是在大数据的背景下。但是他也保持者很好的记录,值得我们取关注他。 那哪些是非监督神经网络呢?最基本的就是自编码结构( autoencoder ),这是一种预测他自己输入的前馈神经网络。然而这并不是最难的事情,可以一些限制后事情变得有点困难。第一,网络中有一层或者是多层的神经元数量要比数据层的小。另外,还需要限制隐含层的活跃神经元是稀疏的(译者注:只有少部分神经元的输出为非零。)。再着,在输入数据中加入一些噪声,再使网络具有去噪能力( denoising autoencoder )。 关于非监督学习另外一种方法是生成模型。人们假设数据符合某种潜在的分布,然后尝试对这种分布建模。受限玻耳兹曼机 Restricted Boltzmann machines (RBMs) 是一种监督的只有一个隐含层的生成模型。而这个模型可以堆积形成多层生成模型,比如深信网络( deep belief nets (DBNs) )和深度玻尔兹曼机( deep Boltzmann machines (DBMs) )等。 DBMs can learn to model some pretty complex data distributions: Generative modeling is a deep and rich area, and you can find lots more examples in the Bayesian machine learning roadmap . 【研究动态】深度学习进阶线路图(四):优化算法 定义好深度神经网络的机构后,该怎么去训练他们呢?最笨重的训练方法就是随机梯度下降法( stochastic gradient descent (SGD) ),这种方法在每次训练中只添加一个训练样本(或者说是少量的训练样本),通过这些训练样本一小步一小步的减小损失函数。也就是说这需要计算损失函数的梯度值,这可以通过反向传播的算法算得。当然在编好程序后要进行“梯度计算检查”( check your gradient computations )来确保你的梯度计算是正确的。SGD算法理解简单,实现也比较容易,用起来也是十分的得心应手。 其他还有很多其他的凸优化( convex optimization )可以解决这个训练问题,在凸问题中,SGD和其他的一些局部搜索算法可以保证找到全局极值。可以找到全局极值是因为函数的形状是“碗状”(即凸函数),因此微调就朝着全局极值的方向走了。很多机器学习的研究就是想去构造一个凸优化问题。然而,深度神经网络却并非都是凸优化问题,因此你仅能保证找到一个局部极小值。这看似令人失望,但是我们也找到了一些解决方法( something we can live with )。对于大部分的前馈网络和生成网络,局部极值其实是挺合理的。(当时递归神经网络是个意外。) 局部极值最大的问题就是损失函数的曲率会趋向极值。然而神经网络是非凸的,因此曲率的问题就凸显出来了,而解决神经网络的训练的问题都是借鉴的凸优化问题的求解方法。如果你想了解一些相关的背景知识,可以去看看Boyd and Vandenberghe’s写的书凸优化( Convex Optimization ): Sections 9.2-9.3 talk about gradient descent, the canonical first-order optimization method (i.e. a method which only uses first derivatives) Section 9.5 talks about Newton’s method, the canonical second-order optimization method (i.e. a method which accounts for second derivatives, or curvature) 牛顿法其实是很适合去处理曲率问题的,但是他处理大尺度的神经网络训练却并不实用,主要有两方面的原因:其一,它是一种批处理方法,因此每次训练都得把全部的训练样本添加进去。其二,他需要构建Hessian矩阵,并且还要求逆,而Hessian矩阵的维数和参数维数相等啊。(译者注:计算量太大了,当你的神经网络结构非常大的时候,这简直就是一场灾难啊!)因此,一直以来他都是作为一种理想的二阶训练方法人们去尝试。实际上用得最多的还是: conjugate gradient limited memory BFGS 相比于一般的神经网络模型,训练RBMs又提出了新的挑战:目标函数需要计算配分函数,而梯度计算需要进行推理( inference )。而这两者貌似都是不可解的( intractable )。在实际操作中 Contrastive divergence and persistent contrastive divergence 被广泛的用来估计梯度。然而,模型估计依然还是个问题。退火抽样( annealed importance sampling )可以用来估计模型的似然函数( estimate the model likelihood )。但是终究还是显得苍白,对于估计模型的性能还是很难完成的。 Even once you understand the math behind these algorithms, the devil’s in the details. Here are some good practical guides for getting these algorithms to work in practice: G. Hinton. A practical guide to training restricted Boltzmann machines. 2010. J. Martens and I. Sutskever. Training deep and recurrent networks with Hessian-free optimization. Neural Networks: Tricks of the Trade, 2012. Y. Bengio. Practical recommendations for gradient-based training of deep architectures. Neural Networks: Tricks of the Trade, 2012. L. Bottou. Stochastic gradient descent tricks. Neural Networks: Tricks of the Trade, 2012. 【研究动态】深度学习进阶线路图(五):应用与相关软件 视觉应用: 计算机视觉是神经网络和深度学习的主要应用领域。早在1998年,卷积神经网络( convolutional nets )就已经在手写数字识别上大显身手,MNIST手写书库( MNIST handrwritten digit dataset )也一直以来都作为神经网络研究的标准数据集。(译者注:卷积神经网络在计算机视觉领域的应用是空前的,据说美国ATM机上支票的识别就是用的CNNs算法,而最近CNNs的研究又进入了一个爆发期,很多新的算法表中出现,比如3D的CNNs等。笔者曾经仔细研读过CNNs的MATLAB代码,确实是一个很好的算法,而且对于图像的识别率也是很高的。)近来,卷积神经网络把数千种类的物体分类问题( classifying between thousands of object categories )大大的推进了一步。仅用行像素来学习打游戏( play Atari games )的DeepMind系统里面就用到了视觉识别。 也有很多的工作是关于图像的生成模型的。而这些研究工作都是关注于学习稀疏表示( learning sparse representations )和图像的局部关系建模( modeling the local covariance structure )。加入你用卷积结构的生成模型对图像建模,那么你能得到更深层次的特征。 相关软件: Cafe is an increasingly popular deep learning software package designed for image-related tasks, e.g. object recognition. It’s one of the fastest deep learning packages available — it’s written in C++ and CUDA. The University of Toronto machine learning group has put together some nice GPU libraries for Python. GNumPy gives a NumPy-like wrapper for GPU arrays. It wraps around Cudamat , a GPU linear algebra library, and npmat , which pretends to be a GPU on a CPU machine (for debugging). PyLearn is a neural net library developed by the University of Montreal machine learning group . It is intended for researchers, so it is built to be customizable and extendable. PyLearn is built on top of Theano , a Python library for neural nets and related algorithms (also developed at Montreal), which provides symbolic differentiation and GPU support. If for some reason you hate Python, Torch is a powerful machine learning library for Lua. 【研究动态】深度学习进阶线路图(六):深度学习与其他机器学习算法的关系 Relationships with other machine learning techniques 神经网络和其他的机器学习算法有着千丝万缕的联系。理解他们之间的这些关系可以帮助我们选定神经网络的结构。 很多神经网络结构可以看成是浅层结构的非线性叠加生成。前馈网络就可以看做是逻辑回归( logistic regression )的类比。而自编码网络(Autoencoders)可以看成是降维算法( PCA )的非线性类比。 RBMs和所有的高斯单元可以看成是类似于因子分析( equivalent to Factor analysis )。RBMs也可以看成是另外一种指数族分布( exponential family )。 核方法是另外一种把线性算法转为非线性算法的技术。神经网络和核方法之间其实有着很微妙的关系:贝叶斯神经网络其实就是有无限多个隐含神经元的高斯过程。(See Chapter 2 of Radford Neal’s Ph.D. thesis. Background: Gaussian processes ) Relationship with the brain If these models are called “neural” nets, it’s natural to ask whether they have anything to do with how the brain works . In a certain sense, they don’t: you can understand and apply the algorithms without knowing anything about neuroscience. Mathematically, feed-forward neural nets are just adaptive basis function expansions . But the connections do run pretty deep between practical machine learning and studies of the mind and brain. Unfortunately, Metacademy doesn’t have any neuroscience content (yet!), so the background links in this section will be fairly incomplete. Doubly unfortunately, neuroscience and cognitive science seem not to have the same commitment to open access that machine learning does, so this section might only be useful if you have access to a university library. When trying to draw parallels between learning algorithms and the brain, we need to be precise about what level we’re talking about. In “The philosophy and the approach” (Chapter 1 of Vision: a Computational Investigation ), David Marr argued for explicitly separating different levels of analysis: computation, algorithms, and implementation. (This is worth reading, even if you read nothing else in this section.) While not all researchers agree with this way of partitioning things, it’s useful to keep in mind when trying to understand exactly what someone is claiming. Neuroscience Jeff Hawkins’s book On Intelligence aims to present a unifying picture of the computational role of the neocortex. While the theory itself is fairly speculative, the book is an engaging and accessible introduction to the structure of the cortex. Many neural net models have learned similar response properties to neurons in the primary visual cortex (V1). Olshausen and Field’s sparse coding model ( background ) was the first to demonstrate that a purely statistical learning algorithm discovered filters similar to those of V1. (Whether or not this is a neural net is a matter of opinion.) Since then, a wide variety of representation learning algorithms based on seemingly different ideas have recovered similar representations. Other statistical models have learned topological representations similar to the layout of cell types in V1. Karklin and Lewicki fit a more sophisticated statistical model which reproduced response properties of complex cells. While the connection between V1 and learned filters may seem tidy, Olshausen highlights a lot of things we still don’t understand about V1 . For more on the neuroscience of the visual system, check out Eye, Brain, and Vision , a freely available book written by David Hubel, one of the pioneers who first studied V1. (Chapters 3, 4, and 5 are the most relevant.) There have also been neural nets explicitly proposed as models of the brain. Riesenhuber and Poggio’s HMAX model is a good example. Jim DiCarlo found that deep convolutional networks yield neurons which behave similarly to those high up in the primate visual hierarchy. Cognitive science It’s not just at the level of neurons that researchers have tried to draw connections between the brain and neural nets. Cognitive science refers to the interdisciplinary study of thought processes, and can be thought of a study of the mind rather than the brain. Connectionism is a branch of cognitive science, especially influential during the 1980s, which attempted to model high-level cognitive processes in terms of networks of neuron-like units. (Several of the most influential machine learning researchers came out of this tradition.) McClelland and Rumelhart’s book Parallel Distributed Processing (volumes 1 and 2 ) is the connectionist Bible. Other significant works in the field include: J. McClelland and T. Rogers. The parallel distributed processing approach to semantic cognition. Nature Reviews Neuroscience, 2003. One of the most perplexing questions about the brain is how neural systems can model the compositional structure of language. Linguists tend to model language in terms of recursive structures like grammars, which are very different from the representations used in most neural net research. Paul Smolensky and Geraldine Legendre’s book The Harmonic Mind presents a connectionist theory of language, where neurons implement a system of constraints between different linguistic features. 转自: http://www.aitmr.com/index.php/airesearch/373.html http://www.aitmr.com/index.php/airesearch/401.html http://www.aitmr.com/index.php/airesearch/417.html http://www.aitmr.com/index.php/airesearch/425.html http://www.aitmr.com/index.php/airesearch/442.html http://www.aitmr.com/index.php/airesearch/448.html 原文翻译自:http://metacademy.org/roadmaps/rgrosse/deep_learning
个人分类: 博客转载|5625 次阅读|0 个评论
[转载]深度学习(Deep Learning)综述及算法简介
xjtuchy 2014-5-26 12:37
引言: 神经网络( N eural N etwork)与支持向量机( S upport V ector M achines,SVM)是统计学习的代表方法。可以认为神经网络与支持向量机都源自于感知机(Perceptron)。感知机是1958年由Rosenblatt发明的线性分类模型。感知机对线性分类有效,但现实中的分类问题通常是非线性的。 神经网络与支持向量机(包含核方法)都是非线性分类模型。1986年,Rummelhart与McClelland发明了神经网络的学习算法 B ack P ropagation。后来,Vapnik等人于1992年提出了支持向量机。神经网络是多层(通常是三层)的非线性模型, 支持向量机利用核技巧把非线性问题转换成线性问题。 神经网络与支持向量机一直处于“竞争”关系。 Scholkopf是Vapnik的大弟子,支持向量机与核方法研究的领军人物。据Scholkopf说,Vapnik当初发明支持向量机就是想干掉神经网络(He wanted to kill Neural Network)。支持向量机确实很有效,一段时间支持向量机一派占了上风。 近年来,神经网络一派的大师Hinton又提出了神经网络的Deep Learning算法(2006年),使神经网络的能力大大提高,可与支持向量机一比。 Deep Learning假设神经网络是多层的,首先用Boltzman Machine(非监督学习)学习网络的结构,然后再通过Back Propagation(监督学习)学习网络的权值。 关于Deep Learning的命名,Hinton曾开玩笑地说: I want to call SVM shallow learning. (注:shallow 有肤浅的意思)。其实Deep Learning本身的意思是深层学习,因为它假设神经网络有多层。 总之,Deep Learning是值得关注的统计学习新算法。 深度学习(Deep Learning) 是ML研究中的一个新的领域,它被引入到ML中使ML更接近于其原始的目标:AI。查看 a brief introduction to Machine Learning for AI 和 an introduction to Deep Learning algorithms . 深度学习是关于学习多个表示和抽象层次,这些层次帮助解释数据,例如图像,声音和文本。 对于更多的关于深度学习算法的知识,可以参看: The monograph or review paper Learning Deep Architectures for AI (Foundations Trends in Machine Learning, 2009). The ICML 2009 Workshop on Learning Feature Hierarchies webpage has a list of references . The LISA public wiki has a reading list and a bibliography . Geoff Hinton has readings from last year’s NIPS tutorial . 这篇综述主要是介绍一些最重要的深度学习算法,并将演示如何用 Theano 来运行它们。 Theano是一个python库,使得写深度学习模型更加容易,同时也给出了一些关于在GPU上训练它们的选项。 这个算法的综述有一些先决条件。首先你应该知道一个关于python的知识,并熟悉numpy。由于这个综述是关于如何使用Theano,你应该先阅读 Theano basic tutorial 。一旦你完成这些,阅读我们的 Getting Started 章节---它将介绍概念定义,数据集,和利用随机梯度下降来优化模型的方法。 纯有监督学习算法可以按照以下顺序阅读: Logistic Regression - using Theano for something simple Multilayer perceptron - introduction to layers Deep Convolutional Network - a simplified version of LeNet5 无监督和半监督学习算法可以用任意顺序阅读(auto-encoders可以被独立于RBM/DBM地阅读): Auto Encoders, Denoising Autoencoders - description of autoencoders Stacked Denoising Auto-Encoders - easy steps into unsupervised pre-training for deep nets Restricted Boltzmann Machines - single layer generative RBM model Deep Belief Networks - unsupervised generative pre-training of stacked RBMs followed by supervised fine-tuning 关于mcRBM模型,也有一篇新的关于从能量模型中抽样的综述: HMC Sampling - hybrid (aka Hamiltonian) Monte-Carlo sampling with scan() 上文翻译自 http://deeplearning.net/tutorial/ 查看最新论文 Yoshua Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2(1), 2009 深度(Depth) 从一个输入中产生一个输出所涉及的计算可以通过一个流向图(flow graph)来表示:流向图是一种能够表示计算的图,在这种图中每一个节点表示一个基本的计算并且一个计算的值(计算的结果被应用到这个节点的孩子节点的值)。考虑这样一个计算集合,它可以被允许在每一个节点和可能的图结构中,并定义了一个函数族。输入节点没有孩子,输出节点没有父亲。 对于表达 的流向图,可以通过一个有两个输入节点 和 的图表示,其中一个节点通过使用 和 作为输入(例如作为孩子)来表示 ;一个节点仅使用 作为输入来表示平方;一个节点使用 和 作为输入来表示加法项(其值为 );最后一个输出节点利用一个单独的来自于加法节点的输入计算SIN。 这种流向图的一个特别属性是深度(depth):从一个输入到一个输出的最长路径的长度。 传统的前馈神经网络能够被看做拥有等于层数的深度(比如对于输出层为隐层数加1)。SVMs有深度2(一个对应于核输出或者特征空间,另一个对应于所产生输出的线性混合)。 深度架构的动机 学习基于深度架构的学习算法的主要动机是: 不充分的深度是有害的; 大脑有一个深度架构; 认知过程是深度的; 不充分的深度是有害的 在许多情形中深度2就足够(比如logical gates, formal neurons, sigmoid-neurons, Radial Basis Function units like in SVMs)表示任何一个带有给定目标精度的函数。但是其代价是:图中所需要的节点数(比如计算和参数数量)可能变的非常大。理论结果证实那些事实上所需要的节点数随着输入的大小指数增长的函数族是存在的。这一点已经在logical gates, formal neurons 和rbf单元中得到证实。在后者中Hastad说明了但深度是d时,函数族可以被有效地(紧地)使用O(n)个节点(对于n个输入)来表示,但是如果深度被限制为d-1,则需要指数数量的节点数O(2^n)。 我们可以将深度架构看做一种因子分解。大部分随机选择的函数不能被有效地表示,无论是用深地或者浅的架构。但是许多能够有效地被深度架构表示的却不能被用浅的架构高效表示(see the polynomials example in the Bengio survey paper )。一个紧的和深度的表示的存在意味着在潜在的可被表示的函数中存在某种结构。如果不存在任何结构,那将不可能很好地泛化。 大脑有一个深度架构 例如,视觉皮质得到了很好的研究,并显示出一系列的区域,在每一个这种区域中包含一个输入的表示和从一个到另一个的信号流(这里忽略了在一些层次并行路径上的关联,因此更复杂)。这个特征层次的每一层表示在一个不同的抽象层上的输入,并在层次的更上层有着更多的抽象特征,他们根据低层特征定义。 需要注意的是大脑中的表示是在中间紧密分布并且纯局部:他们是稀疏的:1%的神经元是同时活动的。给定大量的神经元,任然有一个非常高效地(指数级高效)表示。 认知过程看起来是深度的 人类层次化地组织思想和概念; 人类首先学习简单的概念,然后用他们去表示更抽象的; 工程师将任务分解成多个抽象层次去处理; 学习/发现这些概念(知识工程由于没有反省而失败?)是很美好的。对语言可表达的概念的反省也建议我们一个稀疏的表示:仅所有可能单词/概念中的一个小的部分是可被应用到一个特别的输入(一个视觉场景)。 学习深度架构的突破 2006年前,尝试训练深度架构都失败了:训练一个深度有监督前馈神经网络趋向于产生坏的结果(同时在训练和测试误差中),然后将其变浅为1(1或者2个隐层)。 2006年的3篇论文改变了这种状况,由Hinton的革命性的在深度信念网(Deep Belief Networks, DBNs)上的工作所引领: Hinton, G. E., Osindero, S. and Teh, Y., A fast learning algorithm for deep belief nets .Neural Computation 18:1527-1554, 2006 Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks , in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007 Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model , in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007 在这三篇论文中以下主要原理被发现: 表示的无监督学习被用于(预)训练每一层; 在一个时间里的一个层次的无监督训练,接着之前训练的层次。在每一层学习到的表示作为下一层的输入; 用无监督训练来调整所有层(加上一个或者更多的用于产生预测的附加层); DBNs在每一层中利用用于表示的无监督学习RBMs。Bengio et al paper 探讨和对比了RBMs和auto-encoders(通过一个表示的瓶颈内在层预测输入的神经网络)。Ranzato et al paper在一个convolutional架构的上下文中使用稀疏auto-encoders(类似于稀疏编码)。Auto-encoders和convolutional架构将在以后的课程中讲解。 从2006年以来,大量的关于深度学习的论文被发表,一些探讨了其他原理来引导中间表示的训练,查看 Learning Deep Architectures for AI 本文英文版出处 http://www.iro.umontreal.ca/~pift6266/H10/notes/deepintro.html
个人分类: 科研学习|8729 次阅读|0 个评论
百度大脑从谷歌大脑挖来深度学习掌门人 Andrew Ng
热度 1 liwei999 2014-5-21 05:44
百度走向世界,需要闹出动静。成立深度学习研究院,从谷歌挖来 Andrew Ng 做掌门人,对于 marketing 有百益,无论能不能近期实用化。Andrew 做的 coursera 在教育界是革命性的,能不能在 NLP 做出同样革命性奇迹来,值得关注。百度大脑(Baidu Brain)项目从谷歌大脑(Google Brain)白捡了个相似的品牌来,标志以前饱受非议的人工智能(AI)已经正名,重新放出光彩来。 深度学习不懂,不好说,但能造成这么大的动静,相信确实有方法学上的突破。Intuitively,以前看机器学习领域的系统,发现他们确实很 robust,很 efficient,对于简单任务(文本分类,POS 之类)也有效,做起来很利索,但失之浅漏。一堆关键词也没有结构,主要就是根据 ngram 的记忆,从数据中找到蛛丝马迹的条件。现在有办法把传统的浅层的学习,推向多层学习,引起广泛兴趣是可以理解的。据说在图像识别语音识别方面,都已经在实用上大幅提高了系统质量。但是,在 text 方面,还没听说大的突破,可以拭目以待,乐见其成。 不管怎样学习,较复杂的NLP任务(句法分析,语义搜索,how、why的问答系统等)很难离开语言学结构和知识。简单任务可以离开结构,用ngram的冗余信息取代结构分析,用死记体现隐性的语言知识。对于复杂的任务,深度学习怎样利用和解构语言结构和知识呢?
个人分类: 立委随笔|7343 次阅读|2 个评论
再说深度学习,重燃人工智能领域的重大挑战
bigdataage 2014-3-6 18:53
再说深度学习,重燃人工智能领域的重大挑战 罗伯特·霍夫(Robert D.Hof) 发表于 2014-02-26 15:25 借助海量的计算能力,机器现在可以识别物体、可以实时翻译对话。人工智能终于变聪明了。 2012 年 7 月,当 雷·库兹威尔(Ray Kurzweil) 去见谷歌首席执行官 拉里·佩奇(Lawrence Edward Page) 的时候,他没想找工作。 库兹韦尔 是一位机器智能未来主义者,也是该领域受人尊敬的发明家;他本来是想来谈谈自己即将出版的新书《如何创造人脑》的—— 佩奇 曾经读过这本书的草稿。 库兹韦尔 对 佩奇 说,他想开个公司来实现他的设想,建造一台真正有智能的计算机:这种计算机能理解语言,并能自行进行推断和作出决策。 (雷·库兹韦尔的这本书的中文翻译版已经出版,《 如何创造思维:人类思想所揭示出的奥秘 》) 显而易见,这种事将需要完全不少于谷歌规模的数据量和计算能力。 佩奇 告诉 库兹威尔 :“我可以试着给你一些支持,但对于一家独立的公司来说,做这种事非常困难。”所以, 佩奇 建议 库兹威尔 加入谷歌;虽然后者从来都只是在自己的企业里工作。做决定没有花库兹威尔太多的时间:2013 年 1 月,他成了谷歌的工程主管。他说,“这是我专注人工智能领域50年的最终之作。” 吸引库兹威尔的不只是谷歌的计算资源,还包括谷歌在“深度学习”上的惊人进步——这是人工智能的一个分支。深度学习软件试图模仿大脑新皮质中的多层神经元活动,大脑80%的思维都由这些皱巴巴的东西产生。毫无疑问,这种软件能学习识别以数字化方式表现的声音、图像和其他数据中的模式。 这种软件能在一个人工“神经网络”中模拟新皮质的大量神经元阵列的基本思路,已经有了数十年的历史,它带来的失望和突破一样多。但是,因为数学方法的改进和计算机的日益强大,计算机科学家们现在可以模拟更多层的虚拟神经元,比以往任何时候都多。 基于这种更深入的能力,人们在语音和图像识别上正在做出显著的进步。2012 年 6 月,人们给谷歌的深度学习系统输入了 1,000 万张来自 YouTube 视频的图片,证明它在识别猫这样的物体上,识别效果比之前的类似系统好了差不多一倍。谷歌也用这种技术来减少语音识别的错误率,这种语音识别用在最新的安卓手机软件上。2012 年 10 月,微软首席研究官里克·拉希德在中国的一次演讲中,以一款语音识别软件震惊了与会者;这种语音识别软件能以仅7%的错误率把他的英文演讲内容转成文本,之后再翻译成中文,并且模拟他自己的声音以普通话读出来。就在同一个月,三个研究生和两位教授组成的团队在默克公司举办的一次竞赛中获胜,竞赛内容是识别出能开发出新药物的分子。这个团队采用深度学习技术,把注意力集中在那些最有可能符合他们目标的分子上。 尤其是谷歌,已经成了吸引深度学习和人工智能人才的磁铁。2013 年 3 月,谷歌收购了一家创业企业,它的创始人是多伦多大学的计算机科学教授杰弗里·辛顿——是赢得默克比赛的团队成员。辛顿会同时兼顾大学和谷歌的工作,他说计划“在这一领域中提出构想,然后把它们用在真正的问题上“,这些问题包括图像识别、搜索,和自然语言理解。 人工智能研究者们往往都抱着谨慎的希望,希望智能机器最终不只是科幻小说里的东西。事实上,机器智能正在开始改变一切,从通信和计算到医药、制造,以及交通运输。在《危险边缘》节目的胜出者IBM“沃森”计算机上,这种可能性更明显。”沃森“使用了一些深度学习技术,目前正在接受训练,来帮助医生做出更好的决策。微软也已经在WindowsPhone系统和必应语音搜索中用到了深度学习技术。 要将深度学习扩展到语音和图像识别之外的应用,将需要更多概念和软件上突破——当然更不用提处理能力上的更大进步。可能在很多年内,我们都不会看到公认能自己思考的机器,也许数十年内都看不到——如果不是永远的话。但是现在,美国微软研究院的负责人彼得·李说:“深度学习重燃了人工智能领域中的一些重大挑战。” 建个大脑 已经有了许多其他方法来应对这些挑战。其中之一是给计算机灌输信息和我们这个世界的规则;这需要程序员辛苦写软件,来让计算机熟悉那些属性——比方说一条边或者一段声音。这花了大量的时间,但仍会有系统无法处理的模糊数据。这种方法仅限用于极少的受到严格控制的应用程序,比如那种要求你说出特定的字词来进行查询的手机菜单系统中。 神经网络是在 20 世纪 50 年代人工智能研究的黎明之后不久开发出来的技术,看起来比较有前途,因为它试图模拟大脑的工作方式——虽然是大大简化了的方式。程序映射出一组虚拟神经元,然后给它们之间的连接分配随机的数值即“权重”。这些权重——以 0 和 1 之间的数字来表示——确定了每个模拟神经元对数字化特征的响应;而这些数字化特征包括如图像的边缘或图像中的一个蓝色形状,或者一个音素频率的特定能量水平(音素是语言音节中声音的最小单位)。 程序员会用包含了这些对象的数字化图像、或包含了这些音素的声音波形来对这个网络放电,以此训练神经网络检测对象或音素。如果网络没有准确地识别出特定模式,算法就会调节权重。这种训练的最终目标是,让神经网络能够总能识别出语音或者一组图像中的模式,而这种模式是我们人类熟知的——比方说音素“d”或一只狗的形象。这很像孩子们学会认出一只狗的方式差不多:注意它头部形状的细节、行为,以及知道别人把这种毛茸茸会汪汪叫的动物叫做“狗”。 但是早期的神经网络只能模拟为数不多的神经元,所以它不能识别出太复杂的模式。这种方法在20世纪70年代陷入了沉寂。 在20世纪80年代中期,在辛顿和其他人的帮助下,通过一种叫做“深度”的模型,重新激发了人们神经网络的兴趣。“深度”模型能更好地利用软件的多层神经元,但是该技术仍需要大量的人工参与:程序员在把数据输入进神经网络之前,需要对数据加上标签。而且复杂的语音或图像识别需要更多的计算机能力,这在当时还不具备。 然而,在过去的十年中,辛顿和其他研究人员最终取得了一些基本概念上的突破。2006年,辛顿开发了一种更有效的方式来训练每层神经元。第一层学习初级功能,例如分辨图像边缘或语音中的最小单元。它判断数字化像素或者声音的结合点——在这些地方更有可能找到要找的东西。一旦这一层神经元准确地识别这些特点,数据就会被输送到下一层,在这一层会训练自己识别更复杂的特点,例如语音的组合或者图像的角落。在接下来的层中会重复这种过程,直到系统能够可靠地识别音素或物体为止。 比方说猫。2012年6月,谷歌展示了迄今为止最大的神经网络之一,其中拥有超过10亿个连接。由斯坦福大学计算机科学教授吴恩达和谷歌研究员杰夫·迪安带领的团队,给系统展示了一千万张从YouTubu视频中随机选择的图片。软件模型中的一个模拟神经元专门识别猫的图像,其他专注于人脸、黄色的花朵,以及其他物体。由于深度学习的能力,即使没人曾经定义或标记过,系统也识别了这些独立的对象。 图像识别提升的幅度让一些人工智能专家感到震惊。当时,系统对YouTube图像的物体和主题的分类准确率是16%。这可能听起来没什么大不了,但它比之前的方法要好70%。迪安指出,在这一系统中有22,000个类别可供选择;正确地把物体放到相应的类别中需要所需要的能力,即使对于大多数人来说,往往也是很有挑战性的——例如区别两种相似的鳐鱼。当要求系统把图像分类在1000多个更大的通用类别中时,准确率跃升到超过50%。 大数据 在实验中训练多层虚拟神经元,用到了16,000个计算机处理器——那种Google为了搜索引擎和其他服务而开发的计算基础设施。迪利普·乔治是机器学习创业企业Vicarious的联合创始人,他认为,在人工智能的最新研究进展中,至少有80%可以归因到人们可以使用更多的计算能力。 但是除了谷歌数据中心的规模,还有些其他的东西。深度学习也得益于谷歌在多台机器之间分配计算任务的方法,这使算法可以运行得快得多。迪安在谷歌工作了14年,这是他早期帮助开发的技术。它大大加快了深度学习神经网络的训练速度,使谷歌可以运行大型的神经网络,还可以给它输入多得多的数据。 目前,深度学习已经改善了智能手机上的语音搜索。直到去年,谷歌安卓系统上的软件还会听错许多词,但在去年7月准备发布一个新版本安卓时,在迪安和他的团队的帮助下,一个基于深度学习的系统替换了一部分语音识别功能。多层神经元能够对声音的诸多变化进行更精确的训练,所以该系统可以更可靠地识别声音片段,尤其是在如地铁站台这样嘈杂的环境中。因为它更有可能明白实际上说出的内容,所以返回的结果可能更准确。几乎在一夜之间,错误的数量减少了25%;这个结果如此之好,以至于许多评论家认为安卓的语音搜索功能比苹果Siri语音助手更聪明——虽然Siri更出名一些。 尽管有了这些进步,但并不是每个人都认为深度学习会把人工智能变成某种能与人类智慧相媲美的东西。一些批评者说,深度学习和人工智能往往忽略了大脑的生理基础,替之以太多的蛮力计算。 持这种观点的批评家之一是杰夫·霍金斯,Palm计算公司的创始人。霍金斯最新的企业Numenta正在开发机器学习系统,其灵感来自于生物学,并不使用深度学习。Numenta的系统可以帮助预测能源消耗模式和风车之类机器即将失效的可能性。霍金斯在 2004 年出版了《人工智能的未来》,在书中介绍了大脑是如何工作的,以及这种原理将可能如何指导建造智能机器。他说,深度学习未能考虑时间的概念。他认为,大脑处理感官数据流,人类的学习依赖于我们的按次序回忆模式的能力:当你看到关于小猫正在做些有趣事情的视频时,重要的是动作,而不是一系列静止的图像——就像Google在实验中使用的那样。“谷歌的态度是:大量的数据解决一切。”霍金斯说。 但是,就算数据不解决一切的话,像谷歌之类公司在这些问题上投入的计算资源也不能忽视。深度学习的倡导者认为,计算资源是至关重要的,因为大脑本身仍然比今天的任何神经网络都复杂得多。“根本上说,你需要大量的计算资源来让设想成真。“辛顿说。 展望 虽然谷歌在未来的应用上尚有不足,但是前景依然耐人寻味。比方说,显然更好的图像搜索将对YouTube有利。迪安说,深度学习模型能够使用英语音素数据来更快地训练其他语言的语音。更成熟的图像识别也可能让谷歌的自动驾驶汽车变得更好。再有就是谷歌的基础:搜索和广告。任何能更好更快地——甚至也许在用户自己意识到之前——识别用户真正在找什么的技术,都会给这两者带来更大的改进。 这正是激起库兹威尔兴趣的原因。他已经65岁了,对智能机器有着长期的愿景。在高中时,他写了能使计算机创作各种经典风格原创音乐的软件,并在1965年的电视节目《我有一个秘密》中展示了出来。从那时起,他的发明包括几个第一——印刷品朗读机、能扫描和数字化任何字体打印件的软件,能以管弦乐队的声音重制音乐的合成器,以及一个使用大词汇库的语音识别系统。 今天,他设想了一个“电子朋友”,它能倾听你的电话谈话,阅读你的电子邮件,追踪你的一举一动——当然,如果你允许的话。所以,这个电子朋友甚至可以在你发问之前,就可以告诉你你想知道的事情。这不是他在谷歌工作的短期目标,但它对谷歌联合创始人谢尔盖·布林来说很合适。布林说,在公司的初期,他想建立一台有感知能力的计算机,相当于《2001太空漫游》里的HAL那样; 只除了一点,这部机器不会杀人。 现在,库兹威尔的目标是帮助计算机理解自然语言,甚至用自然语言说话。他说:“我的任务是让电脑对自然语言有足够的理解,来做一些有用的事情——更好的搜索工作,更好地回答问题。”从本质上讲,他希望建立一个IBM沃森的更灵活版本,他钦佩沃森在《危险边缘》节目中表现出的理解能力,它能应对如“一个上面有泡沫的馅饼发表的很长的、无聊的讲话”这样古怪的查询。(沃森的正确答案是:“什么是蛋白酥、夸夸其谈?”) 库兹威尔是不是只专注于深度学习;虽然他说自己的语音识别方法是基于类似的大脑工作理论。他想为词汇、短语和句子的实际意义,包括通常会让计算机犯错误的含糊含义建立模型。“我有一个以图形化的方式来表示语言语义的初步想法。”他说。 相应地,这将需要更全面的方式,来把句子的含义图形化。谷歌已经在机器翻译中使用这种分析方式提升语法准确率。自然语言理解也需要电脑明白那些含义——虽然我们人类认为那些是常识。为了这个,库兹威尔将利用“知识图谱”。知识图谱是谷歌开发的目录,有700万主题、地点、人物以及其他东西,再加上它们之间数以亿计的关系。这一工具是去年发布的,它提供了一种方法,能为搜索者检索其查询的答案而不仅仅是链接。 最后,库兹威尔计划采用深度算法来帮助计算机处理“软边界和语言的模糊性”。这的确听起来有点惊人。“自然语言理解不是会在某个时刻完成的目标,它比搜索更多,”他说。“这不是我认为我能完成的项目。” 虽然库兹威尔的愿景依然会在许多年后才会成真,但是深度学习可能会比较近的将来,对除语音和图像识别之外的应用产生影响,例如在研发新药物方面。在默克竞赛中,辛顿团队出乎意料的胜利,清楚地表明深度学习的效果:它可以在一个经验缺乏的领域里发挥作用。 这还不是全部。微软的彼得·李说,使用深度学习在机器视觉上的早期研究很有前途,将可用于工业检测和机器人引导之类的应用。他还设想了使用深层神经网络的个人传感器,可以用它来预测健康问题;而且,遍布城市的传感器可能给深度学习系统提供信息,这样可以预测像是哪里会发生堵车之类的情况。 不可避免地,在试图模拟如人类大脑般深刻东西的领域中,单单一种技术不会解决所有挑战。但现在,这种技术在人工智能领域中走在前列。迪安说:“深度学习,是了解世界的一种真正强大的隐喻。” 原文: http://www.techreviewchina.com/home/article/detail/id/344.html 深度学习(Deep Learning)的相关资料总结 : http://blog.sciencenet.cn/blog-830496-679604.html
3183 次阅读|0 个评论
[转载]深度学习与人工智能
jiaqiangzheng 2014-2-19 12:28
使用海量数据来识别照片和语音并实时翻译讲话,深度学习计算机朝着真正的人工迈进了一大步。如果我们能在理论、建模和工程方面,突破深度学习技术面临的一系列难题,人工智能的梦想将不再遥远。 深度学习:而今迈步从头越 ——计算机逐步朝人工智能靠近 科技日报2014-02-16(2),记者 刘 霞 综合外电 使用海量数据来识别照片和语音并实时翻译讲话,深度学习计算机朝着真正的人工迈进了一大步。英国《自然》杂志网站近日就此进行了报道。 深度学习东山再起 2012年,位于美国加州山景城的神秘莫测的Google X实验室的研究人员用1000台计算机(共有1.6万个处理器)构建出了全球最大的电子模拟神经网络——拥有10亿个连接的人工神经网络“谷歌大脑”,并通过向其展示自YouTube视频中提取出的约1000万张静止的图像,考察其能学到什么。结果显示,在无外界指令的自发条件下,该人工神经网络自主学会了识别人脸、人体甚至猫等类别的事物。 也许这看起来只是琐碎的成就,除了表明猫的主人们热衷于上传宠物视频,导致互联网上猫的视频随处可见之外,说明不了更多问题,因此,这一发现也让记者们讪笑不已。但实际上,该成果是深度学习东山再起的一个里程碑。 这一进步也意味着,谷歌在人工智能领域(AI)又达到了一个新的高度,在业界引发广泛关注。对电脑用户而言,人工智能研究一直前景广阔,但迄今成果寥寥,不过情况慢慢发生了变化。在过去几年内,包括谷歌、苹果和IBM等在内的互联网巨擘们一直在积极争夺在深度学习方面拥有专业技术的初创公司和研究人员。 对每个消费者来说,深度学习计算机的显著进步所带来的好处包括:软件能更好地对照片进行筛查、理解语音指令并将对文本进行翻译。而对科学家和医学界人士而言,深度学习计算机能用来筛查药物,标示出大脑内真实的神经网络并预测蛋白质的功能。 “人工智能研究领域遇到的挫败可谓不可胜数,但也取得了稍许进步,或许,未来的研究会一马平川。”深度学习专家、美国纽约大学数据科学中心的主任杨乐康(音译)表示。 “接下来的几年内,很多人会投入深度学习的洪流当中。”美国加州大学伯克利分校的计算机图像识别专家吉腾德拉·马利克也认同这一观点。 不过,从长远来看,深度学习不一定会大获全胜,研究人员目前正在研究的其他技术也显示出了巨大的潜能。马利克说:“随着时间的推移,人们会知道,什么技术在何种领域表现最好。” 深度学习:让机器学会思考和做决定 在解释深度学习之前,我们需要了解什么是机器学习。机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。机器学习的发展大致经历了两次浪潮:浅层学习和深度学习。 深度学习这一技术已有30年的历史了。深度学习旨在模仿人脑的神经网络,其作用就如人类大脑里掌管知觉、运动指令、意识、语言的“新皮层”,它能自己学习辨识声音、图像和其他数据,从而帮助计算机破解一些人类几乎完全依靠直觉来解决的琐碎问题,从识别人脸到理解语言等。 深度学习本身也源于一个更古老的计算理念:神经网络。这些神经网络系统模拟的是人脑内神经细胞之间的紧密关联。这些神经细胞可以彼此沟通,互相施加影响,当把这样一个神经网络暴露在数据面前,不同神经细胞之间的关系会发生改变。这样,网络就会发展出对某个类别的输入数据作出特定反应的能力。通过这种方式,网络就拥有了学习能力,“学”到了一些东西。 “谷歌大脑”大约有100万个模拟神经细胞,模拟了10亿个连接,比此前的任何深度神经网络都要大10多倍。“谷歌大脑”项目的创办人安德鲁·恩格现在是美国斯坦福大学人工智能实验室的主任,致力于使深度学习系统再扩大10倍。 发展历程缓慢艰辛 在上世纪50年代,计算机还是新兴事物,那时,第一代人工智能研究人员就满怀期望地预测,完全成熟的人工智能很快就会到来。但随着人们慢慢认识到客观世界的极端复杂性,尤其是当人们开始接触到诸如人脸为什么是人脸而非一张面具或猴脸这样的知觉或感性问题时,这种过于乐观的想法才逐渐偃旗息鼓。 标准的机器学习以及图像识别技术依靠数以千计带标签的图片,对电脑进行初始“训练”,使电脑从一开始就对猫脸长什么样有一个概念。但图片加标签需要耗费大量人力,成千上万名研究人员耗费了数十年时间来为与计算机需要识别物体的不同特征有关的规则进行手工编码。“找出这些特征非常困难,耗费时间而且需要专业知识。”恩格说,“你不得不问自己,是否还有更好的办法,可以让人解脱出来。” 在上世纪80年代,这种更好的方式似乎是神经网络内的深度学习。这样的系统可以从头开始学习规则,而且具有令人愉悦的对称性——使用受到大脑启发的机制来完成类似大脑的功能。在这一系统中,模拟的神经细胞被组织成不同的层,当向这样的系统展示一副人脸的图片时,第一层只是注意所有黑像素和亮像素;接下来的一层可能可以意识到这些像素会形成边角;再下一层或许可以识别出横线和竖线;最后一层或许可以认出眼睛,能够意识到两只眼睛实际上出现在同一张脸上。 马利克说,与更简单的系统相比,第一个深度学习软件的表现可谓差强人意,而且使用起来还需要技巧。他说:“一直以来,神经网络都需要精细管理,而且其中充满了各种窍门和技巧。”在学习过程中,这样的系统需要被“喂食”大量的实例,就像婴儿贪婪地从周围世界中汲取大量信息一样。在上世纪80年代到90年代,还没有如现在一样多的数字信息可用,而且,计算机的运行速度也很慢,因此,深度学习软件本身非常罕见,其应用更是屈指可数。其中的一套软件由杨乐康研发,目前被银行用来阅读手写的支票。 然而,到2000年左右,情况发生了巨大的变化,似乎是“一夜之间春风来,千树万树梨花开”。2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求。包括杨乐康和加拿大多伦多大学机器学习领域的泰斗杰弗里·希顿在内的科学家确信,计算能力的增加和数字数据的大规模爆发意味着,深度学习复兴的时刻到了。希顿的一名研究生乔治·德哈尔表示:“我们想向全世界证明,这些深度学习神经网络真的有用。” 2006年,希顿和学生在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要信息:一、很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;二、深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。 最初,希顿、德哈尔和其他人利用深度学习解决了一个非常困难但从经济角度而言非常重要的语音识别任务。2009年,研究人员报告称,他们利用一组经典的数据对一套深度学习软件进行训练——3个小时的录音和语音翻译,这套深度学习软件能够精确地理解语音的内容,并将其转化为文字,精确度创下了纪录。德哈尔表示,这一进步引起了智能手机市场巨头们的极大关注,他在微软实习期间,将这套技术带到了微软。德哈尔说:“几年后,这些巨头们都开始研究深度学习。”例如,苹果手机上的声控数字助手(Siri)就是建立在深度学习的基础上。 今天,谷歌、微软等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件作出更精准的预测。 在语音和图像识别领域取得巨大飞跃 当谷歌公司在其安卓智能手机操作系统上采用基于深度学习的语音识别技术后,其单词拼写的错误率下降了25%,这是语音识别领域10多年来最大的突破性进展。“我们耗费10年时间才能做到这一点。”希顿表示,这也反映了要想在这一领域取得突破是多么困难。 与此同时,恩格也说服谷歌,让他使用该公司与“谷歌大脑”有关的数据和计算机。“谷歌大脑”能从互联网视频中识别出猫的图像,这极准确而恰当地展示了无人监督学习的潜力。无人监督学习是最困难的学习任务,因为输入的信息没有附着任何解释性信息,比如姓名、标签或类别等。但恩格很快遇到了麻烦,因为很少有谷歌以外的研究人员拥有如此丰富而有力工具来开展与深度学习有关的研究。“我和很多人谈过话,很多学生沮丧地跑过来告诉我说,我又没有1000台计算机来用,我如何进行这类研究呢?” 因此,恩格回到斯坦福大学,开始利用图形处理单元(GPU,这种运行速度超快的芯片主要为游戏而研发)来研制更大、成本更低的深度学习网络,也有很多人在这么做。恩格说:“使用大约价值10万美元的硬件,我们能利用64个GPU,建造出一个拥有110亿个连接的网络。” 但这样的系统要想赢得机器视觉科学家的青睐,可能还需要“百尺竿头,更进一步”。这些机器视觉科学家希望能在标准化测试方面看到其优异的表现。马利克记得,希顿曾经问过他:“你是一个怀疑论者,什么使你如此确信深度学习系统的潜力呢?”马利克回答说:“深度学习系统在国际闻名的数据池(ImageNet)竞赛中取胜或许让我看到了其巨大的潜能。” 在该比赛中,研究团队需要训练计算机程序识别与100万张图像有关的一套数据,这些图像已被人工贴上了各类标签。经过训练后,通过让这些程序从以前未曾见过的图像中找出同样的标签来测试这些程序的性能。每一幅测试图像,程序都会给出5个答案,如果正确的答案并非其中之一,那么,这一测试就被认为是错误的。以前,获胜者们一般的出错率为25%。2012年,希顿的实验室使用深度学习获得了冠军,错误率仅为15%。 杨乐康并非这个团队的一员,不过,他说:“深度学习影响了很多方面。”这次获胜让希顿在谷歌获得了一份兼职工作,该公司2013年也使用该程序来对其谷歌+图像搜索软件进行了升级。 马利克说:“在科学领域,你经常会受到经验证据的摆弄,而这是扎扎实实的证据。”后来,他携这项技术参与另一项视觉识别竞赛,并破了纪录。很多人开始效尤这一做法:2013年,所有参加ImageNet竞赛的团队都开始使用深度学习技术。 随着深度学习技术在图像和语音识别领域不断取得突破,科学家们对用其来处理自然语言的兴趣也与日俱增,包括用其来理解人类的演说以进行转述或回答相关问题,将一种语言翻译成另一种语言等。现在,科学家们使用手写的规则和对已知的文本进行统计分析来做上述事情。深度学习在自然语言方面的最好表现在“谷歌翻译”这样的软件上得到了彰显,尽管谷歌翻译能提供可理解的结果,但是,与人类的翻译比起来,还要差很多。 总的来说,深度学习在自然语言处理方面取得的进展没有在语音图像上那么令人印象深刻。一个很有意思的悖论是:相比于声音和图像,语言是唯一的非自然信号,是完全由人类大脑产生和处理的符号系统,但模仿人脑结构的人工神经网络却似乎在处理自然语言上没有显现明显优势。 语言学习翻译服务网站Duolingo的创办者、卡内基梅隆大学教授路易斯·冯·安表示:“在这一方面,深度学习还有很大的探索空间,从2006年图像深度学习成为学术界热门课题到2012年10月希顿在ImageNet上取得重大突破,经历了6年时间。我们需要有足够的耐心。我们也相信,深度学习在自然语言处理方面的表现会越来越好。” 在其他领域拥有巨大运用潜力 与此同时,科学家们也不断证明,深度学习在完成很多科研任务方面非常管用。希顿说:“深度网络真的很擅长在数据组中发现模式。” 2012年10月份,希顿领导的研究团队赢得了美国化学与制药公司默克公司举办的一场竞赛,竞赛的主旨是鉴别出可导致新药的分子,该团队正是采用深度学习的方法,将目标对准那些最有可能与靶标绑定的分子,从而取得成功赢得了2.2万美元的奖金。希顿说:“我们将默克公司的基准提高了15%。”美国《纽约时报》也对这一重要成果进行了详细报道。 包括美国麻省理工学院的塞巴斯蒂安·程在内的生物学家和计算研究人员目前正利用深度学习技术来帮助他们分析大脑切片的三维图像。这样的图像包含有很多揉成一团的线条,这些线条代表了神经细胞之间的连接,需要将这些线条鉴别出来,以便于对其进行标示和计数。以前,他们的做法是,招募本科生来追踪和勾勒这些线条,但让这一过程自动化是处理数十亿计连接的唯一方式。深度学习似乎是自动化的最好方式。塞巴斯蒂安·程目前正使用深度学习程序来标示视网膜内的神经细胞,接着会将得到的结果提交给志愿者进行校对。 美国华盛顿大学的计算机专家威廉姆·斯塔福-诺贝尔则使用深度学习来教导程序检查一串氨基酸并对得到的蛋白质结构进行预测。例如,不同的氨基酸序列会形成螺旋还是环;某个溶剂是否能很容易地渗入结构内的缝隙中等等。迄今为止,诺贝尔已经训练这一程序能识别小的数据组,在接下来的几个月内,他将使用包含有10万个结构的蛋白质数据库来检验这套深度学习软件的性能。 对计算机专家们而言,深度学习可能会让他们获益颇丰:德哈尔正在考虑创办深度学习公司;而杨乐康上个月被“脸谱”网站雇佣,成为该网站新成立的人工智能部门的负责人。恩格说:“深度学习不再是养在深闺无人时,目前正生逢其时,你填入的数据越多,它的表现也就越好。”不过,他也强调说:“尽管很多时候,深度学习算法都非唯一的解决办法,但它是最好的,当然也是最容易的。这也是为什么其未来拥有巨大潜力的原因。” 其他竞争性的想法 当然,也并非所有科学家都看好深度学习,他们正在尝试使用其他方法来解决问题。比如,美国华盛顿大学计算机科学与工程系教授、艾伦人工智能研究所的负责人奥伦·埃齐奥尼的目标是发明一台计算机——当给其“喂食”一堆经过扫描的教科书后,其能通过标准化的小学科学测试(如果其不断加强,最终能通过大学入学考试)。为了通过这些测试,这台计算机必须能阅读并理解图表和文本。不过,艾伦人工智能研究所如何实现这一目标还是一个未知数。但对埃齐奥尼来说,神经网络和深度学习并非他们的首选。 一个竞争性的想法是,让计算机能在基本输入事实上的基础上进行推理,而非从头开始学习事实。因此,科学家们或许会为这种计算机编写程序,让其识别“所有的女孩都是人”这样的论断。接着,当一篇提到一个女孩的文本被提交给这台计算机时,计算机能推导出这个女孩是人。但这样的计算机也有自己的问题,因为我们周围的世界太纷繁复杂,即使没有数百万个,也有数十万个这样的事实。 目前,在这方面表现最好的就是IBM公司的计算机沃森(Watson)。Watson运算更快,记忆力更好,它也懂一些人类语言中的暗喻和双关。2011年,Watson在美国最受欢迎的智力竞赛节目Jeopardy中战胜人类,获得冠军,从而声名大噪。尽管如此,IBM公司沃森解决方案实验室的科学家们对深度学习在改进模式识别方面的优异表现也产生了兴趣。 谷歌也是如此,尽管其图像标记方面的最新进展主要得益于辛顿的深度学习网络,但其他研发部门也得到了足够多的关注。2012年12月,谷歌雇佣未来学家雷·库兹韦尔做其工程部主管,库兹韦尔的主要任务是使用但不局限于深度学习的技术,来为计算机寻找不同的方式,让其能从日常经验中学习。 去年5月份,谷歌购买了一台由加拿大D-Wave公司研制而成的量子计算机。尽管从理论上而言,这台计算机能用于深度学习领域,但科学家们目前主要用其来处理非人工智能方面的任务,比如困难的数学计算等。 深度学习带来了机器学习的一个新浪潮,受到从学术界到工业界的广泛重视,也导致了“大数据+深度模型”时代的来临。在应用方面,深度学习使得语音图像的智能识别和理解取得惊人进展,从而推动人工智能和人机交互大踏步前进。尽管如此,深度学习仍然还处于襁褓阶段。“它是未来的一部分。”德哈尔说,我们才刚刚开始。如果我们能在理论、建模和工程方面,突破深度学习技术面临的一系列难题,人工智能的梦想将不再遥远。 本篇文章来源于: 中国科技网 www.wokeji.com 原文链接:http://www.wokeji.com/jbsj/eb/201402/t20140216_646254.shtml
个人分类: 揽胜|4342 次阅读|0 个评论
从新皮质层Neocortex开始
wolfewu 2014-2-7 22:41
声明:这篇文章 摘自Dileep George的博士学位论文《How the brain might work》 Neocortex新大脑皮层(拉丁语,表示“新皮层” 或者“新外壳”),也被称作为neopallium(“新壁炉架”)或iscortex(“外壳等价物”),是哺乳动物大脑的一部分。它是大脑两个半球的外层,由六层结构组成,各层用I到VI标记(VI是最里层,I是最外层)。新大脑皮层是大脑皮层的一部分(与古皮层和原皮层连在一起,而这两个皮层是边缘系统的一部分)。它涉及到更高级的功能(相对于大脑的基本功能)例如感观知觉,运动指令的产生,空间推理,理性思考和语言。 ——Wikipedia 如果从机器学习的观点来看待对大脑的研究,就会发现不论机器学习以及分类算法设计得多么牛X,这些方法,即先训练参数化自适应模型再通过某种准则调整参数来完成新的分类任务的方法,都隐含着一些机器学习的基本问题。 “没有免费的午餐”(No free Lunch, NFL定理),没有学习算法内在地比其他学习算法优越。如果说解决一个具体问题的算法比其它的优越,它只不过因为这个算法探究了适合这个问题的假设条件。同一个算法不可能很好地解决与原先假设完全不同的问题。这就意味着,为了使算法有效地解决问题,机器学习的研究者必须将目标问题领域的先验知识嵌入到最初的模型结构中。嵌入的先验知识越多,训练起来就越容易。这是否意味着我们需要为每一个试图用机器学习来解决的新问题创造一个新的模型?这实在是太费力了。 话说回来,人类和其他哺乳动物解决问题的方式是不一样的。人类会学习,能够适应原来没有遇到过的新问题。很多研究者都猜想新大脑皮层是使用相同的基本算法来学习不同的模式。这意味着我们学习听觉、视觉、体觉感知以及语言都是同一种算法在运作。很多研究发现都支持这样的观点——通用皮层算法是存在的。 将通用皮层算法和NFL定理组合在一起,就可以得到机器学习的重要推论,并可由此创造新的智能机器。表面上看,NFL定理看起来给存在通用皮层算法的想法带来了不少的麻烦。一种机制或者算法如何才能很好地就完成听觉、视觉以及语言这些不同的任务?答案来自NFL本身,也就是我们需要探究的问题的前提假设。也就是说,通用皮层算法与NFL定理是可以相互保持一致的,只要我们能够发现学习视觉、听觉和语言的相同基本假设。如果说大脑皮层善于使用通用机制学习各种各样的任务,那么在这些看起来完全不同的任务之间就一定存在着某种通用的东西。生物的进化一定发现了这种通用性的东西,而新大脑皮层就是它的操作主体。 从NFL定理出发可以得出这样的结论:一种统一的学习理论在本质上就是一种统一的假设理论。如果输入是从未遇到过的信息,学习机用于预测输出的假设集合就被认为是学习算法的“归纳偏向”。我们所做的假设越多,学习就越容易。然而,我们所做的假设越多,我们所能解决的问题数量就越少。如果想要设计解决一大类问题的算法,我们所要回答的就是:什么样的基本假设是足够具体的,以使得在合理的时间内实现学习;而它(们)又足够一般以能解决一大类问题?这就是要研究新大脑皮层所需要做的。 对新大脑皮层实施反向工程是个令人望而生畏的问题。如何搜寻这些统一假设?脑中有许多解剖学和生理学的细节;如何知道那个重要,那个不重要?什么只不过是生物学上的细节,因为只有神经元在起作用;什么才是绝对不能漏掉的重要计算原则? 同时研究新大脑皮层和现实世界是个不错的策略。研究新大脑皮层的解剖学和生理学结构会为找到关于它所作出的假设的本质提供重要线索。研究新大脑皮层的组织结构,就需要寻找与学习的观点有关的一般原则。因此,只需要选择那些能够在现实世界中找到对应物的一般原则。如果新大脑皮层中的一种组织结构特性与现实世界的一种组织结构特性(也就是一般原则)相匹配,就有理由肯定找到了一条与学习的观点有关的一般原则。 记忆-预测框架 Jeff Hawkins 在《人工智能的未来》中从生物学观点和计算的观点出发,提出了大脑皮层运作理论,称之为记忆-预测框架。其主要观点如下: 新大脑皮层为输入其中的空间和时间模式创建了一个模型。创建这个模型的目标是为了预测输入的下一个模式。 大脑皮层是由一种称为规范皮层回路的基本计算单元反复复制构成。从计算观点来讲,这样的规范回路可以看做是被反复复制若干次的节点。 皮层被组织成为层次结构,这意味着上面所说的节点彼此连接形成了树形的层次结构。 皮层的功能就是对它所“看到”的世界进行建模。这个模型是一种时空层次结构,结构中的每一个节点都存储了模式和序列。它随后就用于对输入进行预测。 新大脑皮层以无监督方式对现实世界建模。 结果中的每一个节点都存储了大量的模式和序列。皮层就是依靠这些模式来进行模式识别。 一个节点的输出是用它所学习过的模式序列表达的。 消息在层次结构中向上和向下传递以识别和分辨信息,并且还在时间上向前传播以预测下一个输入的模式。 记忆-预测框架的数学表达形式就是层次瞬时记忆(Hierarchical Temporal Memory, HTM)。
4499 次阅读|0 个评论
初识 Hierarchical Temporal Memory
wolfewu 2014-2-7 22:20
这是一篇我在几年前对Numenta公司的网页上的一些内容的翻译。虽然原网页已经变了,但是对认识Hierarchical Temporal Memory(HTM)多少有些帮助吧。维基百科比较详细的介绍,网址是 http://en.wikipedia.org/wiki/Hierarchical_temporal_memory Hierarchical Temporal Memmory:这个名字里面都是些什么呢? 选择这个名字的原因是: H ierarchical ——HTMs(复数的)被组织成为一种树形的节点层次结构。各个节点实现了一个学习与记忆的函数,也就是说,每个节点中封装了一种算法。低层节点接受大量的输入,并将处理过的信息作为输入送到接下来的一层。以这种方式,随着信息沿着层次结构逐层上传,它被HTM网络处理得越来越抽象。 T emporal ——在训练过程中,必须用目标随着时间变化的观点来表述HTM应用。在图片应用的训练中,先从上到下然后从左到右地描述图像,就好像图像正随着时间运动。请注意,非持久性(Temporal,我的理解为照片在每一时刻所处的位置都不应该一样)的要素非常重要:所设计的算法本身就期望目标随着时间渐渐发生变化(也就是说这是算法的需要)。 M emory ——一个HTM应用会分为两个阶段,可以分别认为是“训练记忆阶段”和“使用记忆阶段”。在训练过程中,HTM学着从它接受到的输入中识别模式。这样单独地训练层次结构中的每一层。完全训练好的HTM网络中的每一层都知道——都记得——它自己世界中的目标。在推导过程中,当HTM网络前摆着新的目标时,HTM网络就可以确定一个目标是某个已知目标的似然函数。 HTM技术与传统的计算机应用 HTM应用与传统的计算机应用是不同的。传统上每一个程序解决一个具体问题例如处理电邮或是分析数据。与此相反,HTM算法可以被训练来解决不领域不同类型的问题。程序员为HTM网络准备数据并训练HTM网络。受过训的网络可以分析新的信息并对其采取行动(暂时这样翻,原文是act on it)。 HTM技术与现有的数据建模技术 乍一看,许多其他的数据建模技术都看起来像HTM技术,然而却不具备HTM的所用功能。HTMs与众不同的特征是: 一个HTM网络即处理时间信息又处理空间信息。 受过训的HTM网络可以产生数据,也就是说可以在时间上向前预测。 有着很坚实的生物学基础。 在 Jeff Hawkins 的《人工智能的未来》这本书中,他对这个话题讨论得更为详细。他指出了传统技术如专家系统和神经网络与HTM的不同之处:所有其他技术都试图模拟人类行为,而唯有HTM是基于“人脑是如何工作的”这样一套理论的。 适合HTM应用的问题 成功应用HTM的关键在于把它用于一个适合HTM的问题并对该问题进行恰如其分的阐述。《适合HTMs的问题》白皮书对这个问题进行了详细探讨。这一节概述几个最为重要的观点。 有些问题并不是很适合HTMs:HTM并不适于解决可以用一组离散的规则就能解决的问题。HTM更适宜于解决含混不清和嘈杂领域的问题。需要具体时间的问题(如乐曲识别)并不适于这一代的HTMs(看来还需要进化 )。 HTM最适合于这样的问题:用于建模的数据是从时变(随时间变化的)causes的层次结构中产生的。这里的一个cause是指一个产生HTM输入数据的目标(好像可以理解为因果关系的“因”)。这个问题必须同时包含空间和时间成分。例如白皮书中讨论过的汽车监视系统、波浪采样等应用,后者用监视器的输入来对河流的状态进行分类。 这两个例子都包含了时间元素:车辆监视系统中,传感器跟踪例如引擎温度等的信息。波浪采样中,传感器跟踪河流的温度。 两个例子都包含了一个空间层次结构:车辆监视系统中,不同的系统组成了更大的子系统,这些子系统又组成了汽车。波浪采样中,河流状态包含了一个个体温度的集合。 就好像人类大脑,HTM网络需要充分的训练数据。有了这些充分的数据,HTM网络就可以很好地处理含混和嘈杂问题,并且能使用从不同的来源信息(温度,速度等)。它们同样不需要数据上的对称。 总而言之,HTM所应用的领域需要有一个内在的层次结构,并且数据必须有时间和空间的关联。同时还要有以时间序组织起来的充分数据以供训练。
8101 次阅读|0 个评论
对HTM白皮书中文译本的个人勘误(1)
wolfewu 2014-2-7 21:48
声明:最近看到了Numenta的网站上有了CLA皮质学习算法中文版本的白皮书(白皮书的网页链接是 http://numenta.org/cla-white-paper.html ), 看了下实在是不敢恭维翻译的质量,所以自己将其中的部分内容翻译整理了一下。文中的相关图片全部引自英文版的白皮书。欢迎大牛们批评指正~~ 约定:我们用Hierarchy 来直接表示层级组织结构,用region表示区域/层级,用level来表示hierachical中的等级 什么是HTM?(我的另一篇文章也做了介绍 http://blog.sciencenet.cn/blog-1245419-765449.html )是指Hierarchical Temproal Memory, 直译是层次化的时间记忆。是一种模拟人脑皮层结构的新型神经体系结构,与现有的用数学模型描述的ANN有很大的区别。但是他们的研究目的都是一样的——实现人工智能 HTM原理 在这部分我们会涉及到HTM的一些核心原理,要说明几个问题:为什么hierarchical是重要的,HTM 的region是如何构建的,为什么数据要以sparse distributed representation的形式储存,为什么基于时间的信息是关键。 层级组织结构 (Hierarchy) 一个HTM是由按层级排列的多个region所组成的。region是HTM中的主要记忆和预测单元,我们将会在下面的部分详细介绍。通常而言,每个region代表Herarchical中的一个level。信息沿着Hierachy中的level上升总是在进行聚合(聚合本身就是一个复杂的问题),下一个level的多个子元素将被聚合到上一个level的一个子元素中。然而,由于反馈连接的存在,信息也会随着level的下降而不断分流。(level和region基本上是同意词。当描述region的内在功能时我们使用“region”,档描述region对于整个Hierarchy的影响时 我们使用“level”一词。 图 1.1: 4 level的HTM的例子,每个level就是一个region,在level间,region内以及HTM的输入输出都存在数据通信 我们完全有可能将多个分支HTM网络组合到一起来使用(见图1.2)。这种结构可以利用来自多个数据源和感受器提供的数据(也就是所谓的Multimodal的数据)。举个例子,一个分支HTM网络可能是处理音频信息而另一个分支HTM网络可能是处理视觉信息。在每一个分支HTM网络内存在聚合,而各个分支HTM的输出信息只向上聚合(分之间并没有信息传输)。 图1.2:对不同感受器的网络进行聚合 组织成Hierarchy的好处就是高效率。它显著减少了训练时间和存储空间,因为每一level中已学会的模式将以一种新奇的方式被组合在一起到更高的level中得到重用。我们以视觉为例进行说明。在人的大脑中,Hierarchy的最低level储存着许多有关视场中极小区域的信息,例如“边”和“角”。它们是许多视觉对象的基本构件。我们称之为模式。这些低level的模式将会在中level内重组成为更复杂的模式,例如曲线和条纹。一条弧线可以是耳朵的轮廓,方向盘的上部,咖啡杯的杯把。这些中level模式被进一步组合起来用于表征高level的(视觉)对象特征,例如脑袋、汽车、房子。因此,学习一个新的高level的(视觉)对象时,不需要重学它的构件,因为这些构件是在高level的(视觉)对象之间共享的。再例如,想想当你学习一个新单词的时候,你不需要再去学习字母、音节、因素等这些低level的语言构建了。 在hierarchy内共享表征(也就是前面所说的构件)也导致了对“期望行为”的泛化。啥意思呢?比如,当你看见一只新的动物,如果你看到了它的嘴和牙齿,你会预测这个动物用它的嘴来进食,并有可能会咬你。Hierarchy使得你看到的新对象可以继承其子构件的已知特性。(“期望行为“的泛化在哪里呢?在上例中,”嘴“、”牙齿“这些构件的”吃“和”咬“的行为被泛化了,所以就能够用于预测新视觉对象的行为。这种泛化是一个对低level构件进行”抽象“的过程,这是后话) HTM中的一个level能学习多少内容呢?或者换句话说,需要多少个level才够用呢?我需要在每level的存储空间与level的数量间进行权衡。幸运地是,在给定输入的统计量和分配所得的资源数量后,HTM可以自动地在各level上学习到与这些给定数据相适应的最佳表征。如果你为某一层分配了较多的空间,那一层将构建更大更复杂的表征,这也就意味着需要更少的层级。如果你为某层分配了较少的空间,那一层将构建较小、较简单的表征,这也就意味着可能需要更多的层级。(说些题外话,类似的问题在传统的ANN中也是存在的,只不过扁平网络需要比较大的隐含层,大概是深度的指数级倍数,而较为深的网络又难以训练成功,至少在Deep Learning 出现前是这样) 到此目前为止,我们已经描述了许多较难的问题,例如视觉推导(”推导“类似于模式识别)。但是许多有价值的的问题比视觉要简单,而且用一个HTM的region就足以解决。例如,我们用一个HTM网络来预测一个浏览网站的人下一步会点击哪里。这个问题涉及到使用web点击数据流来训练HTM网络。在这个问题中,有着很少甚至没有空间上的Hierarchy,求解这个问题的过程主要是发现与时间相关的统计量,也就是说通过识别典型的用户模式来预测用户的下一步会点击哪里。 总而言之,hierarchy能减少训练时间,减少存储空间,并引入了一种泛化的形式。尽管如此,有的时候一个简单的HTM的region就能解决许多简单的预测问题。 (后文请查阅本系列的第2篇,讲述有关region的原理)
4587 次阅读|0 个评论
[转载]加州大学圣迭戈分校学习算法研讨会 deep learning 深度学习
hestendelin 2013-12-1 21:48
摘自: http://cseweb.ucsd.edu/~dasgupta/254-deep/ CSE 254: Seminar on Learning Algorithms Time TuTh 3.30-5 in CSE 2154 Instructor: Sanjoy Dasgupta Office hours TBA in EBU3B 4138 This quarter the theme of CSE 254 is deep learning . Prerequisite: CSE 250AB. The first couple of lectures will be an overview of basic material. Thereafter, in each class meeting, a student will give a talk lasting about 60 minutes presenting a technical paper (or several papers) in detail. In questions during the talk, and in the final 20 minutes, all seminar participants will discuss the paper and the issues raised by it. Date Presenter Paper Slides Jan 10 Sanjoy Introduction Jan 12 Sanjoy Hopfield nets Jan 17 Sanjoy Markov random fields, Gibbs sampling, simulated annealing Jan 19 Sanjoy Deep belief nets as autoencoders and classifiers Jan 24 Brian Task-driven dictionary learning here Jan 26 Vicente A quantitative theory of immediate visual recognition here Jan 31 Emanuele Convolutional deep belief networks here Feb 2 Nakul Restricted Boltzmann machines: learning , and hardness of inference here Feb 7 Craig The independent components of natural scenes are edge filters here Feb 9 No class: ITA conference at UCSD Feb 14 Janani Deep learning via semi-supervised embedding here Feb 16 Stefanos A unified architecture for natural language processing here Feb 21 Hourieh An analysis of single-layer networks in unsupervised feature learning here Feb 23 Ozgur Emergence of simple-cell receptive properties by learning a sparse code for natural images here Feb 28 Matus Representation power of neural networks: Barron , Cybenko , Kolmogorov here Mar 1 Frederic Reinforcement learning on slow features of high-dimensional input streams Mar 6 Dibyendu, Sreeparna Learning deep energy models and What is the best multistage architecture for object recognition? here Mar 8 No class: Sanjoy out of town Mar 13 Bryan Inference of sparse combinatorial-control networks here Mar 15 Qiushi Weighted sums of random kitchen sinks here This is a four unit course in which the work consists of oral presentations. The procedure for each student presentation is as follows: · One week in advance: Finish a draft of Latex/Powerpoint that present clearly the work in the paper. Make an appointment with me to discuss the draft slides. And email me the slides. · Several days in advance: Meet for about one hour to discuss improving the slides, and how to give a good presentation. · Day of presentation: Give a good presentation with confidence, enthusiasm, and clarity. · Less than three days afterwards: Make changes to the slides suggested by the class discussion, and email me the slides in PDF, two slides per page, for publishing. Try to make your PDF file less than one megabyte. Please read, reflect upon, and follow these presentation guidelines , courtesy of Prof Charles Elkan. Presentations will be evaluated, in a friendly way but with high standards, using this feedback form . Here is a preliminary list of papers .
个人分类: 深度学习|2490 次阅读|0 个评论
[转载]CMU2013 DeepLearning Course 卡内基梅隆大学 深度学习课程
hestendelin 2013-11-30 10:55
Deep LearningInstructor: Bhiksha Raj COURSE NUMBER -- MLD: 10805 LTI: 11-785 (Lab) / 11-786 (Seminar) Timings: 1:30 p.m. -- 2:50 p.m. Days: Mondays and Wednesdays Location: GHC 4211 Website: http://deeplearning.cs.cmu.edu Credits: 10-805 and 11-786 are 6-credit seminar courses. 11-785 is a 12-credit lab course. Students who register for 11-785 will be required to complete all lab exercises. IMPORTANT: LTI students are requested to switch to the 11-XXX courses. All students desiring 12 credits must register for 11-785. Instructor: Bhiksha Raj Contact: email:bhiksha@cs.cmu.edu, Phone:8-9826, Office: GHC6705 Office hours: 3.30-5.00 Mondays. You may also meet me at other times if I'm free. TA: Anders Oland Contact: email:anderso@cs.cmu.edu, Office: GHC7709 Office hours: 12:30-2:00 Fridays. Deep learning algorithms attempt to learn multi-level representations of data, embodying a hierarchy of factors that may explain them. Such algorithms have been demonstrated to be effective both at uncovering underlying structure in data, and have been successfully applied to a large variety of problems ranging from image classification, to natural language processing and speech recognition. In this course students will learn about this resurgent subject. The course presents the subject through a series of seminars, which will explore it from its early beginnings, and work themselves to some of the state of the art. The seminars will cover the basics of deep learning and the underlying theory, as well as the breadth of application areas to which it has been applied, as well as the latest issues on learning from very large amounts of data. Although the concept of deep learning has been applied to a number of different models, we will concentrate largely, although not entirely, on the connectionist architectures that are most commonly associated with it. Students who participate in the course are expected to present at least one paper on the topic to the class. Presentations are expected to be thorough and, where applicable, illustrated through experiments and simulations conducted by the student. Students are registered for the lab course must also complete all lab exercises. Labs Lab 1 is up Lab 1: Perceptrons and MLPs Data sets Due: 18 Sep 2013 Lab 2 is up Lab 1: The effect of increasing network depth Data set Due: 17 Oct 2013 Papers and presentations Date Topic/paper Author Presenter Additional Links 28 Aug 2013 Introduction Bhiksha Raj Intelligent Machinery Alan Turing Subhodeep Moitra 4 Sep 2013 Bain on Neural Networks. Brain and Cognition 33:295-305, 1997 Alan L. Wilkes and Nicholas J. Wade Lars Mahler McCulloch, W.S. Pitts, W.H. (1943). A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, 5:115-137, 1943. W.S. McCulloch and W.H. Pitts Kartik Goyal Michael Marsalli's tutorial on the McCulloch and Pitts Neuron 9 Sep 2013 The Perceptron: A Probalistic Model For Information Storage And Organization In The Brain. Psychological Review 65 (6): 386.408, 1958. F. Rosenblatt Daniel Maturana ?? Chapter from “The organization of Behavior”, 1949. D. O. Hebb Sonia Todorova 11 Sep 2013 The Widrow Hoff learning rule (ADALINE and MADALINE). Widrow Pallavi Baljekar ?? Optimal unsupervised learning in a single-layer linear feedforward neural network. Neural Networks 2 (6): 459.473, 1989. T. Sanger Khoa Luu A simplified Neuron model as a principal component analyzer, by Erkki Oja 16 Sep 2013 Learning representations by back-propagating errors. Nature323(6088): 533.536 Rumelhart et al. Ahmed Hefny Chapter by Rumelhart, Hinton and Williams Backpropagation through time: what it does and how to do it., P. Werbos, Proc. IEEE 1990 A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm, IEEE Intl. Conf. on Neural Networks, 1993 M. Riedmiller, H. Braun Danny (ZhenZong) Lan 18 Sep 2013 Neural networks and physical systems with emergent collective computational abilities, Proc. Natl. Acad. Sciences, Vol 79, 2554-2558, 1982 J. J. Hopfield Prasanna Muthukumar The self-organizing map. Proc. IEEE, Vol 79, 1464:1480, 1990 Teuvo Kohonen Fatma Faruq 23 Sep 2013 Phoneme recognition using time-delay neural networks, IEEE trans. Acoustics, Speech Signal Processing, Vol 37(3), March 1989 A. Waibel et al. Chen Chen A tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the echo state network approach, GMD Report 159, German National Research Center for Information Technology, 2002 Herber Jaeger Shaowei Wang 25 Sep 2013 Bidirectional recurrent neural networks, IEEE transactions on signal processing, Vol 45(11), Nov. 1997 M. Schuster and K. Paliwal Felix Juefei Xu Long short-term memory. Neural Computation, 9(8):1735.1780, 1997 S. Hochreiter and J. Schmidhuber Dougal Sutherland 30 Sep 2013 A learning algorithm for Boltzmann machines, Cognitive Science, 9, 147-169, 1985 D. Ackley, G. Hinton, T. Sejnowski Siyuan Improved simulated annealing, Boltzmann machine, and attributed graph matching, EURASIP Workshop on Neural Networks, vol 412, LNCS, Springer, pp: 151-160, 1990 Lei Xu, Erkii Oja. Ran Chen 2 Oct 2013 Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position, Pattern Recognition Vol. 15(6), pp. 455-469, 1982 K. Fukushima, S. Miyake Sam Thomson Shift invariance and the Neocognitron, E. Barnard and D. Casasent, Neural Networks Vol 3(4), pp. 403-410, 1990 Face recognition: A convolutional neural-network approach, IEEE transactions on Neural Networks, Vol 8(1), pp98-113, 1997 S. Lawrence, C. L. Giles, A. C. Tsoi, A. D. Back Hoang Ngan Le Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, P.Y.Simard, D. Steinkraus, J.C. Platt, Prc. Document analysis and recognition, 2003 Gradient based learning applied to document recognition, Y. LeCun, L. Bottou, Y. Bengio, P. Haffner. Proceedings of the IEEE, November 1998, pp. 1-43 7 Oct 2013 On the problem of local minima in backpropagation, IEEE tran. Pattern Analysis and Machine Intelligence, Vol 14(1), 76-86, 1992 M. Gori, A. Tesi Jon Smereka Learning long-term dependencies with gradient descent is difficult, IEEE trans. Neural Networks, Vol 5(2), pp 157-166, 1994 Y. Bengio, P. Simard, P. Frasconi Keerthiram Murugesan Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, S. Hochreiter, Y. Bengio, P. Frasconi, J. Schmidhuber, in A Field Guide to Dynamical Recurrent Neural Networks, IEEE Press , 2001 Backpropagation is sensitive to initial conditions, J. F. Kolen and J. B. Pollack, Advances in Neural Information Processing Systems, pp 860-867, 1990 9 Oct 2013 Multilayer feedforward networks are universal approximators, Neural Networks, Vol:2(3), 359-366, 1989 K. Hornik, M. Stinchcombe, H. White Sonia Todorova Approximations by superpositions of a sigmoidal function, G. Cybenko, Mathematics of control, signals and systems, Vol:2, pp. 303-314, 1989 On the approximation realization of continuous mappings by neural networks, K. Funahashi, Neural Networks, Vol. 2(3), pp. 183-192, 1989 Universal approximation bounds for superpositions of a sigmoidal function, A. R. Barron, IEEE Trans. on Info. Theory, Vol 39(3), pp. 930-945, 1993 On the expressive power of deep architectures, Proc. 14th intl. conf. on discovery science, 2011 Y. Bengio and O. Delalleau Prasanna Muthukumar Scaling learning algorithms towards AI, Y. Bengio and Y. LeCunn, in Large Scale Kernel Machines , Eds. Bottou, Chappelle, DeCoste, Weston, 2007 Shallow vs. Deep sum product networks, O. Dellaleau and Y. Bengio, Advances in Neural Information Processing Systems, 2011 14 Oct 2013 Information processing in dynamical systems: Foundations of Harmony theory; In Parallel Distributed Processing: Explorations in the microstructure of cognition , Rumelhart and McLelland eds., 1986 Paul Smolensky Kathy Brigham Geometry of the restricted Boltzmann machine, M. A. Cueto, J. Morton, B. Sturmfels, Contemporary Mathematics, Vol. 516., pp. 135-153, 2010 Exponential family harmoniums with and application to information retrieval, Advances in Neural Information Processing Systems (NIPS), 2004 M. Welling, M. Rosen-Zvi, G. Hinton Ankur Gandhe Continuous restricted Boltzmann machine with an implementable training algorithm, H. Chen and A. F. Muray, IEE proceedings on Vision, Image and Signal Processing, Vol. 150(3), pp. 153-158, 2003 Diffusion networks, product of experts, and factor analysis, T. K. Marks and J. R. Movellan, 3rd Intl. Conf. on Independent Component Analysis and Signal Separation, 2001 16 Oct 2013 Distributed optimization of deeply nested systems. Unpublished manuscript, Dec. 24, 2012, arXiv:1212.5921 M. Carrera-Perpiñan and W. Wang M. Carrera-Perpiñan 21 Oct 2013 Training products of experts by minimizing contrastive divergence, Neural Computation, Vol. 14(8), pp. 1771-1800, 2002 G. Hinton Yuxiong Wang On contrastive divergence learning, M. Carrera-Perpinñan, AI and Statistics, 2005 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient, T. Tieleman, International conference on Machine learning (ICML), pp. 1064-1071, 2008 An Analysis of Contrastive Divergence Learning in Gaussian Boltzmann Machines, Chris Williams, Felix Agakov, Tech report, University of Edinburgh, 2002 Justifying and generalizing contrastive divergence, Y. Bengio, O. Delalleau, Neural Computation, Vol. 21(6), pp. 1601-1621, 2009 23 Oct 2013 A fast learning algorithm for deep belief networks, Neural Computation, Vol. 18, No. 7, Pages 1527-1554, 2006. G. Hinton, S. Osindero, Y.-W. Teh Aaron Wise Reducing the dimensionality of data with Neural Networks, G. Hinton and R. Salakhutidnov, Science, Vol. 313. no. 5786, pp. 504 - 507, 28 July 2006 Greedy layer-wise training of deep networks, Neural Information Processing Systems (NIPS), 2007. Y. Bengio, P. Lamblin, D. Popovici and H. Larochelle Ahmed Hefny Efficient Learning of Sparse Overcomplete Representations with an Energy-Based Model, M. Ranzato, C.S. Poultney, S. Chopra, Y. Lecunn, Neural Information Processing Systems (NIPS), 2006. 28 Oct 2013 Imagenet classification with deep convolutional neural networks, NIPS 2012 A. Krizhevsky, I. Sutskever, G. Hinton Danny Lan Convolutional recursive deep learning for 3D object classification, R. Socher, B. Huval, B. Bhat, C. Manning, A. Ng, NIPS 2012 Multi-column deep neural networks for image classification, D. Ciresan, U. Meier and J. Schmidhuber, CVPR 2012 Learning hierarchial features for scene labeling, IEEE transactions on pattern analysis and machine intelligence, Vol 35(8), pp. 1915-1929, 2012 C. Couprie, L. Najman, Y. LeCun Jon Smereka Learning convolutional feature hierarchies for visual recognition, K. Laukcuoglu,P. Sermanet, Y-Lan Boureau, K. Gregor, M. Mathieu, Y. LeCun, NIPS 2010 30 Oct 2013 Statistical language models based on neural networks, PhD dissertation, Brno, 2012, chapters 3 and 6 T. Mikolov, Fatma Faruq Semi-supervised recursive autoencoders for predicting sentiment R. Socher, J. Pennington, E. Huang, A. Ng and C. Manning Yueran Yuan Dynamic pooling and unfoloding recursive autoencoders for paraphrase detection, R. Socher, E. Huang, J. Pennington, A. Ng, C. Manning, EMNLP 2011 Joint learning of words and meaning representation for open-text semantic parsing, A.Bodes, X. Glorot, J. Weston, Y. Bengio, AISTATS 2012 4 Nov 2013 Supervised sequence labelling with recurrent neural networks, PhD dissertation, T. U. Munchen, 2008, Chapters 4 and 7 A. Graves, Georg Schoenherr Speech recognition with deep recurrent neural networks, A. Graves, A.-. Mohamed, G. Hinton, ICASSP 2013 Deep neural networks for acoustic modeling in speech recognition: the shared view of four research groups, IEEE Signal Processing Magazine, Vold 29(6), pp 82-97, 2012. G. Hinton et al. Daniel Maturana 6 Nov 2013 Modeling Documents with a Deep Boltzmann Machine, UAI 2013 N. Srivastava, R. Salakhutidinov, G. Hinton Siyuan Generating text with Recurrent Neural Networks, I. Sutskever, J. Martens, G. Hinton, ICML 2011 Word representations: A simple and general method for semi-supervised learning, ACL 2010 J. Turian, L. Ratinov, Y. Bengio Sam Thomson 11 Nov 2013 An empirical evaluation of deep architectures on problems with many factors or variables, ICML 2007 H. Larochelle, D. Erhan, A. Courville, J. Bergstra, Y. Bengio Ran Chen The Difficulty of Training Deep Architectures and the Effect of Unsupervised Pre-Training, AISTATS 2009 D. Erhan, P.-A. Manzagol, Y. Bengio, S. Bengio, P. Vincent Ankur Gandhe 13 Nov 2013 Extracting and Composing Robust Features with Denoising Autoencoders, ICML 2008 P. Vincent, H. Larochelle, Y. Bengio, P.-A. Manzgool Pallavi Baljekar Improving neural networks by preventing co-adaptation of feature detectors, G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sustskever, R. R. Salakhutdinov Subhodeep Moitra 18 Nov 2013 A theory of deep learning architectures for sensory perception: the ventral stream, Fabio Anselmi, Joel Z Leibo, Lorenzo Rosasco, Jim Mutch, Andrea Tacchetti, Tomaso Poggio Dipan Pal 20 Nov 2013 No more pesky learning rates, ICML 2013 Tom Schaul, Sixin Zhang and Yann LeCun Georg Shoenherr No more pesky learning rates: supplementary material On the importance of initialization and momentum in deep learning, JMLR 28(3): 1139.1147, 2013 Ilya Sutskever, James Martens, George Dahl, Geoffrey Hinton Kartik Goyal Supplementary material for paper 25 Nov 2013 Guest lecture Quoc Le 27 Nov 2013 A multi-layer sparse coding network learns contour coding from natural images Neural Networks Research Centre, Vision Research 42(12): 1593-1605, 2002 Patrik O. Hoyer and Aapo Hyvarinen Sparse Feature Learning for Deep Belief Networks, NIPS 2007 Marc.Aurelio Ranzato Y-Lan Boureau, Yann LeCun Sparse deep belief net model for visual area V2, NIPS 2007 Honglak Lee Chaitanya Ekanadham Andrew Y. Ng Deep Sparse Rectifier Neural Networks, JMLR 16: 315-323, 2011 Xavier Glorot, Antoine Bordes, Yoshua Bengio To be arranged Exploring strategies for training deep neural networks, Journal of Machine Learning Research, Vol. 1, pp 1-40, 2009 H. Larochelle, Y. Bengio, J. Louradour, P. Lamblin Why Does Unsupervised Pre-training Help Deep Learning?, AISTATS 2010 D. Erhan, A. Courville, Y. Bengio, P. Vincent Understanding the difficulty of training deep feedforward neural networks, AISTATS 2010 X. Glorot and Y. Bengio A Provably Efficient Algorithm for Training Deep Networks, arXiv:1304.7045 , 2013 R. Livni, S. Shalev-Schwartz, O. Shamir
个人分类: 深度学习|6905 次阅读|1 个评论
[转载]Deep Learning Workshop NIPS 2013 Accepted Papers 深度学习
hestendelin 2013-11-26 16:46
Accepted Papers Oral presentations Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Prediction Jian Zhou, Olga Troyanskaya Playing Atari with Deep Reinforcement Learning Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis, Antonoglou, Daan Wierstra, Martin Riedmiller Poster presentations Sparse Combinatorial Autoencoders (ID 2) Karthik Narayan, Pieter Abbeel Grounded Compositional Semantics for Finding and Describing Images with Sentences (ID 4) Richard Socher , Quoc Le , Christopher Manning , Andrew Ng Curriculum Learning for Handwritten Text Line Recognition (ID 5) Jerome Louradour, Christopher Kermorvant A Deep and Tractable Density Estimator (ID 7) Benigno Uria, Iain Murray, Hugo Larochelle Multi-Column Deep Neural Networks for Offline Handwritten Chinese Character Classification (ID 11) Dan Ciresan, Juergen Schmidhuber End-to-end Phoneme Sequence Recognition using Convolutional Neural Networks (ID 12) Dimitri Palaz, Ronan Collobert, Mathew Magimai.-Doss Scalable Wide Sparse Learning for Connectomics (ID 15) Jeremy Maitin-Shepard, Pieter Abbeel Is deep learning really necessary for word embeddings? (ID 16) Rémi Lebret, Joël Legrand, Ronan Collobert Recurrent Conditional Random Fields (ID 18) Kaisheng Yao, Baolin Peng, G eoffrey Zweig, Dong Yu , Xiaolong Li, Feng Gao Recurrent Convolutional Neural Networks for Scene Parsing (ID 20) Pedro Pinheiro, Ronan Collobert Backpropagation in Sequential Deep Belief Networks (ID 22) Galen Andrew, Jeff Bilmes Learning semantic representations for the phrase translation model (ID 23) Jianfeng Gao, Xiaodong He, Wen-tau Yih, Li Deng Event-driven Contrastive Divergence in Spiking Neural Networks (ID 25) Emre Neftci, Bruno Pedroni, Gert Cauwenberghs, Kenneth Kreutz-Delgado, Srinjoy Das Dynamics of learning in deep linear neural networks (ID 27) Andrew Saxe, James McClelland, Surya Ganguli Exploring Deep and Recurrent Architectures for Optimal Control (ID 28) Sergey Levine Analyzing noise in autoencoders and deep networks (ID 29) Ben Poole, Jascha Sohl-Dickstein, Surya Ganguli Structured Recurrent Temporal Restricted Boltzmann Machines (ID 30) Roni Mittelman, Benjamin Kuipers, Silvio Savarese, Honglak Lee Learning Deep Representations via Multiplicative Interactions between Factors of Variation (ID 31) Scott Reed, Honglak Lee Learning Input and Recurrent Weight Matrices in Echo State Networks (ID 32) Hamid Palangi, Li Deng , Rabab Ward Learning Sum-Product Networks with Direct and Indirect Variable Interactions (ID 33) Amirmohammad Rooshenas, Daniel Lowd Bidirectional Recursive Neural Networks for Token-Level Labeling with Structure (ID 34) Ozan Irsoy, Claire Cardie Estimating Dependency Structures for non-Gaussian Components (ID 38) Hiroaki Sasaki, Michael Gutmann, Hayaru Shouno, Aapo Hyvarinen Multimodal Neural Language Models (ID 42) Ryan Kiros, Ruslan Salakhutdinov , Richard Zemel Non-degenerate Priors for Arbitrarily Deep Networks (ID 43) David Duvenaud, Oren Rippel, Ryan Adams, Z oubin Ghahramani Learning Multilingual Word Representations using a Bag-of-Words Autoencoder (ID 44) Stanislas Lauly, Alex Boulanger, Hugo Larochelle Multilingual Deep Learning (ID 45) Sarath Chandar A P, Mitesh M. Khapra, Balaraman Ravindran, Vikas Raykar, Amrita Saha Learned-norm pooling for deep neural networks (ID 46) Caglar Gulcehre, Kyunghyun Cho , Razvan Pascanu, Yoshua Bengio Transition-based Dependency Parsing Using Recursive Neural Networks (ID 47) Pontus Stenetorp 共接收 30 篇 源自: https://sites.google.com/site/deeplearningworkshopnips2013/accepted-papers
个人分类: 深度学习|3913 次阅读|0 个评论
[转载]Tractable Deep Learning project 华盛顿大学 深度学习
hestendelin 2013-10-20 18:50
http://www.cs.washington.edu/research/ml/projects/ 原址: http://www.cs.washington.edu/node/8805 In machine learning, as throughout computer science, there is a tradeoff between expressiveness and tractability. On the one hand, we need powerful model classes to capture the richness and complexity of the real world. On the other, we need inference in those models to remain tractable, otherwise their potential for widespread practical use is limited. Deep learning can induce powerful representations, with multiple layers of latent variables, but these models are generally intractable. We are developing new classes of similarly expressive but still tractable models, including sum-product networks and tractable Markov logic. These models capture both class-subclass and part-subpart structure in the domain, and are in some aspects more expressive than traditional graphical models like Bayesian networks and Markov random fields. Research includes designing representations, studying their properties, developing efficient algorithms for learning them, and applications to challenging problems in natural language understanding, vision, and other areas.Awards NIPS 2012 Outstanding Student Paper: Discriminative Learning of Sum-Product Networks UAI 2011 Best Paper: Sum-Product Networks: A New Deep Architecture EMNLP 2009 Best Paper: Unsupervised Semantic Parsing People Pedro Domingos Abram L Friesen Robert C Gens Chloe M Kiddon Aniruddh Nath Mathias Niepert W Austin Webb Publications Learning the Structure of Sum-Product Networks (2013) A Tractable First-Order Probabilistic Logic (2012) Discriminative Learning of Sum-Product Networks (2012) Learning Multiple Hierarchical Relational Clusterings (2012) Coarse-to-Fine Inference and Learning for First-Order Probabilistic Models (2011) Sum-Product Networks: A New Deep Architecture (2011) Approximate Inference by Compilation to Arithmetic Circuits (2010) Learning Efficient Markov Networks (2010) Unsupervised Ontology Induction from Text (2010) Unsupervised Semantic Parsing (2009) Learning Arithmetic Circuits (2008) Naive Bayes Models for Probability Estimation (2005) Research Groups Artificial Intelligence Machine Learning
个人分类: 深度学习|2386 次阅读|0 个评论
[转载]Facebook begin deep learning after google 深度学习
hestendelin 2013-9-24 14:46
Facebook Launches Advanced AI Effort to Find Meaning in Your Posts A technique called deep learning could help Facebook understand its users and their data better. By Tom Simonite on September 20, 2013 Facebook ’s piles of data on people’s lives could allow it to push the boundaries of what can be done with the emerging AI technique known as deep learning . Facebook is set to get an even better understanding of the 700 million people who use the social network to share details of their personal lives each day. A new research group within the company is working on an emerging and powerful approach to artificial intelligence known as deep learning , which uses simulated networks of brain cells to process data. Applying this method to data shared on Facebook could allow for novel features and perhaps boost the company’s ad targeting. Deep learning has shown potential as the basis for software that could work out the emotions or events described in text even if they aren’t explicitly referenced, recognize objects in photos, and make sophisticated predictions about people’s likely future behavior. The eight-person group , known internally as the AI team, only recently started work, and details of its experiments are still secret. But Facebook’s chief technology officer , Mike Schroepfer , will say that one obvious way to use deep learning is to improve the news feed, the personalized list of recent updates he calls Facebook’s “ killer app .” The company already uses conventional machine learning techniques to prune the 1,500 updates that average Facebook users could possibly see down to 30 to 60 that are judged most likely to be important to them. Schroepfer says Facebook needs to get better at picking the best updates because its users are generating more data and using the social network in different ways. “The data set is increasing in size, people are getting more friends, and with the advent of mobile, people are online more frequently,” Schroepfer told MIT Technology Review . “It’s not that I look at my news feed once at the end of the day; I constantly pull out my phone while I’m waiting for my friend or I’m at the coffee shop. We have five minutes to really delight you.” Shroepfer says deep learning could also be used to help people organize their photos or choose which is the best one to share on Facebook . In looking into deep learning , Facebook follows its competitors Google and Microsoft , which have used the approach to impressive effect in the past year. Google has hired and acquired leading talent in the field (see “ 10 Breakthrough Technologies 2013: Deep Learning ”), and last year it created software that taught itself to recognize cats and other objects by reviewing stills from YouTube videos. The underlying technology was later used to slash the error rate of Google’s voice recognition services (see “ Google’s Virtual Brain Goes to Work ”). Meanwhile, researchers at Microsoft have used deep learning to build a system that translates speech from English to Mandarin Chinese in real time (see “ Microsoft Brings Star Trek’s Voice Translator to Life ”). Chinese Web giant Baidu also recently established a Silicon Valley research lab to work on deep learning . Less complex forms of machine learning have underpinned some of the most useful features developed by major technology companies in recent years, such as spam detection systems and facial recognition in images. The largest companies have now begun investing heavily in deep learning because it can deliver significant gains over those more established techniques, says Elliot Turner , founder and CEO of AlchemyAPI , which rents access to its own deep learning software for text and images. “Research into understanding images, text, and language has been going on for decades, but the typical improvement a new technique might offer was a fraction of a percent,” he says. “In tasks like vision or speech, we’re seeing 30 percent-plus improvements with deep learning .” The newer technique also allows much faster progress in training a new piece of software, says Turner. Conventional forms of machine learning are slower because before data can be fed into learning software, experts must manually choose which features of it the software should pay attention to, and they must label the data to signify, for example, that certain images contain cars. Deep learning systems can learn with much less human intervention because they can figure out for themselves which features of the raw data are most significant. They can even work on data that hasn’t been labeled, as Google’s cat-recognizing software did. Systems able to do that typically use software that simulates networks of brain cells, known as neural nets, to process data. They require more powerful collections of computers to run. Facebook’s AI group will work on applications that can help the company’s products as well as on more general research that will be made public, says Srinivas Narayanan , an engineering manager at Facebook who’s helping to assemble the new group. He says one way Facebook can help advance deep learning is by drawing on its recent work creating new types of hardware and software to handle large data sets (see “ Inside Facebook’s Not-So-Secret New Data Center ”). “It’s both a software and a hardware problem together; the way you scale these networks requires very deep integration of the two,” he says. Facebook hired deep learning expert Marc’Aurelio Ranzato away from Google for its new group. Other members include Yaniv Taigman , cofounder of the facial recognition startup Face.com (see “ When You’re Always a Familiar Face ”); computer vision expert Lubomir Bourdev ; and veteran Facebook engineer Keith Adams . 原文: http://www.technologyreview.com/news/519411/facebook-launches-advanced-ai-effort-to-find-meaning-in-your-posts/
个人分类: 深度学习|2374 次阅读|0 个评论
[转载]nips 2013 deep learning 深度学习相关论文 (仅参考题目)
hestendelin 2013-9-13 17:17
Adaptive dropout for training deep neural networks http://media.nips.cc/nipsbooks/nipspapers/paper_files/nips26/1409.pdf J. Ba , B. Frey A Deep Architecture for Matching Short Texts http://media.nips.cc/nipsbooks/nipspapers/paper_files/nips26/697.pdf Z. Lu , H. Li A Scalable Approach to Probabilistic Latent Space Inference of Large-Scale Networks http://papers.nips.cc/paper/4978-a-scalable-approach-to-probabilistic-latent-space-inference-of-large-scale-networks.pdf J. Yin , Q. Ho , E. Xing Bayesian Hierarchical Community Discovery C. Blundell , Y. Teh Binary to Bushy: Bayesian Hierarchical Clustering with the Beta Coalescent Y. Hu , J. Boyd-Graber , H. Daume III , Z. Ying Convex Two-Layer Modeling . Aslan , H. CHENG , X. Zhang , D. Schuurmans Deep content-based music recommendation A. van den Oord , S. Dieleman , B. Schrauwen Deep Fisher Networks for Large-Scale Image Classification K. Simonyan , A. Vedaldi , A. Zisserman Deep Neural Networks for Object Detection C. Szegedy , A. Toshev , D. Erhan DeViSE: A Deep Visual-Semantic Embedding Model A. Frome , G. Corrado , J. Shlens , S. Bengio , J. Dean , M. Ranzato , T. Mikolov Dropout Training as Adaptive Regularization S. Wager , S. Wang , P. Liang Extracting regions of interest from biological images with convolutional sparse block coding M. Pachitariu , M. Sahani , A. Packer , N. Pettit , H. Dalgleish Generalized Denoising Auto-Encoders as Generative Models Y. Bengio , L. Yao , G. Alain , P. Vincent Hierarchical Modular Optimization of Convolutional Networks Achieves Representations Similar to Macaque IT and Human Ventral Stream D. Yamins , H. Hong , C. Cadieu , J. DiCarlo Learning a Deep Compact Image Representation for Visual Tracking N. Wang , D. Yeung Learning Multi-level Sparse Representations F. Diego , F. Hamprecht Learning Stochastic Feedforward Neural Networks Y. Tang , R. Salakhutdinov Lexical and Hierarchical Topic Regression V. Nguyen , J. Boyd-Graber , P. Resnik Multi-Prediction Deep Boltzmann Machines I. Goodfellow , M. Mirza , A. Courville , Y. Bengio Multisensory Encoding, Decoding, and Identification A. Lazar , Y. Slutskiy On the Expressive Power of Restricted Boltzmann Machines J. Martens , A. Chattopadhya , T. Pitassi , R. Zemel Pass-efficient unsupervised feature selection H. Schweitzer , C. Maung Predicting Parameters in Deep Learning M. Denil , B. Shakibi , L. Dinh , M. Ranzato , N. de Freitas Reasoning With Neural Tensor Networks for Knowledge Base Completion R. Socher , D. Chen , C. Manning , A. Ng Robust Image Denoising with Multi-Column Deep Neural Networks F. Agostinelli , H. Lee , M. Anderson Spike train entropy-rate estimation using hierarchical Dirichlet process priors K. Knudson , J. Pillow Stochastic Ratio Matching of RBMs for Sparse High-Dimensional Inputs Y. Dauphin , Y. Bengio Top-Down Regularization of Deep Belief Networks H. Goh , N. Thome , M. Cord , J. LIM Training and Analysing Deep Recurrent Neural Networks M. Hermans , B. Schrauwen Understanding Dropout P. Baldi , P. Sadowski Wavelets on Graphs via Deep Learning R. Rustamov , L. Guibas 摘自: http://nips.cc/Conferences/2013/Program/accepted-papers.php
个人分类: 深度学习|7170 次阅读|0 个评论
分享一个deep learning报告讲稿
xiaoda99 2013-8-2 21:03
http://www.kuaipan.cn/file/id_2602161770890680.htm ​前几天给别人做的一个deep learning的报告:《浅谈深度学习——大数据催生的新智慧物种》。 属于不太严谨的科普讲座性质,但自认为基本思想讲得还是比较清楚的:)
3844 次阅读|0 个评论
脑与deep learning读书会第三期视频和讲稿
xiaoda99 2013-8-2 20:58
题目:Sparse representation in computer vision and visual cortex   主讲人:   彭义刚,博士毕业于清华大学自动化系,研究方向为image/video processing, sparse representation, low-rank matrix recovery。   肖达,北京邮电大学计算机学院教师。      提纲:   1. From sparsity to low-rankness and more(讲稿下载: http://vdisk.weibo.com/s/KMQW6 )   2. Self-organizing cortical map model and Topographica simulator(讲稿下载: http://vdisk.weibo.com/s/KMR4I 。另见参考文献)      视频回放:    http://www.duobei.com/room/4411032613      参考文献:    . Bednar JA: Building a mechanistic model of the development and function of the primary visual cortex. J Physiol Paris, 2012, 106(5-6):194-211.       .Demo代码网址 http://topographica.org/
4210 次阅读|0 个评论
[转载]Deep Learning(深度学习)学习笔记整理系列之(一)
hailuo0112 2013-7-17 16:46
Deep Learning(深度学习)学习笔记整理系列之(一) 分类: Deep Learning 机器学习 机器视觉 神经网络 2013-04-08 23:35 8561人阅读 评论 (21) 收藏 举报 Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04-08 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献。 2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除。 3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢。 4)阅读本文需要机器学习、计算机视觉、神经网络等等基础(如果没有也没关系了,没有就看看,能不能看懂,呵呵)。 5)此属于第一版本,若有错误,还需继续修正与增删。还望大家多多指点。大家都共享一点点,一起为祖国科研的推进添砖加瓦(呵呵,好高尚的目标啊)。请联系:zouxy09@qq.com 目录: 一、概述 二、背景 三、人脑视觉机理 四、关于特征 4.1、特征表示的粒度 4.2、初级(浅层)特征表示 4.3、结构性特征表示 4.4、需要有多少个特征? 五、Deep Learning的基本思想 六、浅层学习(Shallow Learning)和深度学习(Deep Learning) 七、Deep learning与Neural Network 八、Deep learning训练过程 8.1、传统神经网络的训练方法 8.2、deep learning训练过程 九、Deep Learning的常用模型或者方法 9.1、AutoEncoder自动编码器 9.2、Sparse Coding稀疏编码 9.3、Restricted Boltzmann Machine(RBM)限制波尔兹曼机 9.4、Deep BeliefNetworks深信度网络 9.5、Convolutional Neural Networks卷积神经网络 十、总结与展望 十一、参考文献和Deep Learning学习资源 一、概述 Artificial Intelligence,也就是人工智能,就像长生不老和星际漫游一样,是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步,但是到目前为止,还没有一台电脑能产生“自我”的意识。是的,在人类和大量现成数据的帮助下,电脑可以表现的十分强大,但是离开了这两者,它甚至都不能分辨一个喵星人和一个汪星人。 图灵(图灵,大家都知道吧。计算机和人工智能的鼻祖,分别对应于其著名的“图灵机”和“图灵测试”)在 1950 年的论文里,提出图灵试验的设想,即,隔墙对话,你将不知道与你谈话的,是人还是电脑。这无疑给计算机,尤其是人工智能,预设了一个很高的期望值。但是半个世纪过去了,人工智能的进展,远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们,心灰意冷,认为人工智能是忽悠,相关领域是“伪科学”。 但是自 2006 年以来,机器学习领域,取得了突破性的进展。图灵试验,至少不是那么可望而不可及了。至于技术手段,不仅仅依赖于云计算对大数据的并行处理能力,而且依赖于算法。这个算法就是,Deep Learning。借助于 Deep Learning 算法,人类终于找到了如何处理“抽象概念”这个亘古难题的方法。 2012年6月,《纽约时报》披露了Google Brain项目,吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授Andrew Ng和在大规模计算机系统方面的世界顶尖专家JeffDean共同主导,用16000个CPU Core的并行计算平台训练一种称为“深度神经网络”(DNN,Deep Neural Networks)的机器学习模型(内部共有10亿个节点。这一网络自然是不能跟人类的神经网络相提并论的。要知道,人脑中可是有150多亿个神经元,互相连接的节点也就是突触数更是如银河沙数。曾经有人估算过,如果将一个人的大脑中所有神经细胞的轴突和树突依次连接起来,并拉成一根直线,可从地球连到月亮,再从月亮返回地球),在语音识别和图像识别等领域获得了巨大的成功。 项目负责人之一Andrew称:“我们没有像通常做的那样自己框定边界,而是直接把海量数据投放到算法中,让数据自己说话,系统会自动从数据中学习。”另外一名负责人Jeff则说:“我们在训练的时候从来不会告诉机器说:‘这是一只猫。’系统其实是自己发明或者领悟了“猫”的概念。” 2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。据报道,后面支撑的关键技术也是DNN,或者深度学习(DL,DeepLearning)。 2013年1月,在百度年会上,创始人兼CEO李彦宏高调宣布要成立百度研究院,其中第一个成立的就是“深度学习研究所”(IDL,Institue of Deep Learning)。 为什么拥有大数据的互联网公司争相投入大量资源研发深度学习技术。听起来感觉deeplearning很牛那样。那什么是deep learning?为什么有deep learning?它是怎么来的?又能干什么呢?目前存在哪些困难呢?这些问题的简答都需要慢慢来。咱们先来了解下机器学习(人工智能的核心)的背景。 二、背景 机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。机器能否像人类一样能具有学习能力呢?1959年美国的塞缪尔(Samuel)设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力,提出了许多令人深思的社会问题与哲学问题(呵呵,人工智能正常的轨道没有很大的发展,这些什么哲学伦理啊倒发展的挺快。什么未来机器越来越像人,人越来越像机器啊。什么机器会反人类啊,ATM是开第一枪的啊等等。人类的思维无穷啊)。 机器学习虽然发展了几十年,但还是存在很多没有良好解决的问题: 例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思路都是这样的(以视觉感知为例子): 从开始的通过传感器(例如CMOS)来获得数据。然后经过预处理、特征提取、特征选择,再到推理、预测或者识别。最后一个部分,也就是机器学习的部分,绝大部分的工作是在这方面做的,也存在很多的paper和研究。 而中间的三部分,概括起来就是特征表达。良好的特征表达,对最终算法的准确性起了非常关键的作用,而且系统主要的计算和测试工作都耗在这一大部分。但,这块实际中一般都是人工完成的。靠人工提取特征。 截止现在,也出现了不少NB的特征(好的特征应具有不变性(大小、尺度和旋转等)和可区分性):例如Sift的出现,是局部图像特征描述子研究领域一项里程碑式的工作。由于SIFT对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性,并且SIFT具有很强的可区分性,的确让很多问题的解决变为可能。但它也不是万能的。 然而,手工地选取特征是一件非常费力、启发式(需要专业知识)的方法,能不能选取好很大程度上靠经验和运气,而且它的调节需要大量的时间。既然手工选取特征不太好,那么能不能自动地学习一些特征呢?答案是能!Deep Learning就是用来干这个事情的,看它的一个别名UnsupervisedFeature Learning,就可以顾名思义了,Unsupervised的意思就是不要人参与特征的选取过程。 那它是怎么学习的呢?怎么知道哪些特征好哪些不好呢?我们说机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为的学科。好,那我们人的视觉系统是怎么工作的呢?为什么在茫茫人海,芸芸众生,滚滚红尘中我们都可以找到另一个她(因为,你存在我深深的脑海里,我的梦里 我的心里 我的歌声里……)。人脑那么NB,我们能不能参考人脑,模拟人脑呢?(好像和人脑扯上点关系的特征啊,算法啊,都不错,但不知道是不是人为强加的,为了使自己的作品变得神圣和高雅。) 近几十年以来,认知神经科学、生物学等等学科的发展,让我们对自己这个神秘的而又神奇的大脑不再那么的陌生。也给人工智能的发展推波助澜。 三、人脑视觉机理 1981 年的诺贝尔医学奖,颁发给了 David Hubel(出生于加拿大的美国神经生物学家) 和TorstenWiesel,以及 Roger Sperry。前两位的主要贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的: 我们看看他们做了什么。1958 年,DavidHubel 和Torsten Wiesel 在 JohnHopkins University,研究瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上,开了一个3 毫米的小洞,向洞里插入电极,测量神经元的活跃程度。 然后,他们在小猫的眼前,展现各种形状、各种亮度的物体。并且,在展现每一件物体时,还改变物体放置的位置和角度。他们期望通过这个办法,让小猫瞳孔感受不同类型、不同强弱的刺激。 之所以做这个试验,目的是去证明一个猜测。位于后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。一旦瞳孔受到某一种刺激,后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验,同时牺牲了若干只可怜的小猫,David Hubel 和Torsten Wiesel 发现了一种被称为“方向选择性细胞(Orientation Selective Cell)”的神经元细胞。当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃。 这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程。 这里的关键词有两个,一个是抽象,一个是迭代。从原始信号,做低级抽象,逐渐向高级抽象迭代。人类的逻辑思维,经常使用高度抽象的概念。 例如,从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。 这个生理学的发现,促成了计算机人工智能,在四十年后的突破性发展。 总的来说,人的视觉系统的信息处理是分级的。从低级的V1区提取边缘特征,再到V2区的形状或者目标的部分等,再到更高层,整个目标、目标的行为等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。而抽象层面越高,存在的可能猜测就越少,就越利于分类。例如,单词集合和句子的对应是多对一的,句子和语义的对应又是多对一的,语义和意图的对应还是多对一的,这是个层级体系。 敏感的人注意到关键词了:分层。而Deep learning的deep是不是就表示我存在多少层,也就是多深呢?没错。那Deep learning是如何借鉴这个过程的呢?毕竟是归于计算机来处理,面对的一个问题就是怎么对这个过程建模? 因为我们要学习的是特征的表达,那么关于特征,或者说关于这个层级特征,我们需要了解地更深入点。所以在说Deep Learning之前,我们有必要再啰嗦下特征(呵呵,实际上是看到那么好的对特征的解释,不放在这里有点可惜,所以就塞到这了)。
个人分类: 机器学习|0 个评论
【科普随笔:NLP的宗教战争?兼论深度学习】
热度 7 liwei999 2013-5-7 23:18
有回顾NLP(Natural Language Processing)历史的大牛介绍统计模型(通过所谓机器学习 machine learning)取代传统知识系统(又称规则系统 rule-based system)成为学界主流的掌故,说20多年前好像经历了一场惊心动魄的宗教战争。其实我倒觉得更像49年解放军打过长江去,传统NLP的知识系统就跟国民党一样兵败如山倒,大好江山拱手相让。文傻秀才遭遇理呆兵,有理无理都说不清,缴械投降是必然结果。唯一遗憾的也许是,统计理呆仗打得太过顺利,太没有抵抗,倒是可能觉得有些不过瘾,免不了有些胜之不武的失落。苍白文弱的语言学家也 太不经打了。 自从 20 年前统计学家势不可挡地登堂入室一统天下以后,我这样语言学家出身的在学界立马成为二等公民,一直就是敲边鼓,如履薄冰地跟着潮流走。走得烦了,就做一回阿桂。 NLP 这个领域,统计学家完胜,是有其历史必然性的,不服不行。虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it 甚至可以极端一点这么说,规则系统的成功看上去总好像是个案,是经验,是巧合,是老中医,是造化和运气。而机器学习的成功,虽然有时也有 tricks,但总体而论是科学的正道,是可以重复和批量复制的。 不容易复制的成功就跟中国餐一样,同样的材料和recipe,不同的大厨可以做出完全不同的味道来。这就注定了中华料理虽然遍及全球,可以征服食不厌精的美食家和赢得海内外无数中餐粉丝,但中餐馆还是滥竽充数者居多,因此绝对形成不了麦当劳这样的巨无霸来。 而统计NLP和机器学习就是麦当劳这样的巨无霸:味道比较单调,甚至垃圾,但绝对是饿的时候能顶事儿, fulfilling,最主要的是 no drama,不会大起大落。不管在世界哪个角落,都是一条流水线上的产品,其味道和质量如出一辙 。 做不好主流,那就做个大厨吧。做个一级大厨感觉也蛮好。最终还是系统说了算。邓小平真是聪明,有个白猫黑猫论,否则我们这些前朝遗老不如撞墙去。 就说过去10多年吧,我一直坚持做多层次的 deep parsing,来支持NLP的各种应用。当时看到统计学家们追求单纯,追求浅层的海量数据处理,心里想,难怪有些任务,你们虽然出结果快,而且也鲁棒,可质量总是卡在一个口上就过不去。从“人工智能”的概念高度看,浅层学习(shallow learning)与深层分析(deep parsing)根本就不在一个档次上,你再“科学”也没用。可这个感觉和道理要是跟统计学家说,当时是没人理睬的,是有理说不清的,因为他们从本质上就鄙视或忽视语言学家 ,根本就没有那个平等对话的氛围(chemistry)。最后人家到底自己悟出来了,因此近来天上掉下个多层 deep learning,视为神迹,仿佛一夜间主导了整个机器学习领域,趋之者若鹜。啧啧称奇的人很多,洋洋自得的也多,argue 说,一层一层往深了学习是革命性的突破,质量自然是大幅度提升。我心里想,这个大道理我十几年前就洞若观火,殊途不还是同归了嘛。想起在深度学习风靡世界之前,曾有心有灵犀的老友这样评论过: To me, Dr. Li is essentially the only one who actualy builds true industrial NLP systems with deep parsing. While the whole world is praised with heavy statistics on shallow linguistics, Dr. Li proved with excellent system performances such a simple truth: deep parsing is useful and doable in large scale real world applications. 我的预见,大概还要20年吧(不是说风水轮流转20年河东河西么),主流里面的偏见会部分得到纠正,那时也不会是规则和知识的春天重返,而是统计和规则比较地和谐合作。宗教式的交恶和贬抑会逐渐淡去。 阿弥陀佛! 【相关篇什】 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 ZT: 2013突破性科学技术之“深度学习” 【置顶:立委科学网博客NLP博文一览(定期更新版)】
个人分类: 立委科普|12223 次阅读|8 个评论
教育培训项目(11):《21世纪的深度学习》
Jiahou 2010-8-23 13:32
教育培训项目(11):《21世纪的深度学习》 这是根据十七届四中全会提出的建设学习型政党和学习型社会,针对当前干部培训存在的文风问题,系统讲述了肤浅学习和深度学习的差别,介绍了促进干部深度学习的方法。
个人分类: 教育培训|4381 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 00:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部