基于大数据的新冠肺炎风险评估与预测 华中科技大学 5G联创行业应用开发实验室 1.从硬性围堵到隐性预防 始于2019年12月的新冠肺炎传染病大爆发事件是2003年SARS传染病暴发以来最大规模的全球性传染病突发事件,被中国政府和全球多个国家定义为重大危机事件。截止2020年3月7日,已经造成全球超过十万人感染,其中我国已累计超过八万人感染,累计超过三千人死亡 。 我国政府于1月下旬开始采取了包括封城、全国性的医疗资源调度和医护人员支援等前所未有的措施。尽管这些措施在短时间内有效地抑制了病毒的传播和扩散,但是这些措施均不可能成为长期政策执行。此外,超过一个月的封锁也对经济和民生造成了严重影响。目前,新冠肺炎在我国部分地区和国外尚未清零。随着各省市复工复产的逐步开展,新冠肺炎的区域性传染将有很大可能会再度出现,如何采集更加先进、积极和隐蔽的手段对病毒的传播和扩散进行有效的隐性预防、预测、控制和追踪对确保复工复产的顺利开展,确保我国今年经济目标的实现至关重要。 由于新冠肺炎病毒强大的传染性、长潜伏期和高死亡率, 采用大数据和最新的信息技术对新冠肺炎的传染轨迹、扩散速度、接触人群等重要信息进行建模和数据分析对政策制定、防范措施设计和应对措施及建议具有重要意义 。 2.预测模型分类与性能比较 目前已有大量数学模型可对不同传染病扩散和传播进行预测和建模。具体来说,目前主流的传染病模型主要可以分为三类: 经典传染病传播模型、基于深度学习的传染病传播模型和其他模型 。 2.1 经典传染病传播模型 传染病的建模有很长的研究历史, 经典传染病传播模型包括SI、SIR、SEIR、SIRQ等模型 ,这些模型都是在分类的类别上进行修改从而适应于不同的传染病进行建模。例如,钟南山院士团队于2020年2月27日发表在Journal of Thoracic Disease期刊上的论文(参见参考文献 )采用了改进的SEIR(susceptible-exposed-infected-removed,即疑似-暴露-感染-治愈)模型对新冠肺炎传染病全国的蔓延情况进行了预测。其改进的SEIR模型主要采用了从2020年1月16日到1月25日总共10天的数据,对2月1日至4月15日的数据进行了预测。具体地,通过综合考虑总人口、死亡率、潜伏期等因素估算出了每日与感染人群密切接触的人总数、每日可能携带病毒的人数和感染人群中死亡和康复的概率等重要参数,采用7天为潜伏天数的中位数和3%的死亡率,文献 给出了新冠肺炎传染病在三个主要爆发省份,湖北、广东和浙江,的预测新增确认人数。我们将钟院士团队论文的SEIR模型复现如图1所示。 图1. 参考文献 中SEIR模型预测的每日新增确诊人数 表1. 参考文献 中模型预测的每日新增确诊人数和真实新增人数的误差比较 我们初步分析认为参考文献 中构建的SEIR模型可从下列几个方面进行改进: (1) 模型参数的精度可进一步改善 。如论文中直接假设在1月23日之前人均接触人数为15人,1月23日之后人均接触人数为3人; (2) 由于政策和外部情况变化, 模型需要手工分段设计和估算参数 。如表1所示,文献 和真实数据的差距非常大,其主要原因是在应对措施的不断出台和更新的情况下(包括1月23日,对武汉市采取了“封城”措施,2月12日,对新增确诊人数统计的订正,以及随着疫情的发展,核酸检查试剂的供应逐渐满足需求等等),许多更新的政策和多种环境因素对模型参数地影响并没有在模型中得到考虑; (3)疫情数据统计方法的调整以及前期的确诊困难等原因导致 数据存在更新滞后问题 ,进而使模型估计出现偏差。 基于上述思考,我们对文献 的模型做了如下改进: (1) 在建模过程中引入更多不可忽略的实际因素 ,如医院的收治能力变化、不同患病人群传染率不同等等; (2) 借助启发式算法推断模型的各个参数 ,尽可能得到良好的模型参数来降低模型输出与实际数据间的误差; (3) 分析选用现有数据中相对更具可靠性的数据对模型进行拟合 ,尽可能减小输入数据端的误差对模型预测造成的影响。 改进后的预测模型生成的每日新增数和累计新增数结果如图2和图3所示。具体结果如表2所示,我们的结果与真实数据相关性 图2. 改进模型预测的每日新增确诊人数 图3. 改进模型预测的累计确诊人数 表2. 改进后模型预测的每日新增确诊人数 尽管我们的模型在预测精度上有所提高,但是 现有SEIR模型普遍具有如下缺陷 : (1)由于缺少对空间维度的建模,SEIR无法准确分析疫情的空间扩散情况,更无法跟踪病毒的传播位置和路径; (2)模型的准确度高度依赖参数、初始值以及基础表达式,在复杂多变的实际情况中缺乏灵活性,容易出现较大偏差。 2.2 基于深度学习的传染病传播模型 最近随着深度学习方法的出现和普及,大量及与深度学习的时空预测模型不断涌现出来。例如在文献 中,除了采用SEIR模型对病毒的扩散进行了预测之外, LSTM方法也被用与训练病毒传染和扩散模型 。具体地,文献采用2003年4月到6月的SARS-CoV累计确诊感染数计算出每日新确诊病例数,并用插值法调整未更新或者数据更新异常的日期数据。通过设置长度为三天的滑动窗口,得到一系列的时间数据序列。使用所得到的数据序列作为LSTM模型的训练输入,循环训练500次,保存训练后的LSTM模型。再将2020年1月22日到2月7日在全国范围内新冠肺炎感染的人数输入到已经训练好的LSTM模型中,并对2月7号之后80天进行预测。为了防止过拟合,文献 采用了包含一个全连接层的最简单的LSTM模型。 在下面的图4中,我们对文献 中的LSTM模型进行了复现,除了复现原论文的曲线之外,我们还给出了如果增加了2020年2月7到3月6日的最新数据后的曲线,模型对3月6号后80天的预测数据。除此之外,在图5中,我们还是用同样的方法给出了采用武汉市每日的新增数据对新冠肺炎感染的人数进行的预测结果。 图4 全国新增新冠肺炎人数预测 图5. 武汉新增新冠肺炎人数预测 表3. 文献 所采用的LSTM数据预测出的数据和真实新增数据之间的误差 图4和图5考虑的数据集总结如下: SARS Dataset: Mar. 17-Jul. 11, 2003 Dataset 1: Jan. 26-Mar. 6, 2020 (wuhan) Dataset 2: Jan. 26-Feb. 11, 2020 (wuhan) Dataset 3: Jan. 26-Mar. 6, 2020 (China) Dataset 4: Jan. 26-Feb. 11, 2020 (China) 图4和图5的具体解释如下: l 图4中“ Predicted result with dataset 3 ” 预测了3月7日到5月25日(共80天)全国的新增人数变化,输入数据集为Dataset 3,即2020年1月26日到3月6日中国全国每日新冠肺炎每日新增人数。 l 图4中“ Predicted result with dataset 4 ”是对原文的复现,预测了2月12号到5月1日(共80天)全国的新增人数变化,输入数据集为Dataset 4,即2020年1月26日到2月11日中国全国每日新冠肺炎每日新增人数。 l 图5中“ Predicted result with dataset 1 ” 预测了3月7日到5月25日(共80天)武汉的新增人数变化,输入数据集为Dataset 1,即2020年1月26日到3月6日中国武汉每日新冠肺炎每日新增人数。 l 图5中“ Predicted result with dataset 2 ”预测了2月12号到5月1日(共80天)武汉的新增人数变化,输入数据集为Dataset 2,即2020年1月26日到2月11日中国武汉每日新冠肺炎每日新增人数。 我们可以观察到, LSTM能够很好地预测新增人数的整体趋势,但是并不能预测出由于国家政策实施等因素导致的某段时间新增人数的突然增多 ,主要原因有以下几点: l 使用LSTM进行预测,模型对于某一参数的变化并不敏感; l 03年SARS数据集数据量太少,对模型训练不够精确,这也是为什么不直接采用新冠肺炎数据集进行训练的主要原因之一。 2.3 其他模型 除了上述的SEIR和深度学习以外,还有其他模型也被用于预测病毒的扩散和传播。一类被广泛使用的模式是 复合群体模型 ,该类模型考虑了人类移动模式对传染病传播的影响,通过人群间的流动进行耦合而形成复杂的系统,适用于研究不同地区之间病毒的传播情况。例如Watts等人在文献 中将人群看作多层结构,不同层级之间互相流动,建立了层级结构的复合群体模型。Cross等人在文献 中建立了11×11方格模型,个体可以移动到相邻群体,而群体内部则动态采用SIR或是SIRS等基础模型。Hufnagel等人在文献 里建立了随机复合群体模型,通过将世界上500个大城市看作复合群体,每个群体采用SIR模型描述,对SARS的全球流行进行了预测。虽然复合模型在一些应用中取得了很好的效果。但是一般来说, 复合群体模型对不同群体之间的迁移数据要求非常高。任何原始数据的细微缺陷可能导致预测模型产生很大的误差 。 此外,近几年来 基于网络的微观模型 也快速发展,有针对于诸如随机网络,规则网络(元胞自动机、CA)、小世界网络、无标度网络等理想网络的模拟,也有基于现实网络数据进行的建模分析。具体来说, Halloran等人在文献 中根据真实数据,构造了2000人的社区,研究发生天花攻击时各种对策的效果,Milne等人在文献 对澳大利亚一个3万人的城镇进行了建模,采用真实的家庭、学校、医院等场所的设置,描述了流感的接触、传播过程,还有研究者构造了更大规模的网络模型,Eubank等人在文献 中开发了EpiSimS系统,构造了大城市级别的人际接触模型。虽然基于网络的微观模型能够建立较为真实的场景,但是对原始数据要求极高,需要大量的真实的社会环境数据。此外, 最终的模型也十分复杂,具有很多的属性特征,建模难度大。随着模型规模的扩大,其运行所需的计算量也会变得相当庞大 。考虑到这些因素,该方法难以短期内快速的做出对疫情的准确预测。 3.总结 目前新冠肺炎在部分国家仍处于上升期,诸多迹象显示新冠肺炎将在未来相当长的时间存在。因此做好新冠肺炎的预防和检测并及时发现和处理可能成为未来相当长时期的研究重点。 本文采用目前已经公布的公开数据集对模型进行了初步预测 ,期望能够对后续基于大数据的病毒扩散和预防起到积极的作用。 参考文献 Zifeng Yang, Zhiqi Zeng, Ke Wang, Sook-San Wong, Wenhua Liang, Mark Zanin, Peng Liu, Xudong Cao, Zhongqiang Gao, Zhitong Mai, Jingyi Liang, Xiaoqing Liu, Shiyue Li, Yimin Li, Feng Ye, Weijie Guan, Yifan Yang, Fei Li, Shengmei Luo, Yuqi Xie, Bin Liu, Zhoulang Wang, Shaobo Zhang, Yaonan Wang, Nanshan Zhong, Jianxing He, “Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions” Journal of Thoracic Disease, no. 2, vol. 12, Feb 2020. Watts D , Muhamad R , Medina D , et al. Multiscale, resurgent epidemics in a hierarchical metapopulation model . Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(32):p. 11157-11162. Cross P C , Johnson P L F , Lloyd-Smith J O , et al. Utility of R0 as a predictor of disease invasion in structured populations . Journal of The Royal Society Interface, 2007, 4(13):315-324. Hufnagel L , Brockmann D , Geisel T . Forecast and control of epidemics in a globalized world . Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(42):p.15124-15129. Halloran, M. E. Containing Bioterrorist Smallpox . Science, 2002,298(5597):1428-1432. Milne G J , Kelso J K , Kelly H A , et al. A Small Community Model for the Transmission of Infectious Diseases: Comparison of School Closure as an Intervention in Individual-Based Models of an Influenza Pandemic . PLoS ONE, 2008, 3(12):e4005-. Eubank, Stephen Guclu, Hasan Kumar, Sritesh Marathe, Madhav Toroczkai, Zoltan Wang, Nan. (2004). Modeling Disease Outbreaks in Realistic Urban Social Networks . Nature, 2004, 429(6988): 180-184.
有了这东西,作文还怎么判啊? 印象 之前给学生上课的时候,我介绍过利用循环神经网络,仿照作家风格进行创作的机器学习模型。 不过,那模型写出来的东西嘛…… He went over to the gate of the café. It was like a country bed.“Do you know it’s been me.”“Damned us,” Bill said.“I was dangerous,” I said. “You were she did it and think I would a fine cape you,” I said.“I can’t look strange in the cab.”“You know I was this is though,” Brett said.“It’s a fights no matter?”“It makes to do it.”“You make it?”“Sit down,” I said. “I wish I wasn’t do a little with the man.”“You found it.”“I don’t know.”“You see, I’m sorry of chatches,” Bill said. “You think it’s a friend off back and make you really drunk.” 我的评价是: 望之,不似人语。 因为这种限制,人们并没有把“机器写作”当成一回事儿。 总觉得机器要写成那种以假乱真的高度,可能还需要等上很久远的一段时间。 然而,这世界变化快。 工具 早上,我尝试了一个新工具。 一个在线编辑器界面里,输入或长或短的一段话,然后按一下 Tab 键。 后面的内容,机器就帮你 自动 逐步填充。 填充的过程里,系统每次给你3个备选方案,这样你可以控制写作思路的走向。 当然,你也可以根本不管其他选项,一直走默认路径。机器照样文思泉涌。 最后生成的文章,是这个样子的。 其中,第一段落是我自己随便瞎写的。后面高亮段落,都是电脑模型自己编出来的。 不但标点符号、语法修辞用得有鼻子有眼儿,就连我那段里根本没有提到过的创始人,都跳了出来长篇大论。 尝试 你可以在我的公众号“玉树芝兰”(nkwangshuyi)后台回复“aiwrite”,查看这个智能写作编辑器的链接。 不知道你尝试过后的感觉是什么。 反正我觉得,以后学校里的英文写作课,怕是没有办法判作业了。 原本需要学生花半个小时完成的任务,现在他可以轻点几下按键,就能搞定交差。 更要命的是,从原理来讲,查重系统面对这种作品,是无效的。 因为这 并非抄袭 。 机器每一次的“创作”,几乎都能保证是全新的。 原理 你一定想知道这背后的原理吧? 其实,在我们之前的教程里,我多次给你介绍过它。就是目前最火的自然语言模型架构——Transformer。 (上图来自于经典之作“Attention is All You Need”) 我们详细介绍过使用方法的 BERT ,当初用的就是这种技术,才产生了野蛮霸榜的效果。 不过咱们用的这个编辑器,底层并不是 BERT ,而是我们之前提及的 GPT 2。 大多数人提到它的时候,介绍往往不是那么正面。 并不是因为 GPT 2 这种技术不够好。而是因为它“ 太好了 ”。 好到足够让人眼馋。 好到开发者决定, 不开放 训练数据集、代码、甚至模型参数…… 要知道,在当今这样一个 开源开放 的趋势下,这么做会招致多少非议。 当时 OpenAI 做出这种决定和解释,有人便认为是出于饥饿营销的目的,赚眼球。 但是,你刚刚自己尝试过语言生成模型的威力之后,还会保持这么单纯的想法吗? 威胁 仅举一例。 互联网上,假新闻是一个非常严重的问题。 原先,用机器造假新闻出来,成本固然低,但专业人士还是很容易通过语言特征和统计规律来识别的。 而一旦,假新闻不但生产成本低廉,分分钟可搞定,还完全具备了真新闻的语言特征,要分辨出来,就不容易了。 假新闻有可能多点大规模爆发,因 从众 和 沉默螺旋 等社会心理机制,对大众轻易造成误导。 面对这种潜在威胁,我们真的已有完善的应对之策吗? 正因为这种威胁实际存在,数据伦理才愈发成为重要的研究课题。 如果你做数据科学研究,这个方向大有可为。 魔盒 风险是显著的。 而技术的进步与发展,真的能够因为一家机构决定“不开放模型”的举措,就能停滞吗? 当然不会。 OpenAI 因为压力,不断释放出更为强大的开源模型。目前开放的预训练模型版本,达到了 774M 个参数。距离完全版本模型的释放,也就是临门一脚的事儿了。 曾经,普通人即便拿到了这种开源工具,也需要一定的门槛,才能使用。 然而“有好事者”,在整合包装了若干种主流的 Transformer 模型之后,降低了 GPT2 机器写作的门槛。 于是,就有你看到的这个编辑器了。 波澜 我把 GPT2 自动写作的结果,发到了朋友圈。 惊艳之余,小伙伴想到的,主要是以下两个问题: 什么时候出中文的? 能否和写字机器人配合使用? 我看后很无语。 好在这一位的留言,让我看到了光明的一面: 以后英语老师出阅读题,可方便多了。 延伸阅读 你可能也会对以下话题感兴趣。点击链接就可以查看。 如何高效学 Python ? 如何用 Python 和深度迁移学习做文本分类? 如何用 Python 和 BERT 做中文文本二元分类? 如何用 Python 和 BERT 做多标签(multi-label)文本分类? 如何在 fast.ai 用 BERT 做中文文本分类? 喜欢别忘了 点赞 。 还可以微信关注我的公众号 “玉树芝兰”(nkwangshuyi) 。别忘了 加星标 ,以免错过新推送提示。 题图: Photo by Pereanu Sebastian on Unsplash
How to choose the right activation function? The activation function is decided depending upon the objective of the problem statement and the concerned properties. Some of the inferences are as follows: Sigmoid functions work very well in the case of shallow networks and binary classifiers. Deeper networks may lead to vanishing gradients. The ReLU function is the most widely used, and try using Leaky ReLU to avoid the case of dead neurons. Thus, start with ReLU, then move to another activation function if ReLU doesn't provide good results. Use softmax in the outer layer for the multi-class classification. Avoid using ReLU in the outer layer.
近年来,单细胞RNA测序技术(scRNA-seq)的迅速发展使得研究人员能够在单细胞层次上研究生物系统的转录异质性,这种信息通常难以通过传统的组学数据获得。然而,在单细胞层次上,转录组的随机波动会远远大于细胞群体的平均行为,另一方面,单个细胞的RNA总量极低,使得其准确测量极具挑战,因此目前的单细胞测序数据存在很大的噪声。其中,dropout现象是一种主要的噪声,即很多表达的mRNA没有被捕捉到,导致检测出来的表达量为0。有效的低维表示可以降低scRNA-seq数据中的噪声,从而使得我们能够更好的分析细胞类型与状态,并实现细胞分布的可视化展示。 本研究中,我们提出了一种基于深度变分自编码器的scRNA-seq数据分析方法——VASC,有效实现scRNA-seq数据的非监督降维与可视化。VASC对dropout现象进行了建模,并通过深度神经网络发现数据中复杂的非线性模式、降低数据噪声,从而做到可靠的数据降维与可视化。我们在超过20个数据集上(包含目前主流的scRNA-seq技术,例如SMART-Seq,inDrop,10X等)测试了VASC的低维表示性能,结果表明在大多数数据集中,VASC都能更好的提取细胞类型或者细胞分化过程的信息,体现了VASC广泛的适应性。 VASC代码可以从 https://github.com/wang-research/VASC/ 免费获得。 论文引用: Dongfang Wang, Jin Gu#. VASC: dimension reduction and visualization of single cell RNA sequencing data by deep variational autoencoder. Genomics, Proteomics Bioinformatics 2018, Accepted.
人工智能的浪潮正在席卷全球,诸多词汇时刻萦绕在我们耳边:人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)。不少人对这些高频词汇的含义及其背后的关系总是似懂非懂、一知半解。 为了帮助大家更好地理解人工智能,这篇文章用最简单的语言解释了这些词汇的含义,理清它们之间的关系,希望对刚入门的同行有所帮助。 图一 人工智能的应用 人工智能:从概念提出到走向繁荣 1956年,几个计算机科学家相聚在达特茅斯会议,提出了“人工智能”的概念,梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。其后,人工智能就一直萦绕于人们的脑海之中,并在科研实验室中慢慢孵化。之后的几十年,人工智能一直在两极反转,或被称作人类文明耀眼未来的预言,或被当成技术疯子的狂想扔到垃圾堆里。直到2012年之前,这两种声音还在同时存在。 2012年以后,得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现,人工智能开始大爆发。据领英近日发布的《全球AI领域人才报告》显示,截至2017年一季度,基于领英平台的全球AI(人工智能)领域技术人才数量超过190万,仅国内人工智能人才缺口达到500多万。 人工智能的研究领域也在不断扩大,图二展示了人工智能研究的各个分支,包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。 图二 人工智能研究分支 但目前的科研工作都集中在弱人工智能这部分,并很有希望在近期取得重大突破,电影里的人工智能多半都是在描绘强人工智能,而这部分在目前的现实世界里难以真正实现(通常将人工智能分为弱人工智能和强人工智能,前者让机器具备观察和感知的能力,可以做到一定程度的理解和推理,而强人工智能让机器获得自适应能力,解决一些之前没有遇到过的问题)。 弱人工智能有希望取得突破,是如何实现的,“智能”又从何而来呢?这主要归功于一种实现人工智能的方法——机器学习。 学习人工智能相关技术知识,可了解一下在线教育平台—— 深蓝学院 。深蓝学院是致力于人工智能等前沿科技的在线教育平台。 机器学习:一种实现人工智能的方法 机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。 举个简单的例子,当我们浏览网上商城时,经常会出现商品推荐的信息。这是商城根据你往期的购物记录和冗长的收藏清单,识别出这其中哪些是你真正感兴趣,并且愿意购买的产品。这样的决策模型,可以帮助商城为客户提供建议并鼓励产品消费。 机器学习直接来源于早期的人工智能领域,传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。 传统的机器学习算法在指纹识别、基于Haar的人脸检测、基于HoG特征的物体检测等领域的应用基本达到了商业化的要求或者特定场景的商业化水平,但每前进一步都异常艰难,直到深度学习算法的出现。 深度学习:一种实现机器学习的技术 深度学习本来并不是一种独立的学习方法,其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛,一些特有的学习手段相继被提出(如残差网络),因此越来越多的人将其单独看作一种学习的方法。 最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并不是一个全新的概念,可大致理解为包含多个隐含层的神经网络结构。为了提高深层神经网络的训练效果,人们对神经元的连接方法和激活函数等方面做出相应的调整。其实有不少想法早年间也曾有过,但由于当时训练数据量不足、计算能力落后,因此最终的效果不尽如人意。 深度学习摧枯拉朽般地实现了各种任务,使得似乎所有的机器辅助功能都变为可能。无人驾驶汽车,预防性医疗保健,甚至是更好的电影推荐,都近在眼前,或者即将实现。 三者的区别和联系 机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。我们就用最简单的方法——同心圆,可视化地展现出它们三者的关系。 图三 三者关系示意图 目前,业界有一种错误的较为普遍的意识,即“ 深度学习最终可能会淘汰掉其他所有机器学习算法 ”。这种意识的产生主要是因为,当下深度学习在计算机视觉、自然语言处理领域的应用远超过传统的机器学习方法,并且媒体对深度学习进行了大肆夸大的报道。 深度学习,作为目前最热的机器学习方法,但并不意味着是机器学习的终点。起码目前存在以下问题: 1. 深度学习模型需要大量的训练数据,才能展现出神奇的效果,但现实生活中往往会遇到小样本问题,此时深度学习方法无法入手,传统的机器学习方法就可以处理; 2. 有些领域,采用传统的简单的机器学习方法,可以很好地解决了,没必要非得用复杂的深度学习方法; 3. 深度学习的思想,来源于人脑的启发,但绝不是人脑的模拟,举个例子,给一个三四岁的小孩看一辆自行车之后,再见到哪怕外观完全不同的自行车,小孩也十有八九能做出那是一辆自行车的判断,也就是说,人类的学习过程往往不需要大规模的训练数据,而现在的深度学习方法显然不是对人脑的模拟。 深度学习大佬 Yoshua Bengio 在 Quora 上回答一个类似的问题时,有一段话讲得特别好,这里引用一下,以回答上述问题: Science is NOT a battle, it is a collaboration. We all build on each other's ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking! 这段话的大致意思是,科学不是战争而是合作,任何学科的发展从来都不是一条路走到黑,而是同行之间互相学习、互相借鉴、博采众长、相得益彰,站在巨人的肩膀上不断前行。机器学习的研究也是一样,你死我活那是邪教,开放包容才是正道。 结合机器学习2000年以来的发展,再来看Bengio的这段话,深有感触。进入21世纪,纵观机器学习发展历程,研究热点可以简单总结为2000-2006年的流形学习、2006年-2011年的稀疏学习、2012年至今的深度学习。未来哪种机器学习算法会成为热点呢?深度学习三大巨头之一吴恩达曾表示,“在继深度学习之后,迁移学习将引领下一波机器学习技术”。但最终机器学习的下一个热点是什么,谁用能说得准呢。
走向通用人工智能,到底是先“理解智能”还是先“制造智能”? 近期,在IJAC优先在线发表的几篇论文中, 北京大学黄铁军 教授的综述成为近两月优先发表论文中的亮点之一。 黄铁军教授在这篇综述中提出的“仿真主义”(Imitationalism)可谓人工智能方法中第五的流派! (熟悉人工智能的小伙伴可能都了解:人工智能的基本思想大致可划分为四个流派:符号主义、链接主义、行为主义和统计主义) 文章不仅阐述了如何打破走向通用人工智能的研究僵局、探索研制类脑神经计算机的新思路,还详细描述了类脑神经计算机三个重要技术层次和国内外研究进展。与IJAC 4月优先在线发表的麻省理工美国人文科学院院士Tomaso Poggio 教授关于深度学习机理的文章一样,本篇综述绝对是 行业宝典 !且此综述已在Twitter被相关学者转发数次。 通用人工智能(Artificial General Intelligence, AGI)指可以像人一样完成各种智能任务的类人智能机器,AGI又称为Srong AI或fullAI. 为了获得通用人工智能,到底是先“理解智能”? (即理解意识现象和功能背后的发生机理) 还是先“制造智能” (即研制类似人脑的具有自我意识的智能机器)? ——这是一个问题! 传统人工智能的思维定式是在“理解智能”机理的基础上设计制造人工智能系统,即先理解智能再模仿智能。然而人类对自身智能的认识还处在初级阶段,在对人类智能的理解还极其有限,“理解智能”这个终极性问题到底数十年还是数百年亦或数千年才能解决?都还是未知数。因此,把“制造智能”寄希望于“理解智能”,实质上把解决问题的方案建立在解决另一个更难问题的基础上,犯了本末倒置的错误。 (图片来自于网络) 如果我们跳出传统思维的窠臼,就会发现通向通用人工智能还有一条“ 新 ” 路线——构建 类脑神经计算机 ,这里称为“仿真主义”(Imitationalism)。说这是一条新路线,是因为它反转了“理解智能”和“制造智能”的前后关系:即我们不再寻求“理解智能”的解,而是先模仿脑,即设计更先进的探测分析工具, 从结构上解析大脑 ,再利用工程技术手段“照葫芦画瓢”式地 构造仿脑装置 ,最后 通过环境刺激和交互训练“仿真大脑”,实现类人智能 。 简言之: 先结构后功能 。 (图片来自于网络) 本篇文章阐述了“先结构后功能”的类脑计算的 三层技术路线 :结构层次模仿脑、器件层次逼近脑,智能层次超越脑;还分析了在获得通用人工智能时, 神经计算机相比传统计算机的优势、生物神经网络相比人工神经网络的优势 ,并综述了国际学者在神经计算机领域的研究进展 。 精彩内容请下载原文阅读,这正是: 人工智能一甲子,结构功能两相争; 符号系统Top down,神经网络向上攻; 进化主义玩互动,机器学习调模型; 欲破智能千古谜,先剖大脑再人工。 ——来源:《中国计算机学会通讯》2017年1月,作者黄铁军 文章免费下载信息: 【 Title 】 Imitatingthe brain with neurocomputer a “new” way towards artificial generalintelligence 【 Author 】 Tie-Jun Huang 【 Abstract 】 To achieve the artificial generalintelligence (AGI), imitate the intelligence? or imitate the brain? This is thequestion! …. To achieve AGI, a practical approach is to build the so-calledneurocomputer, which could be trained to produce autonomous intelligence andAGI. A neurocomputer imitates the biological neural network with neuromorphicdevices which emulate the bio-neurons, synapses and other essential neuralcomponents. The neurocomputer could perceive the environment via sensors andinteract with other entities via a physical body. The philosophy under the“new” approach, so-called as imitationalism in this paper, is the engineeringmethodology which has been practiced for thousands of years, and for manycases, such as the invention of the first airplane, succeeded. This papercompares the neurocomputer with the conventional computer. The major progressabout neurocomputer is also reviewed. 【 Keywords 】 Artificial general intelligence (AGI), neuromorphic computing, neurocomputer, brain-likeintelligence, imitationalism 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1082-y 5-6 月优先在线发表的计算方向论文还有如下,欢迎阅读 【 Title 】 Stability analysis of an underactuatedautonomous underwater vehicle using extended-Routh’s stability method 【 Author 】 Basant Kumar Sahu,Bidyadhar Subudhi, Madan Mohan Gupta 【 Keywords 】 Routh’s stability, extended-Routh’s stability, autonomousunderwater vehicle (AUV), underactuated system, underwater robots 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-016-0992-4 【 Title 】 Layered software patterns for data analysisin big data environment 【 Author 】 Hossam Hakeem 【 Keywords 】 Big data, data analysis, patterns layered,structure data modelling 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-016-1043-x 【 Title 】 Multi-sensor data fusion for wheelchairposition estimation with unscented Kalman filter 【 Author 】 Derradji Nada, MounirBousbia-Salah, Maamar Bettayeb 【 Keywords 】 Data fusion, unscented Kalman filter(UKF) , measurement fusion (MF), navigation, state vector fusion(SVF) , wheelchair 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1065-z 【 Title 】 Evaluation method of the gait motion based onself-organizing map using the gravity center fluctuation on the sole 【 Author 】 Koji Makino, MasahiroNakamura, Hidenori, Omori, et al. 【 Keywords 】 Gait motion, self-organizing map (SOM), rehabilitation, evaluationmethod, gravity center fluctuation (GCF) 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-016-1045-8 【 Title 】 Low-latency data gathering with reliabilityguaranteeing in heterogeneous wireless sensor networks 【 Author 】 Tian-Yun Shi, Jian Li, Xin-ChunJia, et al. 【 Keywords 】 Heterogeneous wireless sensor networks (HWSNs), datagathering tree, multi-channel, power assignment, linkscheduling 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1074-y 【 Title 】 Recursive Bayesian algorithm foridentification of systems with non-uniformly sampled input data 【 Author 】 Shao-Xue Jing, Tian-HongPan, Zheng-Ming Li 【 Keywords 】 Parameter estimation, discrete time systems, Gaussiannoise, Bayesian algorithm, covariance resetting 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1073-z 点击阅读“人工智能”相关推文 【IJAC热文】MITTomaso Poggio教授探讨深度学习机理 http://mp.weixin.qq.com/s/AwmQyhREjpIew0beIuj6yA 【IJAC推文】周志华、吴建鑫等关于循环神经网络的最新研究成果 http://mp.weixin.qq.com/s/S_7TPZ-QiIHkki2l-KAtDg 【IJAC推文】颜水成团队解读“高智商”机器人的终极杀器——深度学习 http://mp.weixin.qq.com/s/KRBTTycNve3GY8T9AkvoSA
近日,卡内基梅隆大学的 Haohan Wang 和 Bhiksha Raj 在 arXiv 上发布了一篇论文《 On the Origin of Deep Learning 》,详细地梳理了深度学习思想自亚里士多德时代以来的发展,尤其是现代随着计算机科学的兴起而出现的一些新的算法思想,很有参考价值。我们对该文进行了初步的翻译,以方面国内读者阅读。水平有限,翻译不够准确的地方敬请批评指正。有兴趣阅读原文的读者可在 https://arxiv.org/abs/1702.07800 查阅。
还记的IJAC三月发表的一篇有关深度学习的综述吗?作者是麻省理工美国人文与科学院院士Tomaso Poggio 。 Poggio教授在这篇文章中阐述了有关神经网络深度学习的一个基本问题:为什么深层网络比浅层网络更好? 这篇论文在发表后近2个月,下载量已经超过1500次,Altmetric分数已达到57,该论文和IJAC期刊已被MIT News、ECN等5家国外媒体报道,此后被“机器之心”微信公众号等国内自媒体和网页翻译转载。 这么热的论文,你怎么能不看呢? Why and When Can Deep-but Not Shallow-networks Avoid theCurse of Dimensionality: A Review Author : Tomaso PoggioHrushikesh Mhaskar, Lorenzo Rosasco, Brando Miranda, Qianli Liao Institute : Massachusetts Institute of Technology, USA Keywords: Machine learning, neural networks, deep andshallow networks, convolutional neural networks, function approximation, deeplearning. Full Text: https://link.springer.com/article/10.1007/s11633-017-1054-2 http://news.mit.edu/2017/explained-neural-networks-deep-learning-0414
5 月5日,中国图象图形学学会主办、视觉大数据专业委员会承办、图像视频大数据产业技术创新战略联盟协办的 “CSIG视觉大数据专委会成立大会暨第一届视觉大数据高峰论坛” 在中科院自动化所召开。 小编在会场推介了“Highlight Articles of IJAC in 2016-2017”,推荐的8篇文章中,有三篇是关于深度学习的综述和研究论文。一位老师说IJAC发文级别越来越高喽,呵呵! 本次论坛以“视觉大数据”为主题,邀请了旷视科技首席科学家孙剑博士、腾讯AI Lab计算机视觉中心总监刘威博士、商汤科技首席研发总监林倞教授、复旦大学姜育刚教授做主题报告。他们分别介绍了自己所从事的视觉大数据领域的研究工作,并就如何加快我国视觉大数据产业的发展,强化视觉大数据技术对智能产业的引领和支持,推动视觉大数据技术不断发展等方面提出了许多独到见解。 (部分文字与照片来源中科院自动化所新闻) Highlight Articlesof IJAC in 2016-2017 Why and When Can Deep-but Not Shallow-networks Avoid theCurse of Dimensionality: A Review Author : Tomaso PoggioHrushikesh Mhaskar, Lorenzo Rosasco, Brando Miranda, Qianli Liao Institute : Massachusetts Institute of Technology, USA Keywords: Machine learning, neural networks, deep andshallow networks, convolutional neural networks, function approximation, deeplearning. Full Text: https://link.springer.com/article/10.1007/s11633-017-1054-2 A Survey on Deep Learning-based Fine-grained ObjectClassification and SemanticSegmentation Author : Bo Zhao, Jiashi Feng, Xiao Wu, Shuicheng Yan Institute : National University of Singapore, Singapore Keywords: Deep learning, fine-grained imageclassification, semantic segmentation, convolutional neural network, recurrentneural network. Full Text: https://link.springer.com/article/10.1007/s11633-017-1053-3 http://www.ijac.net/EN/abstract/abstract1901.shtml Minimal Gated Unit for Recurrent Neural Networks Author : Guo-Bing Zhou, Jianxin Wu, Chen-Lin Zhang, Zhi-Hua Zhou Institute : Nanjing University, China Keywords: Recurrent neural network, minimal gated unit,gated unit, gate recurrent unit, long short-term memory, deep learning. Full Text: https://link.springer.com/article/10.1007/s11633-016-1006-2 http://www.ijac.net/EN/abstract/abstract1822.shtml Pinning Control and Controllability of Complex DynamicalNetworks Author : Guanrong Chen Institute : City University of Hong Kong, China Keywords: Complex network, pinning control,controllability, linear time-invariant system, temporally switching network,graph theory. Full Text: https://link.springer.com/article/10.1007/s11633-016-1052-9 http://www.ijac.net/EN/abstract/abstract1865.shtml Review of Some Advances and Applications in Real-timeHigh-speed Vision: Our Views and Experiences Author : Qing-Yi Gu, Idaku Ishii Institute : Hiroshima University, Japan Keywords: Real-timehigh-speed vision, target tracking, abnormal behavior detection, behaviormining, vibration analysis, 3D shape measurement, cell sorting. Full Text: https://link.springer.com/article/10.1007/s11633-016-1024-0 http://www.ijac.net/EN/abstract/abstract1808.shtml Cooperative Formation Control of Autonomous UnderwaterVehicles: An Overview Author : Bikramaditya Das, Bidyadhar Subudhi, Bibhuti Bhusan Pati Institute : Veer Surendra Sai University of Technology, India Keywords: Autonomous underwater vehicles, cooperativecontrol, formation control, tracking control, regulatory control. Full Text: https://link.springer.com/article/10.1007/s11633-016-1004-4 http://www.ijac.net/EN/abstract/abstract1821.shtml Optimal Feedback Control of OilReservoir Waterflooding Processes Author : A. S. Grema, Yi Cao Institute : Cranfield University, UK Keywords: Oil reservoir management,intelligent wells, optimal control theory, feedback control, geologicaluncertainty. Full Text: https://link.springer.com/article/10.1007/s11633-015-0909-7 http://www.ijac.net/EN/abstract/abstract1769.shtml Output Feedback Stabilization of Spacecraft AutonomousRendezvous Subject to Actuator Saturation Author : Qian Wang, Guang-Ren Duan Institute : Harbin Institute of Technology, China Keywords: Dynamic gain scheduling, output feedback,parametric Lyapunov equation, input saturation, spacecraft rendezvous. Full Text: https://link.springer.com/article/10.1007/s11633-016-0952-z http://www.ijac.net/EN/abstract/abstract1691.shtml
分类学工作者采集到大量标本,可以研究物种的形态和遗传的变异范围,是一件非常令人兴奋的事情。但有时,大量小型标本的分拣也是令人头疼的事情。智能手机、数码相机和互联网时代,随时随地可能获得有趣的图片,便于专家进行识别。然而,当相同物种的图片增加到一定程度,专家也无法及时给予回复。这里面最大的问题,还在于物种图片鉴别速度和鉴别准确率的问题。我在上一篇博文中提到“开发识别技术,加速物种分类学研究进程”。分子生物学和分类学整合,在过去的几十年极大推动了物种界定和生物系统学的发展。在快速逼近的大数据时代和深度学习时代,物种图片识别技术是否能够得到快速发展?生物分类的过程,实际上是人类智力和时间高度参与人工图片识别和归类的过程。能否加速图片识别,降低人类对重复图片识别和归类的时间投入? 2012年,中国科学院网络中心的李健博士等就已经实现了鸟类的图片识别。该物种形态学鉴别系统基于 IT 技术,包括了 B/S 架构的 Web 端和手持设备端两部分。使得用户可直接访问专家数据库以判定个体从属的种类,同时也可以上传信息请求专家审核.此鉴别系统在为用户提供方便准确的物种鉴别手段的同时,也为分类学家提供了一个获取大量信息的平台(鸟类物种形态学鉴别系统设计与实现:http://escj.cnic.cn/CN/abstract/abstract12648.shtml)。目前,他的团队已经能够处理动态视频中的鸟类物种识别问题。这样的工作及其平台,能否移植到昆虫工作中? 今天早晨读到Nvidia网站上一篇关于野生动物图片自动鉴别的报道,同时阅读了昆虫图像识别的一篇综述。两者分别从硬件和软件的角度,提出了一些有价值的思路,值得参考。它们的共同点如下: 1、相机监测网络已经获得大量野生小型兽类、鸟类的图片; 2、像素得到极大提升的智能手机和数码相机已经非常普及,和植物图片一样,昆虫的图片数据也在不断增加; 3、室内分类学工作生成大量的专业级(专家级)图片; 4、野外相机监测、智能手机和数码相机获得图片不一定和室内的专业图片相同的大小、摆放位置和角度; 5、均可以引入深度学习的理念,在未来海量图片的基础上,整合专业级图片,加速图像识别和自动鉴别,并提高准确程度; 6、把分类学者从标本分拣的琐碎工作中解放出来,既能够获得物种的分布数据,又能够集中精力针对部分标本开展深入的物种研究工作。 下列3个图和1个表格均来自: A survey on image-based insect classification.pdf 。 图1、特征提取方式演变 图2、昆虫识别的特征分类策略 图3、分类策略 表1、综述中涉及的昆虫图像识别数据及文献 Automatically Identify Wild Animals in Camera-Trap Images April 11, 2017 A research team led by University of Wyoming developed a deep learning -based system to identify species in the Serengeti National Park in Tanzania that could make it easier for ecologists to track animals in the wild. Camera traps automatically take pictures of passing animals when triggered by heat and motion which produce millions of images and extracting knowledge from these camera-trap images is traditionally done by humans. According to their research paper , it currently takes two to three months for a group of thousands of people to manually label each 6-month batch of images. When lead researcher Jeff Clune at the University of Wyoming in Laramie heard about the project, he knew it was an ideal opportunity to leverage deep learning. Using a variety of GPUs including the NVIDIA DGX-1 AI supercomputer and CUDA , cuDNN and NCLL with the Torch deep learning framework, the researchers trained their deep convolutional neural network to recognize 48 species in 3.2 million images taken from the national park’s hidden camera-traps. They were able to train their neural networks to automatically identify the variety of animals with over 92% accuracy. A sample camera-trap image from the Snapshot Serengeti dataset. “This is very exciting,” says Chris Carbone at the Zoological Society of London. Automatic species recognition could help us learn more about the distribution of species and get a better idea of the impact humans are having on them, he says. Read more Tags: CUDA , cuDNN , GeForce , Higher Education / Academia , Image Recognition , Machine Learning Artificial Intelligence , Tesla
一直以来,棋类游戏都被视为顶级人类智力的试金石。1997年,国际象棋机器人第一次打败人类顶尖高手;9年后,人类最后一次打败国际象棋机器人。 围棋,因其需要计算的变化数量远远超过宇宙中已观测到的原子数量,令一众企图借蛮力穷尽算法的研究者们望而却步。然好景不长,继去年阿法狗大败九段手李世石后,人机大战2.0版也将于今年5月在乌镇正式开打。而支撑“高智商”机器人征战南北的终极杀器,正是火遍全球的“深度学习”技术。 说起“深度学习”,不禁联想到各大互联网公司、智商完美碾压小编的首席科学家们,其中当然少不了AI界大神、360首席科学家、人工智能研究院院长颜水成。 “深度学习”技术的本质就在于特征分层不依赖于研究者的设计,而是机器本身基于一种通用的学习程序,借助数据,像人脑一样主动学习的过程。“深度学习”有大量不同的架构方法,其中就包括基于卷积神经网络的架构方法和基于递归神经网络的架构方法。 脑容量够大、觉得不过瘾的各位不妨继续深入读读颜水成团队关于“深度学习”的研究综述。他们回顾了基于“深度学习”的4种细粒度图像分类方法,以及基于“深度学习”的语义分割方法。如何让机器学会“认识”各种各样的鸟?如何让机器能够“看图说话”?答案就在文中~ 1. 收录信息: Bo Zhao, Jiashi Feng, Xiao Wu,Shuicheng Yan. A Survey on Deep Learning-based Fine-grained ObjectClassification and Semantic Segmentation. InternationalJournal of Automation and Computing , vol. 14, no. 2, pp. 119-135, 2017. 2. 全文链接: 1) Springer Link: https://link.springer.com/article/10.1007/s11633-017-1053-3 2) IJAC 官网: http://www.ijac.net/EN/abstract/abstract1901.shtml 3. 摘要: The deep learning technology hasshown impressive performance in various vision tasks such as image classification,object detection and semantic segmentation. In particular, recent advances ofdeep learning techniques bring encouraging performance to fine-grained imageclassification which aims to distinguish subordinate-level categories, such asbird species or dog breeds. This task is extremely challenging due to highintra-class and low inter-class variance. In this paper, we review four typesof deep learning based fine-grained image classification approaches, includingthe general convolutional neural networks (CNNs), part detection based,ensemble of networks based and visual attention based fine-grained imageclassification approaches. Besides, the deep learning based semanticsegmentation approaches are also covered in this paper. The region proposal basedand fully convolutional networks based approaches for semantic segmentation areintroduced respectively. 4. 关键词: Deep learning , fine-grained image classification , semanticsegmentation , convolutional neural network (CNN) , recurrent neural network (RNN). IJAC 近期发表的其他两篇深度学习热文如下 : TomasoPoggio, Hrushikesh Mhaskar, Lorenzo Rosasco, Brando Miranda, Qianli Liao. Why and When Can Deep-but NotShallow-networks Avoid the Curse of Dimensionality: A Review . International Journal of Automation andComputing , DOI: 10.1007/s11633-017-1054-2, 2017. 全文链接 : https://link.springer.com/article/10.1007/s11633-017-1054-2 Guo-BingZhou, Jianxin Wu,Chen-Lin, ZhangZhi-Hua Zhou. Minimal gated unit for recurrent neural networks . I nternational Journal of Automation andComputing , Vol.13, No.3, pp. 226-234, 2016. 全文链接 : https://link.springer.com/article/10.1007/s11633-016-1006-2 或 http://www.ijac.net/EN/abstract/abstract1822.shtml 5. 作者简介: 1 ) BoZhao received the B. Sc. degree in networking engineeringfrom Southwest Jiaotong University in 2010. He is a Ph.D. degree candidate atSchool of Information Science and Technology, Southwest Jiaotong University,China. Currently, he is at the Department of Electrical and ComputerEngineering, National University of Singapore, Singapore as a visiting scholar. His research interests includemultimedia, computer vision and machine learning. E-mail: zhaobo@my.swjtu.edu.cn ORCID iD: 0000-0002-2120-2571 2 ) JiashiFeng received the B.Eng. degree fromUniversity of Science and Technology, China in 2007, and the Ph.D. degree fromNational University of Singapore, Singapore in 2014. He was a postdocresearcher at University of California, USA from 2014 to 2015. He is currentlyan assistant professor at Department of Electrical and Computer Engineering,National University of Singapore, Singapore. His research interests includemachine learning and computer vision techniques for large-scale data analysis.Specifically, he has done work in object recognition, deep learning, machinelearning, high-dimensional statistics and big data analysis. E-mail: elefjia@nus.edu.sg 3 ) XiaoWu received the B.Eng. and M. Sc. degrees in computerscience from Yunnan University, China in 1999 and 2002, respectively, and thePh.D. degree in computer science from City University of Hong Kong, China in2008. He is an associate professor at Southwest Jiaotong University, China. Heis the assistant dean of School of Information Science and Technology, and thehead of Department of Computer Science and Technology. Currently, he is atSchool of Information and Computer Science, University of California, USA as avisiting associate professor. He was a research assistant and a senior researchassociate at the City University of Hong Kong, China from 2003 to 2004, and2007 to 2009, respectively. From 2006 to 2007, he was with the School ofComputer Science, Carnegie Mellon University, USA as a visiting scholar. He waswith the Institute of Software, Chinese Academy of Sciences, China, from 2001to 2002. He received the second prize of Natural Science Award of the Ministryof Education, China in 2015. His research interests includemultimedia information retrieval, image/video computing and data mining. E-mail: wuxiaohk@gmail.com (Corresponding author) ORCID iD: 0000-0002-8322-8558 4 ) ShuichengYan is currently an associate professor at theDepartment of Electrical and Computer Engineering, National University ofSingapore, Singapore, the founding lead of the Learning and Vision ResearchGroup (http://www.lvnus.org). He has authored/co-authored nearly 400 technicalpapers over a wide range of research topics, with Google Scholar citation12000 times. He is ISI highly-cited researcher 2014, and IAPR Fellow 2014. He hasbeen serving as an associate editor of IEEE Transactions on Knowledge and DataEngineering, Computer Vision and Image Understanding and IEEE Transactions onCircuits and Systems for Video Technology. He received the Best Paper Awardsfrom ACM MM’13 (Best paper and Best student paper), ACM MM’12 (Best demo),PCM’11, ACM MM’10, ICME’10 and ICIMCS’09, the runnerup prize of ILSVRC’13, thewinner prizes of the classification task in PASCAL VOC 2010–2012, the winnerprize of the segmentation task in PASCAL VOC 2012, the honorable mention prizeof the detection task in PASCAL VOC’10, 2010 TCSVT Best Associate Editor (BAE)Award, 2010 Young Faculty Research Award, 2011 Singapore Young Scientist Award,and 2012 NUS Young Researcher Award. His research interests includemachine learning, computer vision and multimedia. E-mail:eleyans@nus.edu.sg
上周,在IJAC优先在线发表的几篇论文中,麻省理工美国人文与科学院院士Tomaso Poggio的一篇有关深度学习的综述成为一大亮点。Poggio教授在这篇文章中阐述了有关神经网络深度学习的一个基本问题:为什么深层网络比浅层网络更好? 文章内容延续了Poggio教授在2016年8月在中国人工智能大会(2016CCAI)上的演讲报告《The Science and the Engineering ofIntelligence》。 图1 来源于2016 CCAI 演讲PPT 图2 来源于2016 CCAI 演讲PPT “ 深度学习架构和机器学习模式的搭建,来自于神经学方面的研究进展,换句话说,同样的架构是存在于大脑皮质当中的。 关于深度学习,已经有成千上万的研究者在不同领域进行这方面的研究,比如无人驾驶、语音识别等等。可是我们还不清楚,为什么深度学习在这些工程应用中会起作用,深度学习的机理是什么? 我们对这个问题很感兴趣另外一个原因是:探讨深度学习的机理也将有助于我们理解‘为什么大脑皮质会存在一些不同的层次?’ ” Poggio 教授在这篇文章中,将为您解读深度学习的关键理论、最新成果和开放式研究问题。 同时这篇文章也是IJAC即将发表的 Special Issue on Human Inspired Computing 中的一篇文章。该专题其他热文将陆续优先在线发表,敬请期待。 一点点题外话:小编在去年的CCAI大会上有幸拜访了Poggio教授,教授博学、谦逊而富有亲和力的形象给小编也留下深刻印象。他曾提到:期望能帮助年轻人更好的了解神经科学、理解机器学习。如果要在智能方面走得远,不能只靠计算机,还需要与人类本身的研究相互结合,才能碰撞出更多的东西。 接下来,小编将为您奉上这篇文章的具体信息,以及IJAC近期在线发表的其他文章链接,欢迎下载阅读 【 Title 】 Why and when can deep-but not shallow-networksavoid the curse of dimensionality: A review 【 Author 】 Tomaso Poggio, Hrushikesh Mhaskar, LorenzoRosasco, Brando Miranda, Qianli Liao 【 Abstract 】 The paper reviews and extends an emerging bodyof theoretical results on deep learning including the conditions under which itcan be exponentially better than shallow learning. A class of deepconvolutional networks represent an important special case of these conditions,though weight sharing is not the main reason for their exponential advantage.Implications of a few key theorems are discussed, together with new results,open problems and conjectures. 【 Keywords 】 Machine learning, neural networks, deep andshallow networks, convolutional neural networks, function approximation, deeplearning 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1054-2 【 Publish date 】 Published online March 14, 2017 The other recentlypublished online papers include: 【 Title 】 Improvement of wired drill pipe data qualityvia data validation and reconciliatio 【 Author 】 Dan Sui, Olha Sukhoboka, Bernt Sigve Aadnøy 【 Keywords 】 Data quality, wired drill pipe (WDP), datavalidation and reconciliation (DVR), drilling models 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1068-9 【 Publish date 】 Published online March 4, 2017 【 Title 】 Reaction torque control of redundantfree-floating space robot 【 Author 】 Ming-He Jin, Cheng Zhou, Ye-Chao Liu, Zi-QiLiu, Hong Liu 【 Keywords 】 Redundant space robot, reaction torque,reactionless control, base disturbance minimization, Linux/real timeapplication interface (RTAI) 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1067-x 【 Publish date 】 Published online March 4, 2017 【 Title 】 A piecewise switched linear approach fortraffic flow modeling 【 Author 】 Abdelhafid Zeroual,Nadhir Messai, SihemKechida, Fatiha Hamdi 【 Keywords 】 Switched systems, modeling, macroscopic,traffic flow, data calibration 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1060-4 【 Publish date 】 Published online March 4, 2017 【 Title 】 Navigation of non-holonomic mobile robot usingneuro-fuzzy logic with integrated safe boundary algorithm 【 Author 】 A. Mallikarjuna Rao, K. Ramji, B. S. K.Sundara Siva Rao, V. Vasu, C. Puneeth 【 Keywords 】 Robotics, autonomous mobile robot (AMR),navigation, fuzzy logic, neural networks, adaptive neuro-fuzzy inference system(ANFIS), safe boundary algorithm 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-016-1042-y 【 Publish date 】 Published online March 4, 2017 【 Title 】 Method for visual localization of oil and gaswellhead based on distance function of projected features 【 Author 】 Ying Xie, Xiang-Dong Yang, Zhi Liu, Shu-NanRen, Ken Chen 【 Keywords 】 Robot vision, visual localization, 3D objectlocalization, model based pose estimation, distance function of projectedfeatures, nonlinear least squares, random sample consensus (RANSAC) 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-017-1063-1 【 Publish date 】 Published online March 4, 2017 【 Title 】 Virtual plate based controlling strategy oftoy play for robots communication development in JA space 【 Author 】 Wei Wang, Xiao-Dan Huang 【 Keywords 】 Human robot cooperation, joint attention (JA)space, reachable space, toy play ability, a virtual plate 【 Full Text 】 https://link.springer.com/article/10.1007/s11633-016-1022-2 【 Publish date 】 Published online February 21, 2017 阅读更多IJAC优先在线出版论文: https://link.springer.com/journal/11633
下面是一篇对谷歌研发团队最新研究成果的博客(Inceptionism: Going Deeper into Neural Networks)的翻译。这项研究的主要目的是观察深度学习神经网络的某一个隐层都提取了哪些特征以及这些特征提取的的是否准确。但出人意料的是他们发现了这里面的创造性过程有可能揭示出人类大脑本身是如何进行创新的。(英文为图像版权信息) Images in this blog post are licensed by Google Inc. under a Creative Commons Attribution 4.0 International License . However, images based on places by MIT Computer Science and AI Laboratory require additional permissions from MIT for use. 人工神经网络技术引发了近期图像分类和语音识别领域的显著发展。但是即便这些都是基于大家普遍了解的数学方法之上的非常有用的工具,我们仍然对为什么某些神经网络模型有用但另外一些没有用知之甚少。下面让我们来看看用一些简单的技术来窥视一下这些神经网络的内部机制。 为了训练一个神经网络,我们通常展示给其以百万计的训练样本,并逐步调整其权重参数,直到它给了我们想要的分类结果。一个神经网络通常包含10-30个堆叠在一起的人工神经元层。每个图像首先由输入层导入,然后传递到下一层,直到到达最后的“输出”层。神经网络根据图像给出的“答案”就来源于最终输出层。 了解神经网络的挑战之一是再图像处理的每一层中都发生了些什么。我们知道经过训练的神经网络的每一层都逐步提取更抽象的图像特征,直到最后一层对图像显示的是什么做个决定。例如,第一层可能只查找图像中的物体边缘或角。中间层通过对前面收集的基本特征的理解来寻找更加整体的轮廓和构件,比如一扇门或者一片树叶。最后几层将这些整体轮廓和构件组合在一起形成对图像的完整解释 – 这些神经元只对非常复杂的对象呈现出激活反应,比如整栋建筑物或者树木。 将神经网络中每一层对图像的特征抽取进行可视化的方法之一是把该网络前后倒置,要求某一层将输入图像,以引发特定的解释。假设你想知道哪种图像会让该网络形成“香蕉”的结果,你可以一开始输入一个充满随机噪声数据的图像,然后逐渐调整该图像直到该神经网络认为它是香蕉(见相关文献 , , , )。这种方法本身效果不太显著,但是当我们加上一个限制,使整个过程中的像素分布与自然生成的图像具有相似的统计规律,比如相邻像素需要高度相关,那么效果就出来了。 所以这里有一个惊喜:经过训练后可以识别不同图像的神经网络也同时积累了可以产生图像的大量信息。看下面再不同类别的更多的例子: 为什么这很重要?好了,我们通过简单地展示给一个神经网络大量的我们希望它们学习的例子来训练它们,希望他们能够从中提取这些例子共性(例如,一把叉子由一个把柄和2-4叉齿组成),同时学会忽略不重要的东西(一个叉可以是任何形状,大小,颜色或放置方向)。但你如何检查一个神经网络是否正确学习到对象的共性特征?通过观察该神经网络对它形成的叉子的概念的展示可以有所帮助。 事实上,这种方法揭示出在某些情况下,我们认为神经网络已经找到的并不完全是我们想让它找到的东西。例如,这是我们设计的一个神经网络经过训练后认为的哑铃的样子: 没错这些图片里都有哑铃,但似乎没有一张图片里哑铃的是不带有一段充满肌肉的臂膀的。在这种情况下,该神经网络并没有完全参透哑铃的共性。也许它从来没有看到过没有一只胳膊抱着的哑铃。可视化可以帮助我们纠正类似的训练失误。 有时我们可以不去精确描述我们希望神经网络突出的特征,而是让神经网络自己做出决定。这时我们可以首先简单地给它任意图片或照片,并让它进行分析。然后,我们选择网络中的一个层,让它强调显示它抽取的特征。神经网络中的每一层抽取的特征的抽象度都不同,所以特征的抽象度取决于我们选取的层面。例如,较低层往往会产生特定笔画或简单装饰状图案,因为这些层面对边和边的方向等特征最为敏感。 Left: Original photo by Zachi Evenor . Right: processed by Günther Noack, Software Engineer Left: Original painting by G eorges Seurat . Right: processed images by Matthew McNaughton, Software Engineer 如果我们选择更高层,由于它们识别图像更复杂特征,这种方式可以使复杂特征甚至某个物体出现在画面中。这次我们仍然给我们的神经网络一张图像。我们要求它:“你如果看到了什么,就多给我一点你看到的!”这就创建了一个反馈循环:如果一朵云看起来有一点点像一只鸟,我们的网络就让使它看起来更像一只鸟。这样一来,重新读入的数据会让它更像一只鸟,直到一只看上去非常逼真的鸟好像凭空出现。 这一结果耐人寻味-即使是一个相对简单的神经网络都可用于对图像进行过渡解释,就像我们小时候喜欢看云并且喜欢将那些随机形状的云解释为我们熟悉的对象。该网络的主要训练对象是动物,所以它自然也容易将遇到的各种形状解释为动物。但是因为特征数据来自高抽象层,所以结果是这些特征的有趣混合。 当然,用这种技术我们可以做比看云更多的事情。我们可以把它适用于任何种类的图像,结果差别很大,因为强调的特征不同。例如,地平线线往往会被塔充满。岩石和树木变成建筑。鸟和昆虫出现在叶子里面.. 这一技术可以让我们了解神经网络中的某一层对图像特征的了解程度。根据我们使用的神经网络的架构,我们将其称为“开始主义 (Inceptionism)”。请参阅我们的开始注意画廊,里面有更多的图像和对它们的处理结果,还有一些很酷的视频动画。 我们必须更进一步:迭代 如果我们将该算法反复在每次输出的结果上进行迭代,并且每次在迭代前做一些放大,我们就可以得到层出不穷的新印象,探索该神经网络所了解的更多的特征。我们甚至可以从随机噪声图像开始该过程,使得最后结果成为某一个神经网络自己的作品,比如下面的图像: Neural net “dreams”— generated purely from random noise, using a network trained on places by MIT Computer Science and AI Laboratory . See our Inceptionism gallery for hi-res versions of the images above and more (Images marked “Places205-GoogLeNet” were made using this network). 这里介绍的技术可以帮助我们理解并视觉化神经网络如何进行复杂的图像分类任务,提高网络架构,并检查一下神经网络在训练期间学会了些什么东西。这也使我们联想到神经网络是否能成为一个艺术家的新工具 – 一种新的混合视觉体验的方式 – 亦或向我们揭示出一点一般性创新过程的根源所在。 原文链接
文本分析又称为观点挖掘,旨在通过对文本特征的选取并量化来实现文本信息表达。传统文本分析是通过对人们的观点、情绪、评论和态度进行有效挖掘的一项技术。主要内容包括文本信息分类、抽取和应用 。文本分析将文本从一个无结构的原始文本转化为结构化的计算机可以识别的矢量信息。通过对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来结构化文本向量,即直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维(向量的维度数目将高达几万维,造成“维度灾难”)。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,除了对文本做预处理外,我们还通过卡方检测、词频逆文档和信息增益等方法来降维。之后再利用支持向量机、贝叶斯、最大熵和随机森林等机器学习方法构建合适的分类回归模型。 以上文本分析所用的机器学习策略,被称为浅层学习。针对浅层学习的研究最早由 Pang 等人 在由两个类别组成的电影评论领域进行了实验,结果表明借助于 naiveBayesian 和 SVM 都能取得较好的分类效果。 Bo Pang 等人 对文本分析的发展历史做出归纳,指出对认知系统的研究 可以作为文本分析的先驱。之后文本分析的研究主要集中在文本中隐喻、叙述的解释,文本的观念、情感和与之相关的领域实践。浅层学习在实际建模的过程中使用到的函数简单,计算方法容易实现,计算量小,在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制,同时对于复杂的分类问题的泛化能力也在一定程度上受到制约。 相对浅层机器学习, Hinton 等 提出了深度学习( Deep Learning )。深度学习概念是来自于对人工神经网络的研究(多层感知器( MLP , MultilayerPerceptron )就是一种前馈人工神经网络模型,属于一种深度学习结构 ) 。分布式的特征表示方式是深度学习相较于浅层学习的一个重大进步。深度学习通过将底层特征进行组合,形成更加抽象的高层特征形式,并在此基础上获得样本数据的分布式表示 。这些分布式特征通过深度学习神经网络结构中的多个隐层结构逐层计算获得。然而,深度学习的网络结构因其涉及到多个非线性的处理单元层而导致它的非凸目标的代价函数计算过程中普遍存在着局部最小的问题,优化的过程中极有可能在找到全局最小值之前因局部最小值的出现而终止了优化的计算,这也正是深度学习在训练上比较困难的主要原因。尽管深度学习有着这样的困难,但深度学习具有多层结构,且这些结构之间均是非线性映射的,这使得深度学习可以很好的完成复杂函数的逼近,这也是深度学习能够成功应用的优势之一,让很多研究者趋之若鹜,让深度学习成为当前机器学习研究的热点课题。 国内外关于文本分析研究现状如下: 目前,文本分析研究的方法可以分为采取基于规则的方法和基于统计学习的方法。就前者而言,大部分的工作集中于分析规则的制定,这部分工作需要消耗大量的人力和时间,而且当目标样本中的语言现象较多或者较为复杂的时候,规则的制定就是一项非常艰难的任务。而且这种方法与研究目标紧密关联,导致制定的规则的迁移性非常差。这种方法往往利用情感词典、领域词典以及文本中的组合评价单元来获取最终的文本情感极性、评价词抽取和评价词语判别 。目前,多数研究文本分析的学者采用基于统计学习的方法学习目标样本的特征,并根据特征的分布对文本做出类别的判断。文本分析根据研究的任务可划分为文本信息分类和文本信息抽取两类。文本信息分类又可以依据划分的类别分为二元分类,即褒贬分类,和多元分类,如褒义,贬义和中性三类。根据研究的粒度可划分为篇章级分析、段落级分析、句子级分析以及属性级分析四类(已有文献中大多数的研究成果都是篇章级或者是句子级的文本分析研究)。基于统计学习的方法,大致可以归纳为三类:有监督方法,无监督方法以及半监督方法。其中有监督学习方法以 pang 在 2002 年的文献 为代表,学习方法有朴素贝叶斯、支持向量机和最大熵。 文本分析除了情感分析外,还有情感文摘、实体抽取、新闻文摘和文本分类等其他运用。实质上,这些运用都是使用不同的文本特征提取方法,使用机器学习或者规则作为工具的分类任务。以观点持有者实体抽取为例:有学者 将句子分词序列化后借助于命名实体识别规则来获取观点持有者,也有学者 曾尝试借助语义角色规则标注来完成观点持有者的抽取。 还有学者将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。如 Choi 将其看作 一个序列标注问题 , 并使用 CRF (conditional random field) 模型融合各种特征来完成观点持有者的抽取。相似地, Kim 将所有名词短语都视为候选观点持有者,使用 ME(maximumentropy) 模型来进行计算。这些方法较为依赖自然语言处理的基础技术,语言覆盖低和领域适应性差。 随着技术的发展和科技的进步,人们对分类与回归任务的要求也随之增高。就在此时,深度学习兴起。深度学习的提出者 Hinton 曾经非正式的指出的:“机器学习的第一次浪潮是浅层学习,深度学习则是机器学习的第二次发展浪潮”。目前, Hinton 的观点越来越被人们所接受。人们将焦点转移到深度学习的研究上,掀起了深度学习的研究热潮。 早期的深度学习应用于文本分析围绕语言模型(语言模型即判别一句话是否符合人类语法要求和使用习惯的模型)进行。用神经网络训练语言模型的思想最早由百度 IDL 的徐伟 于 2000 提出,提出一种用神经网络构建二元语言模型的方法。 Bengio 等 在 2003 提出三层的神经网络来构建语言模型 , 同样也是 n-gram 模型 , 根据这已知的 ( n−1 )个词,预测下一个词 。整个模型中使用的是一套唯一的词向量,并使用随机梯度下降法把这个优化模型,得到的语言模型自带平滑,无需传统 n-gram 模型中那些复杂的平滑算法。 2006 年, GeoffreyHinton 在《 Science 》发表了文献,指出两个重要观点:其一,多隐层的人工神经网络具备着优异的学习特征的能力,它学习到的特征对样本数据有着更加本质的刻画,使其更加有利于图像可视化或者文本等的分类任务;其二,深度神经网络在训练的时候存在一定的难度,可通过“逐层初始化”( layer-wise pre-training )的方法有效克服。 Hinton 在文章采用无监督学习实现逐层初始化工作 。 Hinton 在文献 中提到的深度学习方法是机器学习研究的一个新的领域,它的动机是建立、模拟人脑的分析学习的神经网络,模仿人脑的机制进行数据的解释,比如声音,图像和文本。深度学习方法的自编码网络是无监督的一种,在文章中提出了使用快速学习的办法,主要分为两步:第一步,每次训练其中一层网络,第二步是调优,保证原始的表示 x 向上产生的高级表示 r 和向下产生的表示 x ’尽可能的保持一致。这一思想在本文提出的基于深度学习的方法处理文本分析问题时依然被采纳。 除此之外, Lecun 等人在文献 中采用的是卷积神经网络( CNNs , Convolutional Neural Networks ),这是第一个真正具有多层结构的学习算法,它使用空间的相对关系来减少参数数目进而提高 BP ( BackPropagation )训练性能。深度学习研究中还有许多的变形结构,比如文献 中采用的去噪自动编码器( DenoisingAutoencoders ),文献 中使用的 DCN 方法,文献 中提出的 sum-product 方法等。 目前,深度学习的方法在词编码( Word Embedding )上取得了卓越的成效。词编码不同于传统词向量。传统词向量使用的每个维度表示特定的词,出现为 1 ,否则为 0 ,词编码的每个维度表示某种语义信息,从大量未标注的普通文本数据中无监督地学习出词向量。目前词向量研究最经典的文献为 CW 2011 、 MH 2008 和 Mikolov 2012 。 CW 的工作而在于用这份词向量去完成 NLP 里面的各种任务,比如词性标注、命名实体识别、短语识别和语义角色标注等。直接去尝试近似 t 个词的概率 P(w1,w2,…,wt) ,求窗口连续 n 个词的打分 f , f 越高的说明这句话越正常;打分低的说明这句话不是太合理;如果是随机把几个词堆积在一起将会是负分。打分只有相对高低之分,并没有概率的特性。有了这个对 f 的假设, CW 就直接使用 pair-wise 的方法训练词向量。他们在实验中取窗口大小 n=11 ,字典大小 |V|=130000 ,在维基百科英文语料和路透社语料中一共训练了 7 周,终于得到了所需要的词向量。 MH 的工作提出了一种层级的思想替换了 Bengio 的方法中最后隐藏层到输出层最花时间的矩阵乘法,在保证效果的基础上,同时也提升了速度, Mikolov 在 Bengio 的研究基础上,使用循环神经网络( Recurrent neural network )降低参数个数,并在准确率和算法效率上进行各种尝试。循环神经网络与前面各方法中用到的前馈网络在结构上有比较大的差别,但是原理还是基于多层神经网络模型。 目前深度学习用到文本分析的方法中可以归纳为两种: 1. 训练词向量直接用于神经网络模型的输入层。如 CW 的 SENNA 系统中,将训练好的词向量作为输入,用前馈网络和卷积网络完成了词性标注、语义角色标注等一系列任务。再如 Socher 将词向量作为输入,用递归神经网络完成了句法分析、情感分析等多项任务。 2. 作为辅助特征扩充现有模型。如 Turian 将词向量作为额外的特征加入到接近 state of the art 的方法中,进一步提高了命名实体识别和短语识别的效果。 国内使用词编码或者深度学习的研究学者并不多,但是正处于上升阶段,其中以贺宇和梁军等人为代表。贺宇等人 使用自编码算法,研究中文评论具有是否具有解释性的二分类问题 。梁军 使用递归神经网络对微博情感进行划分。两人工作都具有一定的创新性。 参考文献: 赵妍妍 , 秦兵 , 刘挺 . 文本情感分析 . 软件学报 ,2010,08:1834-1848. Pang B, Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learningtechniques //Proceedings of the ACL-02 conference on Empirical methods innatural language processing-Volume 10. Association for ComputationalLinguistics, 2002: 79-86. Pang B, Lee L.Opinion mining and sentiment analysis . Foundations and trends in informationretrieval, 2008, 2(1-2): 1-135. Carbonell J G.Subjective Understanding: Computer Models of Belief Systems . YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979. Wilks Y, Bien J.Beliefs, Points of View, and Multiple Environments* . Cognitive Science,1983, 7(2): 95-119. Carbonell J G.Subjective Understanding: Computer Models of Belief Systems . YALE UNIV NEWHAVEN CONN DEPT OF COMPUTER SCIENCE, 1979. Esuli A, SebastianiF. Sentiwordnet: A publicly available lexical resource for opinionmining //Proceedings of LREC. 2006, 6: 417-422. Turney P. Mining theweb for synonyms: PMI-IR versus LSA on TOEFL . 2001. Riloff E, Wiebe J,Phillips W. Exploiting subjectivity classification to improve informationextraction //Proceedings of the National Conference On ArtificialIntelligence. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press;1999, 2005, 20(3): 1106. Bakliwal A, Arora P,Madhappan S, et al. Mining sentiments from tweets . Proceedings of the WASSA,2012, 12. Kamps J, Marx M J,Mokken R J, et al. Using wordnet to measure semantic orientations of adjectives .2004. Dave K, Lawrence S,Pennock D M. Mining the peanut gallery: Opinion extraction and semanticclassification of product reviews //Proceedings of the 12th internationalconference on World Wide Web. ACM, 2003: 519-528. Golder S A, Macy M W.Diurnal and seasonal mood vary with work, sleep, and daylength across diversecultures . Science, 2011, 333(6051): 1878-1881. Kim SM, Hovy E.Determining the sentiment of opinions. In: Nirenburg S, ed. Proc. of the Coling2004. Morristown: ACL, 2004. 1367−1373. Kim SM, Hovy E.Extracting opinions, opinion holders, and topics expressed in online news mediatext. In: Dale R, Paris C, eds. Proc. of the ACL Workshop on Sentiment andSubjectivity in Text. 2006. 1−8. Choi Y, Cardie C,Riloff E. Identifying sources of opinions with conditional random fields andextraction patterns. In: Mooney RJ, ed. Proc. of the HLT/EMNLP 2005.Morristown: ACL, 2005. 355−362. Kim SM, Hovy E.Identifying and analyzing judgment opinions. In: Bilmes J, et al., eds. Proc.of the Joint Human Language Technology/North American Chapter of the ACL Conf.(HLT-NAACL). Morristown: ACL, 2006. 200−207. Xu W, Rudnicky A I.Can artificial neural networks learn language models? . 2000.] Bengio Y, DucharmeR, Vincent P, et al. A neural probabilistic language model . The Journal ofMachine Learning Research, 2003, 3: 1137-1155. Hinton G. E.,Salakhutdinov R. R. Reducing the Dimensionality of Data withNeural Networks . Science, Vol. 313. No. 5786, 2006, 28(7): 504-507 . Hinton G. E.,Osindero S. A fast learning algorithm for deep belief nets .NeuralComputation, 18, 2006: 1527-1554 Joachims T.Transductive inference for text classification using support vectormachines . Proceedings of the 16th International Conference on MachineLearning. SanFrancisco, CA, USA: Morgan Kaufmann, 1999: 200-209 . Blum A, Chawla S.Learning from labeled and unlabeled data using graphmincuts . Proceedings ofthe 18th International Conference on Machine Learning. San Francisco, CA, USA:Morgan Kaufmann, 2001: 19-26 . Szummer M, JaakkolaT. Partially labeled classification with Markov random walks . Advances inNeural Information Processing Systems 14: Proceedings of the 2001 Conference.Cambridge, MA, USA: MIT Press, 2001: 945-952 . Chapelle O, Weston J,Schoelkopf B. Cluster kernels for semi-supervised learning . Advances inNeural Information Processing Systems 15: Proceedings of the 2002 Conference.Cambridge, MA, USA: MIT Press, 2002:585-592 . Ronan Collobert,Jason Weston, Léon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing (Almost) fromScratch. Journal of Machine Learning Research (JMLR), 12:2493-2537,2011. Andriy Mnih Geoffrey Hinton. A scalable hierarchical distributed language model. TheConference on Neural Information Processing Systems (NIPS) (pp. 1081–1088).2008. Mikolov Tomáš.Statistical Language Models based on Neural Networks. PhD thesis, BrnoUniversity of Technology. 2012. Eric Huang, RichardSocher, Christopher Manning and Andrew Ng. Improving word representations via globalcontext and multiple word prototypes.Proceedings of the 50th Annual Meeting of the Association forComputational Linguistics: Long Papers-Volume 1. 2012. Turian Joseph, LevRatinov, and Yoshua Bengio. Wordrepresentations: a simple and general method for semi-supervised learning.Proceedings of the 48th Annual Meeting of the Association for ComputationalLinguistics (ACL). 2010. 贺宇 , 潘达 , 付国宏 . 基于自动编码特征的汉语解释性意见句识别 . 北京大学学报 ( 自然科学版 ), 2015, 2: 006. 梁军 , 柴玉梅 , 原慧斌 , 等 . 基于深度学习的微博情感分析 . 中文信息学报 , 2014, 28(5): 155-161.
深度学习是指一种人工神经网络的学习。这种神经网络由多个非线性处理层连成一个级联结构。深度学习近来引起了工业界的广泛兴趣 , 如谷歌、微软、 IBM 、三星、百度等。我汇报一个称为生长认知网 (Cresceptron) 的深度学习网的关键机制——现在所熟知的最大汇集 (max-pooling) ——并向读者请教是不是 HMAX 网剽窃了生长认知网。在这篇报道中我并不声称这就是剽窃。 2014 年8月,《国际新闻界》期刊发布了一则消息, 称北京大学博士研究生于艳茹女士在此期刊的2013 年第7期发表了一篇论文。此论文剽窃了妮娜·吉尔波特在《十八世纪研究》期刊的1984 年第4期上发表了的另一篇论文。《国际新闻界》撤销了这篇剽窃论文, 并对作者作了惩罚。这则消息被广为报道,包括了BBC 中文网站。于艳茹是一个研究生, 但以下牵涉到一个资深研究员。 梅里厄姆 -韦伯斯特在线词典为剽窃词条的定义为:“偷窃或冒充(其他人的思想或语句) 当作自己的;使用(其他人的成果) 而没有指出来源。” 1991 年之前,深度网被用于识别单个的两维手写数字上。那时的三维物体识别还是使用基于三维模型的方法——找出两维图像与一个手工建造了的三维物体模型之间的匹配。 翁巨扬等人假设人脑内没有任何整块的三维物体模型。他们于 1992 年发表了生长认知网(Cresceptron) 。其目的是从自然的和混杂的两维图像中检测和识别学习过的三维物体并从这些两维图像中分割出识别了的物体。机器学习了的物体的实验例子 , 包括了人脸、人体、步行道、车辆、狗、消火栓、交通标志牌、电话机、椅子、桌面计算机。自然和混杂的实验场景 , 包括了电视节目场景、大学校园户外场景、室内办公室场景。生长认知网内的表示是由很多物体共享的分布式特征检测器的反映。 生长认知网是全发育性的 , 即它通过经验来增量地生长和适应。它由一个级联的多个非线性处理模块组成。每个模块由几个层组成。每个模块的前层由一或二层被称为模板匹配层的处理层构成。每个模板匹配层进行卷积运算——每个卷积核从一个位置学了然后用到所有其它位置上去,这样这个特征可以被用到其它所有位置上去检测。所以, 卷积是为了层内的位移不变性。 但是 , 一个主要的挑战是训练图像的数目是有限的。为了识别相似但生长认知网没有观察到过的图像,它必须宽恕物体图像的变形。 生长认知网有一个宽恕物体图像变形的关键机理是在每个模块里用 2x2 到1 的方法减少结点,用一个取最大值的运算。这相当于在每个2x2 结点组里对4 个发放率做了一个逻辑或。在1993 年发表的生长认知网论文 给出了执行最大汇集的层次化最大运算的数学表达式。 现在这被称为最大汇集。譬如 , 查看于尔根·史密贺伯(JuergenSchmidhuber) 关于深度学习的一篇综述文章 。根据这篇综述文章,生长认知网是第一次用了最大汇集。“最大汇集广泛地应用在今天的深度前馈神经网络” 。 譬如, 图像网(ImageNet) LSVRC-2010 和ILSVRC-2012 竞赛的第一名使用了由先卷积后最大汇集的模块而组成的级联结构 。 1994 年10月19 日, 应托马索·泼吉奥教授的友善的邀请,翁巨扬在在麻省理工学院的生物和计算学习中心给了一个演讲。在麻省理工学院的一个研讨会会场内, 几乎座无虚席, 他作了题为“视觉学习的框架”的演讲, 介绍了生长认知网。翁巨扬说他很感激这次旅行, 其机票和膳宿是由接待方支付的。 翁巨扬对我解释说 , 这个层次最大汇集结构至少有四个优点:(1) 层次地宽恕局部的位置扭曲, (2) 增加感受野的大小的同时不一定要增加卷积核的大小,因为大卷积核在计算上很昂贵, (3) 减少特征检测的密度来宽恕特征模板匹配的误差,(4) 允许局部漏失(譬如因遮挡而造成的部件的缺失), 由于4 个数的最大值与其它三个较小的值无关。 尽管如此 , 最大汇集不保证深度卷积网的输出不随着物体在像素平面上的平移而变。这一点在生长认知网的全细节期刊论文 内有解释。与此同时, 深度级联结构还是根本性地弱——因为它没有任何机制来像人脑能做的那样为训练集和测试集自动地进行图形-背景分割。而更加新的发育网(DN) 有这样的机能 ,是通过增量和自主的发育途径实现的。 在翁巨扬的 1994 年10 月19日在麻省理工学院的访问后大约五年后, 马克思米兰·里森贺伯和托马索·泼吉奥在《自然神经科学》发表了一篇论文 。这篇投稿1999 年6 月17日收到。它的摘要写道:“令人惊奇地, 量化模型几乎还没有... 我们叙述一个新的层次模型... 这个模型是基于类似最大的操作。”它的图2 的图解引用了福岛邦彦 , 但全文没有为这个模型的关键性最大运算引用过生长认知网或它的最大汇集方法。 福岛邦彦 手选了特别层来降低位置精度 ,但是没有用最大汇集的两个关键机理:(1)最大化运算(看 的等式(4)),和(2)在整个网络里用机算机自动地逐级降低位置精度。 后来托马索·泼吉奥把他们自己的模型称作 HMAX 但 还是没有引用生长认知网。 为了调查是不是思想剽窃 ,譬如 ,比较 的124 页的左列显示公式, 的公式(17), 的1024 页左列的最后一行里的公式, 和 的公式(3)。也比较 的图10(c) 和 的图2 中的虚线箭头 。 由于引入一些关键系统结构的机制 , 如最大汇集, 和大规模平行计算机越来越实用,如显卡平行计算, 深度学习网络在一些模式识别任务的很多测试中展示了持续增加的性能,日益吸引了工业界的兴趣, 如谷歌、微软、IBM、三星、百度等。 自然出版集团的关于剽窃的政策文件规定 :“关于已经出版了的结果的讨论: 当讨论其他人的出版了的结果时, 作者必须恰当地描述这些先前结果的贡献。知识的贡献和技术开发两者都必须相应承认和妥当地引用。” 例如 , 有一篇文章 的一个段落改述了一个贡献而没有引用此贡献的出处被两个独立的委员会, 审查委员会和调查委员会,判定为剽窃 . 为了此问题翁巨扬曾尊重地并私下地几次和托马索·泼吉奥教授联系但他没有回答。翁巨扬说 :“希望你提起这个问题不会激怒托马索·泼吉奥教授。他是我尊敬的老师之一,因为他的早期文章在我1983 年至1988 年期间当研究生时向我介绍了处于早期的计算脑科学。” 1997 年托马索·泼吉奥教授光荣地成为一名美国艺术和科学院院士。 (此文作者: Juan L. Castro-Garcia ) 参考文献 K. 福岛(Fukushima).“Neocognitron: 一个自组织的神经网络模型为了一个不受位置平移影响的模式识别的机能,”生物控制论,36,193-202,1980. A. 科里兹夫斯基(Krizhevsky),I. 苏兹凯夫(Sutskever), and G.辛顿(Hinton).“用深度卷积网络归类图像网,”在神经信息处理系统的进展25,1106–1114, 2012 年. Z. 麦克米林(McMillin).“密西根州立大学一个教授承认在2008年的一篇文章内剽窃,”州消息报, 2010 年4 月6日. M. 里森贺伯(Riesenhuber),T.泼吉奥(Poogio). “脑皮层内物体识别的层次模型,”自然神经科学, 2(11):1019–1025, 1999. J. 史密贺伯(Schmidhuber).“在神经网络里的深度学习: 一个综述,”技术报告IDSIA-03-14, 瑞士人工智能实验室IDSIA, 瑞士, 马诺-路伽诺(Manno-Lugano),2014 年10 月8 日. T. 希瑞(Serre),L. 沃尔夫(Wolf),S.拜尔斯基(Bileschi),M. 瑞森哈勃(Riesenhuber),T. 泼吉奥(Poggio). “似皮层机制的鲁棒的对象识别,”IEEE 模式分析与机器智能学报,29(3),411-426 2007. M. B. 思狄克棱(Sticklen). “撤回: 生物燃料生产的植物基因工程: 面向負擔得起的纤维素乙醇,”自然综述基因学, 11(308), 2008. J. 翁(Weng). 自然和人工智能: 计算脑心智导论 , BMI 出版社, 密西根, 欧科模斯, 2012. J. 翁(Weng)N. 阿乎嘉(Ahuja), T. S. 黄(Juang).“Cresceptron: 一个自组织的神经网络适应性地生长,” 国际联合神经网络会议录(IJCNN), 美国, 马里兰州, 巴尔的摩市, 第1卷(576-581),1992 年6 月. J. 翁(Weng)N.阿乎嘉(Ahuja), T. S. 黄(Juang). “学习从两维图像识别和分割三维物体,”IEEE 第4 届国际计算机视觉会议录(ICCV)”121-128, 1993 年5 月. J. 翁(Weng)N.阿乎嘉(Ahuja), T. S. 黄(Juang). “用生长认知网学习识别和分割,”国际计算机视觉期刊(IJCV),25(2),109-143,1997 年11 月. J. 翁(Weng),M. D. 卢契(Luciw), “脑启发的概念网: 从混杂的场景中学习概念,”IEEE 智能系统杂志,29(6), 14-22, 2014 年. Deep Learning is Hot: Max-Pooling Plagiarism? By Juan L. Castro-Garcia Deep learning is a term that describes learning by an artificial neural network that consists of acascade of nonlinear processing layers. Deep learning networks have recently attracted great interest from industries, such as Google, Microsoft, IBM,Samsung, and Baidu. I report a key architecture mechanism of deep learning network Cresceptron — well-known now as max-pooling — and ask the readerwhether HMAX plagiarized Cresceptron. In this report I do not claim that this is a plagiarism. August 2014, the Chinese Journal of Journalism Communication, announced that Ms. Yu,Yanru, a PhD student at Peking University, published an article in the journal,issue 7, 2013, that plagiarized from another article by Nina R. Gelbertpublished in the Eighteen-Century Studies journal, issue 4, 1984. The plagiarizing article was withdrawn from the journal and the author was disciplined by the journal. This announcement was widely reported, including BBC China online. Ms. Yu, Yanru was agraduate student, but the following involves a senior researcher. The word “plagiarize”was defined in the Merriam-Webster online dictionary: “to steal and pass off(the ideas or words of another) as one’s own; use (another’s production) withoutcrediting the source.” Until 1991, deep neuralnetworks were used for recognizing isolated two-dimensional (2-D) hand-writtendigits. Three dimensional (3-D) object recognition until then used 3-D model-based approaches— matching 2-D images with a handcrafted 3-D object model. Juyang Weng et al. assumed that inside a human brain a monolithic 3-D object model does not exist, although one may subjectively feel otherwise. They published Cresceptron in 1992 fordetecting and recognizing learned 3-D objects from natural and cluttered 2-D images and for segmenting the recognized objects from the 2-D images. Experimental examples of the learned objects , included human faces,human bodies, walkways, cars, dogs, fire hydrants, traffic signs, telephones, chairs, and desktop computers. Experimental examples of the natural andcluttered scenes , included TV program scenes, university campus outdoors, and indoor offices. Representations in Cresceptron are responses of distributed feature detectors that share among many objects. A Cresceptron is fully developmental in the sense that it incrementally grows and adapts through experience. It consists of a cascade of nonlinear processing modules where each module consists of a number of layers. Early layers in each module consist ofone or two pattern matching layers where each layer performs convolution — each convolution kernel learned at one image location is applied to all otherlocations so that the same feature can be used to detect at all other locations. Therefore, the convolution is for within-layer shift-invariance. However, a key challenge is that the number of training samples is limited. In order to recognize similar object views that Cresceptron has not observed, it must tolerate deformation in object views. The key mechanism in Cresceptron to tolerate deformation is the (2x2) to 1 reduction of nodes in every module using a maximization operation, to implement a Logic-OR for the firing rates of each group of (2x2) neurons. The 1993 publication of Cresceptron gave the mathematical expression forhierarchical max operations in the max-pooling. This is now commonly called max-pooling, see, e.g., a deeplearning review by Juergen Schmidhuber . According to the review, Cresceptronwas the first to use max-pooling. “Max-pooling is widely used in today’s deep feedforward neural networks” . For example, the winner of ImageNet LSVRC-2010 and ILSVRC-2012 contests used an architecture of a cascade ofmodules in which convolution layer(s) are followed by a max-pooling layer . Kindly invited by Prof. Tomaso Poggio, Weng gave a talk atthe Center for Biological and Computational Learning, Massachusetts Instituteof Technology, Cambridge, Massachusetts (MIT), Oct. 19, 1994. In a seminar roomat MIT that was an almost full audience, he presented Cresceptron under thetitle “Frameworks for Visual Learning.” Weng said that he greatly appreciatedthe visit with the host paying for the air ticket and accommodations. Weng explained to me that the hierarchical max-pooling hasat least four advantages: (1) hierarchical tolerance of local location deformation, (2) increasing the size of receptive fields without necessarily increasing the size of the convolution kernels because large convolution kernels are computationally veryexpensive, (3) reduction of feature detection density to tolerate feature-template matching errors, and (4) permit local dropouts (absence ofcomponents due to, e.g., occlusions) because the maximum of the four values is independent with the three smaller values. However, hierarchical max-pooling does not guarantee that theoutput of the deep convolutional networks is invariant to object shifts in the pixel plane, as explained in the fully detailed 1997 journal publication of Cresceptron . Furthermore, the deep cascade architecture is still fundamentally weak — regardless the size of training set and the power of computers— because it does not have any mechanism to do, like what a brain can,figure-ground automatic segmentation on training sets and testing sets. Thenewer Developmental Network (DN) architecture has such a mechanism , through autonomous and incremental development. About five years after Weng’s MIT visit Oct. 19, 1994,Maximilian Riesenhuber and Tomaso Poggio published a paper in NatureNeuroscience that was received June 17, 1999. Its abstract reads “Surprisingly,little quantitative modeling has been done ... We describe a new hierarchicalmodel ... The model is based on a MAX-like operation ... ” Its Fig. 2 captioncited Kunihiko Fukushima but the entire paper did not cite Cresceptron or its max-pooling method for the key max operation in their model. Fukushima handpicked particular layers to reduce thelocation precision, but he did not use the two major mechanisms of max-pooling:(1) maximization operation (see Eq. (4) in ) and (2) computer automatic reduction of the location resolution through every level of the network. Later, Tomaso Poggio called their model HMAX but still didnot cite Cresceptron. To investigate whether idea plagiarism took place, forexample, compare the left-column display equation on page 124 of , Eq. (17)of , the last equation in the last line of the left column on page 1024 of , and Eq. (3) of .Also compare Fig. 10(c) of and the dashed arrows in Fig. 2 of . Due to the introduction of some key architecture mechanismslike max-pooling and the practicality of massively parallel computers such as GPUs, deep learning networks have shown increasing performance in many tests for some pattern recognition tasks and have attracted increasing interest from industries, suchas Google, Microsoft, IBM, Samsung, and Baidu. The Nature Publishing Group’s policy document on plagiarism reads:“Discussion of published work: When discussing the published work of others,authors must properly describe the contribution of the earlier work. Both intellectual contributions and technical developments must be acknowledged assuch and appropriately cited.” For example, a paragraph within a paper that paraphraseda contribution without attribution to the contribution source was found by two independent committees, inquiry and investigative, to be a plagiarism . Respectfully and privately, Weng contacted Prof. Poggio a few times with regard to this issue but he did not reply. Weng said: “I wish that your raising this issue does not upset Prof. Tommy Poggio. He is one of my respected teachers because his early papers introduced me to computational neuroscience at its early stage when I was a graduate student 1983-1988.” 1997 Prof. Poggio was elected as a fellow of the American Academy of Arts and Sciences (AAAS). REFERENCES K. Fukushima. Neocognitron: A self-organizing neuralnetwork model for a mechanism of pattern recognition unaffected by shift inposition. Biological Cybernetics, 36:193–202, 1980. A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in NeuralInformation Processing Systems 25, pages 1106–1114, 2012. Z. McMillin. MSU professor admits to plagiarism in 2008 article. The State News , April 6,2010. M. Riesenhuber and T. Poggio. Hierarchical models of object recognition in cortex. Nature Neuroscience , 2(11):1019–1025, 1999. J. Schmidhuber. Deep learning in neural networks: Anoverview. Technical Report IDSIA-03-14, The Swiss AI Lab IDSIA, Manno-Lugano,Switzerland, October 8 2014. T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, and T.Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Analysis and Machine Intelligence, 29(3):411–426, 2007. J. Weng. Natural and Artificial Intelligence: Introduction to Computational Brain-Mind . BMI Press, Okemos, Michigan, 2012. J. Weng, N. Ahuja, and T. S. Huang. Cresceptron: A self-organizing neural network which grows adaptively. In Proc. Int’l Joint Conference on Neural Networks, volume 1, pages 576–581, Baltimore, Maryland,June 1992. J. Weng, N. Ahuja, and T. S. Huang. Learning recognitionand segmentation of 3-D objects from 2-D images. In Proc. IEEE 4th Int’l Conf.Computer Vision, pages 121–128, May 1993. J. Weng, N. Ahuja, and T. S. Huang. Learning recognition and segmentation using the Cresceptron. International Journal of Computer Vision , 25(2):109–143, Nov. 1997. J. Weng and M. D. Luciw. Brain-inspired conceptnetworks: Learning concepts from cluttered scenes. IEEE Intelligent Systems Magazine , 29(6):14–22, 2014.
学习笔记: 深度学习是机器学习的突破 2006-2007年,加拿大多伦多大学教授、 机器学习 领域的泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》以及在Neural computation 和 NIPS上发表了4篇文章,这些文章有两个主要观点: 1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类; 2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。 在其后2012年GOOGLE BRAIN应用深度学习实现了对’猫‘特征的无监督学习后,正式 开启了深度学习在学术界和工业界的浪潮。 深度学习是 机器学习 研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无监督学习的一种。 深度 学习 的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的 分布式 特征表示。 当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据 分布式 表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。(多层的好处是可以用较少的参数表示复杂的函数,比 如下图中的右图,即将复杂函数分解成多层函数递进表示) 深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度 模型 ”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将 样本 在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来 学习 特征,更能够刻画数据的丰富内在信息。 如下是深度学习的非常好的一批教程网站 ufldl的2个教程(入门绝对的好教程,Ng的,逻辑清晰有练习):一 ufldl的2个教程(入门绝对的好教程,Ng的,逻辑清晰有练习):二 Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考 deeplearning.net主页,里面包含的信息量非常多,有software, reading list, research lab, dataset, demo等,强烈推荐,自己去发现好资料。 Deep learning的toolbox,matlab实现的,对应源码来学习一些常见的DL模型很有帮助,这个库我主要是用来学习算法实现过程的。 2013年龙星计划深度学习教程,邓力大牛主讲,虽然老师准备得不充分,不过还是很有收获的。 Hinton大牛在coursera上开的神经网络课程,DL部分有不少,非常赞,没有废话,课件每句话都包含了很多信息,有一定DL基础后去听收获更大。 Larochelle关于DL的课件,逻辑清晰,覆盖面广,包含了rbm系列,autoencoder系列,sparse coding系列,还有crf,cnn,rnn等 。 虽然网页是法文,但是课件是英文。 CMU大学2013年的deep learning课程,有不少reading paper可以参考。 达慕思大学Lorenzo Torresani的2013Deep learning课程reading list. Deep Learning Methods for Vision(余凯等在cvpr2012上组织一个workshop,关于DL在视觉上的应用)。 斯坦福Ng团队成员链接主页,可以进入团队成员的主页,比较熟悉的有Richard Socher, Honglak Lee, Quoc Le等。 多伦多ML团队成员链接主页,可以进入团队成员主页,包括DL鼻祖hinton,还有Ruslan Salakhutdinov , Alex Krizhevsky等。 蒙特利尔大学机器学习团队成员链接主页,包括大牛Bengio,还有Ian Goodfellow 等。 纽约大学的机器学习团队成员链接主页,包括大牛Lecun,还有Rob Fergus等。 Charlie Tang个人主页,结合DL+SVM. 豆瓣上的脑与deep learning读书会,有讲义和部分视频,主要介绍了一些于deep learning相关的生物神经网络。 Large Scale ML的课程,由Lecun和Langford讲的,能不推荐么。 Yann Lecun的2014年Deep Learning课程主页。 视频链接 。 吴立德老师《深度学习课程》 一些常见的DL code列表,csdn博主zouxy09的博文,Deep Learning源代码收集-持续更新… Deep Learning for NLP (without Magic),由DL界5大高手之一的Richard Socher小组搞的,他主要是NLP的。 2012 Graduate Summer School: Deep Learning, Feature Learning,高手云集,深度学习盛宴,几乎所有的DL大牛都有参加。 matlab下的maxPooling速度优化,调用C++实现的。 2014年ACL机器学习领域主席Kevin Duh的深度学习入门讲座视频。 R-CNN code: Regions with Convolutional Neural Network Features. 以上文字和网站链接资料摘编自如下网址: http://www.myexception.cn/other/1266691.html http://www.cnblogs.com/tornadomeet/archive/2012/05/24/2515980.html 另外给出2006年的3篇关于深度学习的突破性论文: Hinton, G. E., Osindero, S. and Teh, Y.,A fast learning algorithm for deep belief nets. Neural Computation 18:1527-1554, 2006 Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle,Greedy LayerWise Training of Deep Networks, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007 Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007
【研究动态】 深度学习 进阶线路图(一) 在应用机器学习的时候,最耗时和重要的阶段是对原始数据进行特征提取。 深度学习 是一个新的机器学习的分支,他要做的就是跨过整个特征设计阶段,而是直接从数据中学习得到。大部分的深度学习方法都是基于神经网络的,在这些结构中,复杂的高层结构是建立在多个非线性神经元函数的多层叠加上的。 其实最容易的介绍神经网络和深度学习的教程是Geoff Hinton’s Coursera course .(AITMR译者注:我以前上过这个课,需要有一定的基础才能听得懂的。)在这个课程中,你能学习得到一些关键思想并能让你自己完成一些简单的算法。( Geoff 是这个领域的先驱者,AITMR注:我们大家都习惯叫他祖师爷,他在06在Nature上发表了一篇关于深度学习的文章,被认为是这个领域的第一篇比较详细的文章,并附有代码。) 其实说白了 深度学习 就是从基本数据中学习,然后让模型工作得更好。但是这个领域目前来说还没有达到这个阶段,就是可以你把数据输进去,然后模型就完全自动的学习了。目前,你还需要判断很多问题:模型过拟合了吗?优化过程完成了吗?需要增加更多的神经元吗?需要增加更多的层数吗?不幸的是,现在对于这些个问题还没有一个共识,因此你需要不管的思考并做实验。为了达到这个水准,你需要深入理解算法的核心内容,和于此相关的一些机器学习的关键知识。这篇文章就是要根据这些点来给出一个进阶帮助你更好的理解深度学习。 如果你以前没怎么看过Metacademy,你可以在 here 找到这个网站内容的基本结构和内容简介。登陆Metacademy,基本概念已经用红色标明了。这些将给你一些基本的认识,例如: 随着更多的内容加入到Metacademy,学习内容会实时更新的。外链用绿色字体显示,尽管我们已经尽可能的去列得详细,但是你还是要根据自己的情况去选择一些。但是你也不同完全按照我们给出的线路图去完成,因为每个人的情况不一样。 You can also check out one of several review papers, which give readable overviews of recent progress in the field: Y. Bengio. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2009. Y. Bengio, A. Courville, and P. Vincent. Representation learning: a review and new perspectives. 2014 【研究动态】深度学习进阶线路图(二) Supervised models 如果你对使用神经网络感兴趣,意味着你也许喜欢自动的预测。监督学习是一种机器学习的框架,在这个框架里面你有一项特别想完成的任务,计算机通过有标签的数据集合学习得到模型。比如加入你想自动的判别邮件信息是垃圾邮件还是正常邮件,有监督学习框架中,你会有100,000封电子邮件被标注为“垃圾邮件”或者是“非垃圾邮件”,这些数据集合被用来训练分类器,使得它能够判别以前从未遇到过的邮件。 在深入理解神经网络之前,你应该先了解一点浅层网络机器学习算法比如线性回归( linear regression ),逻辑回归( logistic regression ),支持向量机( support vector machines (SVMs) )等。这些算法更容易完成,并且有一些很成熟的软件包可以调用(比如: AITMR译者注:scikit-learn确实是一个非常好的软件包,译者一直以来都是用这个软件包,而且你还可以通过研究软件包的源程序来深入的学习相关的算法。)。这些算法是你实现神经网络的一些基础内容。另外,神经网络的基本组成部分神经元和这些模型有很大的关联。因此,你花时间学习这些模型也是为更深度的理解神经网络打好了基础。 为了能更好的应用监督学习,你需要理解泛化( generalization )的概念,所谓泛化就是在新数据上的预测能力。你需要理解怎样去平衡过拟合与欠拟合之间的权衡:你既要使你的模型能够完全的表达你的数据,又不至于使得你的模型过于复杂使其过拟合。在回归方面,这个可以归结为 bias and variance ,这提供了一个更为直观的表达。当然 cross-validation 是一个你可以用来测量泛化能力的算法。 最开始的深度学习模型是前馈神经网络 feed-forward neural net 它是通过反向传播 backpropagation 来学习的。 视觉是深度神经网络的一个主要的应用方向,而卷积神经网络 convolutional nets 在此方面已经取得了突破性的进展。 递归神经网络 Recurrent neural nets 是把数据表示成时间结构的一类神经网络。伴随时间的Backpropagation是一种优雅的训练算法,但是在实用性方面还是有一定问题的。 【研究动态】深度学习进阶线路图(三):非监督学习 监督模型中,有标签数据可用来训练模型进行预测。但是在很多情况下,标签数据很难获取,或者是很难定义标签。你有的可能只是些非标签数据。这种情况下的学习叫做非监督学习。例如,你想对邮件进行“垃圾邮件”和“非垃圾邮件”的分类,但是你却没有标签数据集。那么,用这些非标签数据集,你能做些什么事呢?第一,你可以简单的分析数据模式。你的非标签数据也许蕴含着某些潜在的属性,这些潜在属性可以通过主成分分析( principal component analysis )或者是因子分析( factor analysis )得到。第二,你也可以对你的数据进行聚类研究,一类的数据比其他类的数据更为近似,聚类算法主要有 k-means 和 mixture of Gaussians 在神经网络领域,非监督学习还有另外一种作用:他能对监督学习提供一些帮助。尤其是非标签数据比标签数据更容易获取。假如你正在进行目标识别方面的工作,给图像中的目标做标签是一件非常繁琐的事情,然而非标签的数据却可以从网上成千上万的下载。 非监督预训练( Unsupervised pre-training )已经在很多领域证明了其可极大的提供识别率。他的思想就是你通过非标签数据训练一个非监督神经网络,然后把类似的结构联合起来构成监督神经网络。目的都是为了给原始数据进行建模,而预训练能够为预先提取一些数据的相关结构。另外,深度非监督模型也比深度监督模型更容易训练(当然,关于这一点现在大家还不知道具体原因。)。非监督网络的预训练初始化使得整个网络训练时不至于陷入局部极值。 关于分监督训练好处的证明仍然是复杂的,很多成功应用的深度神经网络已经避免使用它,尤其是在大数据的背景下。但是他也保持者很好的记录,值得我们取关注他。 那哪些是非监督神经网络呢?最基本的就是自编码结构( autoencoder ),这是一种预测他自己输入的前馈神经网络。然而这并不是最难的事情,可以一些限制后事情变得有点困难。第一,网络中有一层或者是多层的神经元数量要比数据层的小。另外,还需要限制隐含层的活跃神经元是稀疏的(译者注:只有少部分神经元的输出为非零。)。再着,在输入数据中加入一些噪声,再使网络具有去噪能力( denoising autoencoder )。 关于非监督学习另外一种方法是生成模型。人们假设数据符合某种潜在的分布,然后尝试对这种分布建模。受限玻耳兹曼机 Restricted Boltzmann machines (RBMs) 是一种监督的只有一个隐含层的生成模型。而这个模型可以堆积形成多层生成模型,比如深信网络( deep belief nets (DBNs) )和深度玻尔兹曼机( deep Boltzmann machines (DBMs) )等。 DBMs can learn to model some pretty complex data distributions: Generative modeling is a deep and rich area, and you can find lots more examples in the Bayesian machine learning roadmap . 【研究动态】深度学习进阶线路图(四):优化算法 定义好深度神经网络的机构后,该怎么去训练他们呢?最笨重的训练方法就是随机梯度下降法( stochastic gradient descent (SGD) ),这种方法在每次训练中只添加一个训练样本(或者说是少量的训练样本),通过这些训练样本一小步一小步的减小损失函数。也就是说这需要计算损失函数的梯度值,这可以通过反向传播的算法算得。当然在编好程序后要进行“梯度计算检查”( check your gradient computations )来确保你的梯度计算是正确的。SGD算法理解简单,实现也比较容易,用起来也是十分的得心应手。 其他还有很多其他的凸优化( convex optimization )可以解决这个训练问题,在凸问题中,SGD和其他的一些局部搜索算法可以保证找到全局极值。可以找到全局极值是因为函数的形状是“碗状”(即凸函数),因此微调就朝着全局极值的方向走了。很多机器学习的研究就是想去构造一个凸优化问题。然而,深度神经网络却并非都是凸优化问题,因此你仅能保证找到一个局部极小值。这看似令人失望,但是我们也找到了一些解决方法( something we can live with )。对于大部分的前馈网络和生成网络,局部极值其实是挺合理的。(当时递归神经网络是个意外。) 局部极值最大的问题就是损失函数的曲率会趋向极值。然而神经网络是非凸的,因此曲率的问题就凸显出来了,而解决神经网络的训练的问题都是借鉴的凸优化问题的求解方法。如果你想了解一些相关的背景知识,可以去看看Boyd and Vandenberghe’s写的书凸优化( Convex Optimization ): Sections 9.2-9.3 talk about gradient descent, the canonical first-order optimization method (i.e. a method which only uses first derivatives) Section 9.5 talks about Newton’s method, the canonical second-order optimization method (i.e. a method which accounts for second derivatives, or curvature) 牛顿法其实是很适合去处理曲率问题的,但是他处理大尺度的神经网络训练却并不实用,主要有两方面的原因:其一,它是一种批处理方法,因此每次训练都得把全部的训练样本添加进去。其二,他需要构建Hessian矩阵,并且还要求逆,而Hessian矩阵的维数和参数维数相等啊。(译者注:计算量太大了,当你的神经网络结构非常大的时候,这简直就是一场灾难啊!)因此,一直以来他都是作为一种理想的二阶训练方法人们去尝试。实际上用得最多的还是: conjugate gradient limited memory BFGS 相比于一般的神经网络模型,训练RBMs又提出了新的挑战:目标函数需要计算配分函数,而梯度计算需要进行推理( inference )。而这两者貌似都是不可解的( intractable )。在实际操作中 Contrastive divergence and persistent contrastive divergence 被广泛的用来估计梯度。然而,模型估计依然还是个问题。退火抽样( annealed importance sampling )可以用来估计模型的似然函数( estimate the model likelihood )。但是终究还是显得苍白,对于估计模型的性能还是很难完成的。 Even once you understand the math behind these algorithms, the devil’s in the details. Here are some good practical guides for getting these algorithms to work in practice: G. Hinton. A practical guide to training restricted Boltzmann machines. 2010. J. Martens and I. Sutskever. Training deep and recurrent networks with Hessian-free optimization. Neural Networks: Tricks of the Trade, 2012. Y. Bengio. Practical recommendations for gradient-based training of deep architectures. Neural Networks: Tricks of the Trade, 2012. L. Bottou. Stochastic gradient descent tricks. Neural Networks: Tricks of the Trade, 2012. 【研究动态】深度学习进阶线路图(五):应用与相关软件 视觉应用: 计算机视觉是神经网络和深度学习的主要应用领域。早在1998年,卷积神经网络( convolutional nets )就已经在手写数字识别上大显身手,MNIST手写书库( MNIST handrwritten digit dataset )也一直以来都作为神经网络研究的标准数据集。(译者注:卷积神经网络在计算机视觉领域的应用是空前的,据说美国ATM机上支票的识别就是用的CNNs算法,而最近CNNs的研究又进入了一个爆发期,很多新的算法表中出现,比如3D的CNNs等。笔者曾经仔细研读过CNNs的MATLAB代码,确实是一个很好的算法,而且对于图像的识别率也是很高的。)近来,卷积神经网络把数千种类的物体分类问题( classifying between thousands of object categories )大大的推进了一步。仅用行像素来学习打游戏( play Atari games )的DeepMind系统里面就用到了视觉识别。 也有很多的工作是关于图像的生成模型的。而这些研究工作都是关注于学习稀疏表示( learning sparse representations )和图像的局部关系建模( modeling the local covariance structure )。加入你用卷积结构的生成模型对图像建模,那么你能得到更深层次的特征。 相关软件: Cafe is an increasingly popular deep learning software package designed for image-related tasks, e.g. object recognition. It’s one of the fastest deep learning packages available — it’s written in C++ and CUDA. The University of Toronto machine learning group has put together some nice GPU libraries for Python. GNumPy gives a NumPy-like wrapper for GPU arrays. It wraps around Cudamat , a GPU linear algebra library, and npmat , which pretends to be a GPU on a CPU machine (for debugging). PyLearn is a neural net library developed by the University of Montreal machine learning group . It is intended for researchers, so it is built to be customizable and extendable. PyLearn is built on top of Theano , a Python library for neural nets and related algorithms (also developed at Montreal), which provides symbolic differentiation and GPU support. If for some reason you hate Python, Torch is a powerful machine learning library for Lua. 【研究动态】深度学习进阶线路图(六):深度学习与其他机器学习算法的关系 Relationships with other machine learning techniques 神经网络和其他的机器学习算法有着千丝万缕的联系。理解他们之间的这些关系可以帮助我们选定神经网络的结构。 很多神经网络结构可以看成是浅层结构的非线性叠加生成。前馈网络就可以看做是逻辑回归( logistic regression )的类比。而自编码网络(Autoencoders)可以看成是降维算法( PCA )的非线性类比。 RBMs和所有的高斯单元可以看成是类似于因子分析( equivalent to Factor analysis )。RBMs也可以看成是另外一种指数族分布( exponential family )。 核方法是另外一种把线性算法转为非线性算法的技术。神经网络和核方法之间其实有着很微妙的关系:贝叶斯神经网络其实就是有无限多个隐含神经元的高斯过程。(See Chapter 2 of Radford Neal’s Ph.D. thesis. Background: Gaussian processes ) Relationship with the brain If these models are called “neural” nets, it’s natural to ask whether they have anything to do with how the brain works . In a certain sense, they don’t: you can understand and apply the algorithms without knowing anything about neuroscience. Mathematically, feed-forward neural nets are just adaptive basis function expansions . But the connections do run pretty deep between practical machine learning and studies of the mind and brain. Unfortunately, Metacademy doesn’t have any neuroscience content (yet!), so the background links in this section will be fairly incomplete. Doubly unfortunately, neuroscience and cognitive science seem not to have the same commitment to open access that machine learning does, so this section might only be useful if you have access to a university library. When trying to draw parallels between learning algorithms and the brain, we need to be precise about what level we’re talking about. In “The philosophy and the approach” (Chapter 1 of Vision: a Computational Investigation ), David Marr argued for explicitly separating different levels of analysis: computation, algorithms, and implementation. (This is worth reading, even if you read nothing else in this section.) While not all researchers agree with this way of partitioning things, it’s useful to keep in mind when trying to understand exactly what someone is claiming. Neuroscience Jeff Hawkins’s book On Intelligence aims to present a unifying picture of the computational role of the neocortex. While the theory itself is fairly speculative, the book is an engaging and accessible introduction to the structure of the cortex. Many neural net models have learned similar response properties to neurons in the primary visual cortex (V1). Olshausen and Field’s sparse coding model ( background ) was the first to demonstrate that a purely statistical learning algorithm discovered filters similar to those of V1. (Whether or not this is a neural net is a matter of opinion.) Since then, a wide variety of representation learning algorithms based on seemingly different ideas have recovered similar representations. Other statistical models have learned topological representations similar to the layout of cell types in V1. Karklin and Lewicki fit a more sophisticated statistical model which reproduced response properties of complex cells. While the connection between V1 and learned filters may seem tidy, Olshausen highlights a lot of things we still don’t understand about V1 . For more on the neuroscience of the visual system, check out Eye, Brain, and Vision , a freely available book written by David Hubel, one of the pioneers who first studied V1. (Chapters 3, 4, and 5 are the most relevant.) There have also been neural nets explicitly proposed as models of the brain. Riesenhuber and Poggio’s HMAX model is a good example. Jim DiCarlo found that deep convolutional networks yield neurons which behave similarly to those high up in the primate visual hierarchy. Cognitive science It’s not just at the level of neurons that researchers have tried to draw connections between the brain and neural nets. Cognitive science refers to the interdisciplinary study of thought processes, and can be thought of a study of the mind rather than the brain. Connectionism is a branch of cognitive science, especially influential during the 1980s, which attempted to model high-level cognitive processes in terms of networks of neuron-like units. (Several of the most influential machine learning researchers came out of this tradition.) McClelland and Rumelhart’s book Parallel Distributed Processing (volumes 1 and 2 ) is the connectionist Bible. Other significant works in the field include: J. McClelland and T. Rogers. The parallel distributed processing approach to semantic cognition. Nature Reviews Neuroscience, 2003. One of the most perplexing questions about the brain is how neural systems can model the compositional structure of language. Linguists tend to model language in terms of recursive structures like grammars, which are very different from the representations used in most neural net research. Paul Smolensky and Geraldine Legendre’s book The Harmonic Mind presents a connectionist theory of language, where neurons implement a system of constraints between different linguistic features. 转自: http://www.aitmr.com/index.php/airesearch/373.html http://www.aitmr.com/index.php/airesearch/401.html http://www.aitmr.com/index.php/airesearch/417.html http://www.aitmr.com/index.php/airesearch/425.html http://www.aitmr.com/index.php/airesearch/442.html http://www.aitmr.com/index.php/airesearch/448.html 原文翻译自:http://metacademy.org/roadmaps/rgrosse/deep_learning
引言: 神经网络( N eural N etwork)与支持向量机( S upport V ector M achines,SVM)是统计学习的代表方法。可以认为神经网络与支持向量机都源自于感知机(Perceptron)。感知机是1958年由Rosenblatt发明的线性分类模型。感知机对线性分类有效,但现实中的分类问题通常是非线性的。 神经网络与支持向量机(包含核方法)都是非线性分类模型。1986年,Rummelhart与McClelland发明了神经网络的学习算法 B ack P ropagation。后来,Vapnik等人于1992年提出了支持向量机。神经网络是多层(通常是三层)的非线性模型, 支持向量机利用核技巧把非线性问题转换成线性问题。 神经网络与支持向量机一直处于“竞争”关系。 Scholkopf是Vapnik的大弟子,支持向量机与核方法研究的领军人物。据Scholkopf说,Vapnik当初发明支持向量机就是想干掉神经网络(He wanted to kill Neural Network)。支持向量机确实很有效,一段时间支持向量机一派占了上风。 近年来,神经网络一派的大师Hinton又提出了神经网络的Deep Learning算法(2006年),使神经网络的能力大大提高,可与支持向量机一比。 Deep Learning假设神经网络是多层的,首先用Boltzman Machine(非监督学习)学习网络的结构,然后再通过Back Propagation(监督学习)学习网络的权值。 关于Deep Learning的命名,Hinton曾开玩笑地说: I want to call SVM shallow learning. (注:shallow 有肤浅的意思)。其实Deep Learning本身的意思是深层学习,因为它假设神经网络有多层。 总之,Deep Learning是值得关注的统计学习新算法。 深度学习(Deep Learning) 是ML研究中的一个新的领域,它被引入到ML中使ML更接近于其原始的目标:AI。查看 a brief introduction to Machine Learning for AI 和 an introduction to Deep Learning algorithms . 深度学习是关于学习多个表示和抽象层次,这些层次帮助解释数据,例如图像,声音和文本。 对于更多的关于深度学习算法的知识,可以参看: The monograph or review paper Learning Deep Architectures for AI (Foundations Trends in Machine Learning, 2009). The ICML 2009 Workshop on Learning Feature Hierarchies webpage has a list of references . The LISA public wiki has a reading list and a bibliography . Geoff Hinton has readings from last year’s NIPS tutorial . 这篇综述主要是介绍一些最重要的深度学习算法,并将演示如何用 Theano 来运行它们。 Theano是一个python库,使得写深度学习模型更加容易,同时也给出了一些关于在GPU上训练它们的选项。 这个算法的综述有一些先决条件。首先你应该知道一个关于python的知识,并熟悉numpy。由于这个综述是关于如何使用Theano,你应该先阅读 Theano basic tutorial 。一旦你完成这些,阅读我们的 Getting Started 章节---它将介绍概念定义,数据集,和利用随机梯度下降来优化模型的方法。 纯有监督学习算法可以按照以下顺序阅读: Logistic Regression - using Theano for something simple Multilayer perceptron - introduction to layers Deep Convolutional Network - a simplified version of LeNet5 无监督和半监督学习算法可以用任意顺序阅读(auto-encoders可以被独立于RBM/DBM地阅读): Auto Encoders, Denoising Autoencoders - description of autoencoders Stacked Denoising Auto-Encoders - easy steps into unsupervised pre-training for deep nets Restricted Boltzmann Machines - single layer generative RBM model Deep Belief Networks - unsupervised generative pre-training of stacked RBMs followed by supervised fine-tuning 关于mcRBM模型,也有一篇新的关于从能量模型中抽样的综述: HMC Sampling - hybrid (aka Hamiltonian) Monte-Carlo sampling with scan() 上文翻译自 http://deeplearning.net/tutorial/ 查看最新论文 Yoshua Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2(1), 2009 深度(Depth) 从一个输入中产生一个输出所涉及的计算可以通过一个流向图(flow graph)来表示:流向图是一种能够表示计算的图,在这种图中每一个节点表示一个基本的计算并且一个计算的值(计算的结果被应用到这个节点的孩子节点的值)。考虑这样一个计算集合,它可以被允许在每一个节点和可能的图结构中,并定义了一个函数族。输入节点没有孩子,输出节点没有父亲。 对于表达 的流向图,可以通过一个有两个输入节点 和 的图表示,其中一个节点通过使用 和 作为输入(例如作为孩子)来表示 ;一个节点仅使用 作为输入来表示平方;一个节点使用 和 作为输入来表示加法项(其值为 );最后一个输出节点利用一个单独的来自于加法节点的输入计算SIN。 这种流向图的一个特别属性是深度(depth):从一个输入到一个输出的最长路径的长度。 传统的前馈神经网络能够被看做拥有等于层数的深度(比如对于输出层为隐层数加1)。SVMs有深度2(一个对应于核输出或者特征空间,另一个对应于所产生输出的线性混合)。 深度架构的动机 学习基于深度架构的学习算法的主要动机是: 不充分的深度是有害的; 大脑有一个深度架构; 认知过程是深度的; 不充分的深度是有害的 在许多情形中深度2就足够(比如logical gates, formal neurons, sigmoid-neurons, Radial Basis Function units like in SVMs)表示任何一个带有给定目标精度的函数。但是其代价是:图中所需要的节点数(比如计算和参数数量)可能变的非常大。理论结果证实那些事实上所需要的节点数随着输入的大小指数增长的函数族是存在的。这一点已经在logical gates, formal neurons 和rbf单元中得到证实。在后者中Hastad说明了但深度是d时,函数族可以被有效地(紧地)使用O(n)个节点(对于n个输入)来表示,但是如果深度被限制为d-1,则需要指数数量的节点数O(2^n)。 我们可以将深度架构看做一种因子分解。大部分随机选择的函数不能被有效地表示,无论是用深地或者浅的架构。但是许多能够有效地被深度架构表示的却不能被用浅的架构高效表示(see the polynomials example in the Bengio survey paper )。一个紧的和深度的表示的存在意味着在潜在的可被表示的函数中存在某种结构。如果不存在任何结构,那将不可能很好地泛化。 大脑有一个深度架构 例如,视觉皮质得到了很好的研究,并显示出一系列的区域,在每一个这种区域中包含一个输入的表示和从一个到另一个的信号流(这里忽略了在一些层次并行路径上的关联,因此更复杂)。这个特征层次的每一层表示在一个不同的抽象层上的输入,并在层次的更上层有着更多的抽象特征,他们根据低层特征定义。 需要注意的是大脑中的表示是在中间紧密分布并且纯局部:他们是稀疏的:1%的神经元是同时活动的。给定大量的神经元,任然有一个非常高效地(指数级高效)表示。 认知过程看起来是深度的 人类层次化地组织思想和概念; 人类首先学习简单的概念,然后用他们去表示更抽象的; 工程师将任务分解成多个抽象层次去处理; 学习/发现这些概念(知识工程由于没有反省而失败?)是很美好的。对语言可表达的概念的反省也建议我们一个稀疏的表示:仅所有可能单词/概念中的一个小的部分是可被应用到一个特别的输入(一个视觉场景)。 学习深度架构的突破 2006年前,尝试训练深度架构都失败了:训练一个深度有监督前馈神经网络趋向于产生坏的结果(同时在训练和测试误差中),然后将其变浅为1(1或者2个隐层)。 2006年的3篇论文改变了这种状况,由Hinton的革命性的在深度信念网(Deep Belief Networks, DBNs)上的工作所引领: Hinton, G. E., Osindero, S. and Teh, Y., A fast learning algorithm for deep belief nets .Neural Computation 18:1527-1554, 2006 Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks , in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007 Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model , in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007 在这三篇论文中以下主要原理被发现: 表示的无监督学习被用于(预)训练每一层; 在一个时间里的一个层次的无监督训练,接着之前训练的层次。在每一层学习到的表示作为下一层的输入; 用无监督训练来调整所有层(加上一个或者更多的用于产生预测的附加层); DBNs在每一层中利用用于表示的无监督学习RBMs。Bengio et al paper 探讨和对比了RBMs和auto-encoders(通过一个表示的瓶颈内在层预测输入的神经网络)。Ranzato et al paper在一个convolutional架构的上下文中使用稀疏auto-encoders(类似于稀疏编码)。Auto-encoders和convolutional架构将在以后的课程中讲解。 从2006年以来,大量的关于深度学习的论文被发表,一些探讨了其他原理来引导中间表示的训练,查看 Learning Deep Architectures for AI 本文英文版出处 http://www.iro.umontreal.ca/~pift6266/H10/notes/deepintro.html
摘自: http://cseweb.ucsd.edu/~dasgupta/254-deep/ CSE 254: Seminar on Learning Algorithms Time TuTh 3.30-5 in CSE 2154 Instructor: Sanjoy Dasgupta Office hours TBA in EBU3B 4138 This quarter the theme of CSE 254 is deep learning . Prerequisite: CSE 250AB. The first couple of lectures will be an overview of basic material. Thereafter, in each class meeting, a student will give a talk lasting about 60 minutes presenting a technical paper (or several papers) in detail. In questions during the talk, and in the final 20 minutes, all seminar participants will discuss the paper and the issues raised by it. Date Presenter Paper Slides Jan 10 Sanjoy Introduction Jan 12 Sanjoy Hopfield nets Jan 17 Sanjoy Markov random fields, Gibbs sampling, simulated annealing Jan 19 Sanjoy Deep belief nets as autoencoders and classifiers Jan 24 Brian Task-driven dictionary learning here Jan 26 Vicente A quantitative theory of immediate visual recognition here Jan 31 Emanuele Convolutional deep belief networks here Feb 2 Nakul Restricted Boltzmann machines: learning , and hardness of inference here Feb 7 Craig The independent components of natural scenes are edge filters here Feb 9 No class: ITA conference at UCSD Feb 14 Janani Deep learning via semi-supervised embedding here Feb 16 Stefanos A unified architecture for natural language processing here Feb 21 Hourieh An analysis of single-layer networks in unsupervised feature learning here Feb 23 Ozgur Emergence of simple-cell receptive properties by learning a sparse code for natural images here Feb 28 Matus Representation power of neural networks: Barron , Cybenko , Kolmogorov here Mar 1 Frederic Reinforcement learning on slow features of high-dimensional input streams Mar 6 Dibyendu, Sreeparna Learning deep energy models and What is the best multistage architecture for object recognition? here Mar 8 No class: Sanjoy out of town Mar 13 Bryan Inference of sparse combinatorial-control networks here Mar 15 Qiushi Weighted sums of random kitchen sinks here This is a four unit course in which the work consists of oral presentations. The procedure for each student presentation is as follows: · One week in advance: Finish a draft of Latex/Powerpoint that present clearly the work in the paper. Make an appointment with me to discuss the draft slides. And email me the slides. · Several days in advance: Meet for about one hour to discuss improving the slides, and how to give a good presentation. · Day of presentation: Give a good presentation with confidence, enthusiasm, and clarity. · Less than three days afterwards: Make changes to the slides suggested by the class discussion, and email me the slides in PDF, two slides per page, for publishing. Try to make your PDF file less than one megabyte. Please read, reflect upon, and follow these presentation guidelines , courtesy of Prof Charles Elkan. Presentations will be evaluated, in a friendly way but with high standards, using this feedback form . Here is a preliminary list of papers .
Deep LearningInstructor: Bhiksha Raj COURSE NUMBER -- MLD: 10805 LTI: 11-785 (Lab) / 11-786 (Seminar) Timings: 1:30 p.m. -- 2:50 p.m. Days: Mondays and Wednesdays Location: GHC 4211 Website: http://deeplearning.cs.cmu.edu Credits: 10-805 and 11-786 are 6-credit seminar courses. 11-785 is a 12-credit lab course. Students who register for 11-785 will be required to complete all lab exercises. IMPORTANT: LTI students are requested to switch to the 11-XXX courses. All students desiring 12 credits must register for 11-785. Instructor: Bhiksha Raj Contact: email:bhiksha@cs.cmu.edu, Phone:8-9826, Office: GHC6705 Office hours: 3.30-5.00 Mondays. You may also meet me at other times if I'm free. TA: Anders Oland Contact: email:anderso@cs.cmu.edu, Office: GHC7709 Office hours: 12:30-2:00 Fridays. Deep learning algorithms attempt to learn multi-level representations of data, embodying a hierarchy of factors that may explain them. Such algorithms have been demonstrated to be effective both at uncovering underlying structure in data, and have been successfully applied to a large variety of problems ranging from image classification, to natural language processing and speech recognition. In this course students will learn about this resurgent subject. The course presents the subject through a series of seminars, which will explore it from its early beginnings, and work themselves to some of the state of the art. The seminars will cover the basics of deep learning and the underlying theory, as well as the breadth of application areas to which it has been applied, as well as the latest issues on learning from very large amounts of data. Although the concept of deep learning has been applied to a number of different models, we will concentrate largely, although not entirely, on the connectionist architectures that are most commonly associated with it. Students who participate in the course are expected to present at least one paper on the topic to the class. Presentations are expected to be thorough and, where applicable, illustrated through experiments and simulations conducted by the student. Students are registered for the lab course must also complete all lab exercises. Labs Lab 1 is up Lab 1: Perceptrons and MLPs Data sets Due: 18 Sep 2013 Lab 2 is up Lab 1: The effect of increasing network depth Data set Due: 17 Oct 2013 Papers and presentations Date Topic/paper Author Presenter Additional Links 28 Aug 2013 Introduction Bhiksha Raj Intelligent Machinery Alan Turing Subhodeep Moitra 4 Sep 2013 Bain on Neural Networks. Brain and Cognition 33:295-305, 1997 Alan L. Wilkes and Nicholas J. Wade Lars Mahler McCulloch, W.S. Pitts, W.H. (1943). A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, 5:115-137, 1943. W.S. McCulloch and W.H. Pitts Kartik Goyal Michael Marsalli's tutorial on the McCulloch and Pitts Neuron 9 Sep 2013 The Perceptron: A Probalistic Model For Information Storage And Organization In The Brain. Psychological Review 65 (6): 386.408, 1958. F. Rosenblatt Daniel Maturana ?? Chapter from “The organization of Behavior”, 1949. D. O. Hebb Sonia Todorova 11 Sep 2013 The Widrow Hoff learning rule (ADALINE and MADALINE). Widrow Pallavi Baljekar ?? Optimal unsupervised learning in a single-layer linear feedforward neural network. Neural Networks 2 (6): 459.473, 1989. T. Sanger Khoa Luu A simplified Neuron model as a principal component analyzer, by Erkki Oja 16 Sep 2013 Learning representations by back-propagating errors. Nature323(6088): 533.536 Rumelhart et al. Ahmed Hefny Chapter by Rumelhart, Hinton and Williams Backpropagation through time: what it does and how to do it., P. Werbos, Proc. IEEE 1990 A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm, IEEE Intl. Conf. on Neural Networks, 1993 M. Riedmiller, H. Braun Danny (ZhenZong) Lan 18 Sep 2013 Neural networks and physical systems with emergent collective computational abilities, Proc. Natl. Acad. Sciences, Vol 79, 2554-2558, 1982 J. J. Hopfield Prasanna Muthukumar The self-organizing map. Proc. IEEE, Vol 79, 1464:1480, 1990 Teuvo Kohonen Fatma Faruq 23 Sep 2013 Phoneme recognition using time-delay neural networks, IEEE trans. Acoustics, Speech Signal Processing, Vol 37(3), March 1989 A. Waibel et al. Chen Chen A tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the echo state network approach, GMD Report 159, German National Research Center for Information Technology, 2002 Herber Jaeger Shaowei Wang 25 Sep 2013 Bidirectional recurrent neural networks, IEEE transactions on signal processing, Vol 45(11), Nov. 1997 M. Schuster and K. Paliwal Felix Juefei Xu Long short-term memory. Neural Computation, 9(8):1735.1780, 1997 S. Hochreiter and J. Schmidhuber Dougal Sutherland 30 Sep 2013 A learning algorithm for Boltzmann machines, Cognitive Science, 9, 147-169, 1985 D. Ackley, G. Hinton, T. Sejnowski Siyuan Improved simulated annealing, Boltzmann machine, and attributed graph matching, EURASIP Workshop on Neural Networks, vol 412, LNCS, Springer, pp: 151-160, 1990 Lei Xu, Erkii Oja. Ran Chen 2 Oct 2013 Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position, Pattern Recognition Vol. 15(6), pp. 455-469, 1982 K. Fukushima, S. Miyake Sam Thomson Shift invariance and the Neocognitron, E. Barnard and D. Casasent, Neural Networks Vol 3(4), pp. 403-410, 1990 Face recognition: A convolutional neural-network approach, IEEE transactions on Neural Networks, Vol 8(1), pp98-113, 1997 S. Lawrence, C. L. Giles, A. C. Tsoi, A. D. Back Hoang Ngan Le Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis, P.Y.Simard, D. Steinkraus, J.C. Platt, Prc. Document analysis and recognition, 2003 Gradient based learning applied to document recognition, Y. LeCun, L. Bottou, Y. Bengio, P. Haffner. Proceedings of the IEEE, November 1998, pp. 1-43 7 Oct 2013 On the problem of local minima in backpropagation, IEEE tran. Pattern Analysis and Machine Intelligence, Vol 14(1), 76-86, 1992 M. Gori, A. Tesi Jon Smereka Learning long-term dependencies with gradient descent is difficult, IEEE trans. Neural Networks, Vol 5(2), pp 157-166, 1994 Y. Bengio, P. Simard, P. Frasconi Keerthiram Murugesan Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, S. Hochreiter, Y. Bengio, P. Frasconi, J. Schmidhuber, in A Field Guide to Dynamical Recurrent Neural Networks, IEEE Press , 2001 Backpropagation is sensitive to initial conditions, J. F. Kolen and J. B. Pollack, Advances in Neural Information Processing Systems, pp 860-867, 1990 9 Oct 2013 Multilayer feedforward networks are universal approximators, Neural Networks, Vol:2(3), 359-366, 1989 K. Hornik, M. Stinchcombe, H. White Sonia Todorova Approximations by superpositions of a sigmoidal function, G. Cybenko, Mathematics of control, signals and systems, Vol:2, pp. 303-314, 1989 On the approximation realization of continuous mappings by neural networks, K. Funahashi, Neural Networks, Vol. 2(3), pp. 183-192, 1989 Universal approximation bounds for superpositions of a sigmoidal function, A. R. Barron, IEEE Trans. on Info. Theory, Vol 39(3), pp. 930-945, 1993 On the expressive power of deep architectures, Proc. 14th intl. conf. on discovery science, 2011 Y. Bengio and O. Delalleau Prasanna Muthukumar Scaling learning algorithms towards AI, Y. Bengio and Y. LeCunn, in Large Scale Kernel Machines , Eds. Bottou, Chappelle, DeCoste, Weston, 2007 Shallow vs. Deep sum product networks, O. Dellaleau and Y. Bengio, Advances in Neural Information Processing Systems, 2011 14 Oct 2013 Information processing in dynamical systems: Foundations of Harmony theory; In Parallel Distributed Processing: Explorations in the microstructure of cognition , Rumelhart and McLelland eds., 1986 Paul Smolensky Kathy Brigham Geometry of the restricted Boltzmann machine, M. A. Cueto, J. Morton, B. Sturmfels, Contemporary Mathematics, Vol. 516., pp. 135-153, 2010 Exponential family harmoniums with and application to information retrieval, Advances in Neural Information Processing Systems (NIPS), 2004 M. Welling, M. Rosen-Zvi, G. Hinton Ankur Gandhe Continuous restricted Boltzmann machine with an implementable training algorithm, H. Chen and A. F. Muray, IEE proceedings on Vision, Image and Signal Processing, Vol. 150(3), pp. 153-158, 2003 Diffusion networks, product of experts, and factor analysis, T. K. Marks and J. R. Movellan, 3rd Intl. Conf. on Independent Component Analysis and Signal Separation, 2001 16 Oct 2013 Distributed optimization of deeply nested systems. Unpublished manuscript, Dec. 24, 2012, arXiv:1212.5921 M. Carrera-Perpiñan and W. Wang M. Carrera-Perpiñan 21 Oct 2013 Training products of experts by minimizing contrastive divergence, Neural Computation, Vol. 14(8), pp. 1771-1800, 2002 G. Hinton Yuxiong Wang On contrastive divergence learning, M. Carrera-Perpinñan, AI and Statistics, 2005 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient, T. Tieleman, International conference on Machine learning (ICML), pp. 1064-1071, 2008 An Analysis of Contrastive Divergence Learning in Gaussian Boltzmann Machines, Chris Williams, Felix Agakov, Tech report, University of Edinburgh, 2002 Justifying and generalizing contrastive divergence, Y. Bengio, O. Delalleau, Neural Computation, Vol. 21(6), pp. 1601-1621, 2009 23 Oct 2013 A fast learning algorithm for deep belief networks, Neural Computation, Vol. 18, No. 7, Pages 1527-1554, 2006. G. Hinton, S. Osindero, Y.-W. Teh Aaron Wise Reducing the dimensionality of data with Neural Networks, G. Hinton and R. Salakhutidnov, Science, Vol. 313. no. 5786, pp. 504 - 507, 28 July 2006 Greedy layer-wise training of deep networks, Neural Information Processing Systems (NIPS), 2007. Y. Bengio, P. Lamblin, D. Popovici and H. Larochelle Ahmed Hefny Efficient Learning of Sparse Overcomplete Representations with an Energy-Based Model, M. Ranzato, C.S. Poultney, S. Chopra, Y. Lecunn, Neural Information Processing Systems (NIPS), 2006. 28 Oct 2013 Imagenet classification with deep convolutional neural networks, NIPS 2012 A. Krizhevsky, I. Sutskever, G. Hinton Danny Lan Convolutional recursive deep learning for 3D object classification, R. Socher, B. Huval, B. Bhat, C. Manning, A. Ng, NIPS 2012 Multi-column deep neural networks for image classification, D. Ciresan, U. Meier and J. Schmidhuber, CVPR 2012 Learning hierarchial features for scene labeling, IEEE transactions on pattern analysis and machine intelligence, Vol 35(8), pp. 1915-1929, 2012 C. Couprie, L. Najman, Y. LeCun Jon Smereka Learning convolutional feature hierarchies for visual recognition, K. Laukcuoglu,P. Sermanet, Y-Lan Boureau, K. Gregor, M. Mathieu, Y. LeCun, NIPS 2010 30 Oct 2013 Statistical language models based on neural networks, PhD dissertation, Brno, 2012, chapters 3 and 6 T. Mikolov, Fatma Faruq Semi-supervised recursive autoencoders for predicting sentiment R. Socher, J. Pennington, E. Huang, A. Ng and C. Manning Yueran Yuan Dynamic pooling and unfoloding recursive autoencoders for paraphrase detection, R. Socher, E. Huang, J. Pennington, A. Ng, C. Manning, EMNLP 2011 Joint learning of words and meaning representation for open-text semantic parsing, A.Bodes, X. Glorot, J. Weston, Y. Bengio, AISTATS 2012 4 Nov 2013 Supervised sequence labelling with recurrent neural networks, PhD dissertation, T. U. Munchen, 2008, Chapters 4 and 7 A. Graves, Georg Schoenherr Speech recognition with deep recurrent neural networks, A. Graves, A.-. Mohamed, G. Hinton, ICASSP 2013 Deep neural networks for acoustic modeling in speech recognition: the shared view of four research groups, IEEE Signal Processing Magazine, Vold 29(6), pp 82-97, 2012. G. Hinton et al. Daniel Maturana 6 Nov 2013 Modeling Documents with a Deep Boltzmann Machine, UAI 2013 N. Srivastava, R. Salakhutidinov, G. Hinton Siyuan Generating text with Recurrent Neural Networks, I. Sutskever, J. Martens, G. Hinton, ICML 2011 Word representations: A simple and general method for semi-supervised learning, ACL 2010 J. Turian, L. Ratinov, Y. Bengio Sam Thomson 11 Nov 2013 An empirical evaluation of deep architectures on problems with many factors or variables, ICML 2007 H. Larochelle, D. Erhan, A. Courville, J. Bergstra, Y. Bengio Ran Chen The Difficulty of Training Deep Architectures and the Effect of Unsupervised Pre-Training, AISTATS 2009 D. Erhan, P.-A. Manzagol, Y. Bengio, S. Bengio, P. Vincent Ankur Gandhe 13 Nov 2013 Extracting and Composing Robust Features with Denoising Autoencoders, ICML 2008 P. Vincent, H. Larochelle, Y. Bengio, P.-A. Manzgool Pallavi Baljekar Improving neural networks by preventing co-adaptation of feature detectors, G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sustskever, R. R. Salakhutdinov Subhodeep Moitra 18 Nov 2013 A theory of deep learning architectures for sensory perception: the ventral stream, Fabio Anselmi, Joel Z Leibo, Lorenzo Rosasco, Jim Mutch, Andrea Tacchetti, Tomaso Poggio Dipan Pal 20 Nov 2013 No more pesky learning rates, ICML 2013 Tom Schaul, Sixin Zhang and Yann LeCun Georg Shoenherr No more pesky learning rates: supplementary material On the importance of initialization and momentum in deep learning, JMLR 28(3): 1139.1147, 2013 Ilya Sutskever, James Martens, George Dahl, Geoffrey Hinton Kartik Goyal Supplementary material for paper 25 Nov 2013 Guest lecture Quoc Le 27 Nov 2013 A multi-layer sparse coding network learns contour coding from natural images Neural Networks Research Centre, Vision Research 42(12): 1593-1605, 2002 Patrik O. Hoyer and Aapo Hyvarinen Sparse Feature Learning for Deep Belief Networks, NIPS 2007 Marc.Aurelio Ranzato Y-Lan Boureau, Yann LeCun Sparse deep belief net model for visual area V2, NIPS 2007 Honglak Lee Chaitanya Ekanadham Andrew Y. Ng Deep Sparse Rectifier Neural Networks, JMLR 16: 315-323, 2011 Xavier Glorot, Antoine Bordes, Yoshua Bengio To be arranged Exploring strategies for training deep neural networks, Journal of Machine Learning Research, Vol. 1, pp 1-40, 2009 H. Larochelle, Y. Bengio, J. Louradour, P. Lamblin Why Does Unsupervised Pre-training Help Deep Learning?, AISTATS 2010 D. Erhan, A. Courville, Y. Bengio, P. Vincent Understanding the difficulty of training deep feedforward neural networks, AISTATS 2010 X. Glorot and Y. Bengio A Provably Efficient Algorithm for Training Deep Networks, arXiv:1304.7045 , 2013 R. Livni, S. Shalev-Schwartz, O. Shamir
Accepted Papers Oral presentations Deep Supervised and Convolutional Generative Stochastic Network for Protein Secondary Structure Prediction Jian Zhou, Olga Troyanskaya Playing Atari with Deep Reinforcement Learning Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis, Antonoglou, Daan Wierstra, Martin Riedmiller Poster presentations Sparse Combinatorial Autoencoders (ID 2) Karthik Narayan, Pieter Abbeel Grounded Compositional Semantics for Finding and Describing Images with Sentences (ID 4) Richard Socher , Quoc Le , Christopher Manning , Andrew Ng Curriculum Learning for Handwritten Text Line Recognition (ID 5) Jerome Louradour, Christopher Kermorvant A Deep and Tractable Density Estimator (ID 7) Benigno Uria, Iain Murray, Hugo Larochelle Multi-Column Deep Neural Networks for Offline Handwritten Chinese Character Classification (ID 11) Dan Ciresan, Juergen Schmidhuber End-to-end Phoneme Sequence Recognition using Convolutional Neural Networks (ID 12) Dimitri Palaz, Ronan Collobert, Mathew Magimai.-Doss Scalable Wide Sparse Learning for Connectomics (ID 15) Jeremy Maitin-Shepard, Pieter Abbeel Is deep learning really necessary for word embeddings? (ID 16) Rémi Lebret, Joël Legrand, Ronan Collobert Recurrent Conditional Random Fields (ID 18) Kaisheng Yao, Baolin Peng, G eoffrey Zweig, Dong Yu , Xiaolong Li, Feng Gao Recurrent Convolutional Neural Networks for Scene Parsing (ID 20) Pedro Pinheiro, Ronan Collobert Backpropagation in Sequential Deep Belief Networks (ID 22) Galen Andrew, Jeff Bilmes Learning semantic representations for the phrase translation model (ID 23) Jianfeng Gao, Xiaodong He, Wen-tau Yih, Li Deng Event-driven Contrastive Divergence in Spiking Neural Networks (ID 25) Emre Neftci, Bruno Pedroni, Gert Cauwenberghs, Kenneth Kreutz-Delgado, Srinjoy Das Dynamics of learning in deep linear neural networks (ID 27) Andrew Saxe, James McClelland, Surya Ganguli Exploring Deep and Recurrent Architectures for Optimal Control (ID 28) Sergey Levine Analyzing noise in autoencoders and deep networks (ID 29) Ben Poole, Jascha Sohl-Dickstein, Surya Ganguli Structured Recurrent Temporal Restricted Boltzmann Machines (ID 30) Roni Mittelman, Benjamin Kuipers, Silvio Savarese, Honglak Lee Learning Deep Representations via Multiplicative Interactions between Factors of Variation (ID 31) Scott Reed, Honglak Lee Learning Input and Recurrent Weight Matrices in Echo State Networks (ID 32) Hamid Palangi, Li Deng , Rabab Ward Learning Sum-Product Networks with Direct and Indirect Variable Interactions (ID 33) Amirmohammad Rooshenas, Daniel Lowd Bidirectional Recursive Neural Networks for Token-Level Labeling with Structure (ID 34) Ozan Irsoy, Claire Cardie Estimating Dependency Structures for non-Gaussian Components (ID 38) Hiroaki Sasaki, Michael Gutmann, Hayaru Shouno, Aapo Hyvarinen Multimodal Neural Language Models (ID 42) Ryan Kiros, Ruslan Salakhutdinov , Richard Zemel Non-degenerate Priors for Arbitrarily Deep Networks (ID 43) David Duvenaud, Oren Rippel, Ryan Adams, Z oubin Ghahramani Learning Multilingual Word Representations using a Bag-of-Words Autoencoder (ID 44) Stanislas Lauly, Alex Boulanger, Hugo Larochelle Multilingual Deep Learning (ID 45) Sarath Chandar A P, Mitesh M. Khapra, Balaraman Ravindran, Vikas Raykar, Amrita Saha Learned-norm pooling for deep neural networks (ID 46) Caglar Gulcehre, Kyunghyun Cho , Razvan Pascanu, Yoshua Bengio Transition-based Dependency Parsing Using Recursive Neural Networks (ID 47) Pontus Stenetorp 共接收 30 篇 源自: https://sites.google.com/site/deeplearningworkshopnips2013/accepted-papers
http://www.cs.washington.edu/research/ml/projects/ 原址: http://www.cs.washington.edu/node/8805 In machine learning, as throughout computer science, there is a tradeoff between expressiveness and tractability. On the one hand, we need powerful model classes to capture the richness and complexity of the real world. On the other, we need inference in those models to remain tractable, otherwise their potential for widespread practical use is limited. Deep learning can induce powerful representations, with multiple layers of latent variables, but these models are generally intractable. We are developing new classes of similarly expressive but still tractable models, including sum-product networks and tractable Markov logic. These models capture both class-subclass and part-subpart structure in the domain, and are in some aspects more expressive than traditional graphical models like Bayesian networks and Markov random fields. Research includes designing representations, studying their properties, developing efficient algorithms for learning them, and applications to challenging problems in natural language understanding, vision, and other areas.Awards NIPS 2012 Outstanding Student Paper: Discriminative Learning of Sum-Product Networks UAI 2011 Best Paper: Sum-Product Networks: A New Deep Architecture EMNLP 2009 Best Paper: Unsupervised Semantic Parsing People Pedro Domingos Abram L Friesen Robert C Gens Chloe M Kiddon Aniruddh Nath Mathias Niepert W Austin Webb Publications Learning the Structure of Sum-Product Networks (2013) A Tractable First-Order Probabilistic Logic (2012) Discriminative Learning of Sum-Product Networks (2012) Learning Multiple Hierarchical Relational Clusterings (2012) Coarse-to-Fine Inference and Learning for First-Order Probabilistic Models (2011) Sum-Product Networks: A New Deep Architecture (2011) Approximate Inference by Compilation to Arithmetic Circuits (2010) Learning Efficient Markov Networks (2010) Unsupervised Ontology Induction from Text (2010) Unsupervised Semantic Parsing (2009) Learning Arithmetic Circuits (2008) Naive Bayes Models for Probability Estimation (2005) Research Groups Artificial Intelligence Machine Learning
Facebook Launches Advanced AI Effort to Find Meaning in Your Posts A technique called deep learning could help Facebook understand its users and their data better. By Tom Simonite on September 20, 2013 Facebook ’s piles of data on people’s lives could allow it to push the boundaries of what can be done with the emerging AI technique known as deep learning . Facebook is set to get an even better understanding of the 700 million people who use the social network to share details of their personal lives each day. A new research group within the company is working on an emerging and powerful approach to artificial intelligence known as deep learning , which uses simulated networks of brain cells to process data. Applying this method to data shared on Facebook could allow for novel features and perhaps boost the company’s ad targeting. Deep learning has shown potential as the basis for software that could work out the emotions or events described in text even if they aren’t explicitly referenced, recognize objects in photos, and make sophisticated predictions about people’s likely future behavior. The eight-person group , known internally as the AI team, only recently started work, and details of its experiments are still secret. But Facebook’s chief technology officer , Mike Schroepfer , will say that one obvious way to use deep learning is to improve the news feed, the personalized list of recent updates he calls Facebook’s “ killer app .” The company already uses conventional machine learning techniques to prune the 1,500 updates that average Facebook users could possibly see down to 30 to 60 that are judged most likely to be important to them. Schroepfer says Facebook needs to get better at picking the best updates because its users are generating more data and using the social network in different ways. “The data set is increasing in size, people are getting more friends, and with the advent of mobile, people are online more frequently,” Schroepfer told MIT Technology Review . “It’s not that I look at my news feed once at the end of the day; I constantly pull out my phone while I’m waiting for my friend or I’m at the coffee shop. We have five minutes to really delight you.” Shroepfer says deep learning could also be used to help people organize their photos or choose which is the best one to share on Facebook . In looking into deep learning , Facebook follows its competitors Google and Microsoft , which have used the approach to impressive effect in the past year. Google has hired and acquired leading talent in the field (see “ 10 Breakthrough Technologies 2013: Deep Learning ”), and last year it created software that taught itself to recognize cats and other objects by reviewing stills from YouTube videos. The underlying technology was later used to slash the error rate of Google’s voice recognition services (see “ Google’s Virtual Brain Goes to Work ”). Meanwhile, researchers at Microsoft have used deep learning to build a system that translates speech from English to Mandarin Chinese in real time (see “ Microsoft Brings Star Trek’s Voice Translator to Life ”). Chinese Web giant Baidu also recently established a Silicon Valley research lab to work on deep learning . Less complex forms of machine learning have underpinned some of the most useful features developed by major technology companies in recent years, such as spam detection systems and facial recognition in images. The largest companies have now begun investing heavily in deep learning because it can deliver significant gains over those more established techniques, says Elliot Turner , founder and CEO of AlchemyAPI , which rents access to its own deep learning software for text and images. “Research into understanding images, text, and language has been going on for decades, but the typical improvement a new technique might offer was a fraction of a percent,” he says. “In tasks like vision or speech, we’re seeing 30 percent-plus improvements with deep learning .” The newer technique also allows much faster progress in training a new piece of software, says Turner. Conventional forms of machine learning are slower because before data can be fed into learning software, experts must manually choose which features of it the software should pay attention to, and they must label the data to signify, for example, that certain images contain cars. Deep learning systems can learn with much less human intervention because they can figure out for themselves which features of the raw data are most significant. They can even work on data that hasn’t been labeled, as Google’s cat-recognizing software did. Systems able to do that typically use software that simulates networks of brain cells, known as neural nets, to process data. They require more powerful collections of computers to run. Facebook’s AI group will work on applications that can help the company’s products as well as on more general research that will be made public, says Srinivas Narayanan , an engineering manager at Facebook who’s helping to assemble the new group. He says one way Facebook can help advance deep learning is by drawing on its recent work creating new types of hardware and software to handle large data sets (see “ Inside Facebook’s Not-So-Secret New Data Center ”). “It’s both a software and a hardware problem together; the way you scale these networks requires very deep integration of the two,” he says. Facebook hired deep learning expert Marc’Aurelio Ranzato away from Google for its new group. Other members include Yaniv Taigman , cofounder of the facial recognition startup Face.com (see “ When You’re Always a Familiar Face ”); computer vision expert Lubomir Bourdev ; and veteran Facebook engineer Keith Adams . 原文: http://www.technologyreview.com/news/519411/facebook-launches-advanced-ai-effort-to-find-meaning-in-your-posts/
Adaptive dropout for training deep neural networks http://media.nips.cc/nipsbooks/nipspapers/paper_files/nips26/1409.pdf J. Ba , B. Frey A Deep Architecture for Matching Short Texts http://media.nips.cc/nipsbooks/nipspapers/paper_files/nips26/697.pdf Z. Lu , H. Li A Scalable Approach to Probabilistic Latent Space Inference of Large-Scale Networks http://papers.nips.cc/paper/4978-a-scalable-approach-to-probabilistic-latent-space-inference-of-large-scale-networks.pdf J. Yin , Q. Ho , E. Xing Bayesian Hierarchical Community Discovery C. Blundell , Y. Teh Binary to Bushy: Bayesian Hierarchical Clustering with the Beta Coalescent Y. Hu , J. Boyd-Graber , H. Daume III , Z. Ying Convex Two-Layer Modeling . Aslan , H. CHENG , X. Zhang , D. Schuurmans Deep content-based music recommendation A. van den Oord , S. Dieleman , B. Schrauwen Deep Fisher Networks for Large-Scale Image Classification K. Simonyan , A. Vedaldi , A. Zisserman Deep Neural Networks for Object Detection C. Szegedy , A. Toshev , D. Erhan DeViSE: A Deep Visual-Semantic Embedding Model A. Frome , G. Corrado , J. Shlens , S. Bengio , J. Dean , M. Ranzato , T. Mikolov Dropout Training as Adaptive Regularization S. Wager , S. Wang , P. Liang Extracting regions of interest from biological images with convolutional sparse block coding M. Pachitariu , M. Sahani , A. Packer , N. Pettit , H. Dalgleish Generalized Denoising Auto-Encoders as Generative Models Y. Bengio , L. Yao , G. Alain , P. Vincent Hierarchical Modular Optimization of Convolutional Networks Achieves Representations Similar to Macaque IT and Human Ventral Stream D. Yamins , H. Hong , C. Cadieu , J. DiCarlo Learning a Deep Compact Image Representation for Visual Tracking N. Wang , D. Yeung Learning Multi-level Sparse Representations F. Diego , F. Hamprecht Learning Stochastic Feedforward Neural Networks Y. Tang , R. Salakhutdinov Lexical and Hierarchical Topic Regression V. Nguyen , J. Boyd-Graber , P. Resnik Multi-Prediction Deep Boltzmann Machines I. Goodfellow , M. Mirza , A. Courville , Y. Bengio Multisensory Encoding, Decoding, and Identification A. Lazar , Y. Slutskiy On the Expressive Power of Restricted Boltzmann Machines J. Martens , A. Chattopadhya , T. Pitassi , R. Zemel Pass-efficient unsupervised feature selection H. Schweitzer , C. Maung Predicting Parameters in Deep Learning M. Denil , B. Shakibi , L. Dinh , M. Ranzato , N. de Freitas Reasoning With Neural Tensor Networks for Knowledge Base Completion R. Socher , D. Chen , C. Manning , A. Ng Robust Image Denoising with Multi-Column Deep Neural Networks F. Agostinelli , H. Lee , M. Anderson Spike train entropy-rate estimation using hierarchical Dirichlet process priors K. Knudson , J. Pillow Stochastic Ratio Matching of RBMs for Sparse High-Dimensional Inputs Y. Dauphin , Y. Bengio Top-Down Regularization of Deep Belief Networks H. Goh , N. Thome , M. Cord , J. LIM Training and Analysing Deep Recurrent Neural Networks M. Hermans , B. Schrauwen Understanding Dropout P. Baldi , P. Sadowski Wavelets on Graphs via Deep Learning R. Rustamov , L. Guibas 摘自: http://nips.cc/Conferences/2013/Program/accepted-papers.php
题目:Sparse representation in computer vision and visual cortex 主讲人: 彭义刚,博士毕业于清华大学自动化系,研究方向为image/video processing, sparse representation, low-rank matrix recovery。 肖达,北京邮电大学计算机学院教师。 提纲: 1. From sparsity to low-rankness and more(讲稿下载: http://vdisk.weibo.com/s/KMQW6 ) 2. Self-organizing cortical map model and Topographica simulator(讲稿下载: http://vdisk.weibo.com/s/KMR4I 。另见参考文献) 视频回放: http://www.duobei.com/room/4411032613 参考文献: . Bednar JA: Building a mechanistic model of the development and function of the primary visual cortex. J Physiol Paris, 2012, 106(5-6):194-211. .Demo代码网址 http://topographica.org/
有回顾NLP(Natural Language Processing)历史的大牛介绍统计模型(通过所谓机器学习 machine learning)取代传统知识系统(又称规则系统 rule-based system)成为学界主流的掌故,说20多年前好像经历了一场惊心动魄的宗教战争。其实我倒觉得更像49年解放军打过长江去,传统NLP的知识系统就跟国民党一样兵败如山倒,大好江山拱手相让。文傻秀才遭遇理呆兵,有理无理都说不清,缴械投降是必然结果。唯一遗憾的也许是,统计理呆仗打得太过顺利,太没有抵抗,倒是可能觉得有些不过瘾,免不了有些胜之不武的失落。苍白文弱的语言学家也 太不经打了。 自从 20 年前统计学家势不可挡地登堂入室一统天下以后,我这样语言学家出身的在学界立马成为二等公民,一直就是敲边鼓,如履薄冰地跟着潮流走。走得烦了,就做一回阿桂。 NLP 这个领域,统计学家完胜,是有其历史必然性的,不服不行。虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it 甚至可以极端一点这么说,规则系统的成功看上去总好像是个案,是经验,是巧合,是老中医,是造化和运气。而机器学习的成功,虽然有时也有 tricks,但总体而论是科学的正道,是可以重复和批量复制的。 不容易复制的成功就跟中国餐一样,同样的材料和recipe,不同的大厨可以做出完全不同的味道来。这就注定了中华料理虽然遍及全球,可以征服食不厌精的美食家和赢得海内外无数中餐粉丝,但中餐馆还是滥竽充数者居多,因此绝对形成不了麦当劳这样的巨无霸来。 而统计NLP和机器学习就是麦当劳这样的巨无霸:味道比较单调,甚至垃圾,但绝对是饿的时候能顶事儿, fulfilling,最主要的是 no drama,不会大起大落。不管在世界哪个角落,都是一条流水线上的产品,其味道和质量如出一辙 。 做不好主流,那就做个大厨吧。做个一级大厨感觉也蛮好。最终还是系统说了算。邓小平真是聪明,有个白猫黑猫论,否则我们这些前朝遗老不如撞墙去。 就说过去10多年吧,我一直坚持做多层次的 deep parsing,来支持NLP的各种应用。当时看到统计学家们追求单纯,追求浅层的海量数据处理,心里想,难怪有些任务,你们虽然出结果快,而且也鲁棒,可质量总是卡在一个口上就过不去。从“人工智能”的概念高度看,浅层学习(shallow learning)与深层分析(deep parsing)根本就不在一个档次上,你再“科学”也没用。可这个感觉和道理要是跟统计学家说,当时是没人理睬的,是有理说不清的,因为他们从本质上就鄙视或忽视语言学家 ,根本就没有那个平等对话的氛围(chemistry)。最后人家到底自己悟出来了,因此近来天上掉下个多层 deep learning,视为神迹,仿佛一夜间主导了整个机器学习领域,趋之者若鹜。啧啧称奇的人很多,洋洋自得的也多,argue 说,一层一层往深了学习是革命性的突破,质量自然是大幅度提升。我心里想,这个大道理我十几年前就洞若观火,殊途不还是同归了嘛。想起在深度学习风靡世界之前,曾有心有灵犀的老友这样评论过: To me, Dr. Li is essentially the only one who actualy builds true industrial NLP systems with deep parsing. While the whole world is praised with heavy statistics on shallow linguistics, Dr. Li proved with excellent system performances such a simple truth: deep parsing is useful and doable in large scale real world applications. 我的预见,大概还要20年吧(不是说风水轮流转20年河东河西么),主流里面的偏见会部分得到纠正,那时也不会是规则和知识的春天重返,而是统计和规则比较地和谐合作。宗教式的交恶和贬抑会逐渐淡去。 阿弥陀佛! 【相关篇什】 【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】 ZT: 2013突破性科学技术之“深度学习” 【置顶:立委科学网博客NLP博文一览(定期更新版)】