科学网

 找回密码
  注册

tag 标签: 强化学习

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

【精选好文】重庆大学张磊团队: 基于迁移学习的个性化人脸偏好推断新模型
Chenfiona 2020-10-21 16:14
2020年第5期正式上线,本期精选 重庆大学张磊教授团队成果---DiscoStyle: 可用于个性化人脸风格偏好推断的多层逻辑排序模型 ,DiscoStyle可通过极少数锚点对特定用户的面部偏好进行推断和计算,完成自动偏好预测及推荐。本研究基于预训练人脸表征深度网络,提出一种深度迁移学习范式,可用于表征人脸偏好相关的特征,并首次构建了大规模人脸风格数据集(即StyleFace)。 全文下载: https://link.springer.com/article/10.1007/s11633-020-1244-1 http://www.ijac.net/en/article/doi/10.1007/s11633-020-1244-1 人脸特征,作为一种重要的生物标识,能够显性或隐性地表征出主观或客观的面部特点(如眼睛、鼻子、嘴巴)及个性特征(如身份、年龄、性别、种族、情感、性格特征及爱好)。在计算机视觉及生物统计学(biometrics)中,通过学习人脸特征以识别个人身份、年龄、性别、种族、表情、情感等研究发展得十分迅速,这也大大促进了人工智能技术的产业化应用。 目前,人脸识别已经应用于安检、门禁系统、视频监控等领域。此外,年龄、情感等的分析也已落地于多媒体、社交及互联网交互之中。然而,据我们所知,当前尚无可应用于推荐系统中、利用极少数不同人脸图像风格推断其所反映出的用户心理及情感偏好的研究。 通常,从极少数不同风格的用户面部图像中客观推断出隐性的人脸偏好特征是一件非常具有挑战性的任务。如果我们能挖掘出用户本身主观上投注更多注意力时表现出的人脸偏好特征,那就可以通过概率模型计算并预测用户的个性偏好,进而将其应用于高级情感分析(advanced emotional analysis)、机器人服务、自动个性化图像推荐等领域。 值得一提的是,当前有很多通过人脸预测颜值及魅力值的研究,但这些研究与本文所提的基于不同风格人脸图像进行特定用户偏好推断及推荐的方法有着本质的区别,主要体现在: 1) 人脸颜值推断可以通过一个统一的标准完成建模,但人脸偏好研究因人而异,且与外部人脸风格高度相关,如发型、眼睛、鼻子、嘴唇、眼镜。 2) 人脸偏好研究与反映在人脸上的个人内部特质(如气质、可爱、优雅)也存在相关性,而这些内部特质也因人而异,可完整支撑用户偏好建模。 3) 人脸偏好具有个性化的特点,偏好模型的参数也因此呈现动态变化、因人而异的特点。而通常的颜值推断模型则是固定的,且不具有个性化差异。换言之,由于用户情感各不相同,颜值高并不意味着用户偏好程度也高。 深度学习,作为一种源于大规模人脸图像识别的监督学习方法,已经在多个垂直领域取得了巨大成功,如计算机视觉、模式识别、文本分析、语音识别。近年来,迁移学习,一种弱监督交叉领域学习方法,成功推动了深度学习在学习方法与应用等垂直领域的发展。监督深度学习与弱监督迁移学习联系紧密,这无疑将大大促进人工智能在许多垂直的弱监督研究领域的发展,如医疗图像分析、遥感图像分析、卫星图像分析、亲属关系鉴定(kinship verification)、计算机视觉、负荷预测(load forecasting)、缺陷检测等。一般而言,深度学习旨在以监督的方式构建一个通用知识表征模型,而迁移学习则意在将深度学习知识引入弱监督领域及任务当中。 本文通过特定用户选择的极少数锚点图片(如10张图片),来对用户的心理偏好及人脸图像风格进行推断分析与建模,这无疑是一项主观且内隐(subjective, implicative)的弱监督任务。本文基于深度学习及迁移学习,提出偏好特征表征方法,可将知识从大规模监督人脸识别任务中迁移至单一用户弱监督人脸偏好推断任务当中。 此外,在极少数特定人脸锚点(被用户标记为表现出了个人偏好的人脸图像)的推断过程中,还应用了概率学习。因此,本文所构建的模型可用于计算用户对图库中人脸图像的心理偏好值,这一分值可很好体现用户的偏好程度。本文的 主要贡献 有以下四个方面: 1) 我们提出了一种高效的DiscoStyle方法,可通过极少数锚点对特定用户的面部偏好进行实时推断和计算,完成自动偏好预测及推荐,这将是迄今为止用户偏好及人脸推荐相关的第一篇应用性研究。 2) 本文基于预训练人脸表征深度网络,提出一种深度迁移学习范式,可用于表征人脸偏好相关的特征。为了充分反映人脸风格,该范式将面部表观特征与几何标记特征全面融合。 3) DiscoStyle方法基于全新的在线负样本选择策略(on-line negative sample selection, ONSS),构建了多层逻辑排序模型(multi-level logistic ranking, MLR)以完成偏好推断,计算出偏好值,客观定义每位用户的偏好程度,并推荐高偏好值的人脸图像。 4) 本文首次构建了大规模人脸风格数据集(即StyleFace),用以人脸偏好推断,其中包括用于风格属性特征矢量学习(style attribute vector learning)的人脸风格数据集,用于概率推断(probabilistic reasoning)的锚点数据集(anchor subset),以及用于偏好人脸推荐(preferred faces recommendation)的图库数据集(gallery subset)。 DiscoStyle: Multi-level Logistic Ranking for Personalized Image Style Preference Inference Zhen-Wei He, Lei Zhang, Fang-Yi Liu https://link.springer.com/article/10.1007/s11633-020-1244-1 http://www.ijac.net/en/article/doi/10.1007/s11633-020-1244-1 2020年9-10月会议变动汇总 2020年8月会议变动汇总 2020年7月会议变动汇总 2020年6月会议变动汇总 2020年5月会议变动汇总 2020年4月会议变动汇总 2020年3月会议 科技部新政速览 2020年1-2月会议日历 2020年国际学术会议参考列表 【约稿】爱丁堡大学樊文飞 | 有界计算理论: 在有限资源下查询大数据 最新出版 | 机器学习计算机视觉机器人... 哈工大高会军团队: 基于强化学习的多速率系统控制器最优化研究 综述:自主式水下机器人的路径规划算法 【程学旗陈恩红团队】社交网络的传播背景:模拟与建模 高被引Top1团队综述:图像、图形及文本领域的对抗攻击及防御 综述:用于自由曲面加工的新型计算机数控方法 港科大-微众AI杨强团队:用于生成对话系统的迁移多层注意力网络 帝国理工学院:自然语言处理中大数据的智能收集与分析 北大王立威团队: 零样本细粒度图像分析新模型 【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展 2019-2020年度 Top10 综述 专题征稿 | 分布式网络化控制系统的弹性及安全控制与估计 观前沿 | 自动化所陶建华:音视频中情感计算的问题与挑战 本周亮点 | IJAC被DBLP收录 最新约稿 10mins微课 | 英语论文写作高频错误: 小冠词の大不同 【名校好课】MIT最新深度学习公开课 一款强大的公式编辑器 如何在不平坦的科研路上狂奔? 提升科研效率的几款小工具
个人分类: 好文推荐|1817 次阅读|0 个评论
[转载]IEEE CDC 2020 中关于 Learning 与 Control 的各种 Workshop
josh 2020-10-8 00:09
2020 IEEE Conference on Decision and Control 中有关于 Learning 与 Control 的各种 Workshop,详见: https://cdc2020.ieeecss.org/workshops.php
个人分类: Engineering Cybernetics|1581 次阅读|0 个评论
强化学习:迈向知行合一的智能机制与算法
王飞跃 2020-8-19 13:23
强化学习:迈向知行合一的智能机制与算法 王飞跃,曹东璞,魏庆来 摘要 简要地评论了强化学习的历史、现状与未来的发展途径,认为强化学习应从先行后知、先知后行向知行合一的平行强化学习迈进,实现在虚拟世界“吃一堑”,在物理世界“长一智”,真正成为智慧机制和智能算法的基础学习理论。 关键词: 强化学习 ; 动态规划 ; 深度学习 ; 平行学习 ; 人工智能 ; 平行智能 Abstract This article discusses briefly the history,the state of the art and the future of reinforcement learning,and outlines a roadmap of evolution from learning by doing,doing with planning to parallel intelligence that combining learning virtually in artificial systems and acting accordingly in actual systems. Keywords: reinforcement learning ; dynamic programming ; deep learning ; parallel learning ; artificial intelligence ; 本文引用格式: 王飞跃, 曹东璞, 魏庆来. 强化学习:迈向知行合一的智能机制与算法. 智能科学与技术学报 , 2020, 2(2): 101-106 doi:10.11959/j.issn.2096-6652.202011 WANG Fei-Yue. Reinforcement learning:toward action-knowledge merged intelligent mechanisms and algorithms. Chinese Journal of Intelligent Science and Technology , 2020, 2(2): 101-106 doi:10.11959/j.issn.2096-6652.202011 1 引言 人工智能的异军突起,除计算能力和海量数据之外,最大的贡献者当属机器学习,其中最引人注目的核心技术与基础方法是深度学习和强化学习(reinforment learning),前者是前台的“明星”,后者是背后的“英雄” 。与新兴的深度学习相比,强化学习相对“古老”,其思想源自人类“趋利避害”和“吃一堑、长一智”的朴素意识,其最初的“尝试法”或“试错法”,远在人工智能技术出现之前就在各行各业广为流行,并成为人工智能起步时的核心技术之一。AlphaGo 在围棋人机大战中的胜利使社会大众普遍认识到有监督的深度学习和无监督的强化学习的威力 。近年来,人工智能算法在一些多角色游戏中大胜人类顶级专业选手,使人们对强化学习的功力有了更加深刻的印象和理解。 例如,以强化学习为核心技术之一的人工智能系统Pluribus在六人桌无限制的德州扑克比赛中,在一万手回合里分别以单机对五人和五机对单人的方式,共击败 15 名全球最佳专业玩家,突破了过去人工智能仅能在国际象棋等二人游戏中战胜人类的局限,成为游戏中机器胜人的又一个里程碑,被《科学》杂志评选为2019 年十大科学突破之一。Pluribus这项工作之所以重要,主要原因如下。 • 人工智能算法必须处理不完备信息,需要在不知道对手策略和资源的情况下进行决策,并在不同博弈之间寻求平衡。 • 博弈最佳的理论结果是纳什平衡,但随着玩家数目的增加,求解纳什平衡的计算复杂度呈指数增长,算法要求的算力在物理上不可能实现,必须引入智力。 • 掌握“诈唬”等心理技巧是游戏胜利的关键之一,必须考虑并采用此类心理“算计”,在博弈中有效推理并隐藏意图,产生让对手难以预测和分析的策略。 解决这些问题正是人工智能进一步发展必须面对的核心任务,也是强化学习之所以关键的主要因素 。这些问题的有效解决和其解决方案的广泛应用,不但可为多角色、多玩家场景下的博弈和电子竞技做出贡献,更将为人工智能在工业控制、商务决策、企业管理和军事控制等重大领域的大规模实际应用提供有效的方法和坚实的技术支撑。 强化学习为何有如此强大的功能和作用?其实强化学习的发展经历了漫长而曲折的过程,与有监督的学习方法不同,强化学习面对的是更加复杂艰巨而且“不知对错、无论好坏”的学习任务:决策或行动实施之前,没有关于正确与错误的理性推断依据;决策实施之后,没有关于好与坏的客观评价依据。然而,一百年来,科学家们坚持不懈地尝试了许多方法,包括经典条件反射(classical conditioning)、试错法(trial and error method)等“先行后知”的动物学习方法,系统模型、价值函数、动态规划、学习控制等“先知后行”的最优控制方法以及集估计、预测、自适应等于一体的时序差分(temporal difference)学习方法 。目前,强化学习正在整合算力、数据、知识图谱、逻辑推理、智能控制和知识自动化等技术,统一关于现状、回顾、展望等因素的分析,迈向“知行合一”的复杂自适应智能机制与算法体系。图1给出了由F.Woergoetter和B.Porr总结的强化学习前因后世 ,比较完整地反映了这一方法的核心内容与相关问题。 2 先行后知的起步 作为一项科学研究,强化学习始于“摸着石子过河”的启发式思维,在学术文献上可追溯到英国著名学者 Alexander Bain的“摸索与实验(groping and experiment)”学习原理。Alexander Bain是著名杂志Mind的创办人,正是这份杂志于1950年发表了 Alan Turing 的文章“计算机器与智能(computing machinery and intelligence)”,提出使用“图灵测试”判断机器智能水平,开启了人工智能研究领域。作为一种方法,强化学习源自“试错学习(trial-and-error learning)”,由英国生物和心理学家 Conway Morgan 正式提出,并以“摩根法则(Morgan’s canon)”为指导原则,即尽可能用低级心理功能解释生物行为的节约原则,后被美国心理学家、学习理论专家、联结主义创始人之一的Edward Thorndike进一步简化为“效果定律(law of effect)”,这成为后来的学习规则—— Hebb 定律和神经网络误差反向传播(back propagation,BP)算法的鼻祖。强化学习的正式出现要归功于生理学家巴甫洛夫及其经典条件反射理论和激励响应(stimulus-response)理论,特别是他通过狗进行的一系列刺激反应试验总结出来的条件反射定律。在美国,心理学家Burrhus Frederic Skinner提出的工具条件反射(operant or instrumental conditioning)和工具学习(instrumental learning)及其利用老鼠进行试验的 Skinner-Box 技术也推动了强化学习的行为分析试错法研究。 自此之后,强化学习在动物行为研究、生理和心理学以及认知科学等领域发挥了重要作用,成为相应的核心方法与技术。在人工智能之初,从图灵基于效果定律的“快乐-痛苦系统(pleasure-pain system)”、Marvin Minsky基于加强学习的随机神经模拟强化计算器(stochastic neural analog reinforcement calculator,SNARC)及其“迈向人工智能(steps toward artificial intelligence)”一文中提出的复杂强化学习的“基本信用(功劳)分配问题”,再到 Donald Michie 基于强化学习的 MENACE 和GLEE学习引擎、Nils Nilsson学习自动机(learning automata)和学习机器(learning machines),还有John Holland的“分类系统(classifier systems)”及其遗传算法,强化学习的思想和方法对许多人工智能机制和算法的设计产生了深刻的影响。然而,相对于许多机器学习方法而言,人们对强化学习的期望远大于其成果,在相当长的时间里,强化学习实际上并不是人工智能及其相关领域的主流方法和技术。 图1 强化学习的核心内容与相关问题 3 先知后行的重铸 基于生物和心理学并以试错法为主的强化学习没有用到太多的数学概念和工具,而且也很少在工程上应用,直到20世纪50年代,随着工程数学化的深入和现代控制理论的兴起,特别是基于系统动力学模型的最优控制的出现,加上 Richard Bellman 的杰出工作,强化学习走上了一条数学化和工程应用的崭新道路,局面大为改观:朴素的奖励惩罚变成了“价值函数(value function)”,简单的行为选择升华为“动态规划(dynamic programming)”,非线性随机微分方程来了,伊藤积分(Ito integral)用上了,马尔可夫随机过程成了离散情况下的标配,有时还必须引入博弈论。强化学习从极其具体实在的动物行为学习突然变为十分复杂抽象的马尔可夫决策过程(Markov decision process,MDP)和Bellman方程,甚至是更难认知和求解的哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman,BHJ)偏微分方程。一时间,原来“先行后知”的试错行为不见了,取而代之的是“先知后行”式的方程求解,尽管看起来有些“风马牛不相及”,但其一下子成为控制理论与工程的一部分,让许多研究者惊奇之余看到希望和曙光。 然而,这道曙光仅带来了短暂的黎明,很快又沉入“黑暗”,强化学习在新的道路上刚起步就遭遇“维数灾难(curse of dimensionality)”,当问题变得复杂(维数增加)时,动态规划求解方程的计算量呈指数增加,没有计算机可以应对,强化学习的“先知后行”变得无法实施。 为了克服“维数灾难”,智能这面旗帜被再次举起,最优控制从以数学推理为主演化为以智能技术为主的学习控制和智能控制。智能控制最初的代表人物是美国普渡大学的King-Sun Fu和George N.Saridis,后来两人分别成为模式识别和机器人与自动化领域的创始人和早期开拓者之一。受当时人工智能逻辑化、解析化思潮的影响,智能控制在30 多年的初创时期主要围绕形式语言、语法分析、决策自动机、图式学习、随机逼近、蒙特卡洛法、最小二乘法、参数识别、自适应算法、自组织系统、迭代学习、强化学习等技术展开,并被应用于模式识别、机器人与自动化、无人系统、计算机集成制造、金融科技等领域,但无论是在规模还是在效益方面都没有完全摆脱“维数灾难”的阴影,其发展到20世纪 90 年代中期就陷入瓶颈,相关工作几乎停滞不前。 “山重水复疑无路,柳暗花明又一村”。Paul Werbos在20世纪70年代中期推出神经元网络误差反向传播算法的同时,就开始研究新优化方法在策略分析中的应用,并于20世纪80年代末正式提出近似动态规划(approximate dynamic programming)的思想。同一时期,Saridis和王飞跃也针对非线性确定系统和随机系统提出了类似的次优控制迭代策略。经过Wurren B.Powell、Dimitri Panteli Bertsekas、John N.Tsitsiklis等人的研究,这一方法进一步与神经网络技术结合,从近似动态规划发展到神经动态规划(neuro-dynamic programming),最后发展到目前的自适应动态规划(adaptive dynamic programming,ADP)。自20世纪80年代中期以来,王飞跃、刘德荣和魏庆来从不同角度开展ADP 相关研究工作,经过十余年的努力,形成中国科学院自动化研究所复杂系统管理与控制国家重点实验室自适应动态规划团体,致力于ADP方法的进一步发展和应用,从智能控制的角度推动了强化学习的理论研究与工程实践。 4 时序差分的再生 尽管Werbos在20世纪70年代末就试图整合统一试错学习和最优控制的学习方法,但在相当长的时间里,基于这两种方法的强化学习几乎各自独立、没有交叉,直到20世纪80年代以Andrem G.Barto、Richard S.Sutton和Charles W.Anderson为核心的学者重新推出时序差分(temporal difference, TD)(TD也有时间差分的译法,但本意是暂时差别)的概念和方法,局势才开始改变,强化学习渐渐走上“先行后知”与“先知后行”为一体的“知行合一”之途。简言之,时序差分集现状、回顾、展望的不同需求和分析于一体,在试错和规划上充分考虑并利用不同时段的系统预估与环境反馈之间的差别,显著地提高了学习和决策的系统性和效率。由此,强化学习进入了时序差分学习阶段,理论研究和工程应用的水平都得到了很大的提升。 时序差分学习的理念源自动物学习心理学中与主要强化因子匹配的“次要强化因子(secondary reinforces)”概念。Minsky在人工智能之初就认定这一心理学方法对人工学习系统具有重要的意义,计算机游戏博弈技术的开创者Arthur Lee Samuel在其著名的跳棋程序中也采用了时序差分的理念,使“机器学习”一词成为广为人知的术语。20世纪70年代初,A.Harry Klopf认识到强化学习与监督学习的本质不同,强调强化学习内在的趋利(hedonistic)特性,试图将试错学习与时序差分学习结合,提出了“局部强化(local reinforcement)”和“广义强化(generalized reinforcement)”等概念,但与现代的时序差分并不完全相同;加上A.Harry Klopf英年早逝,其工作不算十分成功。新西兰学者Ian H.Witten在其 1976年的博士论文中第一次明确指出了时序差分学习规则。A.Harry Klopf的工作对Andrew G.Barto、Richard S.Sutton和Charles W.Anderson的启发很大,促使他们在20世纪80年代初将时序差分学习与试错学习结合,提出著名的“行动者-评论者框架(actor-critic architecture)”,时序差分的强化学习由此正式登场。然而,将时序差分与动态规划和试错方法全部整合在一起是在20世纪80年代末,这归功于英国学者Chris J.Watkins 在其1989年的博士论文中提出的Q学习(Q-learning)算法。1992年,IBM公司的Gerald Tesauro利用时序差分构造了多层神经网络 TD-Gammon,并在古老的西洋双陆棋中战胜了人类世界冠军,引起广泛关注,这也使时序差分的强化学习方法广为人知。同年,Chris J.Watkins和Peter Dayan给出Q学习算法收敛性的第一个严格证明,更加加深了人们对Q学习和强化学习的兴趣。当前,时序差分己从专注预测的 TD(lambda)发展到预估决策控制一体的SARSA(lambda),Barto和Sutton合著的《强化学习导论(reinforcement learning:an introduction)》已成为机器学习领域的经典之作。 5 平行强化的体系 基于大规模多层人工神经元网络的深度学习的成功,特别是AlphaGo和Pluribus的巨大影响,使强化学习方法登上了一个更新、更高的层次。然而,随着深度强化学习(deep reinforcement learning,DRL)和深度Q学习(deep Q learning, DQL)等的不断涌现和广泛应用,数据再次成为重大问题,而且图1 右边所示的强化学习大脑神经科学的部分内容,特别是 Hebb 学习规则的重新评估和计算复杂化与有效性问题,也更加引人注意。 在以试错法为主的先行后知强化学习中,因实验周期长、成本高,数据来源受到“经济诅咒”的制约;而在动态规划类的先知后行强化方法中,算法实施又遇“维数灾难”,导致其无效、不可行, TD强化学习,特别是TD-Gammon借助Self Play在一定程度上为解决数据生成和算法效率指明了一条道路,而AlphaGo和Pluribus进一步强化了这条道路的有效性。实际上,这是一条通过虚实平行运作,由“小数据”生成大数据,再与蒙特卡洛法或各类决策树等有效搜索技术结合,从大数据中锤炼出针对具体问题的“小智能”般的精确知识之道。人们应当通过知识图谱和知识范畴(knowledge categories)等工具,将这一数据生成和知识制造的过程形式化,并加以软件定义,为强化学习系统组态的生成和实际应用的自动化创造基础。 此外,抽象数字化的强化学习还必须与大脑生物化的功能强化实现平行互联。除了快慢过程的微分 Hebb 学习规则,人们更应关注强化学习与动物的无条件/工具性反射、典型惯性和目标导向行为以及认知图(cognitive maps)生成构造等问题的内在关联,并将其应用于针对不同病状的各种机器人辅助和智能康复系统的设计、操作、监控和运维以及与脑和神经相关的疾病的智能诊疗系统中。同时,强化学习机制应成为虚实互动的平行学习和平行大脑的核心基础,扩展突触可塑、Hedonist神经元、多巴胺神经元与响应、奖励预估误差机制、神经行动者评估者结构等大脑神经基础构成问题的计算和智能研究手段,使人类生物智能与人工智能的研发更加密切地结合到一起。图2给出了虚实互动、实践与理论融合的平行强化学习体系的基本框架,目前流行的数字双胞胎(又称数字孪生)是其中的一个重要组成部分。平行强化学习的目的是通过交换世界实现“吃一堑、长一智”:在虚拟的人工世界吃一堑、吃多堑,在现实的自然世界长一智、长多智,以此降低成本,提升效益,克服“经济诅咒”和“维数灾难”,走向智能知行合一的机器强化学习。 图2 平行强化学习体系的基本框架 6 知行合一的智能 学习是人类获取知识的通用且可靠的途径,这是人类文明有史以来的共识与实践。强化学习是机器具有机器智能的基础和关键手段,这是人工智能研究开创以来的认识与方向,在很大程度上,也是目前从事智能科学与技术研发工作者的共识。然而,要使强化学习真正成为机器学习的核心与智能机制和智能算法的基础与关键技术,从“不知对错、无论好坏”的先行后知与先知后行,到知行合一、虚实互动的混合平行智能,仍有许多理论和实践的任务必须完成。 首先,强化学习面临的许多经典问题依然存在,并没有被彻底有效地解决,如“维数灾难”、信用分配、信息不完备、非稳环境、状态行动Space Tiling、探索与利用的矛盾等,需要更加深入和系统地研究。其次,对于目前被广泛应用的各类深度强化学习方法来说,其引人注目的“超人”表现源自其解决特定问题的特点,但这也正是其难以被推广和普及的问题所在。必须考虑这些深度强化学习方法构建与应用过程中的形式化和软件定义问题,从而使过程的迁移及其自动化成为可能,完成从特别应用到相对通用的转化。最后,必须引入针对强化学习的软硬件平台,边缘与云端的支撑环境和相应的开源基础设施使强化学习真正应用到生产、商业、交通、健康、服务等领域,使强化学习、强化控制、强化管理、强化医疗、强化经济、强化法律、强化安保等成为一个有效且普适的智能工程项目。 为此,研究者需要从更高更广的角度重新审视强化学习的方法和技术,使其真正成为“人机结合、知行合一、虚实一体”的“合一体”的核心与关键,化智能代理(agents)为知识机器人,深入推动和完善智能社会的知识自动化进程。 参考文献: 郑南宁 . 人工智能新时代 . 智能科学与技术学报 , 2019, 1(1): 1-3. 张钹 . 人工智能进入后深度学习时代 . 智能科学与技术学报 , 2019, 1(1): 4-6. GARIBALDI J M, 陈虹宇 , 李小双 . 差异与学习:模糊系统与模糊推理 . 智能科学与技术学报 , 2019, 1(4): 319-326. LUCAS S, 沈甜雨 , 王晓 , 等 . 基于统计前向规划算法的游戏通用人工智能 . 智能科学与技术学报 , 2019, 1(3): 219-227. 王飞跃 . 人工智能在多角色游戏中获胜 . 中国科学基金 , 2020, 34(2): 205-206. LUCIAN B, ROBERT B, BART D S, et al. Reinforcement learning and dynamic programming using function approximators . Boca Raton: CRC Press, 2010. 魏庆来 , 王飞跃 . 强化学习 . 北京 : 清华大学出版社 , 2020. FLORENTIN W, BERND P. Reinforcement learning . Cambridge: MIT Press, 2008. The authors have declared that no competing interests exist. 作者已声明无竞争性利益关系。
个人分类: 科研记事|5354 次阅读|0 个评论
[转载]强化学习:迈向知行合一的智能机制与算法
Kara0807 2020-7-17 16:09
1.引言 人工智能的异军突起,除计算能力和海量数据之外,最大的贡献者当属机器学习,其中最引人注目的核心技术与基础方法是深度学习和强化学习(reinforment learning),前者是前台的“明星”,后者是背后的“英雄” 。与新兴的深度学习相比,强化学习相对“古老”,其思想源自人类“趋利避害”和“吃一堑、长一智”的朴素意识,其最初的“尝试法”或“试错法”,远在人工智能技术出现之前就在各行各业广为流行,并成为人工智能起步时的核心技术之一。AlphaGo 在围棋人机大战中的胜利使社会大众普遍认识到有监督的深度学习和无监督的强化学习的威力 。近年来,人工智能算法在一些多角色游戏中大胜人类顶级专业选手,使人们对强化学习的功力有了更加深刻的印象和理解。 例如,以强化学习为核心技术之一的人工智能系统Pluribus在六人桌无限制的德州扑克比赛中,在一万手回合里分别以单机对五人和五机对单人的方式,共击败 15 名全球最佳专业玩家,突破了过去人工智能仅能在国际象棋等二人游戏中战胜人类的局限,成为游戏中机器胜人的又一个里程碑,被《科学》杂志评选为2019 年十大科学突破之一。Pluribus这项工作之所以重要,主要原因如下。 •人工智能算法必须处理不完备信息,需要在不知道对手策略和资源的情况下进行决策,并在不同博弈之间寻求平衡。 • 博弈最佳的理论结果是纳什平衡,但随着玩家数目的增加,求解纳什平衡的计算复杂度呈指数增长,算法要求的算力在物理上不可能实现,必须引入智力。 • 掌握“诈唬”等心理技巧是游戏胜利的关键之一,必须考虑并采用此类心理“算计”,在博弈中有效推理并隐藏意图,产生让对手难以预测和分析的策略。 解决这些问题正是人工智能进一步发展必须面对的核心任务,也是强化学习之所以关键的主要因素 。这些问题的有效解决和其解决方案的广泛应用,不但可为多角色、多玩家场景下的博弈和电子竞技做出贡献,更将为人工智能在工业控制、商务决策、企业管理和军事控制等重大领域的大规模实际应用提供有效的方法和坚实的技术支撑。 强化学习为何有如此强大的功能和作用?其实强化学习的发展经历了漫长而曲折的过程,与有监督的学习方法不同,强化学习面对的是更加复杂艰巨而且“不知对错、无论好坏”的学习任务:决策或行动实施之前,没有关于正确与错误的理性推断依据;决策实施之后,没有关于好与坏的客观评价依据。然而,一百年来,科学家们坚持不懈地尝试了许多方法,包括经典条件反射(classical conditioning)、试错法(trial and error method)等“先行后知”的动物学习方法,系统模型、价值函数、动态规划、学习控制等“先知后行”的最优控制方法以及集估计、预测、自适应等于一体的时序差分(temporal difference)学习方法 。目前,强化学习正在整合算力、数据、知识图谱、逻辑推理、智能控制和知识自动化等技术,统一关于现状、回顾、展望等因素的分析,迈向“知行合一”的复杂自适应智能机制与算法体系。图1给出了由F.Woergoetter和B.Porr总结的强化学习前 因后世 ,比较完整地反映了这一方法的核心内容与相关问题。 图1强化学习的核心内容与相关问题 2. 先行后知的起步 作为一项科学研究,强化学习始于“摸着石子过河”的启发式思维,在学术文献上可追溯到英国著名学者 Alexander Bain的“摸索与实验(groping and experiment)”学习原理。Alexander Bain是著名杂志Mind的创办人,正是这份杂志于1950年发表了 Alan Turing 的文章“计算机器与智能(computing machinery and intelligence)”,提出使用“图灵测试”判断机器智能水平,开启了人工智能研究领域。作为一种方法,强化学习源自“试错学习(trial-and-error learning)”,由英国生物和心理学家 Conway Morgan 正式提出,并以“摩根法则(Morgan’s canon)”为指导原则,即尽可能用低级心理功能解释生物行为的节约原则,后被美国心理学家、学习理论专家、联结主义创始人之一的Edward Thorndike进一步简化为“效果定律(law of effect)”,这成为后来的学习规则—— Hebb 定律和神经网络误差反向传播(back propagation,BP)算法的鼻祖。强化学习的正式出现要归功于生理学家巴甫洛夫及其经典条件反射理论和激励响应(stimulus-response)理论,特别是他通过狗进行的一系列刺激反应试验总结出来的条件反射定律。在美国,心理学家Burrhus Frederic Skinner提出的工具条件反射(operant or instrumental conditioning)和工具学习(instrumental learning)及其利用老鼠进行试验的 Skinner-Box 技术也推动了强化学习的行为分析试错法研究。 自此之后,强化学习在动物行为研究、生理和心理学以及认知科学等领域发挥了重要作用,成为相应的核心方法与技术。在人工智能之初,从图灵基于效果定律的“快乐-痛苦系统(pleasure-pain system)”、Marvin Minsky基于加强学习的随机神经模拟强化计算器(stochastic neural analog reinforcement calculator,SNARC)及其“迈向人工智能(steps toward artificial intelligence)”一文中提出的复杂强化学习的“基本信用(功劳)分配问题”,再到 Donald Michie 基于强化学习的 MENACE 和GLEE学习引擎、Nils Nilsson学习自动机(learning automata)和学习机器(learning machines),还有John Holland的“分类系统(classifier systems)”及其遗传算法,强化学习的思想和方法对许多人工智能机制和算法的设计产生了深刻的影响。然而,相对于许多机器学习方法而言,人们对强化学习的期望远大于其成果,在相当长的时间里,强化学习实际上并不是人工智能及其相关领域的主流方法和技术。 3. 先知后行的重铸 基于生物和心理学并以试错法为主的强化学习没有用到太多的数学概念和工具,而且也很少在工程上应用,直到20世纪50年代,随着工程数学化的深入和现代控制理论的兴起,特别是基于系统动力学模型的最优控制的出现,加上 Richard Bellman 的杰出工作,强化学习走上了一条数学化和工程应用的崭新道路,局面大为改观:朴素的奖励惩罚变成了“价值函数(value function)”,简单的行为选择升华为“动态规划(dynamic programming)”,非线性随机微分方程来了,伊藤积分(Ito integral)用上了,马尔可夫随机过程成了离散情况下的标配,有时还必须引入博弈论。强化学习从极其具体实在的动物行为学习突然变为十分复杂抽象的马尔可夫决策过程(Markov decision process,MDP)和Bellman方程,甚至是更难认知和求解的哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman,BHJ)偏微分方程。一时间,原来“先行后知”的试错行为不见了,取而代之的是“先知后行”式的方程求解,尽管看起来有些“风马牛不相及”,但其一下子成为控制理论与工程的一部分,让许多研究者惊奇之余看到希望和曙光。 然而,这道曙光仅带来了短暂的黎明,很快又沉入“黑暗”,强化学习在新的道路上刚起步就遭遇“维数灾难(curse of dimensionality)”,当问题变得复杂(维数增加)时,动态规划求解方程的计算量呈指数增加,没有计算机可以应对,强化学习的“先知后行”变得无法实施。 为了克服“维数灾难”,智能这面旗帜被再次举起,最优控制从以数学推理为主演化为以智能技术为主的学习控制和智能控制。智能控制最初的代表人物是美国普渡大学的King-Sun Fu和George N.Saridis,后来两人分别成为模式识别和机器人与自动化领域的创始人和早期开拓者之一。受当时 人工智能 逻辑化、解析化思潮的影响,智能控制在30 多年的初创时期主要围绕形式语言、语法分析、决策自动机、图式学习、随机逼近、蒙特卡洛法、最小二乘法、参数识别、自适应算法、自组织系统、迭代学习、强化学习等技术展开,并被应用于模式识别、机器人与自动化、无人系统、计算机集成制造、金融科技等领域,但无论是在规模还是在效益方面都没有完全摆脱“维数灾难”的阴影,其发展到20世纪 90 年代中期就陷入瓶颈,相关工作几乎停滞不前。 “山重水复疑无路,柳暗花明又一村”。Paul Werbos在20世纪70年代中期推出神经元网络误差反向传播算法的同时,就开始研究新优化方法在策略分析中的应用,并于20世纪80年代末正式提出近似动态规划(approximate dynamic programming)的思想。同一时期,Saridis和王飞跃也针对非线性确定系统和随机系统提出了类似的次优控制迭代策略。经过Wurren B.Powell、Dimitri Panteli Bertsekas、John N.Tsitsiklis等人的研究,这一方法进一步与神经网络技术结合,从近似动态规划发展到神经动态规划(neuro-dynamic programming),最后发展到目前的自适应动态规划(adaptive dynamic programming,ADP)。自20世纪80年代中期以来,王飞跃、刘德荣和魏庆来从不同角度开展ADP 相关研究工作,经过十余年的努力,形成中国科学院自动化研究所复杂系统管理与控制国家重点实验室自适应动态规划团体,致力于ADP方法的进一步发展和应用,从智能控制的角度推动了强化学习的理论研究与工程实践。 4. 时序差分的再生 尽管Werbos在20世纪70年代末就试图整合统一试错学习和最优控制的学习方法,但在相当长的时间里,基于这两种方法的强化学习几乎各自独立、没有交叉,直到20世纪80年代以Andrem G.Barto、Richard S.Sutton和Charles W.Anderson为核心的学者重新推出时序差分(temporal difference, TD)(TD也有时间差分的译法,但本意是暂时差别)的概念和方法,局势才开始改变,强化学习渐渐走上“先行后知”与“先知后行”为一体的“知行合一”之途。简言之,时序差分集现状、回顾、展望的不同需求和分析于一体,在试错和规划上充分考虑并利用不同时段的系统预估与环境反馈之间的差别,显著地提高了学习和决策的系统性和效率。由此,强化学习进入了时序差分学习阶段,理论研究和工程应用的水平都得到了很大的提升。 时序差分学习的理念源自动物学习心理学中与主要强化因子匹配的“次要强化因子(secondary reinforces)”概念。Minsky在人工智能之初就认定这一心理学方法对人工学习系统具有重要的意义,计算机游戏博弈技术的开创者Arthur Lee Samuel在其著名的跳棋程序中也采用了时序差分的理念,使“机器学习”一词成为广为人知的术语。20世纪70年代初,A.Harry Klopf认识到强化学习与监督学习的本质不同,强调强化学习内在的趋利(hedonistic)特性,试图将试错学习与时序差分学习结合,提出了“局部强化(local reinforcement)”和“广义强化(generalized reinforcement)”等概念,但与现代的时序差分并不完全相同;加上A.Harry Klopf英年早逝,其工作不算十分成功。新西兰学者Ian H.Witten在其 1976年的博士论文中第一次明确指出了时序差分学习规则。A.Harry Klopf的工作对Andrew G.Barto、Richard S.Sutton和Charles W.Anderson的启发很大,促使他们在20世纪80年代初将时序差分学习与试错学习结合,提出著名的“行动者-评论者框架(actor-critic architecture)”,时序差分的强化学习由此正式登场。然而,将时序差分与动态规划和试错方法全部整合在一起是在20世纪80年代末,这归功于英国学者Chris J.Watkins 在其1989年的博士论文中提出的Q学习(Q-learning)算法。1992年,IBM公司的Gerald Tesauro利用时序差分构造了多层神经网络 TD-Gammon,并在古老的西洋双陆棋中战胜了人类世界冠军,引起广泛关注,这也使时序差分的强化学习方法广为人知。同年,Chris J.Watkins和Peter Dayan给出Q学习算法收敛性的第一个严格证明,更加加深了人们对Q学习和强化学习的兴趣。当前,时序差分己从专注预测的 TD(lambda)发展到预估决策控制一体的SARSA(lambda),Barto和Sutton合著的《强化学习导论(reinforcement learning:an introduction)》已成为机器学习领域的经典之作。 5. 平行强化的体系 基于大规模多层人工神经元网络的深度学习的成功,特别是AlphaGo和Pluribus的巨大影响,使强化学习方法登上了一个更新、更高的层次。然而,随着深度强化学习(deep reinforcement learning,DRL)和深度Q学习(deep Q learning, DQL)等的不断涌现和广泛应用,数据再次成为重大问题,而且图1 右边所示的强化学习大脑神经科学的部分内容,特别是 Hebb 学习规则的重新评估和计算复杂化与有效性问题,也更加引人注意。 在以试错法为主的先行后知强化学习中,因实验周期长、成本高,数据来源受到“经济诅咒”的制约;而在动态规划类的先知后行强化方法中,算法实施又遇“维数灾难”,导致其无效、不可行, TD强化学习,特别是TD-Gammon借助Self Play在一定程度上为解决数据生成和算法效率指明了一条道路,而AlphaGo和Pluribus进一步强化了这条道路的有效性。实际上,这是一条通过虚实平行运作,由“小数据”生成大数据,再与蒙特卡洛法或各类决策树等有效搜索技术结合,从大数据中锤炼出针对具体问题的“小智能”般的精确知识之道。人们应当通过知识图谱和知识范畴(knowledge categories)等工具,将这一数据生成和知识制造的过程形式化,并加以软件定义,为强化学习系统组态的生成和实际应用的自动化创造基础。 此外,抽象数字化的强化学习还必须与大脑生物化的功能强化实现平行互联。除了快慢过程的微分 Hebb 学习规则,人们更应关注强化学习与动物的无条件/工具性反射、典型惯性和目标导向行为以及认知图(cognitive maps)生成构造等问题的内在关联,并将其应用于针对不同病状的各种机器人辅助和智能康复系统的设计、操作、监控和运维以及与脑和神经相关的疾病的智能诊疗系统中。同时,强化学习机制应成为虚实互动的平行学习和平行大脑的核心基础,扩展突触可塑、Hedonist神经元、多巴胺神经元与响应、奖励预估误差机制、神经行动者评估者结构等大脑神经基础构成问题的计算和智能研究手段,使人类生物智能与人工智能的研发更加密切地结合到一起。 图2给出了虚实互动、实践与理论融合的平行强化学习体系的基本框架,目前流行的数字双胞胎(又称数字孪生)是其中的一个重要组成部分。平行强化学习的目的是通过交换世界实现“吃一堑、长一智”:在虚拟的人工世界吃一堑、吃多堑,在现实的自然世界长一智、长多智,以此降低成本,提升效益,克服“经济诅咒”和“维数灾难”,走向智能知行合一的机器强化学习。 图2平行强化学习体系的基本框架 6. 实验结果与分析 学习是人类获取知识的通用且可靠的途径,这是人类文明有史以来的共识与实践。强化学习是机器具有机器智能的基础和关键手段,这是人工智能研究开创以来的认识与方向,在很大程度上,也是目前从事智能科学与技术研发工作者的共识。然而,要使强化学习真正成为机器学习的核心与智能机制和智能算法的基础与关键技术,从“不知对错、无论好坏”的先行后知与先知后行,到知行合一、虚实互动的混合平行智能,仍有许多理论和实践的任务必须完成。 首先,强化学习面临的许多经典问题依然存在,并没有被彻底有效地解决,如“维数灾难”、信用分配、信息不完备、非稳环境、状态行动Space Tiling、探索与利用的矛盾等,需要更加深入和系统地研究。其次,对于目前被广泛应用的各类深度强化学习方法来说,其引人注目的“超人”表现源自其解决特定问题的特点,但这也正是其难以被推广和普及的问题所在。必须考虑这些深度强化学习方法构建与应用过程中的形式化和软件定义问题,从而使过程的迁移及其自动化成为可能,完成从特别应用到相对通用的转化。最后,必须引入针对强化学习的软硬件平台,边缘与云端的支撑环境和相应的开源基础设施使强化学习真正应用到生产、商业、交通、健康、服务等领域,使强化学习、强化控制、强化管理、强化医疗、强化经济、强化法律、强化安保等成为一个有效且普适的智能工程项目。 为此,研究者需要从更高更广的角度重新审视强化学习的方法和技术,使其真正成为“人机结合、知行合一、虚实一体”的“合一体”的核心与关键,化智能代理(agents)为知识机器人,深入推动和完善智能社会的知识自动化进程。
个人分类: 智能科学与技术学报|1848 次阅读|0 个评论
哈工大高会军团队: 基于强化学习的多速率系统控制器最优化研究
Chenfiona 2020-6-19 10:41
6月,IJAC发表哈尔滨工业大学高会军教授团队特约稿件: 基于强化学习的多速率系统控制器最优化研究 ,论文第一作者为哈尔滨工业大学李湛副教授。该研究基于强化学习提出一种无模型依赖算法,可用于设计多速率系统的最优控制器 ( 本文末附全文翻译获取方式 ) 。 全文下载: http://www.ijac.net/en/article/doi/10.1007/s11633-020-1229-0 https://link.springer.com/article/10.1007/s11633-020-1229-0 众所周知,近乎所有的工业化控制系统均采用了数字化控制,这就凸显了采样系统研究的重要性。在实际的工业生产过程中,普遍存在着传感器信号采样周期不同的情况,这也就是采样系统的多速率特性。而采样系统中部分传统及先进控制方法无法适用于这种多速率系统。早在20世纪50年代就有学者注意到了这个问题,20世纪90年代,研究者提出了一种提升技术,该技术通过将这些系统转化为等效的离散系统来简化多速率问题。此后,该研究课题开始广泛地被控制领域研究者关注。 利用提升方法后,标准控制方法可用来解决等效离散系统的控制问题,进而解决多速率采样系统的控制问题。随着先进控制理论的发展,越来越多关于多速率系统的研究涌现出来。 然而,此前的控制器均是依据系统动力学模型来设计。当系统结构未知或系统参数不确定时,这些控制器就无法满足实际需求。 本研究旨在设计一款控制器,可充分利用输入输出数据来优化自身参数,或者直接得到最优控制器参数,我们将这类控制器称为无模型依赖控制器。 强化学习是机器学习的一个重要分支。许多著名研究团队借助强化学习来解决人工智能问题,比如教会机器人玩游戏等。通过与环境进行互动,认知主体可从他们的行动中获得奖励。通过计算奖励得出价值函数,基于价值函数,主体利用强化学习算法来优化策略。1995年,与强化学习核心思想接近的控制理论---自适应动态规划被研究者提出。过去几十年间,这一方法被用于解决控制系统的输出调节问题,还应用于切换系统、非线性系统、滑模控制中解决控制问题。 关于自适应动态规划及强化学习的研究均基于贝尔曼方程展开,研究者们将这两种算法结合在一起解决控制问题。当前,强化学习算法已经应用于解决多种控制器设计问题。仅依靠输入输出数据,强化学习算法就可以优化策略,无需依赖系统参数与结构。一些学者提出基于强化学习的控制结构用以训练直升机的神经网络控制器,相似的方法同样适用于其它类型无人机。其他基于强化学习的控制方法可用在伺服控制系统及交通系统中。 本研究基于强化学习提出一种无模型依赖算法,只需输入输出数据,即可对多速率采样系统的控制器参数进行优化。 我们假设状态变量的采样周期不同于传感器信号采样周期。本研究采取了与传统提升方法不同的技术,可将多速率系统转化为另一种等效的离散系统。基于矩阵变换,本研究提出一种算法用以快速设计多速率系统的线性二次型调节器。而后,本研究对行为策略及目标策略进行了定义,并提出一种基于强化学习的离线策略优化算法。利用最小二乘法,本研究将离线策略优化算法改进为无模型依赖强化学习算法,改进后的算法可在不确定环境中优化控制器。最后通过算例验证了提出方法的可用性和有效性。 本文结构如下: 第二部分主要介绍带有状态反馈控制器的多速率系统模型; 第三部分提出一种控制器设计方法及三种控制器优化方法; 第四部分给出工业实例,验证了本研究所提方法的可用性。 Controller Optimization for Multirate Systems Based on Reinforcement Learning Zhan Li, Sheng-Ri Xue, Xing-Hu Yu, Hui-Jun Gao 摘要: The goal of this paper is to design a model-free optimal controller for the multirate system based on reinforcement learning. Sampled-data control systems are widely used in the industrial production process and multirate sampling has attracted much attention in the study of the sampled-data control theory. In this paper, we assume the sampling periods for state variables are different from periods for system inputs. Under this condition, we can obtain an equivalent discrete-time system using the lifting technique. Then, we provide an algorithm to solve the linear quadratic regulator (LQR) control problem of multirate systems with the utilization of matrix substitutions. Based on a reinforcement learning method, we use online policy iteration and off-policy algorithms to optimize the controller for multirate systems. By using the least squares method, we convert the off-policy algorithm into a model-free reinforcement learning algorithm, which only requires the input and output data of the system. Finally, we use an example to illustrate the applicability and efficiency of the model-free algorithm above mentioned. 关键词: Multirate system,reinforcement learning,policy iteration,optimal control,controller optimization. 全文下载: http://www.ijac.net/en/article/doi/10.1007/s11633-020-1229-0 https://link.springer.com/article/10.1007/s11633-020-1229-0 【程学旗陈恩红团队】社交网络的传播背景:模拟与建模 高被引Top1团队综述:图像、图形及文本领域的对抗攻击及防御 【精选好文】服务机器人物品归属关系学习新策略 【专题好文】基于神经网络的新型乳腺癌检测框架 综述:用于自由曲面加工的新型计算机数控方法 港科大-微众AI杨强团队:用于生成对话系统的迁移多层注意力网络 美国蒙莫斯大学:基于深度学习的手势识别及无人机控制 陶建华团队:基于半监督梯形网络的语音情感识别 帝国理工学院:自然语言处理中大数据的智能收集与分析 北大王立威团队: 零样本细粒度图像分析新模型 自动化所陶建华团队: 基于真实环境的面部表情分析 英国克兰菲尔德大学: 用于故障监测与诊断的全新多层分析算法 【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展 【综述专栏】实现产品研发“众包”的框架、关键技术及挑战 2020年6月会议变动汇总 2020年5月会议变动汇总 2020年4月会议变动汇总 2020年3月会议 科技部新政速览 2020年1-2月会议日历 2020年国际学术会议参考列表 【名校好课】MIT最新深度学习公开课 一款强大的公式编辑器 如何在不平坦的科研路上狂奔? 复杂公式转LaTex:一张图片,三步搞定! 提升科研效率的几款小工具 【主编报告】如何写好一篇学术论文?
个人分类: 最新资讯|3726 次阅读|0 个评论
[转载]强化学习(博客转载)
ChenChengHUST 2020-3-20 00:12
https://blog.csdn.net/j754379117/article/details/83037799
个人分类: 科研|1 次阅读|0 个评论
【Q-learning系列】从一个简单的寻路问题深入Q-learning
lovesvidon 2018-5-28 23:39
问题描述 : 如图所示,宝藏在红色方块处,黑色方块为障碍物。在起点已确定的前提下,找到一条去往红色方块的最近路线(起点可以是图上任意一个方块)。 解决思路 : 最核心的思想来源于我的上一篇文章 【Q-learning系列】解决“房间问题”的一个通用方法 ,如果可以的话,最好先了解一下。下面我就对从整体上总结一下如何利用Q-learning去解决这么一个简单的寻路问题。 对地图重采样,将482x482的地图简化为一个20x20的矩阵,其中1表示无障碍可通行方块,0表示不可通行方块。 对图中的每一个方格做状态编号。计算PossibleAction矩阵,即每一个状态所对应的动作的可行性的集合。其动作值可行时为1,不可行时为0。总共可行的动作有上下左右四种。 利用PossibleAction矩阵计算奖励矩阵,可通行到红色方块的动作值奖励100,其余可行的动作值奖励为0,不可通行的奖励为-1。 将PossibleAction矩阵和奖励矩阵带入,开始进行Q-learning。 Q-learning结束后计算产生Q-Table,从某一个状态开始,找寻Q-Table中值最大所对应的动作,得到下一个状态,以此循环,最终到达红色方块,即为最短路线。 用20x20的矩阵标记出走过的轨迹,再将其还原为482x482的图片显示出来。 那我们就先上结果吧,这样看着比较直观,左图起点为左上角的方块,坐标为(1, 1),沿着最短路线到达终点,红色方块。右图起点为下方偏右的方块,坐标为(14, 16): 接下来我们再对这个解决思路的实现进行逐条解释,所遇到的问题进行逐个解决。 问题分析与方法实现: 首先是第一条,对地图的重采样。这个很简单,先检测一个格子的像素数,采样点就放在每个格子的中心位置。这里每个格子是由24x24个像素点组成,共有20x20个格子,还有两个2x480个像素点是边框的黑线。对于一个24x24的格子来说,中心位置就是坐标(13, 13),所以在遍历482x482个像素点时,假设每个像素点的坐标为(x, y),中心点坐标(Px, Py)一定满足(mod为取余计算): 二、三两点实际上可以整合到第四点,也就是说PossibleAction矩阵和Reward矩阵(奖励矩阵)可以不进行单独计算,在Q-learning的过程中也可进行赋值,其本质上就是动态Q-Table的计算处理,日后有机会在做展开,这里讨论的依然限制在严格Q-Table的计算中,也就是说Q-Table的size是固定的,状态的数量也是固定的,像对于这个有着20x20个方格学习的实例,有且只有400个状态。显然,Q-Table的size就是400x4,PossibleAction矩阵和奖励矩阵同样也为400x4。 这里必须要讨论的一点就是PossibleAction矩阵和奖励矩阵之间的关系。PossibleAction矩阵的4列表示4种可行的动作,每一行表示当前所处的状态。举个例子,如下给出一个400x4的PossibleAction矩阵: 在这个PossibleAction矩阵中,UDLR分别为up, down, left, right,即为上下左右四个动作。如若当前状态为1,做向上移动的动作,可以表示为PossibleAction(state = 1, action = U) = 0,结果为0表示不可行。如若当前状态为1,做向下移动的动作,PossibleAction(state = 1, action = D) = 1,结果为1表示可行。这里使用图像表示或更为直观,图中清楚的表示出了处于状态1只可向下或向右移动。 奖励矩阵(Reward Matrix)和PossibleAction矩阵的维度相同,且行列意义相同,但矩阵内的值不同。这里我们实行一种最简单的奖励策略。这里我们用R(i, j)表示奖励矩阵中的第i行第j列的元素之值,“i”表示第i个状态,“j”表示动作j。 不难看出,R(state, action) = -1或0的情况与PossibleAction(state, action) = 0或1的情况是有重叠的,且满足前一种情况的state和action是满足后一种情况的state和action的子集。Reward矩阵和PossbleAction矩阵最大的不同点在于,可以到达目标的状态动作的Reward值为100,而对于PossibleAction而言只是一个可行的状态动作而已,值依旧为1。这个区别也是Q-learning中的Q-Table可以收敛的重要依据之一。如果我们使用图示的方法来表述就更为直观了。 如图所示,只有这三种情况的Reward值可以为100。为什么说这样的奖励策略可以使得所有状态的Q值的最大值收敛于一个最佳的可行的动作上。事实上,这里可以分割为两个问题: 为什么要讨论Q的最大值? 为什么这样可以收敛? Q-learning的本质: 这就牵涉到了Q-learning的本质机理。我们先来解决第一个问题, 解题思路 中的第5点提到Q-Table中任意一个状态的所有动作中Q值最大的那个动作就是为了达到目标在当前状态下的最佳选择。所以当状态S的Q最大值收敛于动作A,那么动作A就是处于状态S的最佳选择。当然在理解了第二个问题的原理后,对一个问题也会有更深层的认识。在对第二个问题的解释之前,我们先做一个Q-learning探索者的模拟。模拟过程也是迭代过程的一部分。事实上,Q-learning中的Q-Table计算的迭代过程基本分为四个阶段: 第一阶段,探索者未接触过目标。在这一阶段,探索者的工作是无效的,也就是说无论探索者移动到何处,Q-Table中所有的值都为0。 第二阶段,探索者接触到了目标,但Q-Table中的最大值还未收敛。 第三阶段,目标点周围的状态点的Q值已经收敛完成,但并非所有状态的Q值都收敛了。 第四阶段,所有状态的Q值收敛,Q-learning完成。 我们着重讨论从第二阶段到第三阶段的过程,也就是Q值收敛的过程。迭代中的Q-Table的更新原则如下(在公式中,使用矩阵Q(s, a)表示Q-Table,sf和af表示下个状态动作集): 基于这种Q-Table的刷新原则,在状态S下,新的Q值与之前的Q值没有任何直接的关系,我们姑且将其称之为无记忆刷新策略。接下来,依据无记忆刷新策略,从Q-Table值变化的第一步开始模拟。 第1步,从探索者处于状态S1,选择向下动作。下个状态即为目标状态,我们用St表示目标状态,Q(St, Any Action) = 0,依据无记忆刷新策略,可以得出,Q(S1, D) = R(S1, D) = 100。 第2步,当探索者离开状态St到再次进入状态St之前,Q(S1, All Actions)的最大值都不会变化,但当探索者处于S2,选择向左动作,下个状态即为S1,Q(S1, All Action)的最大值为Q(S1, D),依据无记忆刷新策略并假设gamma=0.8(gamma一定是小于1的),可以有: 第3步,类似的,计算出Q(S3, U) = 64 第4步,当探索者处于S3,选择向左动作,重新回到目标状态St,和第一步类似,可以求得Q(S3, L) = 100 第5步,还是step4,探索者回到目标状态St后,选择向右移动,下个状态即为S3,Q(S3, Actions)的最大值为Q(S3, L) = 100,那么和第二步类似,可以求得Q(St, R) = 80。 第6步,当探索者又处在状态S1,选择向下动作后,下一状态的Q(St, Actions)的最大值就变成了Q(St, R),依据无记忆刷新策略,可以有: 如此从第1步到第6步,我们便完成了一个简单的对Q(S1, D)计算的一次循环过程。重复第1到第6步多次后,Q(S1, D)便可以收敛。如果,探索者的动作选择是完全随机的,第n次刷新的Q(S1, D),Q(St, R)和Q(S3, L)之间一定存在如下关系: 联立上述的三个等式,可以得出: 很显然,Q(S1, D)是一个等比数列,可以求出其通项,已知在Q(S1, D)的初值是100,可得: 当n趋于正无穷时,也就是随着迭代次数的增加,毫无疑问地,Q(S1, D)的值是收敛的。当gamma值为0.8时,可以计算出,Q(S1, D)收敛于277.78,并且这里需要强调一点,状态S1周边的4个状态,比如S2和St都会收敛于状态S1的Q值最大值的0.8倍,以此类推到所有的400个状态,下图给出了每个方格Q峰值的分布图,左图为目标状态坐标(10,10)的情形,右图为目标状态坐标(3, 16)的情形,图中的红框即是目标状态点, 图像颜色由黑到白表示出Q峰值由小到大 。 注:左图中的纯黑块和右图中的纯白块为障碍块 这两幅图直观的解释了Q-Table解决寻路问题的终极机理。无论起点在哪,只要沿着比当前状态的Q值高的状态前进,一定会找到目标,而且一定是最近的路线。 下一篇文章主要对象依旧是“寻路问题”,本篇使用的是无记忆刷新策略,下一篇将会探讨一下新的Q-Table的刷新策略。 如需代码请参考: https://github.com/JinyuGuan/Q-learning-Path-Finding.git
个人分类: 写着玩|11999 次阅读|0 个评论
【Q-learning系列】解决“房间问题”的一个通用方法
lovesvidon 2018-5-23 21:18
在阅读本文之前,请先对强化学习,Q-learning以及房间问题有一个初步的了解。可以参考下面这两个链接: Q-learning Step by Step Tutorial Q-learning算法分析与代码实现 “房间问题”简单来说就是终点确定的最短路径寻找问题,但是个单目标优化问题,也就是说仅仅只需要考虑路程最短,不需要考虑其它成本。在众多关于Q-learning与“房间问题”的入门介绍的文章中,无一不是参考了上面两篇文章中的方法。这个方法具有很好的可理解性,并可以快速的梳理出实现Q-learning的一般步骤,但存在一个很严重的问题,即需要人工给出Reward Matrix(奖励矩阵),这样很大程度上就限制了其通用性。面对一个仅有6个房间的问题,画出节点图,手工写出奖励矩阵并非难事,但如果是100个房间,10000个房间呢?这就比较难了,不仅手写奖励矩阵很困难,也会极大的增加训练的时间复杂度。为什么这么说,还是用6个房间的这个例子比较好解释。在建立Q-learning中被用来训练更新的Q-Table时,通常以状态(state)为行,动作(action)为列,但实际上在“6个房间问题”里,却用的是当前状态(current state)为行,下一状态(future state)为列。所以需要一个6x6的Q-table: 在Q-learning算法的实现过程中,每次的训练都会有由state去确定action的步骤,即找到可行的action并确定下一个state,相应的Q-Table可以表示成Q(S, A)。也就是依据current state找寻future state,在确定当前状态后,找寻可能的action和需要遍历所有的未来状态,对于“6个房间问题”而言,需要循环6次。假设对于某一特定的状态可行的action和future state有n个,那么在对这n个结果求解其Q(future state, fucture action)中的最大值,至少需要6(n - 1)次循环,如果加上action确定的6次循环,则一次迭代至少需要6n次。 想象一下,如果是1920x1080个房间呢?毫无疑问运算量将大大增加。 通用方法 在此之前可先阅读这两篇文章: 强化学习(Q-learning~了解了一波 增强学习系列之(二):实现一个简单的增强学习的例子 以上两篇文章都是关于一维空间寻最短路径的问题,其中的action只有左右两个选项。然而对于一个二维平面的最短路径寻找问题(Path-Finding),处在任何一个状态的动作都只有4个选项,上下左右,所以这个Q-Table也可以写成如下形式(UDLR分别代表上下左右): 这种6x4的矩阵才是通用方法中的Q-Table,即使state多达10000个,矩阵的维度也只有10000x4,远小于第一种方法的10000x10000。使用这个形式Q-Table的关键问题在于如何由action获得下一个的state,也就是action到state的转化问题。还是以“6个房间问题”为例子,通过抽象化的处理,我可以把左边这副实际的房间分布图转换成右边的示意图。 示意图对原图中房间的重新编号与新添的3号房间对最终结果并无任何影响。原先的0号房间编程了5号,1号成了4号,2号变为0号,3号变为1号, 4号成了2号,5号变成了6号。状态0的action矩阵可以写为: 在Action矩阵中,0表示路线被隔断,1表示路线通畅。对于A0来说,只有向右的action是可以通畅的转往状态1的。可以很快的写出A0~A6的Action矩阵,如若仅自动识别可行的action,4x6次循环即可,而如果是遍历和每一个state的关联,则需6x6次循环,效率的提升不言而喻。Action转换为state的基本思想其实也很简单,假设当前处在第r个房间也就是状态r(总共有MxN个房间,M为列数,N为行数),其上下左右的状态分别为,r-M ,r+M,r-1,r+1,处在边界的状态再特殊考虑: 基本的原理就是这样了。 如需原码,请参考链接: https://github.com/JinyuGuan/Q-learning-Room-Problem.git https://github.com/JinyuGuan/Q-learning-Room-Problem.git
个人分类: 写着玩|5750 次阅读|0 个评论
今天安装了Anaconda,开始用python学习 Reinforcement Learning
lhj701 2018-1-25 18:09
今天安装了Anaconda,开始用python学习 Reinforcement Learning 一直认 为将来物联网必定与人工智能等技术相互结合,因为物联网、大数据、云计算和人工智能其实正在趋近结合,它们的关系其实是实现智慧人造世界的各个组成部分,如物联网偏重智能感知与信息传输,大数据和云计算偏重数据智能运算,而人工智能通过智能算法将计算结果进行应用或控制外部世界(比如:无人驾驶),(详见:               浅议物联网、大数据、云计算、人工智能的关系               )。 因此今天如果不学习对于我而言新的知识,如Machine Learning,Reinforcement Learning, 数据科学及人工智能等等,恐怕再过7,8年,就会由于这些技术的快速发展渗透而跟不上。 而学习新的知识与技能,光看不练是不够的。因此,下决心学习Python语言,因为有多年教C语言的基础,和Java面向对象的基础,感觉入手不是太难。今天终于认真安装上软件环境,并学习Q-Learning的一个例子,希望通过练习编程逐步理解并掌握应用一些智能算法,并最终能够在具体的场景中得到应用。
个人分类: 人工智能|2965 次阅读|0 个评论
2017年中国高等教育或将出现的新趋势
热度 17 lgmxxl 2017-2-16 09:43
——《教育部2017年工作要点》解读 由于新部长的缘故,今年《教育部2017年工作要点》与往年“工作要点”在风格上、重点要求上有所不同。2017年教育部重点布置了六大方面35条具体工作:“一、全面贯彻落实高校思想政治工作会议精神,切实加强教育系统党的建设;二、全面深化体制机制改革,不断激发教育发展活力;三、加快优化结构,促进各级各类教育协调发展;四、始终贯彻立德树人根本任务,着力提高教育质量;五、大力促进教育公平,切实缩小城乡、区域、校际、群体差距;六、全面提升教育保障水平,维护教育系统和谐稳定。”《教育部2016年工作要点》重点布置了五大方面34条具体工作:“一、切实加强党的建设,全面维护教育系统和谐稳定;二、始终贯彻落实立德树人根本任务,着力提高教育质量;三、坚持改革创新,不断为教育事业发展注入动力活力;四、坚持协调发展,不断优化教育结构;五、坚持共享发展,切实保障广大人民群众接受教育的权利。”从大的方面对比来看,2017年工作要点与2016年没有大的差异。甚至于大的方面基本相同。但从内涵上讲,2017年与2016年的工作要点、着力点、关注点、具体要求还是有很大不同。2016年教育部工作要点可以概括为以下五个关键词:和谐稳定、提升质量、改革创新、协调发展、促进公平。而2017年教育部工作要点则可以概括为以下五个关键词:学习贯彻、顶层设计、立德树人、提升质量、促进公平。比较两年工作要点中高等教育部分的新提法、新举措,我们大致可以了解中国本年度高等教育或将出现的新趋势。 趋势一:学习是一项政治任务,党的建设持续加强 在“学”上下功夫,学习将是教育战线的一项政治任务。学习什么呢?主要学习习近平总书记的系列讲话,特别是在全国思想政治教育大会上的讲话。这样的学习将是形式多样、种类多样的。对高校领导班子、宣传部长和院系负责同志将是全面培训,深入开展习近平总书记教育思想学习研究。对全体师生则要“积极推动习近平总书记系列重要讲话精神和治国理政新理念新思想新战略进教材、进课堂、进头脑”。而所有这一切,重点在加强党对高校的领导。今后高校党的建设将比2016年更加强化,在范围、层次上也将更加深入。“在全国高校普遍开展院(系)级党组织书记抓基层党建述职评议考核工作。研究制订加强高校教师党支部建设的意见、高校学生党建工作测评体系。贯彻落实《关于加强民办学校党的建设工作的意见(试行)》。出台加强高等学校中外合作办学党建工作的意见。”目前,陕西、山东已经开始向民办高校选派党建负责人和监督员。在组织与课程建设方面,2017年将“修改完善《高等学校马克思主义学院建设标准》《关于进一步加强和改进高等学校形势与政策课规范化建设的若干意见》等配套文件。” 加强党对高校的领导的一个重要举措是对高校领导的选择、培养、使用与评审。对此,工作要点对高校领导进行了“学习”“交流”“培训”等方面任务的布置与规定。 趋势二:注重顶层设计,中国特色教育治理特征突显。 在2017年工作要点中,“强化改革顶层设计”作为一条被单列出来,体现着中国教育治理进一步走向规范和科学,也体现在“谋”上动脑筋这一总体要求。自2016年下半年始,教育部开始对中国今后一段时间特别是年五年的教育工作进行了规划和设计,“着力提高改革的系统性、整体性、协同性。健全重点改革任务台账,全力推进各项重点改革任务的落实落地。健全部省、部市共同推进教育综合改革机制”。就是说,今后一段时间,中国特色教育治理特征将会更加突显。其中,最为主要有特征一是规划调控。最为重要的是《国家教育事业发展“十三五”规划》、《中国教育现代化2030》、《京津冀协同发展教育专项规划》、《制造业人才发展规划指南》。二是法律法规调控。2017年,国家将出台一系列教育方面的法律法规。主要有:《关于深化体制机制改革加快推进教育治理现代化的意见》、《关于做好新时期教育对外开放工作的若干意见》、《推进共建“一带一路”教育行动》、《APEC教育战略》、《关于“十三五”期间高校设置工作的意见》、《关于在各级各类学校推动培育和践行社会主义核心价值观长效机制建设的意见》、《省级人民政府履行教育职责督导评价暂行办法》、《“双一流”建设遴选条件和认定标准》、《教育部关于进一步加强和改进省部共建地方高校工作的意见》、《加强高等学校中外合作办学机构党建工作的意见》、《校企合作条例》,等等。三是标准制定与评估。2017年将开展《92个本科专业类教学质量国家标准》,“研究制订高职院校专业评估方案,开展专业评估试点。推进普通高校本科教学评估,开展2017年普通本科院校评估工作。继续推进工程、医学教育专业认证工作。完善高职、普通本科教学质量报告制度建设。加强研究生教育质量监督和评估。开展2017年博士、硕士学位论文抽检工作。” 趋势三:出台“双一流”标准,世界一流大学建设的中国道路将形成 在2017年教育部工作要点中,“整体提升高等教育水平”作为单列的一条,体现着对中国高等教育发展的道路自信,也体现部长“在‘实’上出真招”这一总体要求。其中,“组织实施好‘双一流’建设,设立建设专家委员会,提出建设高校、学科遴选认定标准、程序和范围,组织建设高校编制建设方案,建立信息公开公示网络平台”是重点。2015年10月,国务院印发《统筹推进世界一流大学和一流学科建设总体方案》,提出加快建成一批世界一流大学和一流学科。2017年1月,教育部、财政部、国家发展改革委共同制定的《统筹推进世界一流大学和一流学科建设实施办法(暂行)》正式印发。自国家启动“双一流”建设工程后,目前至少有河北、山东等16个省份出台了“双一流”建设的相关方案或文件。但“双一流”如何选择、如何建设仍不是十分清楚。2017年,将是这些疑团破解的时间,也是世界一流大学建设的中国道路形成的时候。暂不评论这一政策的效果,但它事实上已经严重影响了中国高等教育的发展生态。 趋势四:中国高等教育对外开放将进一步加强,教育强国梦正在形成。 “构建教育对外开放新格局”成为今年工作要点的一条,预示着伴随着国家“一带一路”战略的发展,教育也将出现对外开放的新局面,也预示着新一轮开放办学、合作办学高潮的到来。2017年,教育界将“贯彻落实《关于做好新时期教育对外开放工作的若干意见》。扎实推进《推进‘一带一路’教育行动》。实现有关节点省份签约省部共建签署‘一带一路’国际合作备忘录全覆盖。实现“一带一路”国家国别和区域研究全覆盖。与有关‘一带一路’国家新签订10个学历学位互认协议。实施‘丝绸之路’留学推进计划。”国家将“出台关于做好新时期中外人文交流机制建设工作的若干意见,实施好中美等6个人文交流机制,开拓建立中德、中南非等高级别人文交流机制。”“加快修订《中外合作办学条例》及其实施办法。全面落实中央对港澳教育工作的各项任务。制订《APEC教育战略》行动计划。推动实施全球2030年教育行动框架。”这次的教育对外开放将是全方位、全覆盖的开放,涉及各类高等教育机构,也将覆盖全部沿线国家和地区。甚至不在这些地区的高校,也可以借“一带一路”进行相关专业的开放办学。在“争”上求主动,各高校如何运用这一政策,开展有效拓展举措,将是各高校的一次契机。 趋势五:召开全国高校本科教学工作会议,“立德树人”将有新举措。 在“争”上求主动,另一个重要举措将是教育要主动适应经济发展总要求,为我国社会主义事业培养合格的建设者和接班人。在今年的教育部工作要点中,值得关注的另一件大事是“筹备召开全国高校本科教学工作会议。实施中央高校教育教学改革。”我认为,此举措将开启我国人才培养的新时代。这个时代,将更加明确地解决“为谁培养人,培养什么人,如何培养人”等这些根本问题。涉及人才培养的方面有很多,可以预见或者说从工作要点中可以看到的是:一是本科教育教学内容将有很大改变。教育部将深入贯彻落实《关于在各级各类学校推动培育和践行社会主义核心价值观长效机制建设的意见》。“大力实施大学生思想政治教育质量提升工程,印发实施方案,构建‘全员、全方位、全过程、全环境’的育人新格局。深入实施普通高校思想政治理论建设体系创新计划。培育建设一批学科德育示范课、一批高校示范性主题社会实践活动、一批管理服务育人示范岗、一批合力育人典型。”思想政治类、品德修养类、形势政策类、中国国情类课程将规范和增加。二是深化高校创新创业教育。国家将“认定一批示范高校,培育一批国家级示范基地,建成全国万名优秀创新创业导师人才库,办好第三届中国‘互联网+’大学生创新创业大赛。”三是工程类人才将受重视。新近出台的《制造业人才发展规划指南》,将要制订的深化工程教育改革服务产业转型升级的意见。为中国制造2025和产业转型升级提供人才支撑。也将成为工科类专业的一个重要办学指南。“科教结合协同育人行动计划”“产学合作协同育人项目”“校企深度合作示范项目”“卓越人才系列计划”“工程博士专业学位研究生培养改革项目”等将进一步深化。四是修订人才培养方案。国家将“发布并实施《关于职业学校制订人才培养方案的指导意见》。出台《服务健康产业需求高等医学教育引导性专业目录》。发布实施本科人才培养质量国家标准。”分类推进中医学人才培养改革。加快“5+3”标准化、规范化医学人才培养体系建设。 趋势六:哲学社会科学发展的中国标准将形成 在“稳”上作文章。2017年,中国教育会高度重视社会稳定、高校稳定。这种稳定是多方面的,其中一项稳定就是思想稳定。2017年以后,中国哲学社会科学发展将呈现新的势态。在工作要点中,有关这方面的任务主要提到四点:一是“修改完善《高等学校马克思主义学院建设标准》”;二是“深入实施高校哲学社会科学繁荣计划,推进中国特色新型智库建设,加快哲学社会科学‘走出去’步伐,努力建设一批中国特色、世界一流的哲学社会科学学科”;三是“建立高校哲学社会科学学科专业核心课程教材目录制度”;四是“加快推进马克思主义理论研究和建设工程重点教材编写审议和统一使用工作”。这四项如果得到完整落实,中国哲学社会科学将发生很大变化。 在中国,高校持续发展,一要有定力,高校要有政治定力、纪委定力、道德定力、抵腐定力,也要有发展道路定力,坚持高校特色发展定力;二要会借势,高校要善于把握社会发展大势,敏锐洞察教育政策大势。坚持好前者,高校才能有根;把握好后者,高校才能有力。
个人分类: 高教史料|7156 次阅读|19 个评论
机器学习那些事——学习类型
zhaiyujia2013 2014-6-13 12:21
对于机器学习的方法已经有很多介绍,做一个小小的汇总和理解。 监督学习 Supervised learning 监督式学习 ( Supervised learning ),是一个 机器学习 中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。 一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。要达到此目的,学习者必须以合理(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。 BY Wiki 对于监督学习的理解,我们可以看做人学习的过程。 我们小的时候不认识什么是鸟,这时候父母会跟我们说,这是鸟,有羽毛,会飞,有尖尖的嘴,在树上筑巢……这些就是 特征 ,当我们见过的鸟多了,我们会形成一种认识模式,这就是所谓的 泛化模型 ,那么在以后我们碰到新的鸟的时候,我们就会自动对其进行归类。 父母给我们看的鸟,讲的故事就是 训练数据 ,而我们的人脑可以看做是 假设空间 ,即由输入到输出的映射所包含的模型的空间集合,人脑在理解的过程中会产生一个个的想法和不同的分类方法,这就是算法,而不同的理解,也就是不同的算法可能会对接受的信息,也就是鸟的记忆方式和分类方式产生影响,比如说我们刚见到鸟的时候会认为,带羽毛的就是鸟,带翅膀的就是鸟或者嘴巴尖尖的就是鸟,这就是提取不同特征的过程,而输入数据的表现方式也就是我们采用不同的方法对数据进行 特征提取 ,建立 特征空间 。在输出结果之后,我们还需要对结果进行一个评价,看看我们认识是对的还是错的,从而选择最好的学习模式,也就是利用 评价准则 选取 最优模型, 训练得到的最优模型就可以让我们认识更多的鸟了,那就是 测试数据 干的事了。 非监督学习 supervised learning 也叫做有无监督学习,其实都差不多, 无监督学习(unsupervised learning):设计 分类器 时候,用于处理未被 分类标记 的样本集 目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好的概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。 By 百度百科 对于非监督学习的理解,举个栗子。 这是在没有训练数据的情况下,我们对未知没有认识,而当我们遇到新鲜事物的时候,人脑会对这些事物的特征进行一个分析,并做一个记录,当我们遇到具有相同特征的大量相似事物的时候,我们就会产生一个这种事物的集合,也就是 聚类 了。当然,我们在进行一个非监督学习的时候,对聚类的结果并不会知道类的名称是什么,我们只是知道它们相似,而为什么相似,则是通过提取的 特征的相似度 进行判断的。 半监督学习 semi-supervised learning 半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,LU. 1. 单独使用有标记样本 ,我们能够生成有监督分类算法 2. 单独使用无标记样本 ,我们能够生成无监督聚类算法 3. 两者都使用 ,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果. 一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果. http://blog.csdn.net/yhdzw/article/details/22733371 那么我们该如何理解呢,首先,我们认识了一部分已经确定是鸟的样本,并有了一部分分类,然后加入一个新的事物,这个事物是通过我们进行判断之后确定的,最接近鸟的特征的对象,然后通过新产生的训练集对剩余的对象集合进行训练,最后我们就将所有的鸟识别出来了。 半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习,也就是说刚开始可能我们只认识一只鸟,我们在这只鸟的基础上,去认识更多的鸟,最后得到一种最好的认识方法。 http://www.tuicool.com/articles/RbMVZz http://blog.csdn.net/yhdzw/article/details/22733371 因此,我们强调半监督学习 “是在不需要人工干预的条件下由算法自行完成对无标记数据的利用”。 直推学习transductive learning 在我们提到利用未标记数据进行学习的时候,通常是指半监督学习,而直推学习有时也会纳入半监督学习的范畴,不同的是,直推学习假设未标记的数据就是最终要用来测试的数据,学习的目的就是在这些数据上取得最佳泛化能力。相对应的,半监督学习在学习时并不知道最终的测试用例是什么。半监督学习解决的是一个更加泛化的问题,更一般的问题,有人用“开放的世界”来形容,而直推学习则解决的是一个更加特定的问题,用“封闭世界”来形容。当我们需要解决只有少量标注样本的时候,一种是通过归纳法来进行学习,另一种则是可以通过直推学习进行,而两者的不同在于,归纳法讲从个体到整体,在从整体到个体的方法,而直推学习则是从整体到个体,从一开始就全局考虑。 举个栗子,比如说,在图中给出了少量的标记点,如果判断其他未标注点的类别,并使用距离判断的话,红色标注点最近的类别是A,但我们从总体来看,其本身应该属于B类别。也就是说直推学习会利用图中所有的点的信息进行判断,其具体做法首先是对整体进行聚类,然后通过聚类中某些已标记点进行类别划分,再对点与所属类别的相似性,或者说距离进行分类。 这种方法相比较与监督学习,也就是归纳法的好处显而易见,但是我们发现,当有新的点的加入时,算法需要重新进行计算,加入的点越多,数据量越大,其计算复杂度和时间会越大。 也有人将其称之认为转导推理,详细内容见: http://www.cnblogs.com/siegfang/p/3424003.html 主动学习 active learning 有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。 这个筛选过程也就是主动学习主要研究的地方了,怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好。 主动学习的过程大致是这样的,有一个已经标好类标的数据集K(初始时可能为空),和还没有标记的数据集U,通过K集合的信息,找出一个U的子集C,提出标注请求,待专家将数据集C标注完成后加入到K集合中,进行下一次迭代。 按wiki上所描述的看,主动学习也属于半监督学习的范畴了,但实际上是不一样的,半监督学习和直推学习( transductive learning )以及主动学习,都属于利用未标记数据的学习技术,但基本思想还是有区别的。 如上所述,主动学习的“主动”,指的是主动提出标注请求,也就是说,还是需要一个外在的能够对其请求进行标注的实体(通常就是相关领域人员),即主动学习是交互进行的。 我们说,在我们对鸟类进行认识的过程中,我们会寻找一些对象去询问身边的人,这种类别是不是鸟啊,如果答案是肯定的,我们会对这个对象进行记录,然后再运用到以后的认识过程中。 强化学习 强化学习(reinforcement learning)是人工智能中策略学习的一种, 是一种重要的机器学习方法,又称再励学习、评价学习. 是从动物学习、参数扰动自适应控制等理论发展而来. 强化学习一词来自于行为心理学,这一理论把行为学习看成是反复试验的过程,从而把动态环境状态映射成相应的动作。它通过不断尝试错误,从环境中得到奖惩的方法来自主学习到不同状态下哪些动作具有最大的价值,从而发现或逼近能够得到最大奖励的策略。它类似于传统经验中的“吃一堑长一智”。 原理与模型 考虑建造一个可学习的机器人,该机器人(或agent)有一些传感器可以观察其环境的状态(state)并能做出一组动作(action)来适应这些状态。比如:一个移动的机器人有摄像头等传感器来感知状态,并可以做前进,后退等动作。学习的任务是获得一个控制策略(policy),以选择能达到的目的的行为。 强化学习基本原理也是基于上面的思想: 如果 Agent 的某个行为策略导致环境正的奖赏(强化信号),那么 Agent 以后产生这个行为策略的趋势便会加强。Agent 的目标可被定义为一个奖赏或回报函数(reward),它对 Agent 从不同状态中选取的不同动作赋予一个数字值,即立即支付(immediate payoff)。比如机器人寻找箱子中的回报函数:对能找到的状态-动作赋予正回报,对其他状态动作赋予零或负回报。机器人的任务执行一系列动作,观察结果,再学习控制策略,我们希望的控制策略是在任何初始离散状态中选择动作,使 Agent 随时间累积中发现最优策略以使期望的折扣奖赏(回报)和最大。 如图描述:Agent选择一个动作(action)用于环境,环境(Enviironment)接受该动作后状态(state)发生变化,同时产生一个强化信号(奖赏reward)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。 http://www.ibm.com/developerworks/cn/java/j-lo-robocode2/
个人分类: 机器学习|3516 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 19:11

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部