||| |
1.引言
2.先行后知的起步
3.先知后行的重铸
4.时序差分的再生
5.平行强化的体系
图2 平行强化学习体系的基本框架
6.实验结果与分析
学习是人类获取知识的通用且可靠的途径,这是人类文明有史以来的共识与实践。强化学习是机器具有机器智能的基础和关键手段,这是人工智能研究开创以来的认识与方向,在很大程度上,也是目前从事智能科学与技术研发工作者的共识。然而,要使强化学习真正成为机器学习的核心与智能机制和智能算法的基础与关键技术,从“不知对错、无论好坏”的先行后知与先知后行,到知行合一、虚实互动的混合平行智能,仍有许多理论和实践的任务必须完成。
首先,强化学习面临的许多经典问题依然存在,并没有被彻底有效地解决,如“维数灾难”、信用分配、信息不完备、非稳环境、状态行动Space Tiling、探索与利用的矛盾等,需要更加深入和系统地研究。其次,对于目前被广泛应用的各类深度强化学习方法来说,其引人注目的“超人”表现源自其解决特定问题的特点,但这也正是其难以被推广和普及的问题所在。必须考虑这些深度强化学习方法构建与应用过程中的形式化和软件定义问题,从而使过程的迁移及其自动化成为可能,完成从特别应用到相对通用的转化。最后,必须引入针对强化学习的软硬件平台,边缘与云端的支撑环境和相应的开源基础设施使强化学习真正应用到生产、商业、交通、健康、服务等领域,使强化学习、强化控制、强化管理、强化医疗、强化经济、强化法律、强化安保等成为一个有效且普适的智能工程项目。
为此,研究者需要从更高更广的角度重新审视强化学习的方法和技术,使其真正成为“人机结合、知行合一、虚实一体”的“合一体”的核心与关键,化智能代理(agents)为知识机器人,深入推动和完善智能社会的知识自动化进程。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-3-29 07:03
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社