||
对话策略学习(DPL)是任务型对话(TOD)系统的一个关键组成部分。其主要任务就是根据每一轮的对话状态去决定对话系统下一步的行动。强化学习(RL)广泛被用来优化这类对话策略。在学习过程中,使用者被当作环境,系统则作为个体。香港中文大学Wong Kam-Fai(黄锦辉)教授团队从RL的角度切入,对对话策略的近期进展与挑战进行综述。确切来说,文章鉴别了基于RL对话策略学习的问题并总结了相应的解决策略。此外,全面综述了把RL应用于DPL的文献,将最近提出的解决方法根据RL的五个基本要素进行了分类。相关成果已发表于MIR2023年第三期中,全文免费下载!
全文下载:
A Survey on Recent Advances and Challenges in Reinforcement Learning Methods for Task-oriented Dialogue Policy Learning
Wai-Chung Kwan, Hong-Ru Wang, Hui-Min Wang, Kam-Fai Wong
https://link.springer.com/article/10.1007/s11633-022-1347-y
https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1347-y
全文导读
任务型对话(TOD)系统旨在帮助用户解决从天气咨询到计划安排的一系列问题。完成任务的途径有二。其一是端到端途径:直接将当前对话内容与系统的自然语言反映相关联。此种方法多是采用序列到序列的模型,然后进行监督训练。第二种是模组途径:将系统分为四个相互依存的的组成部分:自然语言理解(NLU)、对话状态追踪(DST)、对话策略学习(DPL)和自然语言生成(NLG),如图1所示。
图1 任务型对话对话系统概览
两种方法都有各自的优劣。端到端途径更灵活且对数据注释的需求更少。但却需要大量数据,且其黑盒结构完全不进行说明与控制。相反,模组途径更易理解和实施。尽管整个系统很难进行整体优化,但大部分商业对话系统都更倾向于管道途径。本文的研究也是对模组途径进行综述并总结对话策略学习的当前进展。文章会简单介绍管道途径四个模块的不同功能,然后对对话策略学习模块进行进一步说明。
四个模块中,NLU旨在将输入句子的意图和槽位识别为第一个直接与用户交互的模块。然后,DST将先前提取出的所有意图和槽位作为一个内部对话状态来呈现。接着,DPL模块根据输入的状态采取行动,来满足用户需求。最后,NLG模块将行动转变为自然语言形式并输出。在管道途径中,DPL是联系DST模块和NLG模块的中间纽带,直接关系到对话系统的成败,故相当重要。
当前,强化学习(RL)算法的发展极大推动了DPL研究的发展。列文等人(Levin et al.)是第一个把DPL当作马尔可夫决策过程(MDP)问题处理的团队。他们列出了将DPL建模为一个MDP问题的复杂度,并证明了将RL算法用于优化对话策略的合理性。此后,大部分研究都开始研究将RL算法实际应用于对话系统时出现的技术问题,并提出解决方案。同时,还有一批研究者则在试图将监督学习(SL)技巧运用在DPL。他们的主要想法就是将对话策略学习当作一个多级分类问题,将行动和状态反应分别当作标签和输入来处理。但是,SL技术有一个臭名昭著并且代价高昂的缺陷,那就是它并不考虑当前决定对于未来的影响,故所作决定多为次优。
深度学习领域的突破,使得把神经网络同RL结合起来的深度强化学习(DRL)方法让很多顺序决策问题的学习策略获得成功。其中包括像雅达利开发的游戏、围棋游戏Go以及多种多样的机器人任务等模拟环境。因此,DRL在单域对话领域受到了许多关注,并取得了可喜成果。神经模型可以提取高水平对话状态和解码复杂较长的语句。这是早期的所面临的最大挑战。随着对DPL的研究兴趣逐渐转移到更复杂的多域数据集,许多RL算法开始面临可扩展性问题。
当前,已有不少关注如何让RL个体在多域对话场景中更适应以及表现更好的研究。但几乎没有对过往大量有关将强化学习(RL)应用于TOD系统中的DPL的文献综述。格拉斯尔(Grassl)研究过RL在四种对话系统中的使用情况,即社交聊天机器人(chatbots)、信息机器人(infobots)、任务型对话机器人和个人助理机器人。但是,其对于将RL应用于TOD系统的过程和挑战并未充分讨论。类似地,戴氏(Dai et al.)等人虽对对话管理的进展和挑战进行了综述,但由于其研究兴趣的涵盖面广,故其中涉及到有关DPL中RL方法的讨论相当有限。而且,RL对话系统在五个核心的RL要素,即环境、策略、状态、行动和奖励方面通常有不同的设置。以往研究并没有考虑到不同系统的不连续设置,因而对这些系统之间进行的比较并不公平。
本文将介绍以往研究中的独特贡献,并根据RL的五个要素将这些研究进行了分类。然后重点讨论当前将RL应用于DPL面临的三大主要挑战,即勘探效率、冷启动问题以及大状态-行动空间。目前大部分使用RL来优化DRP的研究都在尝试应对这些挑战。本文选择用于进行综述的文献详见附录。
本文其余部分安排如下。第2小节首先说明了有关DPL的问题定义并阐述了将RL用于训练TOD系统中的对话个体所面临的挑战。然后介绍了团队对近期DPL文献进行分类的方法。本文的方法灵感来源于对当前提出的不同解决办法的侧重点进行分类,可以归纳为,根据RL五个基本要素来分类。如此一来,显而易见就很容易找到不同方法之间的异同。而且,该分类方法有助于确定每一项研究中对于提升行动最具价值的核心组成部分。在第3到第7小节中,根据RL的五个元素的分类,本文对这五类研究中的最前沿技术分别进行了探讨。在第8小节中讨论了涉及RL的DPL研究现状。在第9小节中列出了将RL对话个体应用在现实生活场景中的挑战和三个极具意义的未来研究方向。最后第10小节中对此次的综述进行了总结。
全文下载:
A Survey on Recent Advances and Challenges in Reinforcement Learning Methods for Task-oriented Dialogue Policy Learning
Wai-Chung Kwan, Hong-Ru Wang, Hui-Min Wang, Kam-Fai Wong
https://link.springer.com/article/10.1007/s11633-022-1347-y
https://www.mi-research.net/en/article/doi/10.1007/s11633-022-1347-y
BibTex:
@Article{MIR-2022-05-140,
author = {Wai-Chung Kwan and Hong-Ru Wang and Hui-Min Wang and Kam-Fai Wong},
journal = {Machine Intelligence Research},
title = {A Survey on Recent Advances and Challenges in Reinforcement Learning Methods for Task-oriented Dialogue Policy Learning},
year = {2023},
volume = {20},
number = {3},
pages = {318-334},
doi = {10.1007/s11633-022-1347-y}
}
纸刊免费寄送
Machine Intelligence Research
MIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://www.wjx.cn/vm/eIyIAAI.aspx#
∨关于Machine Intelligence Research
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办、Springer全球发行,于2022年正式出版。期刊立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊现已被ESCI、EI、Scopus、DBLP等20余家国际数据库收录,是中国科技核心期刊,受到"卓越行动计划"支持,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值达8.4,在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%。
▼好文推荐▼
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2023-12-10 12:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社