引言
机器学习在对话式代理(conversational agent)上已经取得了巨大的进展,尤其是采用了深度学习之后。然而大多数工作都遭受着缺乏数据的困境,因为为代理(复杂到能够完成有意义对话的代理)设计一个样本有效的学习算法是非常有挑战的。在其他的简化版本之中,这一挑战导致了只能将代理之间的交互视为单个(多个代理交互更难)代理的学习问题。 本项工作中,我们将对话交互建模为随机博弈的形式,并训练两个交互式代理,每一个代理都拥有不同的角色,它们能够通过自然语言与对方交互。我们首先对每个代理训练了 NLU 和 NLG 神经网络,然后使用 multi-agent 强化学习技术,即 Win or Lose Fast Policy Hill Climbing (WoLF-PHC) 算法。以在高度的不确定(源于每个代理的统计 NLU 和 NLG)以及另一个代理的不稳定行为(因为另一个代理同时在学习)面前学习到最优对话策略。虽然不能完全减少训练 NLU 和 NLG 组件所需的种子数据,但 multi-agent 的设置具有增强它们的效果,允许我们生成原始数据中不存在的对话和行为。
系统概述
图一显示我们系统的架构以及信息流,虽然我们的系统操作众所周知的 DSTC-2 数据,它关注的是剑桥餐厅的信息,但是我们的 multi-agent 系统支持任何 slot-filling/information-seeking 的领域。NLU 和 NLG 组件可以线下训练,将在以下章节描述,不过 dialogu policy 可以在代理交互时进行线上训练。鉴于我们的 NLU 是基于模型的,而不是基于检索或者模版,所以对话的质量令人兴奋。