引言

机器学习在对话式代理（conversational agent）上已经取得了巨大的进展，尤其是采用了深度学习之后。然而大多数工作都遭受着缺乏数据的困境，因为为代理（复杂到能够完成有意义对话的代理）设计一个样本有效的学习算法是非常有挑战的。在其他的简化版本之中，这一挑战导致了只能将代理之间的交互视为单个（多个代理交互更难）代理的学习问题。本项工作中，我们将对话交互建模为随机博弈的形式，并训练两个交互式代理，每一个代理都拥有不同的角色，它们能够通过自然语言与对方交互。我们首先对每个代理训练了 NLU 和 NLG 神经网络，然后使用 multi-agent 强化学习技术，即 Win or Lose Fast Policy Hill Climbing (WoLF-PHC) 算法。以在高度的不确定（源于每个代理的统计 NLU 和 NLG）以及另一个代理的不稳定行为（因为另一个代理同时在学习）面前学习到最优对话策略。虽然不能完全减少训练 NLU 和 NLG 组件所需的种子数据，但 multi-agent 的设置具有增强它们的效果，允许我们生成原始数据中不存在的对话和行为。

系统概述

图一显示我们系统的架构以及信息流，虽然我们的系统操作众所周知的 DSTC-2 数据，它关注的是剑桥餐厅的信息，但是我们的 multi-agent 系统支持任何 slot-filling/information-seeking 的领域。NLU 和 NLG 组件可以线下训练，将在以下章节描述，不过 dialogu policy 可以在代理交互时进行线上训练。鉴于我们的 NLU 是基于模型的，而不是基于检索或者模版，所以对话的质量令人兴奋。

博客

Collaborative Multi-Agent Dialogue Model Training Via Reinforcement

引言

系统概述

Language Understanding