引言
机器学习在对话式代理(conversational agent)上已经取得了巨大的进展,尤其是采用了深度学习之后。然而大多数工作都遭受着缺乏数据的困境,因为为代理(复杂到能够完成有意义对话的代理)设计一个样本有效的学习算法是非常有挑战的。在其他的简化版本之中,这一挑战导致了只能将代理之间的交互视为单个(多个代理交互更难)代理的学习问题。 本项工作中,我们将对话交互建模为随机博弈的形式,并训练两个交互式代理,每一个代理都拥有不同的角色,它们能够通过自然语言与对方交互。我们首先对每个代理训练了 NLU 和 NLG 神经网络,然后使用 multi-agent 强化学习技术,即 Win or Lose Fast Policy Hill Climbing (WoLF-PHC) 算法。以在高度的不确定(源于每个代理的统计 NLU 和 NLG)以及另一个代理的不稳定行为(因为另一个代理同时在学习)面前学习到最优对话策略。虽然不能完全减少训练 NLU 和 NLG 组件所需的种子数据,但 multi-agent 的设置具有增强它们的效果,允许我们生成原始数据中不存在的对话和行为。