摘要以及引言
现在的神经对话模型主要在词汇句法层面处理自然语言,而忽略了人与人对话中最关键的成分之一:其中的情感内容。我们在这一方向上迈出一小步,提出三种新型的方式,将情感(affective/emotional)融入 LSTM encoder-decoder 神经对话模型:1)情感词嵌入(affective word embeddings),这是认知上的设计;2)基于情感的优化函数(affect-based objective functions),增强了标准的交叉熵函数;3)用于解码的情感多样集束搜索(affectively diverse beam search)。实验表明这些技巧提高了 encoder-deocder 模型的开放域对话造诣,并且使得它能够产生富含情绪的回复,这些回复更有趣且更自然。摘要
人机对话系统已经有了很广泛的应用,从酒店预订到情绪化虚拟助手。在基于神经网络的对话系统中,离散的单词被映射为真实值的向量,这被称为嵌入,它们捕获到了单词的抽象意义;然后基于 LSTM 的 encoder-deocder 框架根据一条或者一系列先前的语句产生回复。编码解码方向上最近的进展已经表明,它在面向任务的对话系统和开放域回复生成上都是有效的。对话系统的一般做法
虽然现在大多数的神经对话模型可以在句法上生成格式良好的回复,但是他们脱离上下文、简短、枯燥且含糊。最近解决这些问题的一些贡献包括:diverse decoding(Li, Monroe, and Jurafsky 2016; ...),diversity-promoting objective functions(Li et al. 2016a),adversarial learning(...),latent variable modeling for diversity(...),human-in-the-loop reinforcement learning(...),online active learning(...),latent intention modeling(...),content-introduce approaches(...)。虽然这些进展有希望解决以上问题,但是我们仍旧离我们的目标很远——建造一个自动化神经助手,可以始终实现有趣的类人对话。近年解决生成语句单一的做法
现存开放域神经对话模型的其中一个缺点是对自然语言情感建模的缺乏。在大型的对话数据集上训练时,这些模型没有捕捉到人与人交互时的情绪状态,它们通常通过单词、短语与或者情绪的选择从而表现出来。例如 seq2seq 模型中的 attention 机制可以学习得到句法级的对齐。类似地,像 Word2Vec 的词嵌入通过上下文可以学习到词向量,并且可以永久地保存低级的语义。然而,现存模型无法清楚地捕捉到情绪方面的状态。现存模型的缺陷
我们的目标是在开放域神经对话模型中,通过情感智能增强它们以此缓和此类问题。我们将以三种方式实现:
- 我们使用认知工程化的词汇级情感词典,将单词嵌入到三维情感空间中(...),其中情感相似的结构彼此接近。通过这种方式,随后的神经模型可以感知到单词的情感特征;
- 我们提出使用情感目标,增强标准的交叉熵损失函数,因此我们的模型将会被明确地“指导”从而产生更多的情感语句;
- 我们将情感的多样性注入进生成的回复中,回复将通过情感多样集束搜索(affectively diverse beam search)算法的解码器生成,因此我们的模型能够在解码期间有效地搜索到带有情感的回复。
相关工作
由于情感认知虚拟助手能够和人类产生情感上的关系,它已经引起了学术界以及工业界的兴趣(...)。基于文本且带有情感的对话生成系统也是一个活跃的研究领域。过去的研究大多数关注的是开发基于手写模版的语音和基于文本的特征,然后利用这两点将情感融入基于检索或基于槽位的口语对话系统(SDS)中。
除却它们,与我们的工作最为相关的是以下两项研究:
- Affect Language Model:
- Emotional Chatting Machine:
提出的情感方法
本节提出情感化的神经对话生成,它使用情感认知增强了传统的对话模型。
图 1 描述了模型的总体结构。我们利用一个认知工程词典(affectively engineered dictionary),在此基础上提出了三种情感对话生成策略,即情感词嵌入(affective word embeddings)、情感训练目标(affective training objectives)以及情感多样集束搜索(affectively diverse beam search)。
Affective Word Embeddings
正如前所述,传统的词嵌入利用共现统计的方式训练,无法捕获情感层面的状态。我们提出使用一个三维的情感空间来增强传统的词嵌入,即使用一个外部的认知工程情感词典(cognitively-engineered affective dictionary)(Warriner, Kuperman, and Brysbaert 2013)。
我们使用的词表包含 13915 词元化(lemmatized,词形还原,指词的基本形态)的英语单词,其中每一个都被评为三个传统上被接受的、持续的、真实的情感维度:
Valence (V, the pleasantness of a stimulus), Arousal (A, the intensity of emotion produced, or the degree of arousal evoked, by a stimulus), and Dominance (D, the degree of power/control exerted by a stimulus)
社会学家假设 VAD 空间(也被称为 EPA 空间,即 Evaluation, Potency, and Activity,分别与 VAD 一一对应且为一个意思)构建了语言概念(跨语言且跨文化)上的语义关系;它捕捉了近 70% 的概念情感意义的差异。VAD 评分以前被用于情绪分析和移情辅导,以及其他情感计算应用。据我们所知,我们是首次将 VAD 引入对话生成领域的。
这是不是可以认为移情计算是情感计算的一种?
接下来介绍了 VAD。
Affective Loss Functions
损失函数的思想体系与 Li et al. (2016a) 类似,但是我们关注情感层面。几个启发式的方法如下所示: