0%

Pretraining Methods for Dialog Context Representation Learning

2020.11.2:暂时记那么多,以后如果有用到,再继续看这篇论文。

预训练目标

本节提出四种无监督预训练目标,其中包括两种可以捕获更好对话上下文表征的新方法。四种训练目标分别为下条语句检索(Next-Utterance Retrieval,NUR)、下条语句生成(Next-Utterance Generation,NUG)、掩码语句检索(Masked-Utterance Retrieval,MUR)以及语句不一致识别(Inconsistency Identification,InI),其中 MUR 以及 InI 为新提出的方法。

本文定义:

  1. 健壮(strong)表征:在整个对话历史上捕获语篇层面(discourse-level)的信息,在语句中捕获语句层面(utterance-level)的信息。
  2. 通用(general)表征:在多种下游任务中都能表现出更好的性能。
  3. 任意 T 轮的对话片段为:\(c = [u_1, \cdots, u_T]\)
  4. 可观测对话回复集合为:\(R = {r_1, \cdots, r_M}\)

Next-Utterance Retrieval

给定一个对话上下文,NUR 的目标是选择 \(k\) 个候选回复中正确的下一条语句。NUR 可以被看作类似于语言建模,只不过分割的原子单位是语句而不是单词。

有点类似于计算余弦相似度,然后取交叉熵,具体的算法略。详见原论文。

Next-Utterance Generation

NUG 基于过去的对话历史生成下一条语句。seq2seq 模型被用于预训练,并被证明可以学到对下游任务有用的表征。

在训练时使用了层级的 encoder-decoder。尽管在预训练时使用了 decoder,但是在下游任务中只使用了层级上下文 encoder。

公式略。详见原论文。

Masked-Utterance Retrieval

与 NUR 类似,

就像之前说的,NUR 可以被视作语言建模,那么 MUR 可以被视作 BERT 提出的 MLM。区别在于被掩盖的原子单位是语句而不是单词。

意义:MUR 类似于 MLM,这会迫使模型让每个输入符号保持分布式上下文表征。通过掩盖整条语句,而不是输入符号,可以使得 MUR 学会为每条语句产生健壮的表征。

Inconsistency Identification

InI 的任务是在对话历史中找到不一致的语句。具体来说,给定一段对话上下文,然后随机地替换其中的一条语句,与 MUR 类似,InI 需要找到不一致的语句。

InI 的流程为:给定替换语句的索引 \(t\),InI 的目标是训练一个可以识别出该位置 \(t\) 的模型。

意义:明确地为对话的连贯性进行建模,这既可以促进每个独立语句的局部表征,又可以助长对话上下文的全局表征。