论文概要
论文地址,发表于 2017 年。
思想:将不同领域的数据集合并,以提高训练集大小。 语义分析被认为是将语言语句翻译为可执行的逻辑形式的技术。要做到普遍使用语义分析的一个基本阻碍是在新领域标注逻辑形式的代价太大。为了解决这一问题,先前工作的策略有从 denotations、paraphrases、m declarative sentences 训练。 本论文提出一个正交解:将来自不同域中的多个数据集的样本合并到一起,每个数据集对应一个单独的知识库(KB),并在所有示例上训练模型。这次方法由于观察到知识库在实体和属性上有所不同,但语言组合的结构在领域之间重复,所以由此启发而来。例如,语言中的“最大”对应于“argmax”,动词后跟一个名词通常表示连接操作。与仅在单个领域上训练的模型相比,跨域共享信息的模型可以提高泛化能力。 最近 Jia and Liang, 2016: Data recombination for neural semantic parsing 以及 Dong and Lapata, 2016: Language to logical form with neural attention 提出了用于语义分析的 seq2seq 模型。将语言和逻辑形式简单地表示为向量形式,这些神经网络模型大致上能促进信息共享。我们以他们的工作为基础,研究了在语言编码和逻辑形式解码过程中跨领域共享表示的模型(即研究语言和逻辑形式在不同领域如何表示,如医学和旅游业)。我们最终发现,通过向解码器提供领域的表征,我们可以在多个领域上训练单个模型,并且与在每个领域上分别训练的模型相比,大大提高了准确性。在 Overnight 数据集上提高了性能,并减少了网络参数。
设置
seq2seq + attention.
多个 KB 上的模型
本文,我们强调一项设置:我们访问来自不同领域的训练集 K,每个领域对应不同的 KB。所有领域的输入都是自然语句,标签都是逻辑形式(我们假定被标注逻辑形式可以被转换为单个形如 lambda-DCS 的形式语言)。虽然从单词到 KB 常量的映射在每个域都是特定的,但是我们期望语言所表达的意义可以跨域共享。下面开始描述模型架构。
One-to-one model
此模型类似于 Section 2 所描述的模型(Jia and Liang, 2016),如 Figure 2 所示。它由一个 encoder 和一个 decoder 组成,可以用于生成所有领域的输出。因此,模型所有参数由所有领域共享,并且模型从所有样本中训练。
Many-to-many model
One-to-many model
单个 encoder 共享,但是为每个领域设置一个独立的 decoder。共享的 encoder 捕获每个领域输入的英语单词序列的事实,特定领域的 decoder 学习来自正确领域下词表的输出标记(tokens)。
实验
- 数据集:Overnight
实现
复制了 Jia and Liang, 2016 的实验配置,使用相同的超参数。。。