论文地址,发表于 2017 年。 这篇论文发布了 wikisql 数据集,同时提出了 seq2sql 任务。
论文概要
本文主要做出两项贡献:1)提出 Seq2SQL,将自然语言问题翻译为其对应的 SQL queries。2)发布 WikiSQL 语料库,其包含 80654 个人工标注的自然语言问题实例, SQL queries 以及从 24241 张 HTML 网页中提取的 SQL 表(网页来自 Wikipedia)。WikiSQL 比以前提供给 logical forms 和自然语句的语义分析数据集大一个数量级。发布 WikiSQL 的同时,我们还发布了一个此数据库的查询引擎(query execution engine)
本论文将自然语言转为 SQL,关系型数据库。而知识图谱是非关系型数据库存储的。
2 Model
我们的基准模型是 Dong & Lapata(2016) 做的 seq2seq + attention 的模型,它在未使用人工语法的语义解析数据集上实现了最高的性能。但是这个 seq2seq 模型的 softmax 的输出空间对于这个任务太大了。(博主注:生成 sql 语句时,并不需要在整个字典中找。sql 语句在某些地方是固定的。比如 select balabala from balabala,格式都是固定的,比如 select,count 等)因此我们可以将生成序列的输出空间限制为 table schema, question utterance, and SQL key words的并集。最终模型类似于加入了 augmented inputs 的 pointer network。我们 1. 首先描述 augmented pointer network model; 2. 其次说明我们定义 seq2sql 的局限性,特别是在生成无序查询条件方面。
augmented pointer network model
seq2sql
博主注
论文提出了 seq2sql 模型,为后面的工作铺垫了基础。基线模型是 Dong 2016 年提出的 seq2seq + attention 模型,seq2sql 为第二个模型。