0%

任务型对话系统论文调研:数据集与DSTC

名称 数据集地址 论文笔记 语言
MultiWOZ2.0 2.1 2.2 2.3 github EN
SGD dataset and baseline DSTC8 github 笔记 EN
RiSAWOZ github CN
STAR github EN
JDDC CN
TreeDST github EN

DSTC

对话状态追踪挑战(Dialog State Tracking Challenge,DSTC)是一系列正在进行的挑战任务,主要面向研究社区。每个任务都会发布一个带有对话状态信息标签的对话数据。该挑战在于创建一个能够为新对话预测对话状态的“追踪器”。在每个挑战中,使用留存对话数据(held-out dialog data)评估追踪器。[1]

TODS 使用自然语言帮助用户实现目标。随着交互进行,对话管理器(dialogue manager)在一个被称为对话状态追踪(Dialog State Tracking,DST)的步骤中维护一个对话的状态表征。例如,在餐厅预订领域,用户所需的预定时间、菜系、人数等。对话状态追踪是至关重要的,这是因为系统依赖预测出的对话状态,以此挑选一个动作,例如提供餐厅的详细信息、预定桌位等。

DSTC1-5

DSTC1:ASR 和 SLU 的误差经常出现,并且会导致系统误解用户的需求。虽然已经出现了大量统计学方式建模 DST,但是很难直接比较它们。这是因为过去的研究使用不同的领域和不同的系统组件(ASR,SLU,dialog control etc)。此外,也没有一个协议规定如何评估 DST。为此提出了 DSTC,其首次提供了这样一个平台,包括一个数据集和统一的评价指标。

DSTC2/3:DSTC2 和 DSTC3 是同时提出的挑战,前者扩展了 DSTC1,后者跟关注的是如何将一个 DST 迁移到其他领域(服务)。此外,DSTC2 还提供了一个研究集成学习(ensemble learning)的机会,即合成许多追踪器的输出以此提供所有追踪器的性能,他们主要考虑了两种集成学习形式:score averaging 和 stacking。以下分别介绍 DSTC2 和 DSTC3。

为了提供一个评估不同 DST 方式的平台,DSTC2 继续 DSTC1 的传统,不同的是:

  1. 引入了新的领域(餐厅查询)。
  2. 允许改变用户目标。在第一次挑战中,用户被假定总是想要一个特定的公交车行程。在本次挑战中,用户目标可以被改变。例如在对话开始,他们也许想要中式餐厅,但是最后改成了意大利菜。
  3. 一个更丰富的对话状态。不仅包括用户目标中的槽位/槽值属性,还包括查询方法和系统通知。

DSTC3 的主要特性是研究如何处理新槽位和新槽值的问题。例如,DSTC3 的训练数据只覆盖餐厅,但是测试集还包括了酒吧和咖啡馆。此外,测试集中还包括不在数据集中的槽位,例如咖啡馆是否有网络或酒吧是否有电视。

DSTC4:人人对话的旅游信息数据集(TourSG corpus),期望这些关于人类对话有助于开发一个更类人的系统。除了主要任务外,DSTC4 还提供了一系列试点任务(pilot tasks),用于评估开发端到端对话系统所需的各个核心组件。具体来说,四个组件指的是:Spoken Language Understanding (SLU), Speech Act Prediction (SAP), Spoken Language Generation (SLG), and End-to-end system (EES)。有一个团队参加了 SLU 试点任务。

DSTC5:继续评估基于人人对话的 DST 任务,不同于 DSTC4,这次挑战关注跨语言 DST。训练集使用英文,验证集和测试集均是中文。除主要任务之外,DSTC5 也提供了试点任务(pilot tracks),并收到了来自 4 组的 16 条结果,基于 SLU 和 SLG 两个试点任务。

DSTC6

鉴于 DSTC 的前五个版本取得了显著的成功,并且理解了对话现象的复杂性和研究界的兴趣点,DSTC 被重新命名为“对话系统技术挑战”(Dialog System Technology Challenges)。在第六次 DSTC 中,挑战被分为三个赛道(tracks):1)End-to-End Goal Oriented Dialog Learning;2)End-to-End Conversation Modeling;3)Dialogue Breakdown Detection。

End-to-End Goal Oriented Dialog Learning 面向的是任务型对话,其主要关注的是 End-to-End dialog learning。

DSTC7

DSTC7 也分为三个赛道:1)Sentence Selection;2)Sentence Generation;3)Audio Visual Scene-aware dialog (AVSD)。

DSTC8

DSTC8 分为四个赛道:1)Multi-domain Task Completion;2)NOESIS II: Predicting Responses, Identifying Success, and Managing Complexity in Task-Oriented Dialogue;3)Audio Visual Scene-aware Dialog;4)Schema-Guided Dialogue State Tracking。

Schema-Guided Dialogue State Tracking 提出了一种能够迁移到新领域的范式,发布了 SGD 数据集。

DSTC10

DSTC10

WOZ

MultiWOZ

对话系统正在解决越来越复杂的任务,因此需要能够扩展到多领域以及语义丰富的对话。(Ramadan, Budzianowski, and Gašić 2018) 提出了一个新的 DST 方式,它能够全面地利用对话语句与本体项之间的语义,使信息在领域之间共享。为了评估这一方式,他们收集了一个多领域对话数据集 New WOZ,又名 MultiWOZ 1.0。据我所知,它是任务型对话领域首个多领域数据集,并且比目前所有可获取语料的规模都要大。

MultiWOZ 2.0 (Budzianowski et al. 2018) 在不久之后由剑桥大学发布,在论文中,他们没有说明该数据集与 New WOZ 有什么关系,也没有对比二者的差别,甚至没有引用 New WOZ 的论文???这两篇是同一个机构发布的,说实话没看懂什么操作。

该数据集此后的版本大都围绕着标签纠正这一方面,部分版本还引入了一些额外特性。

亚马逊和谷歌团队发布了更干净的 MultiWOZ 2.1 (Eric et al. 2019) 数据集,其中 1)修正了大量噪音(五种错误类型);2)修正了拼写错误并规范化了实体名称;3)将 MultiWOZ 2.0 另一个变种(Convlab)引入的 user dialog action 融入 2.1;4)增加槽位描述。五种错误类型分别为:delayed markup、multi-annotation、mis-annotation、typo 和 forgotten value。最后,他们将 DST 模型划分为 fixed vocabulary 和 open vocabulary 两种。

谷歌团队在 2020 年又发布了改进的 MultiWOZ 2.2 (Zang et al. 2020),1)他们在 MultiWOZ2.1 上识别并修正了 17.3% 的对话状态标注错误(四种不同类型的槽值标注错误以及状态更新不一致)。2)他们使用任务导向对话模式(Rastogi et al. 2020)重新定义了本体,将槽位分为可分类以及不可分类两种类别,对于不可分类槽位不再提供候选值,例如酒店名称,火车出发时间。为了使得模型能够处理不可分类槽位,还引入跨度(span)标签,以往通常会使用字符串在用户语句中探测它的跨度。此外还补充了 “copy_from” 标注。3)补充了额外的标注:active intents 和 requested slots。4)比对了三个基线模型,分别为:TRADE、SGD-baseline 以及 DS-DST。

四种不同类型的标注错误包括:early markup、annotation from database、typo 和 implicit time processing。

对于第二点本体问题,他们发现在数据集中存在一系列错误。因此他们提倡本体的定义应该先于数据收集,这不仅给标注者一个指南,还防止了数据集和本体之间的不一致性。此外,他们还发现本体中存在一些逻辑表达式,例如“cheap|moderate”代表两个价位都可以接受。然而这些标注在数据集中占据不合适的比例(小于所有对话的 1%),他们暂时移除了这些标注,但是希望未来的研究可以更多地关注它们。由于槽值包含太多变体,而这些输入问题是不可避免。因此他们尝试不对语句修改以此保证对话的自然性,并且允许对话状态中可以存在大于一个槽值。同时对 JGA 的计算也做了调整,在计算不可分类槽位是否与真实值相同时,预测值只要与候选值中一个完全相同时即可被认为预测正确。例如候选值为 \(\{\text{18:00}, \text{6pm}\}\),预测值为 \(\text{6pm}\),那么此次预测可以被视为正确。

MultiWOZ 2.3

MultiWOZ 2.4

网络文献

参考文献

Budzianowski, Pawel, Tsung-Hsien Wen, Bo-Hsiang Tseng, Inigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gašić. 2018. “Multiwoz-a Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling.” arXiv Preprint arXiv:1810.00278.

Eric, Mihail, Rahul Goel, Shachi Paul, Adarsh Kumar, Abhishek Sethi, Peter Ku, Anuj Kumar Goyal, Sanchit Agarwal, Shuyang Gao, and Dilek Hakkani-Tur. 2019. “MultiWOZ 2.1: A Consolidated Multi-Domain Dialogue Dataset with State Corrections and State Tracking Baselines.” arXiv Preprint arXiv:1907.01669.

Ramadan, Osman, Pawel Budzianowski, and Milica Gašić. 2018. “Large-Scale Multi-Domain Belief Tracking with Knowledge Sharing.” arXiv Preprint arXiv:1807.06517.

Rastogi, Abhinav, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, and Pranav Khaitan. 2020. “Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset.” Proceedings of the AAAI Conference on Artificial Intelligence 34 (05): 8689–96. https://doi.org/10.1609/aaai.v34i05.6394.

Zang, Xiaoxue, Abhinav Rastogi, Srinivas Sunkara, Raghav Gupta, Jianguo Zhang, and Jindong Chen. 2020. “Multiwoz 2.2: A Dialogue Dataset with Additional Annotation Corrections and State Tracking Baselines.” arXiv Preprint arXiv:2007.12720.