名称 | 数据集地址 | 论文笔记 | 语言 |
---|---|---|---|
MultiWOZ2.0 2.1 2.2 2.3 | github | EN | |
SGD dataset and baseline DSTC8 | github | 笔记 | EN |
RiSAWOZ | github | CN | |
STAR | github | EN | |
JDDC | CN | ||
TreeDST | github | EN |
DSTC
对话状态追踪挑战(Dialog State Tracking Challenge,DSTC)是一系列正在进行的挑战任务,主要面向研究社区。每个任务都会发布一个带有对话状态信息标签的对话数据。该挑战在于创建一个能够为新对话预测对话状态的“追踪器”。在每个挑战中,使用留存对话数据(held-out dialog data)评估追踪器。[1]
TODS 使用自然语言帮助用户实现目标。随着交互进行,对话管理器(dialogue manager)在一个被称为对话状态追踪(Dialog State Tracking,DST)的步骤中维护一个对话的状态表征。例如,在餐厅预订领域,用户所需的预定时间、菜系、人数等。对话状态追踪是至关重要的,这是因为系统依赖预测出的对话状态,以此挑选一个动作,例如提供餐厅的详细信息、预定桌位等。
DSTC1-5
DSTC1:ASR 和 SLU 的误差经常出现,并且会导致系统误解用户的需求。虽然已经出现了大量统计学方式建模 DST,但是很难直接比较它们。这是因为过去的研究使用不同的领域和不同的系统组件(ASR,SLU,dialog control etc)。此外,也没有一个协议规定如何评估 DST。为此提出了 DSTC,其首次提供了这样一个平台,包括一个数据集和统一的评价指标。
DSTC2/3:DSTC2 和 DSTC3 是同时提出的挑战,前者扩展了 DSTC1,后者跟关注的是如何将一个 DST 迁移到其他领域(服务)。此外,DSTC2 还提供了一个研究集成学习(ensemble learning)的机会,即合成许多追踪器的输出以此提供所有追踪器的性能,他们主要考虑了两种集成学习形式:score averaging 和 stacking。以下分别介绍 DSTC2 和 DSTC3。
为了提供一个评估不同 DST 方式的平台,DSTC2 继续 DSTC1 的传统,不同的是:
- 引入了新的领域(餐厅查询)。
- 允许改变用户目标。在第一次挑战中,用户被假定总是想要一个特定的公交车行程。在本次挑战中,用户目标可以被改变。例如在对话开始,他们也许想要中式餐厅,但是最后改成了意大利菜。
- 一个更丰富的对话状态。不仅包括用户目标中的槽位/槽值属性,还包括查询方法和系统通知。
DSTC3 的主要特性是研究如何处理新槽位和新槽值的问题。例如,DSTC3 的训练数据只覆盖餐厅,但是测试集还包括了酒吧和咖啡馆。此外,测试集中还包括不在数据集中的槽位,例如咖啡馆是否有网络或酒吧是否有电视。
DSTC4:人人对话的旅游信息数据集(TourSG corpus),期望这些关于人类对话有助于开发一个更类人的系统。除了主要任务外,DSTC4 还提供了一系列试点任务(pilot tasks),用于评估开发端到端对话系统所需的各个核心组件。具体来说,四个组件指的是:Spoken Language Understanding (SLU), Speech Act Prediction (SAP), Spoken Language Generation (SLG), and End-to-end system (EES)。有一个团队参加了 SLU 试点任务。
DSTC5:继续评估基于人人对话的 DST 任务,不同于 DSTC4,这次挑战关注跨语言 DST。训练集使用英文,验证集和测试集均是中文。除主要任务之外,DSTC5 也提供了试点任务(pilot tracks),并收到了来自 4 组的 16 条结果,基于 SLU 和 SLG 两个试点任务。
DSTC6
鉴于 DSTC 的前五个版本取得了显著的成功,并且理解了对话现象的复杂性和研究界的兴趣点,DSTC 被重新命名为“对话系统技术挑战”(Dialog System Technology Challenges)。在第六次 DSTC 中,挑战被分为三个赛道(tracks):1)End-to-End Goal Oriented Dialog Learning;2)End-to-End Conversation Modeling;3)Dialogue Breakdown Detection。
End-to-End Goal Oriented Dialog Learning 面向的是任务型对话,其主要关注的是 End-to-End dialog learning。
DSTC7
DSTC7 也分为三个赛道:1)Sentence Selection;2)Sentence Generation;3)Audio Visual Scene-aware dialog (AVSD)。
DSTC8
DSTC8 分为四个赛道:1)Multi-domain Task Completion;2)NOESIS II: Predicting Responses, Identifying Success, and Managing Complexity in Task-Oriented Dialogue;3)Audio Visual Scene-aware Dialog;4)Schema-Guided Dialogue State Tracking。
Schema-Guided Dialogue State Tracking 提出了一种能够迁移到新领域的范式,发布了 SGD 数据集。
DSTC10
WOZ
MultiWOZ
对话系统正在解决越来越复杂的任务,因此需要能够扩展到多领域以及语义丰富的对话。(Ramadan, Budzianowski, and Gašić 2018) 提出了一个新的 DST 方式,它能够全面地利用对话语句与本体项之间的语义,使信息在领域之间共享。为了评估这一方式,他们收集了一个多领域对话数据集 New WOZ,又名 MultiWOZ 1.0。据我所知,它是任务型对话领域首个多领域数据集,并且比目前所有可获取语料的规模都要大。
MultiWOZ 2.0 (Budzianowski et al. 2018) 在不久之后由剑桥大学发布,在论文中,他们没有说明该数据集与 New WOZ 有什么关系,也没有对比二者的差别,甚至没有引用 New WOZ 的论文???这两篇是同一个机构发布的,说实话没看懂什么操作。
该数据集此后的版本大都围绕着标签纠正这一方面,部分版本还引入了一些额外特性。
亚马逊和谷歌团队发布了更干净的 MultiWOZ 2.1 (Eric et al. 2019) 数据集,其中 1)修正了大量噪音(五种错误类型);2)修正了拼写错误并规范化了实体名称;3)将 MultiWOZ 2.0 另一个变种(Convlab)引入的 user dialog action 融入 2.1;4)增加槽位描述。五种错误类型分别为:delayed markup、multi-annotation、mis-annotation、typo 和 forgotten value。最后,他们将 DST 模型划分为 fixed vocabulary 和 open vocabulary 两种。
谷歌团队在 2020 年又发布了改进的 MultiWOZ 2.2 (Zang et al. 2020),1)他们在 MultiWOZ2.1 上识别并修正了 17.3% 的对话状态标注错误(四种不同类型的槽值标注错误以及状态更新不一致)。2)他们使用任务导向对话模式(Rastogi et al. 2020)重新定义了本体,将槽位分为可分类以及不可分类两种类别,对于不可分类槽位不再提供候选值,例如酒店名称,火车出发时间。为了使得模型能够处理不可分类槽位,还引入跨度(span)标签,以往通常会使用字符串在用户语句中探测它的跨度。此外还补充了 “copy_from” 标注。3)补充了额外的标注:active intents 和 requested slots。4)比对了三个基线模型,分别为:TRADE、SGD-baseline 以及 DS-DST。
四种不同类型的标注错误包括:early markup、annotation from database、typo 和 implicit time processing。
对于第二点本体问题,他们发现在数据集中存在一系列错误。因此他们提倡本体的定义应该先于数据收集,这不仅给标注者一个指南,还防止了数据集和本体之间的不一致性。此外,他们还发现本体中存在一些逻辑表达式,例如“cheap|moderate”代表两个价位都可以接受。然而这些标注在数据集中占据不合适的比例(小于所有对话的 1%),他们暂时移除了这些标注,但是希望未来的研究可以更多地关注它们。由于槽值包含太多变体,而这些输入问题是不可避免。因此他们尝试不对语句修改以此保证对话的自然性,并且允许对话状态中可以存在大于一个槽值。同时对 JGA 的计算也做了调整,在计算不可分类槽位是否与真实值相同时,预测值只要与候选值中一个完全相同时即可被认为预测正确。例如候选值为 \(\{\text{18:00}, \text{6pm}\}\),预测值为 \(\text{6pm}\),那么此次预测可以被视为正确。
MultiWOZ 2.3
MultiWOZ 2.4
网络文献
- DSTC
- WOZ
- MultiWOZ
参考文献
Budzianowski, Pawel, Tsung-Hsien Wen, Bo-Hsiang Tseng, Inigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gašić. 2018. “Multiwoz-a Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling.” arXiv Preprint arXiv:1810.00278.
Eric, Mihail, Rahul Goel, Shachi Paul, Adarsh Kumar, Abhishek Sethi, Peter Ku, Anuj Kumar Goyal, Sanchit Agarwal, Shuyang Gao, and Dilek Hakkani-Tur. 2019. “MultiWOZ 2.1: A Consolidated Multi-Domain Dialogue Dataset with State Corrections and State Tracking Baselines.” arXiv Preprint arXiv:1907.01669.
Ramadan, Osman, Pawel Budzianowski, and Milica Gašić. 2018. “Large-Scale Multi-Domain Belief Tracking with Knowledge Sharing.” arXiv Preprint arXiv:1807.06517.
Rastogi, Abhinav, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, and Pranav Khaitan. 2020. “Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset.” Proceedings of the AAAI Conference on Artificial Intelligence 34 (05): 8689–96. https://doi.org/10.1609/aaai.v34i05.6394.
Zang, Xiaoxue, Abhinav Rastogi, Srinivas Sunkara, Raghav Gupta, Jianguo Zhang, and Jindong Chen. 2020. “Multiwoz 2.2: A Dialogue Dataset with Additional Annotation Corrections and State Tracking Baselines.” arXiv Preprint arXiv:2007.12720.