多轮对话（三）：Spoken Language Understanding 进展和前沿

最新推荐文章于 2025-01-01 23:28:11 发布

原创

最新推荐文章于 2025-01-01 23:28:11 发布 · 3.5k 阅读

标签

#深度学习 #人工智能 #自然语言处理

本文详细介绍了口语理解（SLU）的研究进展，包括意图检测和槽填充任务，探讨了单模型与联合模型、预训练范式的影响，并指出当前挑战如多意图理解、跨领域应用及低资源环境下的解决方案。此外，提到了预训练语言模型如BERT在提升SLU性能中的作用。

本篇博客基于哈工大发表在IJCAI上的论文：A Survey on Spoken Language Understanding - Recent Advances and New Frontiers。

论文链接
 github链接

口语理解（SLU）旨在提取用户查询的语义框架，是面向任务的对话系统的核心组件。本文包括：(1) 新的分类方法：我们为SLU领域提供了一个新的视角，包括单一模型与联合模型、联合模型中的隐式联合建模与显式联合建模、非预训练范式与预训练范式；(2) 新领域：复杂SLU中的一些新兴领域以及相应的挑战；(3) 丰富的开源资源：将相关论文、基线项目和排行榜收集整理在 Awesome-SLU-Survey 上。

一、Introduction

口语理解（SLU）是面向任务的对话系统的核心组件，旨在捕获用户查询的语义。它通常包含两个任务：意图检测和插槽填充。输入一句话，输出包括一个意图类标签和一个插槽标签序列。

Spoken Language Understanding 示例

意图检测可以定义为一个句子分类问题（CNN、RNN），槽填充可以作为一种序列标记任务（CRF、RNN、LSTM）。传统的方法将槽填充和意图检测视为两个独立的任务，忽略了两个任务之间的共享知识。从直观上看，意图检测和插槽填充并不是独立的，而是高度联系在一起的。为此，文献中的主要模型采用联合模型来利用两个任务之间的共享知识。

vanilla multi-task:
A joint model of intent determination and slot filling for spoken language understanding

slot-gated:
Slot-gated modeling for joint slot filling and intent prediction
A self-attentive model with gate mechanism for spoken language understanding

stack-propagation:
A stack-propagation framework with token-level intent detection for spoken language understanding

bi-directional interaction:
A novel bi-directional interrelated model for joint intent detection and slot filling
A co-interactive transformer for joint slot filling and intent detection

目前在ATIS上Intent Acc和Slot F1超过97%和98%，在SNIPS上超过97%和99%。但是，我们是否完美地完成了SLU任务呢？经过调查发现，目前的主流工作仍然是简单的设置：single domain和single turn，这还远远不能满足一些复杂应用的要求。