DS-TOD:任务型对话的多领域问题

DS-TOD:任务型对话的多领域问题
最新回答
不归鸟

2022-06-30 04:02:33

DS-TOD是一种面向任务对话(TOD)的领域专门化框架,旨在通过提取特定领域术语并构建领域适配的预训练语料库,提升模型在多领域TOD任务中的性能。以下是其核心内容总结:

核心贡献
  1. 领域术语提取与语料库构建

    自动提取显著领域术语(如“航班号”“出租车预订”),构建两个领域专用语料库:

    DomainCC:基于掩膜语言建模(MLM)的领域特定文本数据。

    DomainREDDIT:从Reddit中筛选的领域相关对话数据,用于回复选择(RS)任务。

  2. 多目标预训练策略

    掩膜语言建模(MLM):在DomainCC上训练,增强领域内语言理解。

    回复选择(RS):通过两种目标适配对话结构:

    RS类:二分类判断回复是否匹配上下文。

    RS对比度:基于噪声对比估计(NCE)的损失函数,区分正负回复对,提升互信息估计能力。

  3. 基于适配器的模块化域专门化

    适配器层:在Transformer模型中插入轻量级前馈网络层,仅更新适配器参数,保留预训练模型知识。

    多领域适配策略

    顺序堆叠:按领域顺序叠加适配器,逐步适配多领域。

    适配器融合:加权平均各适配器输出,权重通过微调学习。

模型架构与训练流程
  1. 步骤

    术语提取:从领域对话中识别关键术语(如“酒店预订”“支付方式”)。

    数据获取:利用术语过滤大型语料库(如Reddit),生成DomainCC和DomainREDDIT。

    预训练:在领域数据上微调PLM(如BERT),注入领域知识。

    下游任务适配:通过适配器模块微调,应用于对话状态跟踪(DST)和回复检索(RR)。

  2. 适配器结构

    每个Transformer层插入适配器层,包含向下投影(压缩表示)、非线性激活(ReLU)和向上投影(恢复维度)。

    参数效率高:仅需调整适配器参数(占比约1%-10%),计算量远低于完全微调。

实验与结果
  1. 数据集

    DomainCC/DomainREDDIT:自建领域语料库,覆盖航班、酒店、餐饮等场景。

    MultiWOZ2.1:标准多领域TOD数据集,包含5个领域(酒店、餐厅、景点、出租车、火车)。

  2. 基线模型

    BERT:通用预训练语言模型。

    TOD-BERT:在对话数据上预训练的模型。

  3. 关键结果

    DST任务:DS-TOD在MultiWOZ上联合准确率提升2.3%(绝对值),显著优于基线。

    RR任务:回复检索的Recall@1指标提升3.1%,尤其在低资源领域效果显著。

    适配器效率:堆叠或融合适配器的性能与多领域预训练相当,但计算量减少60%。

优势与创新
  • 领域知识注入:通过术语提取和领域语料库构建,解决通用预训练模型在多领域场景下的知识缺失问题。
  • 轻量化适配:适配器模块无需调整预训练参数,避免灾难性遗忘,适合动态扩展新领域。
  • 多目标协同:结合MLM和RS目标,同时优化语言理解和对话结构建模,提升任务性能。
应用场景
  • 跨领域对话系统:如智能客服需同时处理订单查询、退换货、技术支持等多领域需求。
  • 低资源领域适配:通过少量领域数据快速构建专用模型,降低数据标注成本。
  • 模块化系统扩展:新增领域时仅需训练适配器,无需重新预训练整个模型。
未来方向
  • 联合领域与语言专业化:探索多语言场景下的领域适配方法。
  • 动态领域适配:研究实时更新适配器以适应领域分布变化的技术。

DS-TOD通过领域术语驱动的预训练和轻量化适配器设计,为多领域TOD任务提供了高效、灵活的解决方案,其开源代码和语料库已公开,可供进一步研究。