0
点赞
收藏
分享

微信扫一扫

智能车载环境中的非流利对话数据生成框架

DRIVE:面向智能车载环境的非流利对话数据生成框架

摘要

随着自动驾驶汽车和智能助手的广泛普及,车载对话人工智能变得日益重要。然而,现有数据集未能捕捉真实驾驶员与AI对话中特有的自发非流利特征,如犹豫、错误起始、重复和自我修正。为解决这一问题,本文提出了DiscoDrive——一个包含3500个多轮对话的合成语料库,覆盖七个汽车领域,采用两阶段提示驱动流程生成,在合成过程中动态整合非流利特征。

技术贡献

研究表明,DiscoDrive既可作为训练资源使DialoGPT-Medium和T5-Base模型在MultiWOZ 2.2和模式引导对话(SGD)相关测试集上达到或超越KVRET训练模型的性能(BLEU-4提升0.26至0.61;METEOR +2.10;ROUGE-L +3.48;BERTScore F1提升1.35至3.48),也可作为低资源场景下的数据增强资源,当与10%的KVRET数据结合时,能带来额外增益:BLEU-4 +0.38、METEOR +1.95、ROUGE-L +2.87和BERTScore F1 +4.00。

人工评估

人工评估进一步证实,从DiscoDrive采样的对话在自然度(3.8 vs 3.6)和连贯性(4.1 vs 4.0)方面评分高于KVRET人工收集的对话,且在不影响清晰度的前提下,比领先的事后处理方法(如LARD)更具上下文适应性。

结论

举报

相关推荐

0 条评论