论文:GOPO: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization
作者:Jingyi Xu*, Xingyu Ren*, Zhoupeng Shou, Yumeng Zhang, Zhiqiang You† (Corresponding author)
摘要
GOPO(Goal-Oriented Preference Optimization)是一种面向任务型对话系统的分层强化学习框架,旨在解决当前大语言模型在电商客服、企业服务等复杂业务场景中的“高语言能力、低业务转化”问题。论文提出“双 Agent 解耦架构”,将策略规划与回复生成拆分为 Expert Agent 与 Customer Service Agent 两部分:前者负责长期目标导向的策略决策,后者负责在约束条件下生成合规、高质量回复。
同时,论文引入了新的序列级业务指标 TSE(Task-focused Sequential Engagement),用于衡量多轮对话中的真实任务完成效率。实验结果表明,在多个公开数据集与真实电商客服数据集上,GOPO 在业务转化、对话奖励、长期任务完成率等指标上均优于 PPO、Memento 以及多种超大模型。
为什么传统对话模型“不够懂业务”
近年来,大语言模型已经能够生成流畅自然的对话,但在真实商业场景中,仅有“会聊天”远远不够。
在电商客服、导购、售后等任务型对话中,企业更关注的是:
用户是否完成下单
客诉是否真正解决
服务是否符合 SOP
对话是否能持续推动业务目标
现有训练方式(如 SFT、RLHF、PPO)大多仍围绕语言偏好与文本质量优化,很难真正对齐企业 KPI。
GOPO:把“策略”和“回复”拆开
GOPO 的核心思想,是把一个客服 AI 拆成两个协同工作的 Agent:
1. Expert Agent(策略专家)
负责:
分析用户状态
判断用户情绪与意图
规划当前对话策略
组合业务技能(Skill)
例如:
是否应该推荐商品
是否需要安抚情绪
是否进入促单阶段
是否触发售后 SOP
2. Customer Service Agent(客服执行 Agent)
负责:
根据 Expert Agent 给出的策略
在业务约束下
生成最终回复内容
这种结构首次实现了:
“战略决策” 与 “语言生成” 的彻底解耦。
从而显著提升复杂多轮对话中的长期任务完成能力。
论文提出了新的业务导向指标:TSE(Task-focused Sequential Engagement)
它不再只评估:
回复是否流畅
BLEU 是否高
而是重点评估:
是否完成任务
是否更快推进转化
是否在更少轮次内解决问题
这使模型优化首次真正贴近真实商业价值。
实验结果
在多个公开与真实业务数据集上:
GOPO 相比 PPO 提升最高 7.7% 的 TSE
相比 Memento 提升最高 10.3%
14B 模型甚至超过 Qwen-235B 与 GPT-5.2
论文结果显示:
更好的业务导向训练方式,可以让中等规模模型超越超大模型。
这项工作的意义
GOPO 不只是一个新的训练方法。
它代表了一种新的 AI Agent 设计范式:
从“生成文本”
转向“完成目标”
未来,任务型 AI 不再只是聊天工具,而会成为真正能够理解业务、执行策略、推动转化的智能协作系统。
局限与后续方向
论文也承认,GOPO 使用的是一个中等规模、领域化的技能池,这在覆盖度和部署复杂度之间做了折中。未来可以继续探索自动策略发现、动态技能池扩展,以及更细粒度的多轮信用分配。
总体来看,GOPO 把任务型对话从“偏好模仿”推进到“目标驱动优化”:模型不只是生成更像人类偏好的回答,而是学习在长期会话中持续接近业务目标。
原文 PDF:阅读原文
