GOPO: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

论文：GOPO: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

作者：Jingyi Xu*, Xingyu Ren*, Zhoupeng Shou, Yumeng Zhang, Zhiqiang You† (Corresponding author)

摘要

GOPO（Goal-Oriented Preference Optimization）是一种面向任务型对话系统的分层强化学习框架，旨在解决当前大语言模型在电商客服、企业服务等复杂业务场景中的“高语言能力、低业务转化”问题。论文提出“双 Agent 解耦架构”，将策略规划与回复生成拆分为 Expert Agent 与 Customer Service Agent 两部分：前者负责长期目标导向的策略决策，后者负责在约束条件下生成合规、高质量回复。

同时，论文引入了新的序列级业务指标 TSE（Task-focused Sequential Engagement），用于衡量多轮对话中的真实任务完成效率。实验结果表明，在多个公开数据集与真实电商客服数据集上，GOPO 在业务转化、对话奖励、长期任务完成率等指标上均优于 PPO、Memento 以及多种超大模型。

为什么传统对话模型“不够懂业务”

近年来，大语言模型已经能够生成流畅自然的对话，但在真实商业场景中，仅有“会聊天”远远不够。

在电商客服、导购、售后等任务型对话中，企业更关注的是：

用户是否完成下单
客诉是否真正解决
服务是否符合 SOP
对话是否能持续推动业务目标

现有训练方式（如 SFT、RLHF、PPO）大多仍围绕语言偏好与文本质量优化，很难真正对齐企业 KPI。

GOPO：把“策略”和“回复”拆开

GOPO 的核心思想，是把一个客服 AI 拆成两个协同工作的 Agent：

1. Expert Agent（策略专家）

负责：

分析用户状态
判断用户情绪与意图
规划当前对话策略
组合业务技能（Skill）

例如：

是否应该推荐商品
是否需要安抚情绪
是否进入促单阶段
是否触发售后 SOP

2. Customer Service Agent（客服执行 Agent）

负责：

根据 Expert Agent 给出的策略
在业务约束下
生成最终回复内容

这种结构首次实现了：

“战略决策” 与 “语言生成” 的彻底解耦。

从而显著提升复杂多轮对话中的长期任务完成能力。

论文提出了新的业务导向指标：TSE（Task-focused Sequential Engagement）

它不再只评估：

回复是否流畅
BLEU 是否高

而是重点评估：

是否完成任务
是否更快推进转化
是否在更少轮次内解决问题

这使模型优化首次真正贴近真实商业价值。

实验结果

在多个公开与真实业务数据集上：

GOPO 相比 PPO 提升最高 7.7% 的 TSE
相比 Memento 提升最高 10.3%
14B 模型甚至超过 Qwen-235B 与 GPT-5.2

论文结果显示：

更好的业务导向训练方式，可以让中等规模模型超越超大模型。

这项工作的意义

GOPO 不只是一个新的训练方法。

它代表了一种新的 AI Agent 设计范式：

从“生成文本”
转向“完成目标”

未来，任务型 AI 不再只是聊天工具，而会成为真正能够理解业务、执行策略、推动转化的智能协作系统。

局限与后续方向

论文也承认，GOPO 使用的是一个中等规模、领域化的技能池，这在覆盖度和部署复杂度之间做了折中。未来可以继续探索自动策略发现、动态技能池扩展，以及更细粒度的多轮信用分配。

总体来看，GOPO 把任务型对话从“偏好模仿”推进到“目标驱动优化”：模型不只是生成更像人类偏好的回答，而是学习在长期会话中持续接近业务目标。

原文 PDF：阅读原文