NoDesk AI

GOPO: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

GOPO: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

论文:GOPO: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

作者:Jingyi Xu*, Xingyu Ren*, Zhoupeng Shou, Yumeng Zhang, Zhiqiang You† (Corresponding author)


摘要

GOPO(Goal-Oriented Preference Optimization)是一种面向任务型对话系统的分层强化学习框架,旨在解决当前大语言模型在电商客服、企业服务等复杂业务场景中的“高语言能力、低业务转化”问题。论文提出“双 Agent 解耦架构”,将策略规划与回复生成拆分为 Expert Agent 与 Customer Service Agent 两部分:前者负责长期目标导向的策略决策,后者负责在约束条件下生成合规、高质量回复。

同时,论文引入了新的序列级业务指标 TSE(Task-focused Sequential Engagement),用于衡量多轮对话中的真实任务完成效率。实验结果表明,在多个公开数据集与真实电商客服数据集上,GOPO 在业务转化、对话奖励、长期任务完成率等指标上均优于 PPO、Memento 以及多种超大模型。

为什么传统对话模型“不够懂业务”

近年来,大语言模型已经能够生成流畅自然的对话,但在真实商业场景中,仅有“会聊天”远远不够。

在电商客服、导购、售后等任务型对话中,企业更关注的是:

  • 用户是否完成下单

  • 客诉是否真正解决

  • 服务是否符合 SOP

  • 对话是否能持续推动业务目标

现有训练方式(如 SFT、RLHF、PPO)大多仍围绕语言偏好与文本质量优化,很难真正对齐企业 KPI。

GOPO:把“策略”和“回复”拆开

GOPO 的核心思想,是把一个客服 AI 拆成两个协同工作的 Agent:

1. Expert Agent(策略专家)

负责:

  1. 分析用户状态

  2. 判断用户情绪与意图

  3. 规划当前对话策略

  4. 组合业务技能(Skill)

例如:

  1. 是否应该推荐商品

  2. 是否需要安抚情绪

  3. 是否进入促单阶段

  4. 是否触发售后 SOP

2. Customer Service Agent(客服执行 Agent)

负责:

  1. 根据 Expert Agent 给出的策略

  2. 在业务约束下

  3. 生成最终回复内容

这种结构首次实现了:

“战略决策” 与 “语言生成” 的彻底解耦。

从而显著提升复杂多轮对话中的长期任务完成能力。

论文提出了新的业务导向指标:TSE(Task-focused Sequential Engagement)

它不再只评估:

  1. 回复是否流畅

  2. BLEU 是否高

而是重点评估:

  1. 是否完成任务

  2. 是否更快推进转化

  3. 是否在更少轮次内解决问题

这使模型优化首次真正贴近真实商业价值。

实验结果

在多个公开与真实业务数据集上:

  1. GOPO 相比 PPO 提升最高 7.7% 的 TSE

  2. 相比 Memento 提升最高 10.3%

  3. 14B 模型甚至超过 Qwen-235B 与 GPT-5.2

论文结果显示:

更好的业务导向训练方式,可以让中等规模模型超越超大模型。

这项工作的意义

GOPO 不只是一个新的训练方法。

它代表了一种新的 AI Agent 设计范式:

  1. 从“生成文本”

  2. 转向“完成目标”

未来,任务型 AI 不再只是聊天工具,而会成为真正能够理解业务、执行策略、推动转化的智能协作系统。

局限与后续方向

论文也承认,GOPO 使用的是一个中等规模、领域化的技能池,这在覆盖度和部署复杂度之间做了折中。未来可以继续探索自动策略发现、动态技能池扩展,以及更细粒度的多轮信用分配。

总体来看,GOPO 把任务型对话从“偏好模仿”推进到“目标驱动优化”:模型不只是生成更像人类偏好的回答,而是学习在长期会话中持续接近业务目标。


原文 PDF:阅读原文