[LG]《SearchSelf-play:PushingtheFront - 科技资讯(ICX资讯网)

[LG]《Search Self-play: Pushing the Frontier of Agent Capability without Supervision》H Lu, Y Wen, P Cheng, R Ding... [Quark LLM Team, Alibaba Group] (2025)

搜索自弈：无监督推动AI代理能力前沿

在AI代理训练领域，数据稀缺一直是瓶颈。传统强化学习（RLVR）依赖海量人工标注的任务和答案，成本高昂且难以扩展，尤其在多步决策的代理场景中。近期任务合成方法虽有尝试，但生成的代理任务难度难以动态控制，无法提供有效的RL训练优势。这让我思考：能否让AI代理“自娱自乐”，通过内部博弈自主生成高质量训练数据？

本文提出了一种创新方案：搜索自博弈（SSP）。SSP让LLM同时扮演“任务提出者”（Proposer）和“问题求解者”（Solver）两个角色，利用多轮搜索引擎调用，构建一个零和对抗游戏。提出者生成难度递增的深度搜索查询，确保有明确的事实答案；求解者则通过多轮推理和搜索尝试正确回答。通过竞争（提出者试图“难倒”求解者）和合作（RAG验证确保查询正确性），两者共同进化，提升搜索、推理和自我验证能力。这不仅消除了人工标注需求，还实现了自监督训练的规模化。

>SSP的核心机制

1. 游戏设计：从预定义答案集D采样真实答案a*。提出者基于a*生成查询q，通过多轮搜索挖掘隐含事实，形成逻辑链条（例如，从关联概念逆向构建，需要n步搜索才能解出）。求解者则模拟人类调查过程：动态重构查询、多跳推理和工具调用，输出预测答案A。

2. 验证与奖励：为防“作弊”（提出者生成无效查询），SSP收集提出者轨迹的所有搜索结果作为RAG文档，让求解者在无搜索条件下验证答案正确性（r(A, a*) = 1）。这引入合作机制：只有可靠证据支持的查询才通过过滤。同时，添加少量噪声文档（实验显示4个最佳）防止提出者生成“RAG易解但搜索难”的陷阱问题，确保查询鲁棒。

3. 优化过程：使用拒绝采样过滤无效查询。求解者采用GRPO（组相对策略优化）最大化成功率；提出者用REINFORCE最小化求解者成功率（奖励=1-平均成功率）。整体目标：min_u max_v E[r(A(ρ), a*)]，约束RAG验证=1。训练中，提出者难度自适应调整（基于胜率），形成动态课程，避免过拟合。

这种设计巧妙融合AlphaGo Zero的自博弈思想与代理工具交互，突破LLM内部知识局限。不同于传统自博弈（局限于数学/代码），SSP利用外部搜索工具，确保生成的查询真实且可验证，适用于复杂信息检索场景，如科学文献综述或事实核查。

>实验洞见与性能提升

团队在7个基准（NQ、TriviaQA、PopQA、HotpotQA、2Wiki、MuSiQue、Bamboogle）上评估SSP，使用Wiki-2018语料库和E5检索器。结果令人振奋（pass

- 从零训练：在Qwen2.5-7B-Base上，SSP平均提升26.4分（TriviaQA +40.4）；Instruct版提升8.0分。证明SSP能从基础模型中挖掘代理潜力。

- 泛化性：跨LLaMA-3.1和Qwen3，提升9.6和3.8分，显示模型无关。

- 持续训练：在Search-R1-7B等专业代理上，进一步提升1.8-2.3分，即使基线已优化。

- 规模扩展：Qwen2.5-32B-Instruct上，SSP在5/7基准达SOTA，平均+3.4分。

消融实验强调共进化关键：仅训求解者（Solver-Only）导致过拟合，奖励饱和；仅训提出者（Proposer-Only）泛化差。完整SSP动态调整难度，训练中搜索调用次数和响应长度持续增长，性能稳定上升。RAG验证不可或缺，无它准确率降至36.7；噪声优化防“黑客”问题（如非唯一答案查询）。此外，RL算法对比显示REINFORCE+GRPO最佳，平衡效率与效果。

这些结果让我反思：SSP不仅是技术突破，更是AI自驱动范式的典范。它减少了对人类监督的依赖，推动代理训练向可持续方向演进。未来，可扩展到GUI或代码代理，助力更智能的AI系统。代码开源：。

原论文链接：arxiv.org/abs/2510.18821