Web Search Optimization

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

为此，中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出 Agentic Entropy-Balanced Policy Optimization（AEPO），一种面向多轮智能 ... 并且平均准确率比 GRPO 高 ...

一些您可能无法访问的结果已被隐去。