为此,中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出 Agentic Entropy-Balanced Policy Optimization(AEPO),一种面向多轮智能 ... 并且平均准确率比 GRPO 高 ...