Code Optimization - 搜索 News

腾讯网

X上63万人围观的Training-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。GRPO ...

腾讯网

Codex 和 Claude Code，用哪个？

性格上，Codex 属于是人狠话不多精准狙击但解释很全面，Claude Code 则大开大阖喜欢经常画（画）龙（蛇）点（添）精（足），有时死于话多。三、混着用时，CLAUDE.md 和 Agents.md 如何保持同步呢？手动吗？

1 天

不做通用Agent：新加坡全民AI应用Agnes，上线四月揽获20万日活用户

自7月4日正式上线Product Hunt以来，仅仅四个月，Agnes便已在全球斩获300万注册用户，日活跃用户突破20万，其中超过50%来自东南亚市场。产品在菲律宾、越南、印尼、阿根廷等国的Google Play效率榜上屡次跻身前十。

2 天

吴恩达关注的Ling-1T背后，蚂蚁Ling 2.0技术报告解密万亿模型开源配方

AI 导师吴恩达在其最新一期的 The Batch Newsletter 中，将目光投向了来自蚂蚁集团的最新开源模型 Ling-1T。他敏锐地指出： Ling-1T 作为一个非推理（non-reasoning）模型，其性能却直逼业界顶尖的闭源模型 ...

GitHub

涵盖历史、政治、经济、心理学、哲学、数学、计算机等方面

所有电子书均来自国际互联网，这次数据库里只收录了其中一部分目录名称，其余部分将持续更新。

2 天

吴恩达关注的Ling-1T背后，蚂蚁 Ling 2.0 报告万亿模型开源配方

Ling 2.0 的发布，其价值已远超模型本身。它不再只是一个单一的模型系列，而是蚂蚁集团提供给开源社区的一套完整的、经过验证的、可从百亿扩展至万亿的 AI 基础模型 SOP（标准作业流程）。

9 天

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

令人惊喜的是，在三个轮次中，训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动，还能教会代理找捷径，更高效明智地使用工具。

4 天

OB体育相关服务(CHINA)官方网站-最值得信赖的平台

OB体育相关服务💄OB体育相关服务😨🚪🥀🛠6、 zhǐ yǒu jīng lì le chūn tiān ， cái néng gǎn shòu dào bǎi huā de xiāng wèi ， tǐ yàn tóng chuāng de yǒu yì ， cái néng lǐ jiě shēng huó de měi hǎo 。

4 天

manbetx软件安全吗

1884 nián 4 yuè 4 rì ( nóng lì 1884 nián 3 yuè 9 rì )， rì běn fǎ xī sī zhàn fàn shān běn wǔ shí liù chū shēng 。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果