2025-04-12 13:46:00 字节跳动VAPO突破AI推理极限,AIME24创60.4分新高
IT之家 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。现有挑战在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement l
模型 价值 框架 序列 字节 方法 导向 长度