「There is no expedient to which a man will not resort to avoid the real labor of thinking. 人为了不必费力思考,任何取巧方法都不会放过。」
乔舒亚·雷诺兹爵士
今天分享两件事:
1. Kimi 全新 SOTA 模型—— k1.5 多模态思考模型来了
2. Kimi 首次公开模型训练技术报告
这是继去年 11 月发布 k0-math 数学模型,12月发布 k1 视觉思考模型之后,Kimi 连续第三个月带来 k 系列强化学习模型的重磅升级。
从基准测试成绩看,k1.5 多模态思考模型实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。
在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,其中 AIME 数学的领先幅度达到 550%。
在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内,OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。
2025 年,Kimi 会继续沿着路线图,加速升级 k 系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。
伴随着 k1.5 多模态思考模型的发布,Kimi 技术团队也第一次准备了详细的技术报告,记录和分享新技术范式下的模型训练技术探索之路:《Kimi k1.5:借助大语言模型实现强化学习的 Scaling》(github 链接:https://github.com/MoonshotAI/kimi-k1.5)。
通过这份技术报告,我们可以了解到关于 k1.5 模型设计和训练的几个关键要素:
-
长上下文扩展。我们将 RL 的上下文窗口扩展到 128k,并观察到随着上下文长度的增加,性能持续提升。我们的方法背后的一个关键思想是,使用部分展开(partial rollouts)来提高训练效率——即通过重用大量先前的轨迹来采样新的轨迹,避免了从头开始重新生成新轨迹的成本。我们的观察表明,上下文长度是通过 LLMs 持续扩展RL的一个关键维度。
-
改进的策略优化。我们推导出了long-CoT的 RL 公式,并采用在线镜像下降的变体进行稳健的策略优化。该算法通过我们的有效采样策略、长度惩罚和数据配方的优化进一步得到改进。
-
简洁的框架。长上下文扩展与改进的策略优化方法相结合,为通过LLMs学习建立了一个简洁的RL框架。由于我们能够扩展上下文长度,学习到的 CoTs 表现出规划、反思和修正的特性。增加上下文长度的效果是增加了搜索步骤的数量。因此,我们展示了可以在不依赖更复杂技术(如蒙特卡洛树搜索、价值函数和过程奖励模型)的情况下实现强大的性能。
-
多模态能力。我们的模型在文本和视觉数据上联合训练,具有联合推理两种模态的能力。该模型数学能力出众,但由于主要支持LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。
此外,我们提出了有效的long2short方法,利用 Long-CoT 技术来改进 Short-CoT 模型,在短链思维推理方面取得了SOTA成绩——例如,在AIME上达到60.8分,MATH500上达到94.6分,LiveCodeBench上达到47.3分——大幅超越了现有的短链思维模型,如GPT-4和Claude Sonnet 3.5。
希望更多技术人才可以通过这份技术报告,了解到 Kimi 在模型训练方面所做的部分工作。如果感兴趣的话,欢迎加入我们,一起登月。
k1.5 多模态思考模型的预览版将陆续灰度上线 Kimi.com 网站和最新版本的 Kimi 智能助手 app。如果你发现了如下图所示的模型切换按钮,就可以尝试用起来了。
k1.5 多模态思考模型,擅长深度推理,可以帮助我们解锁更多更难的事情。当你遇到难解的代码问题、数学问题、工作问题,都可以找 k1.5 模型来帮忙。Kimi 期待与你一起探索更大的世界。