国产大模型过年了!

就在本周一,Kimi发布了多模态思考模型k1.5,并且模型性能直接对标OpenAI 满血版 o1,在数学、代码、多模态推理能力等方面全方面追平,是OpenAI之外国内首个多模态o1思考模型。

可谓创造历史。

继去年 11 月 Kimi 推出 k0-math 数学模型,12 月发布 k1 视觉思考模型以来,这是第三次 K 系列的重要上新。

网友感叹,国内AI圈也太卷了。

此外,Kimi k1.5还甩出了一份长达25页的技术报告,训练细节全公开。海外AI圈也炸了。

有国外从业者直言,k1.5是多模态模型的巨大突破!

有网友表示赞同:“这太令人震惊了!k1.5多模态大模型性能追平满血版o1或许会引领新一轮的AI创新浪潮。”

不过也有网友对其实用性表示怀疑,尽管新模型展现出了强劲潜力,但实现参与度自动化才是增长的关键。

那么,Kimi k1.5究竟实力如何?

性能比肩满血版o1,多项测试全部SOTA

从技术报告来看,Kimi k1.5在Long CoT模式和Short CoT模式的表现相当能打,尤其是Short CoT模式方面实力超越GPT-4o 和 Claude 3.5 Sonnet。

具体来说,Kimi k1.5在Short CoT模式方面,Kimi k1.5 展现出压倒性优势,其数学、代码、视觉多模态和通用能力等方面超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。

在Long CoT模式方面,Kimi k1.5 在数学、代码及多模态推理能力上达到了长思考SOTA模型OpenAI o1满血版的水平。同时,这也是全球范围内OpenAI 之外的公司首次实现 o1 满血版性能。

与此同时,Kimi k1.5还公开了其训练数据集和算法细节,进一步提升了模型的可信度和应用前景。

强化学习Scalling law新范式的进阶时刻已然到来?

从技术报告来看,Kimi k1.5多模态推理模型之所以能实现SOTA级别的推理和通用能力,关键在于其强化学习(RL)的训练技术、多模态数据配方和基础设施优化。

Kimi技术团队在Kimi k1.5的训练实践中全面探索了RL训练技术,并提出了有效的long2short技术,利用Long-CoT技术来改进Short-CoT模型,使得模型在短链思维推理方面取得了最佳成果。

据其官方介绍,k1.5 模型的核心技术突破主要体现在以下四个关键维度:

  • 长下文扩展
  • 改进的策略优化
  • 简洁的框架
  • 多模态能力

首先,在长下文扩展能力方面,Kimi k1.5上下文窗口扩展到128K,通过迭代同步的RL框架,提升模型的推理能力,同时在训练过程中不再局限于静态的预训练数据集,这种学习方式使得Kimi k1.5能够处理更加复杂和多样化的任务,其性能也随之不断提升。

在多模态能力方面,Kimi k1.5采用了全新的多模态数据配方。技术团队在模型训练中融合了文本、视觉等多种模态的数据,使得模型具备了联合推理两种模态的能力。这种跨模态的学习不仅提升了模型的理解能力,还使其在处理复杂问题时更加得心应手。例如,在数学能力方面,Kimi k1.5表现出色,能够处理各种复杂的数学推理问题。同时,通过联合训练文本和视觉数据,模型在处理与图形理解相关的几何图形题时也更具优势。

在基础设施优化方面,Kimi k1.5构建了一个大规模强化学习训练系统,该系统包括一个中央主控器、多个滚出工作器和训练工作器。这一系统通过协同工作,确保了数据的流畅处理和通信的高效进行。同时,系统还采用了部分展开技术来优化复杂推理轨迹的处理,进一步提升了模型的训练效率。

为了进一步提升短链思维推理能力,Kimi技术团队还提出了有效的long2short方法。这一方法利用Long-CoT技术来改进Short-CoT模型,使得模型在有限的测试token预算下也能实现出色的性能。通过模型融合、最短拒绝采样、DPO以及long2short RL等多种技术手段,Kimi k1.5在短思考模式下也取得了令人瞩目的成绩。例如,在AIME上达到60.8分,MATH500上达到94.6分,LiveCodeBench上达到47.3分。

此外,据其官方透露的消息,k1.5 多模态思考模型的预览版将陆续灰度上线 Kimi.com 网站和最新版本的 Kimi 智能助手 App。如果你发现了如下图所示的模型切换按钮,就可以尝试用起来了。

英伟达AI科学家Jim Fan也预言:2025将是强化学习的繁荣时刻。

国产大模型混战,谁更胜一筹?

而就在Kimi k1.5发布当天,DeepSeek-R1也同步上线,性能同样对标 OpenAI o1。如果再加上智谱 GLM-Zero、阶跃星辰推理模型 Step R-mini、星火深度推理模型 X1以及MiniMax 01开源模型。国产大模型在年末可谓打响了大模型混战的第一枪,也给以OpenAI 为代表的海外厂商实打实的上了一波压力。

不过,DeepSeek-R1、k1.5、智谱GLM-Zero、阶跃星辰推理模型Step R-mini、讯飞星火深度推理模型X1等国产大模型在数学、代码基准测试等方面存在明显差距。

以AIME基准测试为例,满血版o1得分74.4,DeepSeek-R1得分79.8,k1.5得分77.5,都明显领先于其他类o1大模型。在编程水平上,也形成相同局面。

随着技术迭代和算法优化,国产大模型正在逐步缩小与国际顶尖水平的差距,甚至有望在某些细分领域实现领先,重新定义全球AI发展格局。我们也期待,2025年国产大模型厂商们能为我们带来更多惊喜。

论文地址:

https://github.com/MoonshotAI/Kimi-k1.5

点击扫码分享至微信