过年了,过年了,短短一天内,Kimi、DeepSeek纷纷发布新模型,而且功能一个比一个强大。我甚至连测试都测试不过来,国产大模型争奇斗艳啊。
大家好,我是西波,就在昨天,月之暗面发布了他们最新的 Kimi k1.5 多模态思考模型。这个模型之所以能被称为“年终奖”,是因为它直接对标了 OpenAI 满血版的 o1 模型(Full Version),而非 preview 版本。
这可不是简单的“追赶”,而是一次实实在在的“挑战”,甚至在某些方面实现了“超越”。
打工人都快用起来啊,最强的免费提效利器!
Kimi官网:https://kimi.ai
“挑战者”登场:OpenAI之外的首个满血版o1
如果说之前的AI模型还只是在OpenAI的阴影下蹒跚学步,那么Kimi k1.5的出现,无疑宣告了一位强大“挑战者”的登场。
它不仅在数学、代码和多模态推理能力上全面对标OpenAI的满血版o1,更重要的是,它是OpenAI之外首个实现这一成就的多模态模型!
尤其是在 short-CoT(短链思维)模型方面,Kimi k1.5更是“一骑绝尘”,大幅领先于GPT-4o和Claude 3.5 Sonnet(提升幅度高达 550%)。
你可以把short-CoT模型理解为AI界的“短跑健将”,在快速解决问题上更胜一筹。
背后的“秘密”:技术透明的底气
在竞争激烈的AI领域,技术往往被视为“秘密武器”,各家公司都小心翼翼地保守着自己的核心技术。
然而,月之暗面却反其道而行之,他们发布了详细的技术报告,向公众分享了Kimi k1.5模型背后的训练技术探索之路。
-
技术报告:Kimi k1.5:借助大语言模型实现强化学习的 Scaling -
报告链接:https://github.com/MoonshotAI/kimi-k1.5
这并非偶然,而是一种自信的表现,他们希望通过这种方式,让更多技术人才了解他们在做的事情。
“我们意识到,AGI之旅才刚刚开始,我们想让更多人加入我们一起做到更多。”与其说是“技术共享”,不如说是一场“技术揭秘”,这无疑更让人充满好奇。
数据:Kimi k1.5的“实力秀”
是骡子是马,拉出来溜溜。Kimi k1.5的“实力”究竟如何呢?
在long-CoT(长链思维)模式下,它在数学、代码和多模态推理能力上,达到了OpenAI o1正式版的水平。
AIME 77.5分,MATH 500 96.2分,Codeforces 94 百分位,MathVista 74.9分,这一连串的数字,就是Kimi k1.5的“实力证明”。
而更让人惊艳的是,在short-CoT模式下,Kimi k1.5不仅达到了全球顶尖水平,更大幅领先于GPT-4o和Claude 3.5 Sonnet。
AIME 60.8分,MATH500 94.6分,LiveCodeBench 47.3分,这些数据仿佛在宣告,Kimi k1.5不仅仅是“长跑冠军”,更是“短跑之王”。
在全球前沿大模型数学竞赛和编程竞赛基准测试中,Kimi k1.5也位列第一梯队,要知道,这些测试可是代表了“人类智商巅峰”。
揭秘:Kimi k1.5是如何“炼成”的?
模型的训练过程,就像一场复杂的“炼金术”。
当模型尺寸逐渐增大,预训练阶段参数 scaling up 带来的收益开始递减,就像是“燃料”即将耗尽。
这时,强化学习 (RL) 就成为了新的突破口,为AI模型的持续进步注入了“新的燃料”。
然而,此前的研究工作并没有取得显著成果。Kimi技术团队在Kimi k1.5的训练过程中,全面探索了RL训练技术、多模态数据配方和基础设施优化,而难能可贵的是,他们探索出的RL框架简单、有效,无需复杂的蒙特卡洛树搜索等技术,真可谓是“化繁为简”。
他们还提出了有效的long2short技术,就像“借力打力”,利用Long-CoT技术来改进Short-CoT模型,使得模型在短链思维推理方面取得了最佳成果。
“双引擎”驱动:RL框架的关键要素
Kimi技术团队构建的RL框架,就像一辆拥有“双引擎”的跑车。第一个引擎是“长上下文scaling”,他们将强化学习的上下文窗口 scale 到 128k,并观察到模型性能随着上下文长度的增加而持续改善。
这就像是给模型“扩大了视野”,让它能看到更广阔的世界。为了提高训练效率,他们使用了 partial rollout 来重用大量以前的轨迹,避免从头重新生成新轨迹,节省了大量的计算成本。
另一个引擎则是“策略优化”,他们推导出了一个具有 long-CoT 的强化学习公式,并采用在线镜像下降法的变体来实现稳健的策略优化。
这就像为模型安装了“精密的导航系统”,让它能更稳健地选择正确的行动方向。
同时,Kimi k1.5还在文本和视觉数据上进行了联合训练,就像“文武双全”,使其具备对这两种模态进行联合推理的能力。
Kimi的“星辰大海”
2024年,OpenAI的GPT-4o和o1模型,分别代表了多模态理解和强化学习两条技术路线,就像AI领域的两座“灯塔”,指引着行业的发展方向。
国内的AI公司也在奋力追赶,展开了激烈的竞争。而Kimi模型,无疑是目前最接近o1的挑战者。
月之暗面表示,2025年,他们会继续加速升级k系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。
这让人不由得对Kimi的未来充满了期待,仿佛看到了AI领域的“星辰大海”。
我们都期待着新模型早日上线,去体验它带来的全新可能。
以上,我写完了,记得点赞、在看、转发,因为我需要你的反馈
对AI感兴趣,欢迎加我微信,备注【AI】,送您一份爆肝整理的10万字AI大礼包
还可以围观我的朋友圈,许多不便发在公众平台上的东西都在这了