资讯

AI智能体2小时击败人类，引爆贝叶斯推理革命！仅用10%数据训练秒杀大模型

2 月 6, 2025

新智元报道

编辑：编辑部 HYZh‍

【新智元导读】就在刚刚，Verses团队研发的Genius智能体，在Pong中超越了人类顶尖玩家！而且它仅仅训练2小时，用了1/10数据，就秒杀了其他顶级AI模型。

最近，Verses团队在AI领域投下了一枚重磅炸弹，他们自研的Genius智能体，创造了一个几乎不可能的奇迹——

只用‍10%‍数据，训练2‍小时，就能打造出最强AI智能体！

在经典游戏Pong中，Genius智能体多次达到完美的20分，一举超越了苦练数天的其他AI，和顶尖的人类玩家。

更让人惊掉下巴的是，它的规模只有SOTA模型IRIS的4%（缩小了96%），直接在搭载M1芯片的MacBook上就能跑。

‍

观看更多

视频加载失败，请刷新页面再试

刷新

视频详情

Genius在「状态好」时，甚至能削电脑一个「秃头」

这一项目的灵感，来自一个四年前的实验——科学家们培养的「盘中大脑」，用5分钟学会了玩Pong游戏。‍

这启发了科学家们思考，如果能够模仿大脑的工作方式，是不是就能创造出更聪明、更高效的AI。

恰在2023年，这个大胆的想法，在Nature论文中得到了证实。

而现在，Verses团队正将这种生物学的智慧，转化为现实。

研究团队表示，这标志着首个超高效贝叶斯智能体在复杂多维度游戏环境中，实现通用解决方案的重要里程碑。

打造最强AI智能体，LLM并非良策

目前，所谓的AI智能体，大多数实际上只是在大模型基础上，搭建的简单架构。

正如苹果研究团队，在去年10月arXiv论文中，直指现有的LLM，并不具备真正的逻辑推理能力。

它们更像是在「记忆」训练数据中，所见过的推理步骤。

论文地址：https://arxiv.org/pdf/2410.05229

实际上，这种局限性严重制约了AI智能体的实际应用潜力。

即便是OpenAI推理模型o1，尽管代表着技术发展的重要里程碑，但其本质仍是将BBF/EfficientZero（强化学习）和 IRIS（Transformer）两种方法结合到CoT推理计算中。

这种方法虽有创新，但其仍未触及智能体进化的核心痛点。

那么，什么才是真正的突破口？

Verses团队认为答案是，认知引擎。Genius就像是智能体的认知引擎。

它不仅提供了包括认知、推理、规划、学习和决策在内的执行功能，更重要的是赋予了智能体真正的主动性、好奇心和选择能力。

其中，主动性正是当前基于LLM构建的智能体，普遍缺失的的特质。

我们现在已经掌握了一种全新的「仿生方法」来实现通用机器智能，这种方法比上述两种方法（即使是结合在一起）都要明显更好、更快、更经济。

博客地址：https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence

1张A100，训练2小时

为了与SOTA的机器学习技术进行客观对比，在这些初始测试中，研究者选择了基于模型的IRIS系统。

该系统基于2017年突破性的Transformer架构。这种方案能够最快速地完成部署，从而将精力集中在推进自身研究上，而不是复制他人的工作。

值得一提的是，在Atari 100K测试中表现最优的两个系统——EfficientZero和BBF，都采用了深度强化学习技术，这与Deepmind的AlphaZero、AlphaGo和AlphaFold所使用的方法一脉相承。

研究者在2小时内，用1万步游戏数据分别训练了Geniu和IRIS（记为10k/2h）。

他们将Genius 10k/2h的性能与IRIS进行了对比，后者使用相同的1万步数据，但训练时间为2天（记为10k/2d）。

同时，他们还将Genius 10k/2h的性能与使用完整10万步数据训练的BBF和EfficientZero的公开结果进行了比较。

性能评估采用人类标准化得分（HNS）来衡量，其中HNS 1.0代表人类水平的表现，具体而言，相当于人类玩家在2小时练习时间后（约等于10万个样本）在「Pong」游戏中对战电脑时获得的14.6分平均成绩。

训练时间和模型规模

基于多次游戏运行采样的定性结果

与Transformer和深度强化学习不同，Genius无需依赖强大的GPU进行训练。然而，为确保比较的公平性，所有测试均在AWS云平台上使用同一张英伟达A100 GPU进行。

值得注意的是，无论训练时长如何，IRIS训练后的模型包含800万个参数，而Genius仅需35万个参数，模型体积减少了96%。

Pong游戏的定性分析

在Pong游戏中，IRIS 10k/2h的只会在角落里「抽搐」，而IRIS 10k/2d展现出一定的游戏能力，HNS在0.0到0.3之间。

相比之下，Genius在2小时1万步训练后（10k/2h），就能达到超过HNS 1.0的水平，并在多次测试中获得20分满分。（划到最右即可看到Genius如何从0比6落后一路实现反超）

从左到右滑动：IRIS 10k/2h，IRIS 10k/2d，Genius 10k/2h

下图展示了IRIS和Genius在各自训练条件下所能达到的最高HNS。

需要说明的是，Genius的得分仅为初步测试结果，尚未经过优化

鉴于IRIS 10k/2h未能展现有效的游戏能力，研究者主要展示了IRIS 10k/2d和Genius与电脑对战的质性测试样例。

这局比赛中，IRIS对阵电脑时以6:20落败，而Genius则以20:6的优势战胜了电脑对手。

下面这段视频，展示了Genius在学习「Pong」游戏过程中，在渐进式在线学习方面的卓越表现。

在1万步训练过程中，它依次取得了20:0、20:0、20:1、20:10、14:15的对战成绩。

特别是在第五局比赛中，当训练进行到接近9,000步时，尽管电脑以14:3大幅领先，但Genius随后展现出显著的学习能力，开始持续得分，直至训练步数耗尽。

观看更多

视频加载失败，请刷新页面再试

刷新

视频详情

Boxing游戏定性分析

在「Boxing」拳击游戏中，玩家控制白色角色，通过击打黑色对手角色来获取得分。

可以看到，只经过2小时训练的IRIS，开局就被电脑各种完虐；而在经过2天的训练之后，基本上可以和电脑「55开」了。

相比之下，Genius几乎从一直就处于领先，并在最后以86比63赢得了比赛。

从左到右滑动：IRIS 10k/2h，IRIS 10k/2d，Genius 10k/2h

Freeway游戏定性分析

在Freeway游戏测试中，玩家需要控制小鸡穿过马路，同时避开来自不同方向、以不同速度行驶的汽车。

测试结果显示，IRIS 10k/2h和IRIS 10k/2d模型均表现出随机性行为，始终未能成功穿越马路。

而Genius则展现出对游戏对象和动态系统的深入理解，能够持续且成功地在复杂车流中进行穿梭。

从左到右滑动：IRIS 10k/2h，IRIS 10k/2d，Genius 10k/2h

当然研究者也强调，虽然Atari 100k/10k、ARC-AGI能提供参考指标，但目前还没有一个单一的测试，能全面衡量AGI在认知、物理、社交和情感智能等各个维度上的表现。

同时，也需要警惕模型可能出现的过拟合现象，即为了在特定基准测试中取得高分而进行过度优化。这种情况下，就并不能说明模型的泛化能力、效率或在现实应用场景中的适用性。

因此，需要通过多样化的测试来衡量给定模型架构的适用性、可靠性、适应性、可持续性、可解释性、可扩展性以及其他能力。

怎么做到的？

之前Atari 100k挑战排行榜上的SOTA都是以数据为中心，计算复杂度很高的方法，如Transformer、神经网络、深度学习和强化学习。

然而，这些基于深度学习和大模型的AI系统都存在一个共同的弱点：它们大多是通过工程技术手段构建的，缺乏对智能本质的深刻理解。

Genius并非仅仅是对以往SOTA的渐进式改进。研究者应用了Karl Friston教授的自由能量原理、主动推断框架和贝叶斯推理架构。

Karl Friston近年来致力于自由能原理与主动推理的研究，该理论被认为是「自达尔文自然选择理论后最包罗万象的思想」，试图从物理、生物和心智的角度提供智能体感知和行动的统一规律，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，对强化学习世界模型、通用AI等前沿方向具有重要启发意义。

自由能原理认为，所有可变的量，只要作为系统的一部分，都会为最小化自由能而变化。

主动推理框架基于自由能原理提供了一个建模感知、学习和决策的统一框架。将感知和行动都看作是推断的问题。

其核心观点是：生物体认知与行为底层都遵循着相同的规则，即感官观测的「意外」最小化。在这里，「意外」被用于衡量智能体当前的感官观测与偏好的感官观测之间的差异。

主动推理路线图

这些方法深深植根于生物智能背后的神经科学，它将智能系统视为预测引擎，而非仅仅被动式数据处理机器，这些系统能够通过测量预期与感知数据之间的差异来实现高效学习。

其核心目标是持续降低对环境的不确定性，具体方式是学习理解所观察现象背后隐藏的因果动态关系，从而更好地预测结果并选择最优行动。

主动推理的框架概览

这条运用神经科学方法和生物学可行技术来解决Atari问题的另类途径始于2022年。

当时，Friston教授带领Cortical Labs开发了一种「微型人类大脑」，并命名为DishBrain（培养皿大脑），这个「大脑」包含了大约80万个脑细胞，仅仅用了5分钟就学会了打「乒乓球」的游戏，而AI学会这一游戏需要花90分钟时间。

这一研究证明了神经元确实应用了自由能量原理并通过主动推断进行运作，并且即使是培养皿中的脑细胞也可以表现出内在的智能，并随着时间的推移改变行为。

论文地址：https://www.sciencedirect.com/science/article/pii/S0896627322008066

2023年，一篇发表在《自然》上的论文通过体外培养的大鼠皮层神经元网络进行因果推理，也证实了自由能原理的定量预测。

到了2024年初，研究者则更进一步，成功将这些在Dishbrain中展示的主动推断机制纯软件化地应用于乒乓球游戏。

主动推理及其对贝叶斯模型和算法的应用代表了一种根本不同的AI架构，从设计上讲，它比SOTA的ML方法更有效和高效。

如今Genius实现的，就是研究者此前开创的贝叶斯推理架构，它不仅提高了样本效率和持续学习能力，还能优雅地将先验知识与新数据结合。

这一突破带来了全新的先进机器智能方法，具有内在的可靠性、可解释性、可持续性、灵活性和可扩展性。

在统计学、机器学习和AI领域，贝叶斯推理因其在不确定性下的原则性概率推理方法而被视为一个强大而优雅的框架，但迄今为止，其巨大的计算需求一直限制着它在玩具问题之外的应用。

而Genius则代表了对这一障碍的超越，并提供了一个通用架构，使我们能够在此基础上构建众多高效的智能体，让它们能够学习并发展专业技能。

在不久的未来，也许我们再回首，就会发现这不仅标志着贝叶斯革命的开始，更代表着机器智能发展的自然方向。

如下图所示，虚线和渐变轨迹展现了智能体对已识别对象轨迹的概率预测——可能是球、高速行驶的汽车，或是拳击手的刺拳。

这些不确定性的量化，结合置信度的计算，首次展示了智能体的预测和决策过程如何实现可解释性。

这种系统的透明度和可审计性，与ML中不透明、难以解释且无法量化的内部处理过程形成了鲜明对比。

Genius智能体在三个经典游戏中的面向对象预测能力：图中的渐变点展示了智能体对游戏中物体当前位置及其未来轨迹的预测推理

从AlphaGo到Atari，AI智能体新标准

现代，游戏已成为衡量机器智能的有效基准。

1996年，IBM的深蓝击败了国际象棋大师加里·卡斯帕罗夫时，整个世界都为之震撼。

这是一个具有明确规则和离散状态空间的游戏。而深蓝的成功主要依赖于暴力计算，通过评估数百万种可能走法做出决策。

2016年，谷歌AlphaGo在围棋比赛中击败了李世石，成为另一个重要的里程碑。

要知道，围棋的可能棋盘配置数量比宇宙中的原子数量还要多。

AlphaGo展示了深度强化学习和蒙特卡洛树搜索的强大能力，标志着AI从暴力计算向具备模式识别和战略规划能力的重大跨越。

虽然AI在棋类游戏中取得了里程碑式的成就，但这些突破也仅局限于「静态规则」的世界。

它们并不能模拟现实世界中的复杂动态，而现实世界中变化是持续的，需要适应不断变化的条件甚至变化的规则。

由此，电子游戏已经成为测试智能的新标准，因为它们提供了受控的环境，其规则需要通过互动来学习，而成功的游戏过程需要战略规划。

Atari游戏已成为评估AI智能体建模和驾驭复杂动态系统能力的最佳评估标准。

2013年，DeepMind发布了一篇论文，阐述基于强化学习的模型DQN如何能以超越人类水平玩Atari游戏，但前提是需要数亿次环境交互来完成训练。

论文地址：https://arxiv.org/pdf/1312.5602

2020年，DeepMind发表了另一篇基于DRL的Agent57的论文，该系统在57个Atari游戏中超越了人类基准水平，但它需要训练近800亿帧。

论文地址：https://arxiv.org/pdf/2003.13350

为了推动更高效的解决方案，Atari 100k挑战赛应运而生。这一挑战将训练交互限制在100k次内，相当于2小时的游戏训练，就能获得类似的游戏能力。

直到2024年初，Verses团队创下新纪录——

展现了由Genius驱动的AI智能体如何能在Atari 100k挑战赛中，仅用原来1/10训练数据，匹配或超越最先进方法的表现。

不仅如此，它还显著减少了计算量，同时生成的模型大小仅为基于DRL或Transformer构建的顶级模型的一小部分。

如果用汽车来打比方，DQN和Agent57就像是耗油的悍马，Atari 100k的方法就像是节能的普锐斯，而Atari 10k就像是特斯拉，代表着一种高效的革新架构。

为什么Atari 100k很重要

Atari 100k基准测试的重要性，体现在哪里？

它旨在测试智能体在有限训练数据条件，下在三个关键领域的表现能力：交互性、泛化性和效率。

1. 交互性

交互性衡量了智能体在动态环境中学习和适应的能力，在这种环境中，智能体的行为直接影响最终结果。

在Atari游戏中，智能体必须实时行动、响应反馈并调整其行为以取得成功。这种能力正好反映了现实世界中适应性至关重要的场景。

2. 泛化性

泛化性则评估了智能体将学习到的策略，应用于具有不同规则和挑战的各种游戏的能力。

也就是确保智能体不会过拟合单一任务，而是能够在各种不同领域中都表现出色，展现真正的适应性。

3. 效率

效率主要关注智能体在有限数据和计算资源条件下快速学习有效策略的能力。

100k步骤的限制突显了高效学习的重要性——这对于现实世界中数据通常稀缺的应用场景来说尤为重要。

任何开发者都可以编写自定义程序，来解决游戏和逻辑谜题。而Deepmind的原始DQ 方法和Atari 100k都已证明，通过足够的人工干预和大量的数据与计算资源，传统机器学习可以被调整和拟合，以掌握像雅达利这样的游戏。

而Genius的亮点在于，它能够自主学习如何玩游戏，而且仅使用了Atari 100k 10%的数据量！

这，就让它跟现实世界中的问题更相关了。因为在现实场景中，数据往往是稀疏的、不完整的、带有噪声的，而且会实时变化。

广泛的商业应用前景

近来，行业的动态值得令人深思。

微软宣布计划重启三哩岛核电站，以支持其AI数据中心的发展规划
Meta计划在2024年底前部署相当于600,000块H100的算力（每块售价3万美元）
据估计，OpenAI o3单次任务的成本可能超过1,000美元

撇开不可靠性和不可解释性不谈，训练和运行这些超大规模过度参数化（overparameterized）模型的财务成本、能源消耗和碳排放，不仅在经济和环境上不可持续，更与生物智能的运作方式背道而驰。

要知道，人类大脑仅需要20瓦的能量就能完成复杂的认知任务，相当于一个普通灯泡的功率。

更令业界担忧的是，高质量训练数据正在耗尽。而使用合成数据作为替代方案，可能导致「模型崩溃」（model collapse），让模型性能逐渐退化。

模型崩溃：这组图像展示了当AI模型仅使用合成数据进行训练时可能出现的问题。从左到右可以观察到图像质量的持续劣化过程，清晰地展示了模型性能逐步降低的现象

构建有效（可靠）、可信（可解释）和高效（可持续）的智能体，如果能够通过单一的可泛化（灵活）架构来实现，其影响可能将达到改变人类文明进程的规模。

未来AI发展方向，或许不应该是由少数科技巨头控制的几个庞大的模型，而是部署数万亿个低成本、超高效、专业化的自组织智能体。

它们可以在边缘计算端和云端协同运作，通过协调与合作，在从个体到集体的各个层面都遵循着一个共同的、表面上看似简单的内在目标——追求理解，即降低不确定性。

这种新型智能体特别适合处理那些具有持续变化、数据资源受限，同时要求更智能、更安全、更可持续的问题领域。

比如，在金融、医疗、风险分析、自动驾驶、机器人技术等多个领域，应用前景广阔。

这场关于AI未来的游戏，才刚刚开始。

参考资料：

https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence

点击扫码分享至微信

资讯

AI智能体2小时击败人类，引爆贝叶斯推理革命！仅用10%数据训练秒杀大模型

新智元报道

【新智元导读】就在刚刚，Verses团队研发的Genius智能体，在Pong中超越了人类顶尖玩家！而且它仅仅训练2小时，用了1/10数据，就秒杀了其他顶级AI模型。

Pong游戏的定性分析

Boxing游戏定性分析

Freeway游戏定性分析

为什么Atari 100k很重要

相关文章

AI绘画工具MidJourney再进化，用户只需一句话即可生成博物馆级艺术作品！

杨植麟的Kimi，怎么只用一年就超越了百度阿里？

如何用Kimi一天读完100本书，附实操指南！