跳至内容
【新智元导读】就在刚刚,Verses团队研发的Genius智能体,在Pong中超越了人类顶尖玩家!而且它仅仅训练2小时,用了1/10数据,就秒杀了其他顶级AI模型。
最近,Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——
只用10%数据,训练2小时,就能打造出最强AI智能体!
在经典游戏Pong中,Genius智能体多次达到完美的20分,一举超越了苦练数天的其他AI,和顶尖的人类玩家。
更让人惊掉下巴的是,它的规模只有SOTA模型IRIS的4%(缩小了96%),直接在搭载M1芯片的MacBook上就能跑。
视频加载失败,请刷新页面再试
刷新
![]()
Genius在「状态好」时,甚至能削电脑一个「秃头」
这启发了科学家们思考,如果能够模仿大脑的工作方式,是不是就能创造出更聪明、更高效的AI。
恰在2023年,这个大胆的想法,在Nature论文中得到了证实。
而现在,Verses团队正将这种生物学的智慧,转化为现实。
研究团队表示,这标志着首个超高效贝叶斯智能体在复杂多维度游戏环境中,实现通用解决方案的重要里程碑。
目前,所谓的AI智能体,大多数实际上只是在大模型基础上,搭建的简单架构。
正如苹果研究团队,在去年10月arXiv论文中,直指现有的LLM,并不具备真正的逻辑推理能力。
它们更像是在「记忆」训练数据中,所见过的推理步骤。
![](https://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb1h3Yc4bTwB3GiaXlNvRhOjeMGwQXXptdiadkq36TqovOJTr8oyxhFFzTdvPwhz7QgZpia8SNQM9SRCg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
论文地址:https://arxiv.org/pdf/2410.05229
实际上,这种局限性严重制约了AI智能体的实际应用潜力。
即便是OpenAI推理模型o1,尽管代表着技术发展的重要里程碑,但其本质仍是将BBF/EfficientZero(强化学习)和 IRIS(Transformer)两种方法结合到CoT推理计算中。
这种方法虽有创新,但其仍未触及智能体进化的核心痛点。
Verses团队认为答案是,认知引擎。Genius就像是智能体的认知引擎。
它不仅提供了包括认知、推理、规划、学习和决策在内的执行功能,更重要的是赋予了智能体真正的主动性、好奇心和选择能力。
其中,主动性正是当前基于LLM构建的智能体,普遍缺失的的特质。
我们现在已经掌握了一种全新的「仿生方法」来实现通用机器智能,这种方法比上述两种方法(即使是结合在一起)都要明显更好、更快、更经济。
![](https://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb1h3Yc4bTwB3GiaXlNvRhOjefYVCnZUXJzwnMN0qRY5vjdEAsxGDowHMXEn771TjCBhzXDZoibbqDJg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
博客地址:https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence
为了与SOTA的机器学习技术进行客观对比,在这些初始测试中,研究者选择了基于模型的IRIS系统。
该系统基于2017年突破性的Transformer架构。这种方案能够最快速地完成部署,从而将精力集中在推进自身研究上,而不是复制他人的工作。
值得一提的是,在Atari 100K测试中表现最优的两个系统——EfficientZero和BBF,都采用了深度强化学习技术,这与Deepmind的AlphaZero、AlphaGo和AlphaFold所使用的方法一脉相承。
研究者在2小时内,用1万步游戏数据分别训练了Geniu和IRIS(记为10k/2h)。
他们将Genius 10k/2h的性能与IRIS进行了对比,后者使用相同的1万步数据,但训练时间为2天(记为10k/2d)。
同时,他们还将Genius 10k/2h的性能与使用完整10万步数据训练的BBF和EfficientZero的公开结果进行了比较。
性能评估采用人类标准化得分(HNS)来衡量,其中HNS 1.0代表人类水平的表现,具体而言,相当于人类玩家在2小时练习时间后(约等于10万个样本)在「Pong」游戏中对战电脑时获得的14.6分平均成绩。
![](https://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb1h3Yc4bTwB3GiaXlNvRhOjeIokChzRgpTHH9NQqR2yX5dicpxtp6Z7g4YwIaeib1VmEMjibcPibiaQgJbg/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
![](https://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb1h3Yc4bTwB3GiaXlNvRhOjehDeAES1eq56pkH3DlxJOD77SCxxVwWCk8D2UicLEo6lZxO32BHpLQnQ/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
与Transformer和深度强化学习不同,Genius无需依赖强大的GPU进行训练。然而,为确保比较的公平性,所有测试均在AWS云平台上使用同一张英伟达A100 GPU进行。
值得注意的是,无论训练时长如何,IRIS训练后的模型包含800万个参数,而Genius仅需35万个参数,模型体积减少了96%。
Pong游戏的定性分析
在Pong游戏中,IRIS 10k/2h的只会在角落里「抽搐」,而IRIS 10k/2d展现出一定的游戏能力,HNS在0.0到0.3之间。
相比之下,Genius在2小时1万步训练后(10k/2h),就能达到超过HNS 1.0的水平,并在多次测试中获得20分满分。(划到最右即可看到Genius如何从0比6落后一路实现反超)
从左到右滑动:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
下图展示了IRIS和Genius在各自训练条件下所能达到的最高HNS。
![](https://mmbiz.qpic.cn/sz_mmbiz_png/UicQ7HgWiaUb1h3Yc4bTwB3GiaXlNvRhOjeWFiaZIJtYzDz7Y1ZrG5sSoZQg4DB2vQDOT98pGPE8Hp7rOCezrA601A/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1)
需要说明的是,Genius的得分仅为初步测试结果,尚未经过优化
鉴于IRIS 10k/2h未能展现有效的游戏能力,研究者主要展示了IRIS 10k/2d和Genius与电脑对战的质性测试样例。
这局比赛中,IRIS对阵电脑时以6:20落败,而Genius则以20:6的优势战胜了电脑对手。
下面这段视频,展示了Genius在学习「Pong」游戏过程中,在渐进式在线学习方面的卓越表现。
在1万步训练过程中,它依次取得了20:0、20:0、20:1、20:10、14:15的对战成绩。
特别是在第五局比赛中,当训练进行到接近9,000步时,尽管电脑以14:3大幅领先,但Genius随后展现出显著的学习能力,开始持续得分,直至训练步数耗尽。