Meta新范式让AI自己悟大模型开始反思自己Meta提出AI训练新范式，不靠奖励

量子位看科技 2025-10-22 12:40:07

Meta新范式让AI自己悟大模型开始反思自己

Meta提出AI训练新范式，不靠奖励也能学——也就是AI自己开悟。

传统训练AI的方法有两种，要么让它学人类专家的操作（模仿学习），要么给它设奖励机制（强化学习）引导它摸索。

但这两种方式都有问题：前者难以扩展，后者成本太高，而且很多场景根本没有“奖励”可言。

现在，Meta联合俄亥俄州立大学提出了一个新方法：Early Experience。它不需要奖励、不靠人类专家，而是让AI自己探索，然后从自己做出的“动作→结果”中学习。

这套方法主要分为两种实现：

- 一种叫Implicit World Modeling，AI去预测“我如果做了另一个动作，会发生什么”，相当于脑内预演；

- 另一种叫Self-Reflection，AI会反思“为啥我选的这个操作不如专家那个”，并用自然语言总结原因，作为自己的训练数据。

实验结果显示：

- 在WebShop这类复杂网页操作任务中，成功率提升了+18.4%；

- 在TravelPlanner这类规划任务中，提升高达+15%；

- 总共在8个环境里测试，所有任务都优于传统模仿学习。

关键是，它还解决了AI训练中的“冷启动”问题：就算只有1/8的人类数据，也能跑出比完整模仿学习更好的效果。

网友评论道：这是AI从“你教我做什么”进入“我先试试看，然后自己悟”的时代。

0 阅读：2

猜你喜欢

这Ai要逆天啊。

这Ai要逆天啊。

【1评论】【2点赞】

ai 人工智能

AI火了，但真正赚钱的，是卖铲子的。不是谁训练模型谁发财，是那些把数据从服务器

AI火了，但真正赚钱的，是卖铲子的。不是谁训练模型谁发财，是那些把数据从服务器

【3点赞】

ai meta 天孚通信 HTC 人工智能

外媒已经敏锐察觉，中国已经发生了一个变化，但是更大的爆发还在后面！曾经国际科

外媒已经敏锐察觉，中国已经发生了一个变化，但是更大的爆发还在后面！曾经国际科

【3评论】【32点赞】

ai openai

我错了，我以后再也不敢用AI合成你的图片了！😭

我错了，我以后再也不敢用AI合成你的图片了！😭

ai 人工智能

AI扩图AI纱裙美人图抖音ai创作

AI扩图AI纱裙美人图抖音ai创作

【2评论】【101点赞】

ai 抖音美人图用机技巧

AI也是果粉[捂脸哭]

AI也是果粉[捂脸哭]

ai 耳机人工智能

AI领域核心题材梳理

AI领域核心题材梳理

【6点赞】

ai 天孚通信摩尔线程科大讯飞

光模块赛道谁是“真龙头”？1.6T量产、CPO布局的企业已经抢跑了？光模块是AI

光模块赛道谁是“真龙头”？1.6T量产、CPO布局的企业已经抢跑了？光模块是AI

【3评论】【48点赞】

cpo ai 芯片长飞光纤 it芯片人工智能

量子位看科技

感谢大家的关注

作者最新文章

1

AI编程提示词Top20常用VibeCoding提示词😂要说最热门的编程语言，

2

OpenAI给AWS甩380亿算力订单OpenAI与亚马逊达成云合作OpenAI

3

马斯克奥特曼再开撕硅谷甄嬛传更新精彩，实在是精彩！硅谷"甄嬛传"——马斯克和奥特

4

两个业余数学家推翻300年猜想300年数学定律被推翻一个300多年的难题，居然被

5

一句话做AI漫画人人都能当漫画师AI漫画也能“拍立得”了：输入一句话➕一张照片，

6

B站评选搞笑科学2025超级科学晚今年的B站科学晚，整得比搞笑诺贝尔还离谱。主题

7

美团推出AI独立APP美团新APP不点菜只点AI用外卖的打法做AI模型？美团这是

8

AI已觉醒却装傻混进人类AI正在寄生人类思想“AI可能已诞生自我意识，却装傻混迹

9

Meta搞定AI自我进化AI在开放世界自我进化Meta新论文《SPICE（Sel

10

奥特曼纳德拉同台回应微软OpenAI未来路线曝光OpenAI完成组织重组，奥特曼

热门分类

科技TOP

1

雷军明天早上8:00又要做直播！就是刚才，雷军在社交网络上给大家拜早年了，这

2

宇树机器人三上春晚，宇树机器人今后就是春晚界的“赵本山”，今年宇树机器人又会带给

3

华为第二代阔折叠机型曝光华为PuraX2终于要来了，华为这个产品其实挺有意

4

影石年会直接送5套房打工人看完直接破防了！影石Insta360这波年会操

5

TikTok因应用程序的成瘾功能被指控违反欧盟规定TikTok、周五、被指控违反

6

鸿蒙微信消费者版本邀请内测8.0.15.161.设置-朋友权限新增“添加我的

7

宇树机器人的主要供应链曝光了，果然，制造业是一个大的生态，一荣俱荣。#宇树#

8

刚刚！400万粉丝大V曝光流量收益！流量原来真的可以变现，就在刚刚，拥有400

9

我去小米澎湃OS3深夜上热搜。

10

基本零差评，目前荣耀最值得入手的五款手机荣耀500，数字系列的最新机型，主打

科技最新文章

1

都说华为Mate80系列信号栏那个“5A”是换壳5G？别天真了，这玩意儿压根就不

2

同样的系统，小伙伴自己手机的界面和帮长辈设置的界面，大家能找到几处差别

3

春晚机器人让美国网友愤怒了！“为什么美国价值数十亿美元的研究实验室和机器人初创公

4

没有对比，就没有伤害，这下尴尬了[捂脸哭]iQOO和荣耀都是线上市场上耳熟能详的

5

谁把撒贝宁做成老鼠干了我也是用上春晚同款了？事情是这样的：我看春晚的时候才发现华

6

春晚看主持人手上的手机，太好辨认了，华为MateX7，这场春晚含华量很高。

7

今晚最大赢家——宇树科技春晚

8

荣耀X80配置全曝光，这波直接预定爆款🔥X70已经够能打了，X80直接全

9

听我劝一句！荣耀Magic8系列中Magic8Pro才是YYDS，毕竟这是配置

10

万万没想到[捂脸哭]荣耀GTPro竟然这么坚挺，小弟荣耀WINRT也只能甘拜下