AndrejKarpathy为nanochatd32教授如何统计“st

爱生活爱珂珂 2025-10-25 10:22:46

Andrej Karpathy 为 nanochat d32 教授如何统计“strawberry”（或类似变种）中字母 r 的数量，这是一次为小模型增添新能力的有趣尝试。他构造了一个名为 SpellingBee 的合成任务，生成用户提问和理想解答示例，再通过中期训练（SFT 微调）或强化学习使模型获得这一能力。整个过程需要注意以下关键点：

- 必须确保用户提示和问题足够多样化；

- 对于 nanochat 这样的小模型，token 化细节至关重要。比如，在处理过程中需要注意空格，先将单词标准化为引号括起的形式，再逐字拆分以便分布推理计算候选答案，最后通过迭代明确计数；

- 模型采用两种路径求解：一是模拟“心算”的手动计算，二是利用 nanochat 内置的 Python 解释器来获得答案。当前每种方法都能达到理想状态，但未来可以通过模拟错误及恢复示例、或强化学习的方式进一步提升鲁棒性。

有评论提到，小模型必须通过在数据中大量呈现相应任务才能提前学会；同时，也引发了大家对未来是否应构建由专门训练的小模型集合共同完成复杂任务的思考，而非单靠一个大模型。此外，还有讨论涉及如何扩展任务至视觉编码器、任务泛化、模型记忆与新技能兼容的问题，以及任务委派给专门计算服务的可能性。

此例说明，即使在类似蜂大小的“脑袋”中，通过精心设计任务和数据，也能让 LLM 展现出远超预期的能力，同时也提示我们在能力组合、模型调度等方面还有更多探索空间。

原文链接：x.com/karpathy/status/1981746327995465816

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

Daniel San：Claude Code Skills 设计理念：采用三层上

2

开发一款能够从PDF或教材中自动生成完整交互式课程的智能代理已初露端倪。该代理依

3

《A Software Engineer's Guide to Reading

4

O’Reilly新书《Hands-On APIs for AI and Data

5

[LG]《Policy Learning with Abstention》A S

6

[LG]《Imbalanced Gradients in RL Post-Tra

7

[LG]《Fast Inference via Hierarchical Spe

8

[LG]《Loopholing Discrete Diffusion: Dete

9

[CV]《DeepSeek-OCR: Contexts Optical Comp

10

早！[太阳] 早安

热门分类

科技TOP

1

这是做什么工作的？电脑上也看不懂

2

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

3

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

4

华为Mate80会在2025年11月发布，大家最关心的是它用的芯片，麒麟9030

5

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

6

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

7

这下你用iPhone的控制中心不会迷茫了。

8

估计不止刘强东和雷军就连马云也发懵了于东来最近这是怎么了，他竟然又说50万元3小

9

10月份即将发布的新手机，看看有没有你喜欢的？

10

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

科技最新文章

1

对不起了，余承东，有点不想等下去了之前准备等11月的华为Mate80，结果趁着

2

最终选择华为mate70pro+在pura80pro+和mate70pro+之

3

iQOONeo11对比iQOONeo10Pro+iQOONeo11对比iQOO

4

荣耀用户一定要把这个功能全打开，要不然太浪费这个顶级功能！据了解荣耀Magi

5

荣耀目前最建议买的4款手机1、荣耀X70内置8300mAh超大电池，适合人群

6

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

7

荣耀500已经入网，大概率下个月发布，看了一下，处理器升级、拍照升级、续航升级，

8

如果机器人真的造出来跟真人一模一样，你会购买吗？我可能会犹豫。从价格上看，现在

9

红米K50用户炸锅！屏幕突然蹦出“绿线”，用了不到三年修要710元？小米回应太闹

10

华为Mate70Air:机身厚度6.x毫米、7英寸大屏幕、1/1.3英寸主摄