Andrej Karpathy 年度回顾:Nano Banana 最具影响力,指向下一代 AI GUI 原型

↑ 阅读前,记得关注+Star⭐️,第一时间收到AK每日更新的年终综述。这是一篇你不应该错过的好文章。全文将与大家分享。 2025年将是大规模语言模型(LLM)领域积极发展、重大事件频繁的一年。以下是我个人认为最值得注意且在某些方面出乎意料的“范式转变”列表。这些变化改变了行业格局,在观念上也深深触动了我。 1.可验证的基于奖励的强化学习(RLVR) 2025年初,实验室LLM的主要生产流程大致如下: 预训练(Pre-training,2020年约为GPT-2/3) 2022)InstructGPT)带有人类反馈的强化学习(RLHF,2022年左右) 这长期以来一直是训练生产级LLM的专业配方和稳定方法。到 2025 年,可验证的基于奖励的强化学习(RLVR)将成为事实上的新事物。通过在一系列可以自动验证奖励的环境(例如数学问题或代码难题)中进行训练,法学硕士会自发地制定类似于人类认为的“推理”的策略。 LLM 将问题分解为中间计算步骤,并学习多种策略来尝试导出问题的解决方案(请参阅 DeepSeek R1 论文中的示例)。在以前的范式中,这些策略很难实现,因为人类不知道LLM的最佳推理路径和纠错过程应该是什么。该模型必须通过优化奖励来独立找到有效的方法。与 SFT 和 RLHF 等计算复杂度较低的“轻”调整阶段不同,RLVR 的目标是期望的(防作弊)奖励函数,从而实现长期优化。我们发现运行 RLVR 的“功耗成本比”非常高,消耗了原本计划用于预训练的算力。因此,2025年大部分产能增加将来自领先研究机构消除这一新阶段造成的“计算能力积压”。一般来说,显示的模型参数的规模没有太大变化,但 RL 执行时间显着增加。同样,这个新阶段还引入了新的调节旋钮(以及相关的缩放法则)。您可以通过生成更长的推理路径并增加“思考时间”来控制推理过程中的模型性能。 OpenAI的O1(2024年末)是RLVR模型的首次演示,但launcho3(2025年初)是一个明显的转折点,你可以直观地感受到差异。 2. 鬼魂与动物/不规则智力 2025年,我(以及我认为整个行业)开始直观地内化LLM智力的“形状”。我们不是“进化或繁殖的动物”。召唤鬼魂。有关 LLM 技术堆栈的一切(神经架构、训练数据、训练算法,尤其是优化压力)都很复杂完全不同,因此它产生一个与生物智能完全不同的实体也就不足为奇了。而且,从动物观察的角度来看待它们也是不合适的。从监测到的信息片段来看,人类神经网络已经针对丛林部落的生存进行了优化。另一方面,LLM 神经网络经过优化,可以模仿人类文本并获得数学问题的奖励。在 LM Arena 中,它们经过优化,可以获得列表中人类的赞扬。随着可验证领域的出现,RLVR 导致这些领域附近的 LLM 能力“激增”,整体性能特征很有趣。他们都是博学的天才,却像小学生一样思维混乱、认知障碍。他们前一秒可以解决一个难题,下一秒就可以用简单的一句话越狱,他们的数据可能会受到损害。在此背景下,2025年将出现广泛的审美疲劳和对各种基准的信任危机。核心问题是,基准测试几乎按照定义是“可验证的环境”,它很容易受到 RLVR 的影响。或者是较弱形式的合成数据生成攻击。在典型的“benchmax”过程中,研究团队不可避免地要围绕测试套件构建环境,“测试套件培训”成为一种新的艺术形式。如果您的模型满足所有基准但仍无法实现通用人工智能 (AGI),该怎么办? 3. 关于 Cursor / 下一代 LLM 应用层 Cursor 最让我印象深刻的一点(除了今年它的喜剧性崛起)是它令人信服地揭示了“LLM 应用程序”的新层。人们开始在各个行业谈论“光标版本”。正如我在今年的 Y Combinator 演讲中强调的那样,像 Cursor 这样的 LLM 应用程序针对特定行业封装和定制了 LLM 需求。也就是说,它处理“上下文工程”并协调各种法学硕士r 引擎盖。进行调用并将它们连接到日益复杂的有向无环图 (DAG) 上,从而微调性能和成本之间的平衡。这些提供了“自主滑动控制程度”。关于2025年这一新的应用层将有多“厚”,有很多讨论。LLM实验室会耗尽所有应用程序还是为垂直应用程序留下肥沃的草地?就我个人而言,我认为LLM实验室倾向于培养全面发展的“大学生”。使他们成为主题专家。 4. Claude Code / 存在于计算机内部 IClaude Code (CC) 的出现是 LLM 代理的第一个令人信服的演示。这允许工具调用和推理的循环耦合以解决长期问题。另外,我对CC的担忧是它不能保护用户的私人环境、数据和信息。计算机使用。我认为 OpenAI 通过将 Codex/代理集中在通过 ChatGPT 而不是本地主机编排的云容器中而误入歧途。代理池在云中运行的感觉就像是“AGI 的终结”,但我们生活在一个功能参差不齐、技术启动缓慢的转型世界中,与开发人员及其特定配置合作以直接在计算机上运行代理更有意义。 CC 抓住了这一优先事项,并将其打包成精美简约且引人注目的命令行 (CLI) 形式,从而改变了 AI 的面貌。人工智能不再像谷歌那样是一个你主动访问的网站,而是一个“生活”在你电脑里的精灵/幽灵。这是一种全新的、独特的人工智能交互范式。 5. Vibe Coding 2025年,人工智能将突破其极限,人们将能够仅使用英语创建各种令人惊叹的程序,甚至完全忘记代码的存在。有趣的是,我在考虑洗澡时在一条随机推文中偶然创造了“氛围编码”一词,但我不知道它会变得如此普遍。借助 Vibe Coding,编程不再是训练有素的专业人士的领域ssionals,但任何人都可以做到。从这个意义上说,我重申了我之前在《权力给人民》中所写的内容:法学硕士如何颠覆了技术传播场景。与以前的所有技术不同,普通人从法学硕士中受益比专业人士、企业和政府更多。普通人不仅可以尝试编程,而且经过培训的专业人员也可以创建比平时更多的软件(通过大气编码生成)。在开发 nanochat 时,我们使用 Rust Vibes 来编写我们自己的高效 BPE 分词器,而无需查找任何现有库或深入学习 Rust。今年我就是我自己。我已经编写了许多项目作为我想要实现的目标的简单演示。我曾经编写了整个临时应用程序,结果却发现了错误。因为这些代码突然变得免费、短暂、可塑且一次性。大气编码将重塑软件生态系统并重新定义职业。 6. Nano Banana / LLM图形界面 Google Gemini Nano Banana是2025 年最具影响力和范式转变的模型之一。在我的世界观中,LLM 是继 1970 年代和 1980 年代的计算机之后第二重要的计算范式。因此,我们会看到基于类似逻辑的类似创新。将会有相当于个人计算、相当于微控制器(认知核心)、相当于互联网(代理网络)等。特别是从 UI/UX 角度来看,与 LLM 交谈有点像 20 世纪 80 年代在计算机控制台中输入命令。文本是计算机(和法学硕士)首选的原始数据表示形式,但它不是人类的首选格式,尤其是在输入方面。事实上,人类不喜欢阅读长文本。这是因为它既费时又费力。相反,人类更喜欢在视觉和空间上消费信息。这就是传统计算中发明 GUI 的原因。同样,法学硕士应该以他们喜欢的格式进行交流,例如通过图像,i信息图表、幻灯片、白板、动画/视频、Web 应用程序等。当然,这种模式的初始和当前状态是表情符号和降价,它们是装饰和格式化文本的方式。但谁真正构建了“LLM GUI”?从这个角度来看,Nano Banana 是这种可能性的早期原型。需要强调的是,其显着特征不仅仅是图像生成本身,而是文本生成、图像生成和世界知识与模型权重交织在一起的联合功能。就是这样。因此,2025年对于LLM领域来说将是令人兴奋又有点意外的一年。 LLM正在演变成一种新型的智力,它比你想象的聪明得多,同时也比你想象的愚蠢得多。不管怎样,它们都非常有用,但我认为整个行业,即使以目前的能力,也只实现了不到 10% 的潜力。同时,还有很多想法值得尝试,从概念上讲,该领域仍然非常有前途。正如我今年早些时候在 Dwarkesh 播客上所说,虽然我同时相信(看似矛盾)我们将继续看到持续快速的进展,但我也相信仍有很多工作要做。放心,好戏才刚刚开始。来源:https://x.com/karpathy/status/2002118205729562949–end– 最后,⭐️记住我。每日更新:欢迎点赞、转发、推荐、评论,别忘了关注我
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注