超越规模：重新思考我们如何构建Intel智能

▶ Beyond Scaling: Rethinking How We Build Intelligence

Y Combinator 油管初创课堂 2026-04-01 纯讲解

总结 AI的进化无法阻挡，未来的关键在于如何利用并驾驭这股浪潮，而当前基于LLM的技术栈虽有效但远非最优，探索更接近“最优性”的新基础（如符号学习）才是长远方向。

工具 - NDA：一个探索AI研究新范式的实验室。; - ARC AGI benchmark：衡量通用智能的基准测试，有v1、v2、v3版本。; - LLM（大语言模型）技术栈：当前

建议 - 保持底层思维：在享受LLM和编码智能体红利的同时，抽时间了解“程序合成”、“符号学习”等更基础的概念，为下一

播客音频

YC_超越规模：重新思考我们如何构建Intel智能

一句话总结

AI的进化无法阻挡，未来的关键在于如何利用并驾驭这股浪潮，而当前基于LLM的技术栈虽有效但远非最优，探索更接近“最优性”的新基础（如符号学习）才是长远方向。

核心论点展开

AI进步已成定局，重点转向“如何利用”

. 我认为我们大概要看到二零三零年左右，那时候可能会发布像D000或D001这样的产品。

. 你无法阻止AI的进步，现在为时已晚。

. 既然进步已成定局，而且还在加速，那我们该思考的就是：如何让它持续加速？如何利用它、驾驭这股浪潮？

当前主流路径的局限性

. 现在整个行业都在基于LLM技术栈疯狂投入，这很合理，因为回报看得见。

. 但让所有人都只盯着同一件事，反而会限制可能性。

. 我个人不相信五十年后，AI还会建立在当前这个基础上。这个阶段效率太低了，成本高昂。

探索新基础：从“参数学习”到“符号学习”

. 我们在NDA实验室做的，不是高级的代码生成或编码代理，而是更底层的东西。

. 我们想建立机器学习的一个新分支，作为深度学习的替代方案。

. 简单说，深度学习是用一个参数化的曲线（比如神经网络）去拟合数据。

. 而我们想用一个尽可能简单的“符号模型”去解释数据，这更接近“最优解”。

为什么“符号模型”可能更好？

. 更接近最优，意味着你需要更少的数据来训练。

. 模型推理时会更快，因为模型体积非常小。

. 小而精的模型，泛化能力和组合能力也会更强。

. 这遵循“最小描述长度原则”：能最好地泛化的数据模型，往往是最短的。

宏大但值得尝试的愿景

. 我们的愿景很大，成功率可能只有百分之十到十五。

. 但这件事如果成了，意义非凡，而且如果我不做，就没人会做。

. 这就像Y Combinator的使命：去做那些成功几率低、但一旦成功影响巨大、且没人做的事。

关键数据与案例

. ARC基准的指示意义：GPT-3在ARC v1上得分是零。直到二零二四年底O1、O3这类“推理模型”出现，分数才出现阶梯式跃升，这标志了全新能力的涌现。

. ARC v2的快速饱和：一家叫Confluence Labs的公司，只用了几个月，就以百分之九十七的饱和度解决了ARC v2，成本效率很高。

. 代码领域的突破点：当训练环境能提供可验证的奖励信号（如单元测试），模型就能自我验证、生成海量数据，从而实现密集覆盖和自动化。

. 开源项目热度：提到的个人开源项目曾在GitHub上一天获得四万颗星，成为最大开源项目之一。

提到的工具/产品/技术

. NDA：一个探索AI研究新范式的实验室。

. ARC AGI benchmark：衡量通用智能的基准测试，有v1、v2、v3版本。

. LLM（大语言模型）技术栈：当前行业主流构建基础。

. 程序合成（Program Synthesis）：NDA的研究核心，在符号层面构建模型。

. 符号下降（Symbolic Descent）：类似于梯度下降，但是在符号空间中进行。

. Keras（文中为KAS）：作者参与开发的开源深度学习框架。

金句

. “你无法阻止AI的进步，现在为时已晚。”

. “如果我不做，就没有别人会做。所以值得尝试，即使不成功，也值得尝试。”

. “所有模型都是错的，但有些是有用的。我当时就想，也许我的方法能找到那个‘对’的模型。”

. “问题不在于模型变得更聪明了，而在于它们突然变得更有用了。”

对 Vibe Coder 的价值

技术趋势预警：明确指出现有LLM技术栈是过渡方案，长远看效率低下。作为开发者，需保持对更基础范式（如符号学习）的关注，避免将所有技术债垒在可能过时的架构上。

理解AI能力的本质：区分了“自动化有用任务”和“具备人类样本效率的通用智能”。当前编码智能体的成功，更多源于“可验证的奖励信号”和“后训练范式”，而非模型本身“智商”变高。这有助于理性评估AI工具的能力边界。

创新方法论：鼓励去做那些成功概率低、但影响巨大且无人涉足的“硬核”方向。对于想在AI底层创新而非单纯应用的创业者/研究者，是强烈的信心加持。

实战洞察：揭示了AI在特定领域（如代码、数学）取得突破的关键：构建能提供可验证奖励信号的环境。这为设计新的AI应用场景提供了核心思路。

建议

. 保持底层思维：在享受LLM和编码智能体红利的同时，抽时间了解“程序合成”、“符号学习”等更基础的概念，为下一波范式转变做准备。

. 关注“可验证性”：在设计产品或研究课题时，优先考虑那些能提供清晰、自动验证信号（测试、编译、逻辑证明）的领域，这是当前AI最能发挥威力的地方。

. 参与前沿基准：像ARC-AGI这样的基准，是检验AI“智能”而非单纯“知识”的试金石。关注甚至参与其中，能更早感知到能力的真正突破。

. 拥抱新训练范式：理解“后训练”和“强化学习循环”（生成任务-解决-验证-微调）的威力，思考如何将其应用到自己的专业领域以实现自动化。

. 理性评估AI：不要被“通用智能”的炒作迷惑。清楚区分当前AI是“更有用了”还是“更聪明了”，这将直接影响你对技术选型和产品设计的决策。

我认为我们大概要看到2030年左右，那时候我们可能会发布像[D000]或[D001]这样的产品。你无法阻止AI的进步，我认为现在为时已晚。所以接下来的问题是，既然AI进步已成定局，它实际上正在加速发展。

实际上，进展就在这里。它确实会持续加速。如何让它持续加速？如何利用它？如何驾驭这股浪潮？这就是我们需要思考的问题。今天，我们很荣幸邀请到法国ARK奖的创始人克洛伊，这是一个旨在解决ARC AGI benchmark的全球性竞赛。

他最新的项目是NDIA，一个探索前沿人工智能研究新范式的实验室。弗朗索瓦是世界上最优秀的人才之一，能帮助我们理解当前人工智能的发展阶段及其未来走向。

弗朗西斯，非常感谢你今天加入我们，祝贺Arc T183 V3的发布。

>> 非常感谢邀请我。能在这里讨论AI，我感到非常兴奋，这是一个超级激动人心的时刻。

>> 那么，弗朗，跟我们简单介绍一下印度吧。它究竟是什么，又有什么特点呢？

那么这到底是什么，你们究竟在尝试实现什么？NDI是一个新的研究实验室，我们正在尝试一些非常不同的理念，因此我们的目标基本上是建立机器学习的一个新分支，它将比深度学习更接近最优。

学习。学习。 >> 我们所有人现在都有点被 >> 我们所有人现在都有点被 >> 我们所有人现在都有点被代码领域发生的事情所吸引。呃，我目前正经历一个病毒式传播的时刻，今天早上我的项目在GStack上获得了四万颗星，所以感觉就像是，哦，这真是……

所以这就像是，哦，这是一个开源项目，现在它已经成为了最大的开源项目之一，而且我有超过100个来自贡献者的拉取请求需要处理。我想你，你知道，也是其中之一。

我想，你是谈论此事的最佳人选，因为你确实开辟了一条全新的路径。

>> 没错。我们在印度进行的是程序合成研究。

当我从事程序合成研究时，每当谈及程序合成，人们常会问我：“哦，那你是在做类似代码生成的工作吗？是在构建替代代码生成器吗？是在开发编码代理的替代品吗？”实际上，这完全不是我们正在做的事情。我们的工作层次要低得多，远低于那些层面。

实际上，我们正在尝试构建机器学习的一个新分支，作为深度学习本身的替代方案，而不是像编码代理那样。

编码代理就像是这个非常非常高级的代理，就像是这个非常非常高级的代理，就像是这个非常非常高级的代理，是堆栈中最高层的最后一块拼图，是堆栈中最高层的最后一块拼图，是堆栈中最高层的最后一块拼图，而我们实际上正在尝试在不同的基础上重建整个堆栈，在不同的基础上重建整个堆栈，在不同的基础上重建整个堆栈。因此，我们正在构建一个新的基础，我们正在构建一个新的基础。

因此，我们正在构建一种全新的学习基础，这种基础与参数化深度学习截然不同。

所以，回到机器学习的问题上，你有一些输入数据和目标数据，你试图找到一个函数，将输入映射到目标，并希望这个函数能够泛化到新的输入数据上。

如果你在进行深度学习，你所做的是拥有一个参数化曲线，它作为你的函数模型，你正试图通过梯度下降来拟合曲线的参数。

而这基本上就是我们所做的，只不过我们用一个旨在尽可能简化的符号模型替代了参数曲线。这就像是最简单、最可能的模型，用来解释数据，模拟正在发生的情况。

当然，如果你那样做，就无法再应用下降法了。因此，我们正在构建一种我们称之为符号下降的方法，它类似于梯度下降在符号空间中的对应物。

我们的构想是构建这个新的机器学习引擎，它能为你提供极其简洁的数据符号模型，然后我们将使其scale。

因此，今天你们在机器学习领域所做的一切，尤其是关于参数曲线的研究，未来我们都应该能够通过符号模型来实现，并且这种方式将无限接近最优解。

更接近最优状态意味着，你将需要少得多的数据来训练模型。模型在推理时运行效率会大幅提升，因为它们会变得非常小巧。

因为它们体积微小，所以它们也因为体积微小，所以它们也因为体积微小，所以它们也能更好地泛化和组合，能更好地泛化和组合，能更好地泛化和组合。你知道，最小化是最好的。你知道，最小化是最好的。

你知道最小描述长度原则，即最可能泛化的数据模型是最短的，我认为如果你在进行参数学习，就找不到这样的模型，你需要尝试符号方法。这很有趣，那么行业其他部分呢？

整个行业还在不断投入数十亿资金，固守多年前设定的路径。你能帮忙阐述一下，为什么你认为探索替代方案才是正确的方向，而不是一味地向现有模式追加投资吗？

在当前的方法上投入更多资金 >> 我的意思是每个人都在 >> 我的意思是每个人都在 >> 我的意思是每个人都在，你知道，这些天都在基于LLM技术栈进行构建，这很有道理，因为你知道回报就在那里，它确实有效，所以对每个人来说，继续这样做似乎非常明智。

目前看来，这似乎是最具成效的路径，但让所有人都专注于同一件事反而会适得其反。就我个人而言，我并不认为五十年后，机器学习或人工智能还会建立在这个阶段之上。我认为这个阶段虽然代价高昂，甚至可能引领我们走向通用人工智能，但它的效率远未达到应有的水平。

它的效率不如应有的水平。

我认为人工智能世界的发展趋势最终必然走向最优化，因此我正尝试直接跨越式地迈向这一目标，即现在就着手构建最优人工智能的基础。但总体而言，我们的愿景极具雄心，我并非断言我们必将成功——或许我们只有10%到15%的成功概率，但这已足够值得我们全力以赴。我相信在广大听众中，这具有普遍意义。

如果你有一个宏大的构想，并且有听众。如果你有一个宏大的构想，并且有听众。如果你有一个宏大的构想，虽然成功的几率非常渺茫，虽然成功的几率非常渺茫，虽然成功的几率非常渺茫，但一旦成功，它将意义非凡，但一旦成功，它将意义非凡，但一旦成功，它将意义非凡，而且没有其他人会涉足，而且没有其他人会涉足，而且没有其他人会涉足，对吧？这不是那种热门的事情。这不是那种热门的事情。这不是那种热门的事情。如果你不去做，就没有人会去做。如果你不去做，就没有人会去做。

这件事，只有你来做，别人不会做。这基本上就是我们的处境。如果你身处这样的境地，那么你就应该抓住机会，去尝试，去努力。我的意思是，这几乎就像是康比纳托的使命宣言，就是你刚才所说的那样。

你刚才说的。

是的。

重要的是因为

是的。重要的是因为

如果我们不做，就没有别人会做，对吧？所以值得尝试。

即使我们不成功，也值得尝试。

>> 基于T174技术栈构建的编码智能体，其成功是否在某种程度上让你感到惊讶，特别是在过去六个月左右的时间里？

>> 是的，确实如此。我认为这让许多人都感到意外。

这确实让许多人感到惊讶，也着实让我自己吃了一惊。究其原因，一切之所以开始如此顺畅地运转，尤其是在与智能体协作方面，关键在于代码提供了一个可验证的奖励信号。

我认为目前我们正处于这样一种状况：任何问题，只要其解决方案能够被正式验证，并且你确实可以信赖奖励信号——它不仅仅是模型做出的某种猜测——那么这类领域都可以被模型化。

任何像这样的领域，呃，凭借当前技术都能实现完全自动化，完全自动化，完全自动化，结合基于语言模型的架构和代码，基于语言模型的架构和代码，基于语言模型的架构和代码，可以说是最先被攻克的领域，可以说是最先被攻克的领域，可以说是最先被攻克的领域，但未来还会有许多其他领域，但未来还会有许多其他领域，但未来还会有许多其他领域。我认为数学领域同样，我认为数学领域同样，我认为数学领域同样。

我认为数学领域同样也将在未来几年迎来一场革命，原因依旧，因为这个领域能提供可验证的回报。

我想，对于形式化验证领域的一个挑战在于，你必须设法将一个领域变得可验证，这才是关键所在。我的意思是，代码本身就很自然，你可以测试它，有bug、编译等等；数学也是如此，所有的定理和证明都能成立。

我想，当偏离几个度时，证明就变得模糊不清了。有些领域并不天然适合形式化验证，你需要设计某种函数来生成奖励，使得像英语语言和撰写完美文章这类非常模糊的事物也能被验证。

撰写完美的文章。撰写完美的文章。>>如何使其正式>>如何使其正式>>如何使其正式可验证？可验证？可验证？>>是的。是的。当然。我的意思是写作>>是的。是的。当然。我的意思是写作>>是的。是的。当然。我的意思是写作文章，你知道，这是一个典型的例子文章，你知道，这是一个典型的例子文章，你知道，这是一个典型的例子，属于不可验证的领域。并且属于不可验证的领域。并且属于不可验证的领域。

因此，你将看到的是，基于这类领域的推理模型进展将会非常缓慢，因为我们所使用的技术栈，比如语言模型栈，极其依赖于其训练数据。这基本上就是训练数据的问题。

这基本上就是将训练数据付诸实践的过程，而对于撰写文章来说，训练数据来源于人类专家的标注，这成本高昂。因此，你会看到进展非常非常缓慢，甚至可能停滞不前。但对于任何可验证的任务来说，情况也是如此。

但是，对于任何可验证的领域，比如以代码为例，关键突破是什么时候呢？当人们开始创建这种基于代码的训练环境时，特别是在训练后阶段，奖励信号或验证信号是通过单元测试等方式提供的。

这意味着模型并非仅仅依赖于人类标注的数据。实际上，它是在自行处理信息，验证答案，并在此过程中生成了大量额外的字符串数据。

因此，问题空间的覆盖范围要密集得多，不仅仅是答案对错的覆盖，还要开始构建执行轨迹的模型，以便更好地理解。

这样模型就能开始融入一种执行模式，就像人类程序员那样——当他们查看代码时，会在脑海中模拟执行，追踪变量值等等。模型也正试图做到这一点。

这也是模型现在试图做的事情，这就是为什么它现在能够运作，并且效果如此出色。这之所以可能，是因为你正在一个非常正式、完全可验证的环境中工作，而这是你在评估、法律或许多其他问题上无法做到的。我认为我真的很喜欢你如何定义智能以及我们如何衡量它，这也引出了一个问题，即分享ARGI的历史。

嗯，ARGI。嗯，ARGI。>> 是的。所以我对“通用”的定义是>> 是的。所以我对“通用”的定义是>> 是的。

所以，我对通用智能的定义是——你知道，如今业界很多人都在谈论智能，他们说智能将是一个能够自动化大多数经济上有价值的任务的系统。但在我看来，这个定义更多是关于自动化，而非智能本身，更不是通用智能。因此，我的定义是：通用智能基本上将是一个能够应对任何新问题、新任务、新领域，并理解它、建模它、熟练掌握它的系统，其效率水平与人类相当。

这意味着它需要与人类大致相同数量的训练数据和计算量，而人类所需的数据量非常少，因为人类的数据效率非常高。

因此，通用智能是指在人类能够完成的任务范围内，达到人类水平技能获取效率的智能。

>> 你认为我们有可能在实现你的定义之前，先实现AGI的第一个定义，即自动化大部分经济上有价值的工作吗？

>> 绝对可能。我认为这正是我们当前所处的轨迹。

我认为，原则上当前技术已经能够实现人类水平甚至超越人类水平的自动化，这在任何具有可验证奖励的领域都是如此，对吧？而代码正是第一个这样的领域。我认为，解决AGI问题将是关键。

我认为要弄清楚T183，弄清楚像人类水平的学习效率，能够应对任意任务，这可能需要一种不同的技术、不同的思维方式、不同的方法。

你认为通过调整，语言模型能否达到与人类相当的样本效率，还是说这从根本上就不可能，我们需要全新的方法，而这正是你希望解决的问题？只要有足够的计算资源，一切皆有可能。

每台电脑都是伟大的均衡器，每台电脑都是伟大的均衡器，每台电脑都是伟大的均衡器，每种方法开始看起来都一样，每种方法开始看起来都一样，每种方法开始看起来都一样，我认为原则上有可能，我认为原则上有可能，我认为原则上有可能，在LLM堆栈之上构建一个看起来很像GI的东西，在LLM堆栈之上构建一个看起来很像GI的东西，在LLM堆栈之上构建一个看起来很像GI的东西，但它本身不会是LLMs，但它本身不会是LLMs，但它本身不会是LLMs，它将

或许你了解这个新层级，它可能不止一层，而是好几层叠加。你可以在LLM之上构建它，因为语言模型本质上是一种计算机，对吧？我明白了。不过，我认为这样做是错误的，因为它会……

因为这样做是错误的，而且我认为会非常低效。我认为人工智能研究将不得不趋向于不仅仅是效率，事实上，随着时间的推移，将追求最优性。因此，未来几十年的人工智能将不再是推理模型之上的束缚，其基础之上的负担将远低于此。

远低于此。远低于此。

针对戴安娜的问题，你是否愿意谈谈

你是如何实际设计ARGI的，

以及为何它能成为衡量这一点的良好指标？

>> 我是说，你知道，我从事深度学习已经非常非常久了，最初我的技术思维是认为深度学习能够做到一切。 >> 你甚至在所有其他框架变得非常流行之前，就已经是KAS的创意核心了。

流行。 >> 没错，就是这样。 >> 没错，就是这样。我那时是个 >> 没错，就是这样。 >> 没错，就是这样。我那时是个 >> 没错，就是这样。

我曾在2014年训练过一个自然语言处理的部署模型，正是基于这项工作，我开始着手开发这个开源库，并于整整11年前将其发布。这个库起初名为Kas，后来逐渐流行起来，结果我发现自己花在最初为Kas设定的研究上的时间越来越少，反而更多精力投入到了框架本身的开发中。

只是专注于框架本身。只是专注于框架本身。只是因为它拥有极其出色的产品市场契合度。所以我的看法是，大约在2015、2016年左右，深度学习变得极其通用，你可以用它做任何事情，不再需要其他任何东西。

它不需要其他任何东西。它不需要其他任何东西。训练完成了。所以，我的技术训练完成了。所以，我的技术训练完成了。所以，我的技术基本上就是深度学习，基本上就是深度学习，基本上就是深度学习是可微分编程。所以可微分编程。所以可微分编程。所以，任何你用软件做的事情，任何你用软件做的事情，任何你用软件做的事情，原则上都可以通过训练一个深度学习模型，在正确的输入和输出上，原则上都可以通过训练一个深度学习模型，在正确的输入和输出上，原则上都可以通过训练一个深度学习模型，在正确的输入和输出上来实现同样的功能。

在2016年，我做了同样的事情。在2016年，我做了同样的事情。在2016年，我在Google大脑进行了一项研究，尝试训练深度学习模型，以帮助解决推理问题，特别是针对一阶逻辑问题，比如定理证明等等。

我开始发现，你无法真正通过梯度下降来编码那种类似递增风格的算法。这并不是因为模型无法表示这些算法，而是因为梯度下降无法找到它们。对吧？

问题在于，并非深度学习无法训练或类似原因，那根本不是症结所在。真正的问题在于梯度下降法——它无法找到具有普适性的程序，反而会陷入局限。

相反，它最终会进行过度拟合的模式匹配，对吧，针对序列的匹配，针对序列的匹配，针对序列的匹配，这，这，这，我想人们可能会争论说，我想人们可能会争论说，我想人们可能会争论说，这就是正在发生的事情。我的意思是，看，这就是正在发生的事情。我的意思是，看，这就是正在发生的事情。

我的意思是，看看今天的情况，在某种程度上，今天的情况，在某种程度上，今天的情况，在某种程度上，它是一种稍微、稍微、稍微高级一点的版本。它拥有大量数据，所以不会让人觉得是过拟合，因为数据的分布更加广泛。有了更多的数据，而且我认为现在的模型，它们更加灵活。

今天的模型，嗯，它们对数据的压缩能力更强了，这就是为什么它们能更好地泛化。所有模型都是错的，但有些模型是有用的。然后我想我听到的是，你的方法或许能找到那个正确的模型。没错，嗯，这就是这个想法的来源，我当时就想，

这个想法从何而来，我当时就在想，这个想法从何而来，我当时就在想，你知道，那时候在2016年，你知道，那时候在2016年，你知道，那时候在2016年、2017年，我当时就想，好吧，我们需要一个benchmark来捕捉这些想法。需要benchmark来捕捉这些想法。需要benchmark来捕捉这些想法。>> 嗯，我们需要一个程序合成benchmark。程序合成benchmark。程序合成benchmark。>> 而我对此的心理模型是ImageNet。ImageNet。ImageNet。

我当时就想，哦，我要构建推理的图像集。于是，从2017年左右开始，我着手进行头脑风暴，提出了几个想法，并探索了许多不同的方向。

呃，我尝试过用部分太阳自动机来工作，就是那种你展示一个模型，太阳自动机输出结果，然后它必须重新生成产生这些结果的程序，类似这样的东西。最终我在2018年初左右确定了RGI格式。

RGI格式大概在2018年初左右。你知道，我当时是兼职在做这个。你知道，我当时是兼职在做这个。你知道，我当时是兼职在做这个。那是个副业项目，就像我的主业那是个副业项目，就像我的主业那是个副业项目，就像我的主业是在Google开发kas。是在Google开发kas。是在Google开发kas。我进展得不是很快，我进展得不是很快，我进展得不是很快，在那个项目上。所以2018年夏天，我写了所以2018年夏天，我写了

嗯，2018年夏天，我编写了ARC任务编辑器，然后开始手动创建大量任务，就这样持续不断地手动制作任务。大约一年后，我完成了大约一万个任务。

我撰写了大约一千项任务，并因此撰写了论文，阐述了其核心思想——即智能如同技能获取的效率，这一切我都在2019年发表了。

与此同时，GB3 2020版本正在推出，与此同时，GB3 2020版本也在推出，与此同时，GB3 2020版本开始显现迹象，直到聊天功能开始显现迹象，直到聊天功能开始显现迹象，直到2022年底左右的GBD时刻，2022年底左右的GBD时刻，2022年底左右的GBD时刻，行业随之起飞，行业随之起飞，行业随之起飞，这是benchmark之一，这是benchmark之一，这是benchmark之一，它表现得非常糟糕，它表现得非常糟糕，它表现得非常糟糕，并且非常不为人知。我认为很多人都不了解它。

我不认为它非常晦涩难懂。我不认为很多人知道它。主要是那些可能读过你论文的小众研究群体知道。是的，从事相关项目的人了解它，但很多人并不知晓。

嗯，但很多从事深度学习研究、特别是专注于扩大规模的研究者，其实并不太在意这方面。部分原因在于，语言模型在特定任务上效果不佳甚至完全无效。然而，要吸引研究界的关注，它必须开始展现出一定的成效。如果难度过高，人们很可能会直接忽视它。显然，你只是领先于时代，因为我们已不再停留在初始阶段，第二阶段正趋于饱和，而第三阶段现已到来。

>> 三号现已推出。 >> 三号现已推出。 >> 是的。 >> 是的。 >> 是的。 >> 我认为RKGI的亮点在于 >> 我认为RKGI的亮点在于 >> 我认为RKGI的亮点在于它一直是行业重大变革的 >> 它一直是行业重大变革的 >> 它一直是行业重大变革的绝佳风向标，这些变革的发生 >> 绝佳风向标，这些变革的发生 >> 绝佳风向标，这些变革的发生是因为V1版本长期无法运行， >> 是因为V1版本长期无法运行， >> 是因为V1版本长期无法运行，直到2025年推理模型问世才得以改变。没错。 >> 直到2025年推理模型问世才得以改变。没错。 >> 直到2025年推理模型问世才得以改变。没错。 >> 是的，完全正确。如果你看看呃PRI >> 是的。

当然。如果你看看呃PRI >> 是的。当然。

如果你看PRI在ARC v1上的表现，再看v2在ARC v1上的表现，接着又是v2在ARC v1上的表现……呃，基础模型得分极低，在v1上甚至低于10%，基本上就是这样。我的意思是，这确实符合原始情况，比如GP3得分为零，但即便是最新的基础模型，截至三月，在没有推理的情况下也是如此。是的，所以基础模型在v1上的表现仍然非常低，尽管在此期间，我们已经将这些模型提升了50%。

000x 将这些模型加速了50,000倍，对吧 scale 将这些模型加速了50,

000x 所以，这实际上是在告诉你，仅仅扩大预训练规模本身并不足以突破瓶颈。这还不足以证明模型具备了流畅的智能。然后，当模型开始在ark1上表现出色时，那一刻才真正标志着突破的到来。

最初的推理模型始于OpenAI的01版本，随后是03版本。这些模型由OpenAI在ARC上展示，因为它是首个真正展示出不同之处的未饱和推理模型，揭示了我们此前未曾拥有的新能力。

我们以前从未见过的能力，我们以前从未见过的能力，我们以前从未见过的能力，因此，随着推理模型的引入，你开始，因此，随着推理模型的引入，你开始，因此，随着推理模型的引入，你开始看到这种突然的、类似阶跃函数的变化，看到这种突然的、类似阶跃函数的变化，看到这种突然的、类似阶跃函数的变化，嗯，在ARK1上，所以AR1是，嗯，在ARK1上，所以AR1是，嗯，在ARK1上，所以AR1是真正标志着，真正标志着，真正标志着，在这个时刻，有事情正在发生，在这个时刻，有事情正在发生，在这个时刻，有事情正在发生，并且，并且，并且，>> 大事 >> 大事 >> 大事 >> 是的，大事，比如新的能力。

>> 是啊，一些重大的新功能正在涌现，比如推理能力是全新的，而且当时其实并不明显，你知道，我不确定你是否记得，当OpenAI在2024年底宣布GPT-3预览版的时候。

当然，它确实是一个巨大的进步，就像阶梯函数式的飞跃，在ARC方面取得了显著进展，但成本非常高昂。我们实际上并没有真正实现产品与市场的契合。然而，如果你审视ARC的成果，你会明白这是重大且重要的。随后我们发布了AR2，它采用了相同的格式，但在推理链的层面上更加复杂，包含了更多的组合元素。

推理链发生了什么。推理链发生了什么。

最早期的推理模型在R2指标上表现非常低，而大约在编码智能体开始工作的同一时期，你看到了R2指标的快速饱和，这表明确实有新的能力正在涌现。

一套新的能力正在涌现。

我认为benchmark在捕捉推理模型的优势方面做得非常出色，接着是agentic编码的进步，这种新范式意味着如果你有可验证的奖励，那么基本上可以完全自动化该领域，顺便提一下，ARC确实提供了可验证的奖励。对于v2版本，我认为一个明显的原因是推理，另一个是benchmark并不关心你如何解决问题，我猜从你的话中可以推断出，人们正在使用代码生成来解决问题。

人们是否使用代码生成来解决问题。

>> 没错，所以并不一定

>> 没错，所以并不一定是指代码生成本身，而是前沿实验室一直在针对ARC v2进行攻关，你在ARC v2上看到的进展实际上正是这种大规模scale定向研究的结果。因此，你可以

因此，要解决RG2，你可以让你的推理模型生成更多类似benchmark中的任务，然后尝试用程序归纳等方法来解决它们，同时继续利用你的推理模型，并再次验证解决方案。

可验证的，这样你就能信任答案。然后，你基于成功的推理链对模型进行微调，并不断重复这个过程：生成新任务、解决问题、验证解决方案，并在推理链上微调模型。

推理链，你可以这样重复数百万次，没错，只要投入更多资金就行。这就是正在发生的强化学习循环。人工智能的新范式基本上就是，在任何能够实现这一点、能够接入这些真实验证信号的领域，你都可以运行这种循环。只要能运行这种循环，你就能有效地暴力挖掘整个空间，从而获得极高的性能。

这是极高的性能表现。这基本上就是AR2达到饱和的过程。因此，它所揭示的是，并非这些模型比早期版本拥有更高的流体intel力，而关键在于你掌握了这种全新的模型。

关键在于出现了这种新的后训练范式。正是这种后训练范式催生了代理编码。所以这确实很重要，确实有价值，确实很有用。问题不在于模型变得更聪明，而在于它们突然变得更具实用性。

在特定领域变得更有用，并不一定需要变得更聪明。是的，显然如此，因为这对我来说是件好事。我现在并没有变得更聪明，比如在45岁这个年纪。但你知道，我可以……

但你知道我能学会做事，这有点像模型最近的发展趋势。模型最近的发展趋势。模型最近的发展趋势。>> 是的，完全正确。说到能力，在智能和知识之间总是存在一种权衡。在智能和知识之间总是存在一种权衡。在智能和知识之间总是存在一种权衡。

如果你拥有更多知识，如果你拥有更多知识，如果你拥有更多知识，如果你接受了更好的训练，嗯，你需要的智力水平就可以降低。这正是编码智能体兴起时发生的情况，对吧？这些模型本身并没有更高的流体智力，它们并没有更高的智商。

他们并非拥有更高的智商，这么说吧。关键在于他们接受了更系统、更全面的训练，具体体现在两个方面。因此，他们不再仅仅是尝试自动补全代码，而是通过更深入的方式进行实际训练。

实际上，它们是通过在这些模拟环境中反复试错来训练的，这些环境包含真实的奖励信号。同时，它们还被训练以嵌入代码执行的模型，使它们能够学会在运行周期中跟踪变量的值，这正是执行过程的关键所在。

执行周期，正是这个执行周期，正是这个执行周期，促成了如今代理编码极其强大的产品市场契合度，促成了如今代理编码极其强大的产品市场契合度，促成了如今代理编码极其强大的产品市场契合度，它正在彻底改变，它正在彻底改变，它正在彻底改变软件工程，软件工程，软件工程。 >> 这发生在不久前， >> 这发生在不久前， >> 这发生在不久前，我们实际上在饱和点，我们实际上在饱和点，我们实际上在饱和点，诗意的创始人前来谈论了，诗意的创始人前来谈论了，诗意的创始人前来谈论了。

诗意地来谈谈这种“方法、方法、方法”>> 听起来确实像这种新方式>> 听起来确实像这种新方式>> 听起来确实像这种新方式，嗯，让语言模型执行任务，实际上是在构建这种代理的“硬度”，对吧？而这种“硬度”本质上就是将一个问题领域结构化，使其能够被形式化验证，他们基本上就是这样为ARC v2做的，当他们基于……

具体针对ARC v2，当他们发布时，他们处于发布时的顶端，但疯狂的是，我实际上在不久前的冬季26批次中与一家名为Confluence Labs的公司合作过，该公司最终以97%的饱和度占据了V2结果，而且我认为他们的任务成本效率也高得多，他们采取的方法与此类似。

我基本上采取的是类似的方法。我认为他们在此基础上构建了控制框架，目的是让学习管理系统能够去执行和构建不同的任务，并通过它进行编程。是的，这让我当时感到非常惊叹。

这让我当时就震惊了，这批产品他们只花了几个月时间，只花了几个月时间，只花了几个月时间，就成功让这个存在已久的批次达到了饱和，存在已久的批次达到了饱和，存在已久的批次达到了饱和。这感觉像是有什么特别的事情正在发生，正在发生，正在发生。>> 是的，是的。目前确实取得了许多进展，许多进展，许多进展。

目前它是由一种定制机制驱动的。这种机制围绕任务构建，本质上是一种让人类程序员能够将更高层次的解决方案策略注入模型的方式。

在我看来，需要人类来设计这些约束装置的事实本身也表明，我们今天缺乏AGI，因为如果我们拥有AGI，人工智能就能自行制造约束装置，无需被告知如何解决问题——它会自行找到方法。但这类约束装置非常高效，我并不认为它们在任何意义上让我们更接近AGI，然而这仍是一个极具价值的研究领域，因为它能推动scale层面的任务自动化。

>> YC下一批项目正在招募申请，如果你有创业项目，请访问y combinator提交申请。

com/apply。combinator。com/apply。combinator。com/apply。尽早填写申请表永远不嫌早，它能提升你的创意水平。好的，回到视频内容。那么你能告诉我们V3版本将要测量什么吗？它刚刚发布。是的，当然。所以，如果你看V1版本，

所以，如果你看V1和V2，它实际上主要关注的是你的V2，它实际上主要关注的是你的能力，即根据给定的模式生成因果模型的能力，就像数据是直接提供给你的一样。因此，它是静态的、被动的，并且真正侧重于建模。而V3则完全不同，我们正在尝试完全不同的方向。

We are trying is completely different. We are trying to measure uh agentic intelligence. So to measure uh agentic intelligence. So to measure uh agentic intelligence. So it's interactive, it's active like the it's interactive, it's active like the it's interactive, it's active like the data is not provided to you. You must go data is not provided to you. You must go data is not provided to you. You must go get it. The idea is that your agent is get it. The idea is that your agent is get it. The idea is that your agent is dropped into a new environment which is dropped into a new environment which is dropped into a new environment which is kind of like a a mini video game. And kind of like a a mini video game. And kind of like a a mini video game. And it's not provided any instructions.

没有提供任何指示。没有被告知该做什么。甚至不知道目标是什么，或者控制方式是什么，它必须通过反复试验自己摸索一切。所以我们不仅仅是……

因此，我们不仅仅是在衡量AI对其环境的建模能力，我们还在考察其探索效率、自主设定目标的能力，以及它如何利用所创建的环境模型进行规划并执行计划。

我们创建并执行计划。所有这些能力，我们称之为智能。我们正在寻找能够学习玩这些游戏，并以与人类同等行动效率破解它们的人工智能系统。

如果你观察人类，他们就是人类。如果你观察人类，他们就是人类。如果你观察人类，他们被投入这个新环境。被投入这个新环境。被投入这个新环境。他们尝试一些事情。他们开始他们尝试一些事情。他们开始他们尝试一些事情。他们开始理解事物如何运作。呃，他们理解事物如何运作。呃，他们理解事物如何运作。呃，他们能够他们能够解决环境问题，你能够他们能够解决环境问题，你能够他们能够解决环境问题，你知道，在几百到几千个派系中。我们正在寻找人工智能派系。我们正在寻找人工智能派系。

我们正在寻找能够匹配这种效率的人工智能系统。顺便提一下，我们知道R3中的所有测试环境都是人类无需事先训练就能解决的，因为我们实际上已经在普通人身上进行了测试。

起初，你只看到这个屏幕，你只看到这个屏幕，你只看到这个屏幕，你知道这些按键是可用的，你知道这些按键是可用的，你知道这些按键是可用的，但你不知道它们的作用，但你不知道它们的作用，但你不知道它们的作用，你必须从零开始摸索一切。你必须从零开始摸索一切。你必须从零开始摸索一切。而人类在这方面确实很擅长，顺便一提。他们在这方面确实很擅长，顺便一提。他们在这方面确实很擅长，顺便一提。

他们非常擅长高效探索，理解新事物，并最终破解游戏。而如今的前沿模型在这方面并不擅长。

如果推理模型破解了V1等版本，强化学习环境破解了V2，我们是否需要新的突破来攻克V3？当前最先进的技术是否已无法应对？

是的，我是说，我很好奇想看看前沿实验室对V3会作何反应，以及他们将如何开始针对它。嗯，它被设计得更加抵抗那种我们在V2中看到的黑暗策略。当然，你可以……

当然，你可以尝试制作更多类似AR3的游戏，或者开发更多类似AR3的游戏，然后在其中训练你的智能体。但关键在于，我们特意构建了一套私有的环境集合，这套环境与公开可用的集合有着显著的不同——实际上，你可以去查看那些公开的环境。

实际上，关于私人集合中包含的内容，我无法提供如此详尽的信息。

在私有数据集中，你会遇到概念迥异的游戏；而公共数据集的设计初衷是为了实现更优的性能表现，但实际上，它在反映系统优先级排序能力方面并不具有代表性。正因如此——

因此，我们会优先考虑这一点。正因如此，它会更难被锁定目标，更难被锁定目标，更难被锁定目标 >> 这使得它成为对流体智力的更好测试 >> 这使得它成为对流体智力的更好测试 >> 这使得它成为对流体智力的更好测试 intel智力，而非测试你投入了多少努力去破解它 ppo智力，而非测试你投入了多少努力去破解它 intel智力，而非测试你投入了多少努力去破解它。它。它。 >> 我很好奇，你是怎么想出这些游戏的？它们太有创意了。 >> 我很好奇，你是怎么想出这些游戏的？它们太有创意了。 >> 我很好奇，你是怎么想出这些游戏的？它们太有创意了。

是的，我们专门成立了一个电子游戏工作室来开发这些游戏。现在我们拥有超过250款游戏，而且它们上手很快——每款游戏从初次接触到完成，大概只需要10分钟甚至更短的时间。

我们像初次接触时那样摸索前行。我们拥有超过250款游戏。我们建立了一个高效的游戏工作室，每周都有多款游戏在同步开发中。

我们这条流程，包括设计、实施、评审、人工测试以及多次迭代循环，以确保游戏最终呈现完美。那么，工作室里都有谁在参与工作呢？>> 没错，我们确实组建了一支团队。

呃，我们确实聘请了一支游戏开发团队，组建了自己的开发人员，并且打造了专属的游戏引擎。哇，所以这些人其实都是之前在电子游戏行业工作过的。没错，就是这样。不过要记住的一点是，Oxy平台上的游戏是独一无二的，对吧？

Oxy的游戏是独一无二的，对吧？他们试图不借鉴以往电子游戏中的元素和概念。

它们完全建立在核心知识的基础上，比如基础物理知识，对物体的理解，以及智能体的概念，例如具有目标和意图的实体。

具有目标和意图的物体。但我们并未融入任何语言或文化符号，比如箭头，或者绿色代表通行、红色代表停止这类含义。这些游戏中不涉及任何外部知识。

这就像那种智力测试，只是模式匹配，但现在加入了时间序列。是的，不仅仅是时间序列，它是互动的。你必须在游戏空间中开辟自己的路径，对吧？

在像ARK一和ARK二这样的问题中，你必须建模的数据是直接提供给你的。你已经拥有了这些数据。

你已经掌握了数据，现在只需找出数据，只需找出数据，只需找出因果规则来解释它，用AR3因果规则来解释，用AR3因果规则来解释，用AR3因果规则来解释，实际上必须收集数据，实际上必须收集数据，实际上必须收集数据>>嗯，并且你必须高效地完成。就像>>嗯，并且你必须高效地完成。就像>>嗯，并且你必须高效地完成。

当然，你可以说，好吧，我打算直接暴力搜索所有可能的游戏状态空间，然后找到解决方案。但这是不可能的。

你不能那样做，因为如果你试图那样做，即使你设法通过了关卡，你的得分也会极低，因为评分标准是你的效率。你必须达到人类水平的效率。这很有趣，几乎像是兜了个圈子。这个级别的AGI。

这种程度的游戏匹配，可以说是与开放AI写作相匹敌的。我的意思是，你知道，汤姆·布朗，呃，作为Anthropic的联合创始人之一，不得不编写像控制代码那样的东西，以便让OpenAI的早期GPT人工智能能够玩《星际争霸》。>> 是的，是的，OpenAI在……上进行了研究。

是的。OpenAI 在某种程度上参与了Dota 2的工作。他们在Dota 2上也有参与。他们在Dota 2上也有参与。他们拥有openi5模型，如果我没记错的话，openi5模型，如果我没记错的话，openi5模型，如果我没记错的话。所以这不仅仅是预训练阶段。

所以这不仅仅是在GPT之前，而且主要是在transformers之前，因为他们当时使用的是LSTM层堆叠的技术，如果我没记错的话。甚至在OpenAI之前，DeepMind就已经在电子游戏领域做了大量工作，你知道的，就是通过深度强化学习来解决电子游戏问题。他们是第一个在2013年就成功应用于Atari游戏的团队，从这一点来看，他们非常早、非常有远见，能够那么早就用上至今仍非常现代的方法来攻克这个难题。

所以，最大的区别在于，例如，如果你观察游戏领域，你是在与测试环境相同的条件下进行训练。因此，实际上你只是在试图记住最佳策略。

在训练时，你试图探索所有可能的游戏状态空间，并将这些知识整合到模型中，使其可操作化。然后在推理阶段，你基本上只是在回忆那些知识，而这正是我们试图通过AR 3来避免的。

呃，你不应该回避AR 3。呃，你不应该回避AR 3。呃，你不是在玩yi游戏，呃，那些你以前见过的游戏，呃，那些你以前见过的游戏，呃，那些你以前见过的游戏。你不是在玩yi那些以前的游戏。你不是在玩yi那些以前的游戏。你不是在玩yi那些你训练过的游戏，就像训练了数百万个文件一样。就像OpenI5模型一样，训练了数百万个文件。就像OpenI5模型一样，训练了数百万个文件。

以OpenI5模型为例，它运行的是一个受限版本，并且是在数万小时的游戏数据上进行训练的，实际上可能达到了数百万小时，这是一个极其庞大的训练数据量。而使用AR 3时，你正在接受训练。

使用AR 3时，你将在初次接触的游戏中进行评估，而每一次探索行为都会被计入效率评分。对吗？因此你的效率评分会受到影响。

所以你真正关注的是衡量流体智能，即你高效探索、高效构建环境世界模型的能力，并利用这个模型来推断目标、规划实现路径，最终攻克游戏。

支持印度的论点之一是，你能够完成所有智能任务，比如一个弧形任务可能是像3这样的。

你知道，对于一个弧线任务，只需几美分，但你知道，对于同样的任务，在基础模型上使用LLMs，你知道，成本是一到十美元，然后还有我们一直在追踪的另一个方面，似乎越来越多的intel智能，至少在LLM方面，可以被提炼到越来越小的模型中。

一方面，模型正在不断扩展规模，但另一方面，它们也在通过越来越智能的蒸馏技术，发展出更精巧的小型模型。我认为你的方法可能表明，实现类似AGI的效果并不一定需要数十亿参数，这或许根本就不是一个scale固有的特性。

本质上存在一个scale的事物。本质上存在一个scale的事物。存在一个NDIA模型的柏拉图式理想，一个NDIA模型的柏拉图式理想，一个NDIA模型的柏拉图式理想，它实现了AGI。它实现了AGI。它实现了AGI。 >> 是的。是的。 >> 是的。是的。 >> 是的。是的。 >> 你有没有从某种角度思考过， >> 你有没有从某种角度思考过， >> 你有没有从某种角度思考过，比如它能否装进一张软盘？比如它能否装进一张软盘？比如它能否装进一张软盘？ >> 嗯，好吧。这里有两件事 >> 嗯，好吧。这里有两件事 >> 嗯，好吧。这里有两件事需要区分。有一种类似于需要区分。有一种类似于需要区分。

有一种类似流体智能引擎的东西。流体智能引擎。流体智能引擎。我认为它将是一个非常非常小的代码库，以及与之关联的非常小的一组模型，其大小可能只有几兆字节，对吧？

然后，可以说，知识库——那个知识库，可以说——将被置于这个流体智能引擎之下。流体智能引擎需要调用某些知识，而这些知识将占用更多的空间。

我认为区分这两者至关重要。我确实相信，当我们事后创建通用智能时，最终会发现其代码库不足一万行。

如果你在20世纪80年代就知道这件事，你当时就可以利用当时的计算资源完成AGI。哇，这真是个疯狂的预测。我想回顾起来，这将被证明是正确的。

>> 哇。所以它就像是在我们眼皮底下藏了40年，我们花了40年才弄明白。

>> 没错。

>> 嗯，第二件事听起来像是道格拉斯·莱纳特的心理学项目。或者这样想不对吗？

这样想是不是不对？就好像存在某种关于世界的知识，然后还有像程序这样的方法。我听到的是，程序可能有上万行代码，然后它在一个非常庞大的知识库上运行。

心理学的问题在于，虽然存在诸多问题，但其中一个重大问题是缺乏学习过程。是的，它只是知识，就像知识未经雕琢，纯粹是符号化的知识，而且很可能并不准确。

这可能并不准确。构建通用智能的正确方式应当是尽可能地将人类从改进循环中移除。你不希望一个系统每次能力提升都必须依赖人类工程师的介入。

实际上，深度学习与基础模型的强大之处在于，它们能够不断扩充知识库。就好比一个知识库本质上就是一个知识的银行。

这是一个由模块化向量程序组成的知识库，这些程序能够将输入模式映射到输出模式。你可以通过添加训练数据和计算资源来扩充这个知识库，无需进一步的人工干预。当然，这过程中确实存在一定程度的参与。

我的意思是，当然，在确保训练任务完成的过程中，仍然需要一点点人工参与，但这部分非常有限。你已经尽可能地将人类从这个改进过程中移除。而这正是我们对于系统的期望——我们想要一个这样的系统。

我们想要一个能够自我完善的系统，这种完善是持续累积的，也就是说，每当系统提升能力时，它也在提高自身能力提升的速度。我认为这是一种渐进式成长的理念。就像，很抱歉这篇文章这么长，如果我有更多时间的话，我会把它写得更简洁一些。

呃，抱歉这篇文章太长了。呃，如果我有更多时间，我会把它写得更简短。如果时间充裕，我会让它更精炼。时间足够的话，我会力求简洁。>> 是的。当你面对一个棘手的问题时，实际上，要提出一个简短、优雅、简洁的解决方案，比弄出一个混乱、过度设计的方案要困难得多。

是的，你可以用暴力破解，但你知道更优雅的版本非常简短，这有点像你提到的它可能如何形成。

这正是我们正在创造的人工智能方法的形态，我认为这也正是科学本身的形态。科学本质上是一种符号压缩过程，你面对一大堆混乱的观测数据——比如天空中行星的位置之类——然后将其压缩成一条非常简洁的符号化规则。

你说话像简单的符号规则。你说话像简单的符号规则。

你就像在说，是啊，所有这些成千上万的观测数据，实际上都可以归结为一个简单的符号方程，这就是符号压缩。顺便提一下，要实现这一点，模型必须是符号化的。你不能只是拟合一条曲线，然后说那条曲线就是你的模型，那永远不会是最优的，也永远不会足够简洁或优雅，而这并不是科学所追求的。

这并非科学所为。科学不在于曲线拟合。科学在于寻找方程，在于从你积累的观测数据中，找到最具压缩性的符号模型。而这正是你试图以软件形式重现的过程。

可以说，NDI方法在程序合成上的理念是，我们正在构建具象化的科学，即算法形式的科学方法。我很好奇，如果将其与生物学相比，显然语言模型的学习方式并非如此。

显然，学习管理系统（LMS）的学习方式与人类不同，因为没有哪个婴儿会像人类那样阅读整个互联网。你认为程序会阅读整个互联网吗？

你认为程序合成是否更接近人类学习的方式，还是说它属于第三种分支，即使程序合成正确，仍存在我们尚未发现的第三种方法，而这正是我们所做的事情？>> 我认为是的，我确实认为人类在某些方面确实如此。

我认为人类确实进行了一定程度的程序合成。人类的学习方式以及思维运作非常混乱，并不存在一个简单优雅的底层原则。它实际上是对基本智能原则的具体实现。我相信我们能够识别这些原则，并从头开始、从第一性原理出发，重新实现智能，其效率将远超人类大脑。

我认为人脑是混乱的。我认为人脑是混乱的，但它可以成为人工智能的良好灵感来源，但我认为仅仅试图观察并重新实现它，使其在生物学上合理，可能会适得其反。我认为那是适得其反的。

这不是我们在印度的目标。我们真正在印度试图做的，是探寻智能的第一性原理，以及什么样的系统能最好地实现这些原理。不过，我确实相信人类……

但我确实相信，人类思维在最高层次上，嗯，思维在最高层次上，嗯，思维在最高层次上，嗯，看起来非常像程序。就像我们目前就是程序。就像我们目前就是程序。

这就像我们正在构建关于周围环境的因果模型，如同我们在脑海中描述环境一样，将其视为一系列物体、主体及其关系，这些关系本质上具有符号性和因果性。这正是自然界中发生的过程。

这正是让我们能够如此出色地概括和适应的过程，使我们能够如此出色地概括和适应，使我们能够如此出色地概括和适应，从而在面对新奇事物时游刃有余。

我对NDIA这家公司很好奇，同样也对你们正在构建它的过程感到好奇。我们都听说过OpenAI的创立故事，其中一直让我印象深刻的是，Sam和Greg都提到早期有点奇怪，因为你们其实并不知道具体该做什么，就像一群人只是在公寓里闲逛。

我喜欢在公寓里消磨时光。

我很想了解印度在这方面的情况，比如第一天是什么样子，以及对于那些有兴趣尝试这些替代方法、但没有研究背景的人来说，他们应该如何思考这个问题。

是的，所以我们从第一天起就确立了符号学习的愿景——我们从根本上明确要开展符号程序合成研究，旨在开创一种全新的机器学习方法：用最简洁的符号模型取代参数曲线。而核心问题在于：我们该如何找到这些模型？

我们从这些模型开始？我们从这些模型开始？

我们最初的核心理念——至今仍在遵循——是进行深度学习引导的程序搜索。这意味着我们拥有一个庞大的符号搜索空间需要探索，实际上它是组合性的：如果仅靠蛮力，你将无法取得进展，必须突破组合爆炸的壁垒。而实现这一目标的方法，就是引入深度学习引导。这与AlphaGo或AlphaZero等系统所遵循的原则非常相似。

所以类似阿尔法或阿尔法零。那是我们的起点。我们当时对于如何构建它并没有非常清晰的想法。因此，我们尝试了许多不同的方法。

我们尝试了许许多多不同的想法，大约花了半年时间，才打下了坚实的基础，使我们能够开始构建一个能够持续积累的系统。

我认为，在进行这样的实验时，真正重要的是避免陷入不断尝试新事物的境地。这并非要重复利用先前方法中的任何学习成果或发现。

你想要一个复合叠加的体系。你想要构建复合叠加的体系。你想要构建复合叠加的体系。你想要建立可重复使用的基础，然后是下一个可重复使用的基础，再下一个可重复使用的基础，接着是下一层，再下一层，再下一层，然后下一层，再下一层，当然，你，你想要成为那个，当然，你，你想要成为那个，当然，你，你想要建立在正确的基础之上。所以，建立在正确的基础之上。所以，建立在正确的基础之上。

所以不要过早地触及基础层，但也要确保在某个时刻，你正在构建这种复合结构，而这正是我们目前所处的状况。那么，这是结束还是会有ARK四、五、六呢？

你能让它持续到四、五、六吗？你能让它持续到四、五、六吗？你能让它变得更难吗？更难？更难？>> 是的。是的。我认为绝对会有D000和AR五。我是说，我们目前正在规划D003。嗯，AKGI T077系列的重点并不是说，好吧，这里有个测试，如果你通过了。

如果你通过了这个测试，那么这就是一个GI。嗯，实际上我们这里指的是一个GI。嗯，确切地说，我们这里指的是一个GI。嗯，

相反，我们正在努力的是，我们瞄准的是公平目标中的剩余差距，就像前沿能力正在不断进步一样。我们在思考，如果将其与人类能力相比较，现在它在所有这些任务和事情上都表现出色，因此我们将创建一个目标来针对这一点。

嗯，创建一个benchmark来针对那个目标。嗯，创建一个benchmark来针对那个目标。嗯，所以它是一个移动的目标，对吧？它是一个移动的目标，对吧？它是一个移动的目标，对吧？它不是固定的点。它是一个移动的目标。所以将会有ARK 4，所以将会有ARK 4，所以将会有ARK 4，它将秉承ARK 3的精神，但将秉承ARK 3的精神，但将秉承ARK 3的精神，但更侧重于持续学习，更侧重于持续学习，更侧重于持续学习，以及在更长的时间尺度上的课程学习，以及在更长的时间尺度上的课程学习，以及在更长的时间尺度上的课程学习scale。

所以你们将拥有scale。所以你们将拥有scale。所以你们将拥有更少的游戏，嗯，但他们会拥有更少的游戏，嗯，但他们会拥有更少的游戏，嗯，但他们会拥有更多的关卡，而且这些关卡会越来越多，这些关卡会越来越多，这些关卡会越来越多，并且会具有累积性，这意味着对于每个关卡，你需要重新运用之前学过的内容。然后会有Ark 5。而我实际上会是Ark 5。而我实际上会是Ark 5。

我其实对Ark 5感到非常非常兴奋。对Ark 5也感到非常非常兴奋。对Ark 5同样感到非常非常兴奋。这一切都非常非常新颖且与众不同，它完全关乎创新，我的意思是，你们将会看到，你们将会看到这究竟意味着什么。最终，你们会明白这究竟意味着什么。最终，你们会明白这究竟意味着什么。

最终我预计我们将耗尽测试内容，随着我们越来越接近T183，最终人类能力与前沿人工智能的学习效率之间将不再有可测量的差异。当这种情况发生时，当差距变得实际上无法衡量时，这就是GI时刻。

测量差距，这是通用智能（GI）的关键时刻。测量差距，这是通用智能（GI）的关键时刻。那么，机器将接管一切，那么，机器将接管一切，那么，机器将接管一切，然后它们将创造出ARC ASI一号。然后它们将创造出ARC ASI一号。然后它们将创造出ARC ASI一号。 >> 是的。ARS >> 是的。ARS >> 是的。ARS >> 然后一切将从此继续。 >> 然后一切将从此继续。 >> 然后一切将从此继续。是的。是的。是的。 >> 是的。如果你必须猜测，我是说 >> 是的。如果你必须猜测，我是说 >> 是的。如果你必须猜测，我是说年、十年、月。年、十年、月。年、十年、月。呃，我对于AGR的时间线，你知道，如果你呃，我对于AGR的时间线，你知道，如果你呃，我对于AGR的时间线，你知道，

如果你仅仅试图从当前的发展速度以及投入的资金量来推断，不仅限于LLM技术栈，还包括那些可能成功的边缘想法、附带尝试，比如你知道的，以NDI为例，

我认为我们很可能是在看2030年代初期，大概就是2030年代早期。所以大概在2030年代初期，很可能。所以大概在你将要发布像可能是[D000]或[D001]的时候，那很可能将是一个重大发布。你们正在采取一种不同的方法来处理[T174]。嗯，你觉得还有空间吗？

嗯，你觉得还有空间让更多初创企业去探索其他新的方法吗？有没有哪些你认为有前景但自己没时间去探索的方向？>> 当然有。我是说，确实有很多不同的方法可以尝试。

我说过计算是一个伟大的均衡器。我认为如果你审视这个均衡器。

我认为，如果我们审视投入深度学习、梯度下降及其规模化扩展的计算资源总量，若将同等规模的投资转向几乎任何其他领域，比如遗传算法，同样会取得极其振奋人心的成果。

以遗传算法为例，如果你尝试去探索遗传算法，我相信你能用它做出惊人的成就。实际上，你甚至可能开创全新的科学领域，因为这种方法基于搜索，而搜索正是自动化科学方法的最佳契合点。

嗯，我觉得现在有办法了。嗯，我觉得现在有办法了。

嗯，我觉得现在也有一些方法，它们建立在当前的技术栈之上，但采用了一些略有不同的状态空间模型。比如说，有XLSM架构这样的例子。基本上，当前的前沿技术是一系列层次的堆叠，你可以选取其中的任何一层，尝试提出替代方案。比如，你可以设计一种替代架构，像是更多地采用循环模型，而不是……呃……针对架构的……

或者你甚至可以尝试架构设计。或者你甚至可以尝试架构设计。或者你可以深入到更底层。你会觉得，更底层。你会觉得，更底层。你会觉得，好吧，我们仍然会进行训练，好吧，我们仍然会进行训练，好吧，我们仍然会进行训练，嗯，参数曲线，但你会，嗯，参数曲线，但你会，嗯，参数曲线，但你会摆脱梯度下降，对吧？摆脱梯度下降，对吧？摆脱梯度下降，对吧？我们将采用类似搜索的方法。也许我们将采用类似搜索的方法。也许我们将采用类似搜索的方法。也许你会进行新的进化。嗯，你会进行新的进化。嗯，你会进行新的进化。

那是比较基础的层次。而最低的层次，就是我们正在操作的层面，实际上，先不考虑曲线，也不考虑参数化，更不用管冠部下降。我们打算完全换个思路。

嗯，我想到一个完全不同的角度。我认为，如果你想构建最优的人工智能，如果你想构建最优的人工智能，如果你想构建最优的人工智能，你几乎不得不回到技术栈的基础层面。它不能是技术栈的基础层面。它不能是技术栈的基础层面。它不能像，呃，只是在现有堆栈上添加一层，呃，只是在现有堆栈上添加一层，呃，只是在现有堆栈上添加一层。

那么你认为，对于渴望以不同方式建立新实验室的研究者来说，他们是否应该深入研读七八十年代的研究论文，并探索那些如今已较少投入的研究路径呢？

这确实是个好主意，因为在EI研究历史的早期阶段，人们探索了更多、更广泛的可能性。而现在却把所有东西都压缩成单一的研究路径，这实际上并不是个好主意。

嗯，想想看，就在不久之前，大约20年前，我们也曾经历过支持向量机（SVM）的衰落。是的，我的意思是，那并不是……我不会……

我的意思是，我不会将其描述为崩溃，因为当时从事支持向量机研究的人并不多，人工智能领域也远比现在小得多。但当时普遍存在一种看法，认为神经网络是一种失败的方法，认为神经网络行不通，是在浪费资源。

工作毫无成效，网络系统也失灵了，继续尝试只是浪费时间。确实，即使在2000年代末期，这仍是一系列问题。基本上，当我刚接触人工智能时，人们告诉我：“别碰神经网络。”我当时想：“但它看起来很像……”

这看起来很像大脑的运作方式，我对这一点很感兴趣。如果每个人都在研究某个问题，你可能会丢弃那些实际上最终会非常有成效的想法。比如在70年代、80年代，人们尝试了更多方法，我认为遗传算法就是一个很好的例子。我认为这是一种具有巨大潜力的方法，但目前没有太多人在深入研究如何将其大规模应用。

>> 你在寻找某些特质吗？我是说，是不是就像

我的意思是，这就像如果存在一个缩放定律那么简单，那么即使情况不同，或者这就像你通过类比思考一样。我认为你在寻找那些scale的方法。是的，呃，我认为这是行不通的。如果你正在研究……

如果你正在开发某个项目，但提升系统能力的唯一途径是依赖人类工程师和研究人员投入时间，那么这条路是行不通的。因为即便这个想法非常巧妙、非常优雅且效果显著，其能力终究会受到限制。

能力将受到限制。它们会受到人类投入的限制，对吧？你希望建立一个系统，能够在无需人类干预的情况下提升自身能力，就像不要仅仅沿用十年前的做法，而是要带着新的理念去实施。

要带着这样的理念开始：递归式自我改进是内置的，递归式自我改进是内置的，递归式自我改进是内置的。是的，不一定非得是递归式自我改进，因为比如深度学习就不是递归式自我改进的，但核心理念是在没有人为瓶颈的情况下进行规模化扩展。

你想将人类从改进循环中移除。深度学习的巨大优势在于，模型只需通过增加训练计算资源和训练数据就能不断优化。

我的意思是，这确实有点夸张，因为仅仅添加这些因素就需要大量的人力投入，但基本上，其核心理念在于实现技术进步曲线与所需人力投入之间的脱钩。

注入到系统中。 >> 我想，或者说已经投入的人力，因为学习管理系统确实需要大量的人力投入。只是这种人力投入是为了构建互联网，而我们已经完成了这一建设。 >> 是的。实际上现在越来越少了，嗯，那个。

实际上，现在我们越来越少地使用交互式可验证环境进行训练，因为这样一来，只需投入少量人力来构建环境，就能从这有限的投入中创造出指数级增长的训练数据。但最初我认为，情况并非如此。

但起初我考虑的是训练数据。但起初我认为，你需要先为机器打好基础，需要为机器注入这种海量的、由人类生成的抽象概念，这些概念被编码在文本数据中。如果你不从这个起点开始，你就无法让系统进入这个循环。你有什么建议吗？

对于我在AI领域启动一个开源项目，你有什么建议吗？该做什么，不该做什么？因为我不太确定过去14天里我是怎么注册的，但我想我大概有1万到3万人每天在使用GStack。

每天都有那么多人使用GStack。 >> 是啊，这太疯狂了。 >> 是啊，这太疯狂了。 >> 是啊，这太疯狂了。 >> 没错。而且，我甚至不确定自己是否算有份工作 >> 没错。而且，我甚至不确定自己是否算有份工作 >> 没错。而且，我甚至不确定自己是否算有份工作。我想知道，比如，你知道当初创建Keras是什么感觉吗？你是如何坚持下来并持续维护它的？一个好的维护者应该是什么样的？你从中学到了什么？我不知道，这个话题可能得聊上整整一小时。

小时。小时。 >> 是的，我是说有很多很多的学习收获 >> 是的，我是说有很多很多的学习收获 >> 是的，我是说有很多很多的学习收获 >> 太多东西了 >> 太多东西了 >> 太多东西了 >> 来自不断成长的卡斯。呃，所以现在 >> 来自不断成长的卡斯。呃，所以现在 >> 来自不断成长的卡斯。呃，所以现在我参与得少了。呃 >> 现在我参与得少了。呃 >> 现在我参与得少了。呃 >> 在Google有一个大团队 >> 在Google有一个大团队 >> 在Google有一个大团队正在负责，他们做得非常出色。所以，不参与也是可能的 >> 正在负责，他们做得非常出色。所以，不参与也是可能的 >> 正在负责，他们做得非常出色。所以，不参与也是可能的。

所以，有可能，你知道，让人们去喜欢，你知道，让人们去喜欢，你知道，让人们去喜欢 >> 有可能开始某件事。这是 >> 有可能开始某件事。这是 >> 有可能开始某件事。这是有可能开始某件事，然后让更多人参与进来，在某个时刻，它就会自成一体。它只是，你知道，曾经是你的宝贝，但现在它已经完全长大了。

宝贝，但现在它已经完全长大了。它已经成熟，并且正在过着自己的生活。所以如果你问我是什么因素真正让汽车取得了成功，嗯，我想首先是对让汽车变得简单直观的高度重视。

当时我们非常注重可用性，这一点深受scikit-learn的启发。scikit-learn可以说是Python机器学习库的鼻祖，它的成功之处在于上手极其容易。

所以一开始我想，好吧，我要把我创造的所有这些功能，都打包进一个非常非常简单的API里，这就像是第二个API，这就是那个大想法。专注于可用性就是那个大想法，不仅仅是确保API简单而已。

同时，它确保整个入职体验既顺畅又轻松，就像文档应当非常详尽一样。

文档不应仅仅指导如何使用工具，更应首先传授相关领域的知识。因为访问网站的用户大多并非深度学习专家，他们需要的是基础概念的引导。

他们可能是想要开始接触深度学习的人。因此，你不仅要教他们如何使用工具，还要让他们了解工具的适用场景以及整个相关领域。此外，你还需要在社区建设上投入大量精力。

我们致力于社区建设。实际上，在Google我们确实做了一些尝试，但你知道，Google让事情变得有点棘手，我对此感到遗憾。那就是雇佣你的核心用户，就像雇佣你的粉丝一样。

这真是个绝妙的主意，就像从社区里发掘那些最热情的用户，直接把他们招进团队。太棒了。是的，这些人往往是最佳人选，对吧？好了，是时候启动gstack.org了。

我投入了大量个人资金，接着又投入大量个人资金，然后继续投入大量个人资金，并聘请了许多人来推进这个项目。这听起来很棒。我认为您一直是开拓者的领军人物，能邀请您与我们共坐一堂，我们深感荣幸。

有些观众正处在人生的起步阶段，比如刚刚成年，或者确切地说，是职业生涯的初期，实际上，世界各地都有这样的人，他们正在努力奋斗。

他们试图理解，这究竟意味着什么，当智能变得普遍适用时，你会如何告诉现在的年轻人？是的，如今有很多人对此持非常悲观和消极的看法。

关于能力提升引发的负面看法，人们常说：“哎呀，我很快就要失业了，会出现大规模失业，人工智能将完全接管一切。”但实际上，我的技术恰恰相反：你拥有的专业知识越多，情况就越好。

以编程为例，你越能熟练运用这些工具为己所用，凭借专业的知识，人工智能的进步实际上是一种赋能，意味着你可以将其转化为个人优势。这正是你在项目中实践的理念，对吧？确实，更多人应当抱有这样的心态：不仅学习人工智能，更要深入探索他们希望应用AI的领域，力求掌握尽可能多的知识。

对吧？所以他们应该应用人工智能，对吧？所以他们应该应用人工智能，对吧？所以他们应该努力将这一新进展转化为机遇，将这一新进展转化为机遇，将这一新进展转化为机遇，转化为他们可以用来改善自身生活的工具，转化为他们可以用来改善自身生活的工具，转化为他们可以用来改善自身生活的工具。

我认为这是正确的思维方式，因为你知道你无法阻止人工智能的进步。我觉得现在为时已晚。所以接下来的问题是：既然人工智能的发展已成定局，而且实际上会持续加速，你该如何利用它？

你如何利用它？你如何驾驭浪潮？你如何驾驭浪潮？你如何驾驭浪潮？这是需要提出的问题。这是需要提出的问题。这是需要提出的问题。>> 我希望我们能继续聊上几个小时，我相信我们可以。我希望我们能继续聊上几个小时，我相信我们可以。我希望我们能继续聊上几个小时，我相信我们可以。弗朗索瓦，非常感谢你抽出时间与我们交流。弗朗索瓦，非常感谢你抽出时间与我们交流。弗朗索瓦，非常感谢你抽出时间与我们交流。>> 非常感谢你们的邀请。

原视频导出PDF

📚 更多 AI 课程 🎙️ AI 每日资讯 🏠 Scimagine 主站

Scimagine · AI 学习资源一站式平台