Poetic公司创始人Ian Fischer分享了他们如何用“递归自我改进”系统,让AI自己优化自己,从而低成本、快速地获得超越底层大语言模型的性能,并解释了这对AI创业者的巨大价值。
世界变化如此之快。这或许有点显而易见,但你应该勇于尝试,每天都要用AI做点什么。去年夏天,我花了一个周末,用GPT5帮我开发了一款iPhone应用。那是我十年来都没再做过的事。
是的,它非常快,非常容易。那是,它非常快,非常容易。那是,它非常快,非常容易。那是,你知道,很久以前的事了。那大概是8,你知道,很久以前的事了。那大概是8,你知道,很久以前的事了。那大概是8个月前。呃,现在它甚至更快了,几个月前。呃,现在它甚至更快了,几个月前。呃,现在它甚至更快了,而且更高效。不要欺骗自己。就像更高效。不要欺骗自己。就像更高效。不要欺骗自己。
就像你想象的那样,你应该尝试使用人工智能,看看你能走多远,你会让世界变得更美好。欢迎来到《光锥》的另一期节目。伊恩·费舍尔是联合创始人。
伊恩·费舍尔是Poetic公司的联合创始人兼联合首席执行官,该公司致力于构建递归自我改进的人工智能推理系统,以服务于LLMs。此前,他曾在Google DeepMind担任研究员长达十年,并多年前通过YC孵化器创立了一家移动开发工具公司。欢迎你,伊恩。>> 谢谢。很高兴来到这里。
能来到这里我真的很开心。 >> 谢谢。能来到这里我真的很开心。 >> 什么是Poetic?它与强化学习有何不同? >> 什么是Poetic?它与强化学习有何不同? >> 什么是Poetic?它与强化学习有何不同?你知道,它与强化学习有何不同?你知道,它与强化学习有何不同?你知道,它与上下文工程有何不同?上下文工程?上下文工程? >> 在Poetic,我们正在构建的是一个递归自我改进系统。 >> 在Poetic,我们正在构建的是一个递归自我改进系统。 >> 在Poetic,我们正在构建的是一个递归自我改进系统。
因此,递归自我改进正是如此,递归自我改进正是如此,递归自我改进正是如此,呃,你知道,这就像是人工智能领域的圣杯,人工智能领域的圣杯,人工智能领域的圣杯,即人工智能让自身变得更智能。我们获得的核心洞见是,我们获得的核心洞见是,我们获得的核心洞见是更智能。
我们核心的洞见在于,我们能够实现递归式的自我改进,其速度和成本远低于人们提出的所有其他方法。
嗯,显然我无法透露具体细节,不能详述那是什么,也不能说明我们的具体方法。但大多数现有方案都需要你从头训练一个新的LLM,而训练LLMs从零开始需要耗费,你知道的,数百——
投入数亿美元和数月努力,然后T068或OpenAI就会在下一个模型发布时轻易超越你,夺走你的市场。确实,T068、OpenAI和T117他们正在探索训练递归自我改进,但通常在那个层面上,他们需要为每一步自我改进训练一个新模型。
他们所做的自我提升。这正是初创公司真正渴望的核心特质。我深知这正是我所追求的。
我知道我想利用下一个模型,但一旦你踏入那个领域,我就要投入,你知道,数百万到数亿美元,然后你猜怎么着?
喜欢它,我干脆一把火烧了,因为你知道,因为你知道,因为你知道,前沿模型的新版本即将发布,新版本即将发布,新版本即将发布,而我永远也追不上。
使用你们的系统意味着,我将始终拥有比现成产品更优越的东西,这就像是追寻的圣杯。
是的,我们认为这对于任何基于大型语言模型进行开发的人来说都极具价值,而且我们并不将前沿模型视为竞争对手。
他们,你知道,就是那些踩着高跷的人,建造高跷站在上面,但如果没有那个基础层,那么,你知道,诗意就无法存在。 >> 是的。我的意思是,作为最聪明的模型,
我是说,成为最聪明的模型,嗯,你知道,这是一场毫厘之争,嗯,你知道,这实际上是一场毫厘之争,嗯,你知道,这实际上是一场毫厘之争,所以那些毫厘之差确实重要,所以那些毫厘之差确实重要,所以那些毫厘之差确实非常重要,非常重要,非常重要,>> 对吧?对。>> 对吧?对。>> 对吧?对。>> 我们到底该如何开始呢?我是说,>> 我们到底该如何开始呢?我是说,>> 我们到底该如何开始呢?我是说,你已经构建了一个东西,嗯,你已经构建了一个东西,嗯,你已经构建了一个东西,嗯,基本上任何初创公司都能用上它,基本上任何初创公司都能用上它,基本上任何初创公司都能用上它,嗯,它有点像高跷,真的。我们嗯,它有点像高跷,真的。我们嗯,它有点像高跷,真的。
我们构建了一个系统,能够自动为您的特定问题生成解决方案,这些方案总能超越底层语言模型的表现,同时避免了您所提及的“苦涩教训”中那种巨大的成本投入。
没有你,我们该如何是好?没有你,我们该如何是好?没有诗意的你,我们或许只会说好吧。诗意的你,或许只会说好吧。诗意的你,或许只会说好吧。我们首先要收集一个庞大的数据集,你知道的,就是针对我们正在处理的特定问题,收集成千上万的样本。针对我们正在处理的特定问题,收集成千上万的样本。针对我们正在处理的特定问题,收集成千上万的样本。然后,我们会尝试获取我们能找到的最佳模型,你知道的,可能是前沿模型之一,或者是一个开源权重模型,具体是哪种并不特别重要。
你将耗费大量资源。你将耗费大量资源。你将为此投入巨额资金。计算成本如此高昂。
最终,你得到的东西比之前搭建的基础更好,但那时新模型已经问世,它又超越了你所搭建的东西。
你知道,大概三年前,在GPT的基础上,推出了3.5之类的版本,然后GPD 404问世,简直让人惊叹不已。那么,你是打算再来一次这样的革新,还是准备退出市场呢?在某些情况下,这确实关乎企业的存亡。
在某些情况下,最终呈现的是一种诗意的——嗯,人们现在称之为“驾驭”系统,或者你也可以叫它“基因系统”或任何你喜欢的名字。它构建在一个或多个语言模型之上,表现却优于它们。
当它表现更优时。当新款模型推出时,同样的新款模型推出时,同样的新款模型推出时,同样的设备完全兼容。你无需更换。你无需更换任何东西,就能获得更大的性能提升。
此外,我们可以继续优化这个新模型,无论你想使用什么样的新模型,都能让它变得更好。但这样你并不会损失数亿美元。
事实上,我们这样做要便宜得多,比T045的成本还要低。而且,你们实际上已经做过很多次了,对吧?我记得你们之前就做过。
我记得去年十二月你的论文首次发表时,就迅速登上了ARC AGI V2榜单的榜首,之后你在其他benchmark领域也多次取得这样的成绩。那种感觉是怎样的呢?
>> ARGI v2 这是我们走出隐匿状态,让人们知道我们能够解决这些非常棘手的问题。
具体来说,我们想展示的是,我们的系统——我们称之为诗意元系统——能够生成高效能的推理系统。当时,深度思考模型T123版本3刚刚发布。
他们认为刚刚出炉的数据显示,他们在排行榜上以45%的占比高居榜首,表现相当惊人。两天后,我们发布了我们的结果,表明我们能够达到远高于此的水平。
呃 >> 所以它们带着苏打水出来,然后你 >> 所以它们带着苏打水出来,然后你 >> 所以它们带着苏打水出来,然后你每次都正好从它们上方进来,每次都正好从它们上方进来,每次都正好从它们上方进来,说实话看起来真的很疯狂。说实话看起来真的很疯狂。说实话看起来真的很疯狂。这就是拥有高跷的感觉,你这就是拥有高跷的感觉,你这就是拥有高跷的感觉,你懂吗,就像无论什么型号出来,你懂吗,就像无论什么型号出来,你懂吗,就像无论什么型号出来,你都能用诗意的比它更高,你都能用诗意的比它更高,你都能用诗意的比它更高,这简直太棒了。这简直太棒了。
这简直太棒了。>> 没错。有趣的是,>> 没错。有趣的是,>> 没错。有趣的是,我们的成本只有Gemini 3的一半,因为我们是基于Gemini 3 Pro构建的,这是一个便宜得多的模型,但我们最终在官方验证上实现了9个百分点的提升。
他们在官方验证中。他们在官方验证中。他们当时是45%,而我们,像70年代那样,是45%,而我们,像70年代那样,是45%,而我们,像70年代那样,大概是几十美元,我们是54%,大概是几十美元,我们是54%,大概是几十美元,我们是54%,每个问题32美元。每个问题32美元。每个问题32美元。>> 所以最近你们刚刚宣布了一些>> 所以最近你们刚刚宣布了一些>> 所以最近你们刚刚宣布了一些人类最后考试中令人难以置信的成果。能详细说说吗?人类最后考试中令人难以置信的成果。能详细说说吗?人类最后考试中令人难以置信的成果。能详细说说吗?
人类的终极考试是一套由众多不同领域的专家编写的2500道极难问题。这些题目旨在挑战该领域的博士级学者。人工智能目前尚未通过这项测试。
但我们达到了55%,这比上周刚刚发布的、来自Anthropic与Claude Opus 4.6版本的最新成果高出近两个百分点。他们取得了53.1%的成绩,而我们达到了55%。
有一件事,人类最后的考试没有公布的是获得这些结果的成本。在你的案例中,这次运行的成本低于大约六位数。具体是多少呢?
>> 我们并未公布具体的成本数字,>> 我们并未公布具体的成本数字,>> 我们并未公布具体的成本数字,但我可以说,优化过程的花费但我可以说,优化过程的花费但我可以说,优化过程的花费低于10万美元。是的。低于10万美元。是的。低于10万美元。是的。>> 这令人印象深刻,因为每一个>> 这令人印象深刻,因为每一个>> 这令人印象深刻,因为每一个大型基础模型的训练运行大型基础模型的训练运行大型基础模型的训练运行成本都高达数亿美元。而你们公司,成本都高达数亿美元。而你们公司,成本都高达数亿美元。而你们公司,
你们公司只有七个人。只有七个人。只有七个人。
>> 没错。是的。是的。七位,呃,七位
>> 没错。是的。是的。七位,呃,七位
>> 没错。是的。是的。七位,呃,七位
研究科学家和研究工程师。是的。
研究科学家和研究工程师。是的。
研究科学家和研究工程师。是的。
>> 这很了不起。而且我认为
>> 这很了不起。而且我认为
>> 这很了不起。
我认为你的方法非常有趣之处在于,你采用了一种非常科学的方式来研究那些最优秀的创始人在模型应用中所展现出的涌现行为。
我认为很多取得出色成果的创始人,他们对待底层模型的方式是将其视为一个可切换的通用层。例如,在某些任务中,比如GPD 5。
两个极难验证的漏洞被发送至那个架构,两个极难验证的漏洞被发送至那个架构,两个极难验证的漏洞被发送至那个架构,最终交由Claw 4.6处理。然而,你最终交由Claw 4.6处理。然而,你最终交由Claw 4.6处理。然而,你正在自动执行这一过程,而非依赖人工操作,这正在自动执行这一过程,而非依赖人工操作,这正在自动执行这一过程,而非依赖人工操作,这确实令人印象深刻。我认为其背后确实令人印象深刻。我认为其背后确实令人印象深刻。我认为其背后还有更特别的东西在运作。
表面之下是否还有更多特别之处。你能给我们讲讲它的工作原理吗?听起来很神秘。那么,你能告诉我们什么?没错,你触及了一个核心问题。
这些工具,它们本质上就是代码,这些工具,它们本质上就是代码,这些工具,它们本质上就是代码,是提示、数据,你知道的,构建在提示和数据之上,你知道的,构建在提示和数据之上,你知道的,构建在一个或多个语言模型之上,对吧?一个或多个语言模型,对吧?一个或多个语言模型,对吧?所以这本质上是一种东西,所以这本质上是一种东西,所以这本质上是一种东西,你可以手动构建,嗯,或者用类似云代码之类的工具。但是,嗯,在云代码中,但是,嗯,在云代码中。
但在实践中,这需要大量的工作,需要大量的工作,需要大量的工作,才能获得所有这些见解,才能让这些见解发挥作用,才能让这些见解发挥作用,才能让这些见解发挥作用。因此,我们在Poetic开发的核心技术是递归自我改进。
因此,我们拥有一个递归式自我改进的系统,我们称之为诗意元系统。该系统的产出是能够解决难题的系统。这里的难题指的是那些棘手的挑战。
嗯,所谓难题,就是那种如果你交给T170处理,它很难给出可靠且稳健的结果。举个例子吧,这对我们来说是一个巨大的优势,我们可以以更加自动化的方式生成这些系统。
这意味着我们可以比你自己组建团队来尝试制作自己的代理来解决特定任务要快得多,也便宜得多。
但不仅如此,嗯,因为你知道这实际上是一个自动化的优化过程。如果你已经完成了这个过程。
如果你已经完成了那项工作,你就知道,你是一个初创公司,专注于某个特定领域,并且你认为自己已经相当了解你所面临的问题。你已经部署了你的代理。
你已经部署了你的智能体,它可能运行得还不错,但你知道总有可能找到更好的方案,或者你确实需要更优的解决方案。那么,你可以把它交给我们,我们可以对整个智能体或其部分进行优化。也就是说,我们可以专门针对这个智能体进行优化。
因此,我们可以仅优化提示,仅优化推理策略。根据您的具体需求,我们可以采取多种不同的方法。
这听起来与强化学习是完全不同的范式,因为我们经历了常规预训练强化学习的S曲线,当OpenAI发布01版本时,而现在这感觉像是一个全新的开始。它听起来很特别,似乎与之前有很多呼应之处。
听起来它与RNN的RNN的RNN有很多押韵之处,这完全不同于强化学习,对吧?这将取决于我们试图解决的具体任务、具体类型的问题。嗯,还有我们正在使用的底层模型。
但是,呃,实际上可以说,我们正在使用的每个模型或每组模型都会有其自身的S曲线。诗学系统,诗学元系统本身也将拥有其自身的S曲线。
因此,随着诗意元系统不断进步,诗意元系统不断进步,诗意元系统不断进步,同时底层模型也在不断优化,底层模型不断优化,底层模型不断优化,你会发现,嗯,你知道,你会发现,嗯,你知道,你会发现,嗯,你知道,你所面对的S曲线会持续上移,S曲线会持续上移,S曲线会持续上移,直到最终要么达到饱和,要么就像,直到最终要么达到饱和,要么就像,直到最终要么达到饱和,要么就像 >> 达到AGI。 >> 达到AGI。 >> 达到AGI。 >> 是的。达到AGI,达到超级 >> 是的。
抵达AGI,抵达超级 >> 是的。抵达AGI,抵达超级intel智能。是的。intel智能。是的。intel智能。是的。 >> 考虑到它的高跷,你可能先撞到 >> 考虑到它的高跷,你可能先撞到 >> 考虑到它的高跷,你可能先撞到天花板。天花板。天花板。 >> 这就是目标,对吧?是的, >> 这就是目标,对吧?是的, >> 这就是目标,对吧?
是的,>> 你首先想要触及天花板 >> 你首先想要触及天花板 >> 你首先想要触及天花板 >> 我认为很多与我们合作的初创公司 >> 我认为很多与我们合作的初创公司 >> 我认为很多与我们合作的初创公司,嗯,然后在我的空闲时间里,你知道,我做了大量的上下文工程 >> 然后问题是,我们有点像在调整它、调整评估、调整,就像我们在给自己进行上下文填充。
我们很少花时间审视正在处理的具体数据。相反,我们忙于填充上下文。那种感觉就像拥有一个不断自我优化的提示工程与上下文工程版本,这究竟是何体验?
相反,我们让诗意的元系统去审视那些数据,如果它认为需要将更多内容纳入语境,进行更多的语境填充或其他操作,它就会自动执行。
如果需要生成大量示例来获得更好的表现,它会为你完成,对吧?这确实相当有趣。
观察那些提示输出,特别是ArcGIS的,我觉得挺有意思的。你看那些内容,很明显能感觉到这不是人类会写出来的东西。里面有些出人意料的内容,还举了一些非常简单的例子,其中一个例子其实是错的,但我们没有改动它。
实际上错了但我们没改。实际上错了但我们没改。我们当时想,嗯,你知道这就是,我们当时想,嗯,你知道这就是,我们当时想,嗯,你知道这就是那个东西,它输出……我们就,那个东西,它输出……我们就,那个东西,它输出……我们就随它去吧。嗯,你知道我们不想,随它去吧。嗯,你知道我们不想,随它去吧。
你知道,我们不想进去瞎折腾,反复捣鼓。在机器学习的历史上,一直以来的规则是,你必须非常了解你的数据集。但现在,我们某种程度上把这项工作外包给了AI本身,让AI来负责理解数据集,找出其中的故障模式,以及模型可以使用的稳健推理策略,从而获得更好的性能。
表现。表现。
其中有多少类似于你使用更好的提示,然后有多少类似于利用工具本身,比如上下文填充、正确总结或正确重新排序,这样你就能有一定数量的巨型调用,然后如何最大限度地利用每一次调用?
如何从每次通话中获得最大收益?>> 是的,这确实因问题而异。但我们观察到的情况是,
但事实上,我们在DeepMind发表的最后一篇论文,并没有涉及这种递归自我改进的内容,而是展示了如何手动构建这些框架来解决极其困难的问题。
我们发现,对于这些极其棘手的问题,我们投入了大量精力手动优化提示。这让我们在特定情况下取得了一些进展。
你知道最棘手、最棘手的任务,我们当时正在处理的那个,我们只取得了大约5%的性能提升,用的是Gemini 1.5闪存。
5次闪现,这是之前的情况,后来当我们加入推理策略后,成功率从5%跃升至95%。嗯,这通常是我们看到的现象,你知道,就像大家都在那里或多或少地进行一些自动化提示优化——我不会说所有人,但确实有很多人在这么做。Jeepa这篇热门论文,大家基本上都在实践其中的方法,这确实能带来一些性能提升。
但这远非改进,远非你所能获得的一切,如果你真正思考这些推理策略,它们将被编写成代码,而不仅仅是更好的提示。
>> 那么,如果初创公司想利用Poetic来提升其代理能力,他们应该怎么做呢?>> 是的,目前我们尚未发布任何产品,但如果你访问poetic.ai,那里有一个按钮可以点击,用于申请早期访问权限。如果你是初创公司的话……
如果你是一家初创公司,正处于早期试用阶段。或者你是一家公司,面临着一个极其棘手的问题,已经尝试了所有可能的方法,力求使其可靠且稳固,却始终无法完全达到目标,感觉还需要更多助力,那么请告诉我们。我们正在寻找的就是这类难题。
嗯,那就告诉我们类似的问题。嗯,告诉我们你在做什么,告诉我们你在做什么,告诉我们你在做什么,然后我们会联系你。你会是第一个知道我们什么时候准备好与你合作的人。我是说,如果你在人类最后的考试中名列前茅,那确实相当了不起。
所以,你已经很厉害了。所以,你已经很厉害了。所以,你已经完全投入到苏打水事业中,然后我完全投入到苏打水事业中,然后我完全投入到苏打水事业中,然后我想高跷基本上让任何公司都变成了苏打水公司。我想高跷基本上让任何公司都变成了苏打水公司。我想高跷基本上让任何公司都变成了苏打水公司。 >> 就是这个意思。是的。是的。而你 >> 就是这个意思。是的。是的。而你 >> 就是这个意思。是的。是的。
我们审视ArcGI结果和人文学科期末考试成绩时,发现它们展现了两种不同的能力。我们确实能够有效提升这些能力。
我们确实能提升你的推理能力,我们确实能提升推理能力,我们确实能提升推理能力,我们确实能深化知识提取,深化知识提取,深化知识提取,从这些模型模型模型中 >> 然后你就完全免疫了 >> 然后你就完全免疫了 >> 然后你就完全免疫了,免受苦涩教训的困扰。免受苦涩教训的困扰。免受苦涩教训的困扰。 >> 没错。 >> 没错。 >> 没错。 >> YC的下一期项目正在接受 >> YC的下一期项目正在接受 >> YC的下一期项目正在接受申请。你心中有创业的火花吗?申请。你心中有创业的火花吗?申请。你心中有创业的火花吗?请访问y combinator.com/apply提交申请。请访问y combinator.com/apply提交申请。
com/apply。在y combinator申请。com/apply。尽早填写申请表永远不嫌早,完成申请能让你的想法更上一层楼。好了,回到视频。话题稍微有点转变,但这是我好奇的事情。
嗯,所以你十多年前来到Google,十多年前来到Google,十多年前来到Google,当时他们收购了你的第一家YC初创公司,当时他们收购了你的第一家YC初创公司,当时他们收购了你的第一家YC初创公司,在Portable。Portable是它的移植,在Portable。Portable是它的移植,在Portable。Portable是它的移植,移动应用跨平台,对吧,就像移动应用跨平台,对吧,就像移动应用跨平台,对吧,就像Android或者其他什么。这与嗯,递归自我改进的Android或者其他什么。这与嗯,递归自我改进的Android或者其他什么。这与嗯,递归自我改进的AGI有很大不同。嗯,你是如何实现那个跨越的?什么AGI。嗯,你是如何实现那个跨越的?什么AGI。
嗯,你是怎么做出那个转变的?到了Google之后发生了什么?嗯,到了Google之后发生了什么?嗯,是什么让你觉得你可能想要转变方向,去做些不同的事情?转变方向,去做些不同的事情?转变方向,去做些不同的事情?我很想听听那个故事。我很想听听那个故事。我很想听听那个故事。那次收购是一个绝佳的机会,让我反思接下来真正想做什么,对吧?那次收购是一个绝佳的机会,让我反思接下来真正想做什么,对吧?那次收购是一个绝佳的机会,让我反思接下来真正想做什么,对吧?
真正想接下来做什么,对吧?就像Google本身就是一个能让你做很多不同事情的地方。所以我花了一些时间思考,在我的旅程中,下一步我想去哪里。我意识到那些问题……
我意识到,最让我兴奋的问题,真正让我着迷的,其实是人工智能和机器人技术。当时,世界上许多顶尖人才,尤其是在这些领域的佼佼者,都聚集在Google。于是我便前去与他们交流,他们最终也接纳了我加入其中。
他们让我加入了一个新的人工智能机器人团队,在Google研究领域,这对我来说是个绝佳的机会,因为那并非我的专业背景。我原本学的是计算机安全,以及跨平台移动系统的构建。加入这个团队后,我很快意识到硬件确实不易,当时我对机器人技术更多是抱有憧憬,但我对机器学习却怀有极大的热情。
所以我刚刚,呃,关于机器学习。我经历了一个非常艰难的转变,转向专门从事机器学习研究,并且,你知道,在Google做了大约十年,之后又去了Google和DeepMind。
对于那些想要涉足人工智能领域,特别是应用型AI并围绕其创建初创公司的工程师们,你们今天有什么建议吗?面对日新月异的世界,他们应该如何思考这个问题?
这或许有点显而易见,但你应该勇于尝试,每天都要用AI做点什么。始终努力用AI去实践,不断挑战自我,探索它的能力边界。然后,去构建那些你真正想要创造的东西,对吧?即便对我来说也是如此。
嗯,就连对我来说,要开发一个应用,对吧?嗯,就拿我来说,去年夏天我抽了个周末,用GPT5帮我做了个iPhone应用。我已经有十年没碰过这个了。速度真快啊。
>>是啊,又快又简单。而且那感觉像是很久以前的事了,其实才过去八个月。
那大概是八个月前的事了。现在它甚至更快、更高效。别限制自己。对于任何你能想象到的事情,都应该尝试使用AI,看看它能带你走多远,这样你就能让世界变得更美好。时间有限,就说到这里。
今天的节目时间就到这里,伊恩,非常感谢你今天带来的精彩分享,特别是为我们介绍了Stilts。我们迫不及待想在YC(Y Combinator)中应用它,甚至想用它来优化Gary的清单。总之,要做的事情实在太多了。
>> 是的,谢谢邀请我参加,这真是太有趣了。