一家七人初创公司 Poetic,用递归自我改进系统“诗意元系统”,以极低成本让 AI 在复杂推理任务上超越巨头模型。
世界变化如此之快。这或许有些显而易见,但你应该勇于尝试,每天都要与人工智能做些事情。去年夏天,我花了一个周末,利用GPT5帮我开发了一款iPhone应用。那是我十年来未曾涉足的事。
是的,它非常快,非常容易。那是很久以前的事了,大概8个月前。嗯,现在它甚至更快了。别骗自己了。
就像你想象的那样,你应该尝试使用人工智能,看看它能带你走多远,你将会让世界变得更美好。欢迎来到新一期的《光锥》。伊恩·费舍尔是联合创始人。
伊恩·费舍尔是Poetic公司的联合创始人兼联席首席执行官,该公司致力于为LLMs构建递归自我改进的人工智能推理系统。此前,他曾在Google担任研究员长达十年,并多年前通过YC孵化器创立了一家移动开发工具公司。欢迎你,伊恩。>> 谢谢。很高兴来到这里。
我很高兴来到这里。 >> 谢谢。我很高兴来到这里。 >> 什么是Poetic?它与强化学习有何不同?你知道,它与强化学习有何不同?你知道,它与上下文工程有何不同? >> 在Poetic,我们正在构建的是一个递归自我改进的系统。
因此,递归自我改进,可以说是人工智能领域的圣杯,即人工智能让自己变得更智能。我们获得的核心洞见正是如此。
我们核心的洞察是,我们可以通过递归的方式,实现比其他人提出的所有方法都更快、更经济的自我改进。
呃,显然我无法透露具体细节,不能详述那究竟是什么,也不能说明我们独特的方法。但市面上大多数方案都要求你从头开始训练一个新的LLM,而训练LLMs从零起步的成本,你知道,动辄高达数百……
花费数亿美元和数月努力,然后T057或OpenAI就会在下一个模型发布时轻易超越你,夺走你的市场份额。当然,T057、OpenAI和T096他们正在探索训练递归自我改进,但通常在那个层面上,他们需要为每一步自我改进训练一个新模型。
他们所做的自我提升。这正是初创公司真正渴望的核心特质。我深知这正是我所追求的。
我知道我想利用下一个模型,但一旦你踏入那个领域,我就要投入,你知道,数百万到数亿美元,然后你猜怎么着?
喜欢它,我干脆把它点着了火,因为你知道,因为你知道,因为你知道,前沿模型的下一个版本即将发布,而我永远也追不上。
使用你们的系统意味着,我将始终拥有比现成产品更优越的东西,这就像是追寻的圣杯。
是的,我们认为这对于任何基于大型语言模型进行开发的人来说都极具价值,而且我们并不将前沿模型视为竞争对手。
他们,你知道,就是那些踩着高跷的人,建造高跷站在上面,但如果我们没有那个基础层,那么,你知道,诗意就无法存在。 >> 是的。我是说,作为最聪明的模型。
我是说,作为最聪明的模型,你知道,这就像一场毫厘之争,毫厘之差确实至关重要,至关重要,至关重要,对吧?对。那么,我们究竟该如何开始呢?我的意思是,你构建的这个东西,基本上任何初创公司都能用上,它有点像高跷,真的。我们……
我们构建了一个系统,能够针对您的特定问题自动生成解决方案,这些方案总能超越底层语言模型的表现,同时避免了您所提及的“苦涩教训”中那种巨大的成本投入。
没有你我会怎样,没有你我会怎样,没有诗意的你,我或许只能说好吧。诗意的你或许会说,好吧,我们首先要收集一个庞大的数据集,针对我们正在处理的特定问题,可能需要成千上万的样本。然后,我们会尝试获取目前能接触到的最佳模型——也许是前沿模型,也许是开源权重模型,具体是哪一种并不那么重要。
你将耗费大量资源。你将耗费大量资源。你将为此投入巨额资金。计算成本如此高昂。
最终,你得到的东西比之前搭建的基础更好,但那时新模型已经问世,它又超越了你所搭建的一切。
你知道,大概三年前,在GPT的基础上,推出了3.5之类的版本,然后GPD 404问世,接着是GPD 404,再到GPD 404,每一次都让人惊叹不已,彻底颠覆了认知。那么,你是打算继续这样的创新,还是准备退出市场呢?在某些情况下,这确实关乎企业的存亡。
在某些情况下,最终呈现的是一种富有诗意的……嗯,最终我们提供的是……你知道,现在人们称这些为“驾驭系统”,或者叫它“基因系统”或任何你喜欢的名称——它构建在一个或多个语言模型之上,却表现得比它们更出色。
当它表现更出色时。当新模型推出时,同样的新模型推出时,同样的新模型推出时,同样的设备完全兼容。你无需更换。你无需更换任何东西,就能获得更大的性能提升。
此外,我们可以继续优化这个新模型,无论你想使用什么样的新模型,都能让它变得更好。但这样你也不会损失数亿美元。
事实上,我们这样做的成本要低得多,比T040的成本还要低。而且你们实际上已经做过很多次了,对吧?我记得那时候你们……
我记得去年12月你首次发表论文时,就迅速登顶ARC AGI V2榜单,之后在其他benchmark领域也多次重现这样的成绩。那种感觉是怎样的?
>> ARGI v2 这是你们的好意,我们 >> ARGI v2 这是你们的好意,我们 >> ARGI v2 这是你们的好意,我们走出隐匿状态,让人们知道我们能够处理这些非常棘手的问题。嗯,并且在这些非常棘手的问题上,嗯,并且在这些非常棘手的问题上。
具体来说,我们想展示的是,我们的系统——我们称之为诗意元系统——能够生成高效能的推理系统。当时DeepThink刚刚发布,而我们的系统已具备深度思考能力。
他们认为刚刚出炉的数据显示,他们以45%的得票率高居榜首,表现相当惊人。两天后,我们公布了我们的结果,表明我们能够达到远高于此的水平。
呃 >> 所以它们带着苏打水出来,然后你 >> 所以它们带着苏打水出来,然后你 >> 所以它们带着苏打水出来,然后你每次都能正好从它们上方进入,每次都能正好从它们上方进入,每次都能正好从它们上方进入,说实话这景象真是疯狂。说实话这景象真是疯狂。说实话这景象真是疯狂。这就是拥有高跷的感觉,你这就是拥有高跷的感觉,你这就是拥有高跷的感觉,你懂吗,就像无论什么新款出来,懂吗,就像无论什么新款出来,懂吗,就像无论什么新款出来,你都能用诗意的方式比它更高,你都能用诗意的方式比它更高,你都能用诗意的方式比它更高,这简直太棒了。这简直太棒了。
这简直太棒了。>> 没错。有趣的是,我们只用了DeepThink一半的成本,因为我们是基于Gemini 3 Pro构建的,这是一个便宜得多的模型,但我们最终在官方验证上实现了9个百分点的提升。
他们在官方验证中。他们在官方验证中。他们当时是45%,而我们,像70年代那样,是45%,而我们,像70年代那样,是45%,而我们,像70年代那样,大概是几十美元,我们是54%,大概是几十美元,我们是54%,大概是几十美元,我们是54%,每个问题32美元。每个问题32美元。每个问题32美元。>> 所以最近你们刚刚宣布了一些>> 所以最近你们刚刚宣布了一些>> 所以最近你们刚刚宣布了一些关于人类最后一次考试的惊人结果。关于人类最后一次考试的惊人结果。关于人类最后一次考试的惊人结果。能告诉我们更多细节吗?能告诉我们更多细节吗?能告诉我们更多细节吗?
人类的终极考试是一套由众多领域专家精心设计的2500道超高难度题目。这些题目旨在挑战该领域的博士级学者,目前人工智能尚未能通过这项测试。
但我们达到了55%,这比上周刚刚发布的、来自Anthropic和Claude Opus 4.6的最新成果高出近两个百分点。他们得到了53.1%,而我们达到了55%。
人类最后的考试没有公布的一点是获得这些结果的成本。在你的案例中,这次运行的成本不到六位数。具体是多少呢?
>> 我们并未公布具体的成本,
>> 但可以说优化费用低于10万美元。
>> 这令人印象深刻,因为每个大型基础模型的训练运行
>> 成本都高达数亿美元。而你们公司,
你们公司只有七个人。只有七个人。只有七个人。
>> 没错。是的。是的。七位,呃,七位
>> 没错。是的。是的。七位,呃,七位
>> 没错。是的。是的。七位,呃,七位
研究科学家和研究工程师。是的。
研究科学家和研究工程师。是的。
研究科学家和研究工程师。是的。
>> 这很了不起。而且我认为
>> 这很了不起。而且我认为
>> 这很了不起。
我认为你的方法非常有趣的一点在于,它采用了一种非常科学的方式来研究那些最优秀的创始人在模型应用中所展现出的新兴行为。
我认为很多取得出色成果的创始人,他们对待底层模型的方式是将其视为一个可切换的通用层。例如,在某些任务中,比如……
两个极难验证的漏洞被发送至那个对比架构,然后转至Claw 4.6。但你能自动完成这一过程,而非依赖人工操作,这实在令人印象深刻。我认为其底层机制必有更为特殊之处。
表面之下可能还有更多特别之处。你能跟我们讲讲它的工作原理吗?
>> 是的,听起来很神奇。那么,你能告诉我们什么?
>> 没错。你触及到了一个核心,一个非常核心的问题。
这些工具,它们本质上是由代码、提示词和数据构成的,这些提示词和数据是构建在一个或多个语言模型之上的,对吧?所以,从原则上讲,你可以手动构建,或者使用云代码之类的工具来完成。
但在实践中,这需要大量的工作,需要大量的实践,需要付出巨大的努力,才能获得所有这些洞见,让这些洞见发挥作用,让这一切顺利运行。因此,我们在Poetic开发的核心技术就是递归式自我改进。
因此,我们拥有一个递归自我改进的系统,我们称之为诗意元系统。该系统的输出是能够解决难题的系统。这里的难题指的是那些难以解决的问题。
嗯,所谓难题,就是那种如果你交给GPT52,它很难给出可靠、稳健结果的东西。举个例子来说,这对我们来说是一个巨大的优势。我们能够以更加自动化的方式生成这些系统。
这意味着我们可以比你自己组建团队来尝试打造专属代理解决特定任务要快得多,也便宜得多。
但不仅如此,嗯,因为你知道这实际上是一个自动化的优化过程。如果你已经完成了这个过程。
如果你已经完成了那项工作,你就知道,你是一个初创公司,正专注于某个特定领域,并且你已经投入了……你知道,你认为自己相当了解你的问题。你已经部署了你的代理,并且……
你已经部署了你的代理,它可能运行得还不错,但你知道,你总能找到更好的,或者你确实需要更好的。那么,你可以把它带给我们,我们可以优化整个代理或者其中的某些部分。所以,我们可以专门优化这个代理。
因此,我们可以仅优化提示,仅优化推理策略。根据您的具体需求,我们可以采取多种不同的方法。
这听起来与强化学习是完全不同的范式,因为我们经历了常规预训练强化学习的S曲线,当OpenAI发布01版本时,而现在这感觉像是一个全新的开始。听起来很特别,感觉它与众不同且充满韵律。
听起来它与RNN的RNN的RNN有很多押韵之处>>这与RL完全不同范式>>这与RL完全不同范式>>这与RL完全不同范式,对吧?这将取决于具体任务,具体类型的问题,我们正试图解决的那个问题。嗯,以及我们正在使用的基础模型。
但是,呃,实际上你可以这么说,我们正在使用的每个模型或每组模型都会有它们自己的,呃,S曲线。诗意的系统,诗意的元系统本身,也将拥有它自己的S曲线。
因此,随着诗意元系统的不断优化、诗意元系统的不断优化、诗意元系统的不断优化,以及底层模型的持续进步、底层模型的持续进步、底层模型的持续进步,你会发现,嗯,你会发现,嗯,你会发现,嗯,你所面对的S型曲线会持续上移、持续上移、持续上移,直到最终要么达到饱和,要么就像、要么就像、要么就像 >> 达到AGI。 >> 达到AGI。 >> 达到AGI。 >> 是的。达到AGI,达到超级 >> 是的。
抵达AGI,抵达超级 >> 是的。抵达AGI,抵达超级intel智能。是的。intel智能。是的。intel智能。是的。 >> 考虑到它的高跷,你可能先撞到 >> 考虑到它的高跷,你可能先撞到 >> 考虑到它的高跷,你可能先撞到天花板。天花板。天花板。 >> 这就是目标,对吧?是的, >> 这就是目标,对吧?是的, >> 这就是目标,对吧?
是的,>> 你首先想要触及天花板 >> 你首先想要触及天花板 >> 你首先想要触及天花板 >> 我认为很多我们合作的初创公司 >> 我认为很多我们合作的初创公司 >> 我认为很多我们合作的初创公司,嗯,然后在我的业余时间,我,你知道,做一堆上下文工程 >> 你知道,做一堆上下文工程 >> 你知道,做一堆上下文工程,然后事情是这样的,我们有点像 >> 然后事情是这样的,我们有点像 >> 然后事情是这样的,我们有点像在调整它,调整评估,调整,就像我们在给自己填充上下文。
什么是上下文填充我们自己。那感觉会是什么样子,拥有一个你知道的、不断自我改进的版本,就像提示工程和上下文工程那样?我们并没有花很多时间去审视我们正在处理的特定数据。相反,我们……
相反,我们让诗意的元系统去审视那些数据,如果它认为需要将更多内容纳入语境,就会进行更多的语境填充或类似操作,它会自动执行。
如果需要生成大量示例来获得更好的性能,它会为你完成,这相当有趣,对吧?
观察那些提示输出,特别是ArcGIS的,我觉得挺有意思。你可以读一读然后说,这明显不是人类会写出来的东西。里面有些出人意料的内容,它举了一些非常简单的例子,其中一个例子实际上是错的,但我们没有改动。
实际上错了但我们没改。实际上错了但我们没改。我们当时想,嗯,你知道这就是,我们当时想,嗯,你知道这就是,我们当时想,嗯,你知道这就是那个东西,它输出tpu我们就,那个东西,它输出tpu我们就,那个东西,它输出tpu我们就随它去吧。嗯,你知道我们不想,随它去吧。嗯,你知道我们不想,随它去吧。
你知道,我们并不想随意插手干预。在机器学习领域,传统上有一条铁律:你必须非常了解你的数据集。但现在,我们某种程度上将这项工作外包给了AI本身,由AI来负责理解数据集,找出其中的故障模式,以及探索模型可以采用的稳健推理策略,从而提升性能。
表现。表现。
这其中有多少类似于利用工具本身,比如上下文填充、正确总结或适当重排,以便在拥有一定数量的巨型调用后,如何最大限度地利用每一次调用?
如何从每次通话中获得最大收益?>> 是的,这确实因问题而异。但我们观察到的情况是,
但事实上,我们在DeepMind发表的最后一篇论文并没有涉及这种递归自我改进的内容,而是展示了我们可以手动构建这些约束机制来解决极其困难的问题。
我们发现,对于这些极其棘手的问题,我们投入了大量精力手动优化提示。这让我们在特定情况下取得了一些进展。
你知道,我们正在处理的最艰巨的任务,我们只取得了大约5%的性能提升,使用了Gemini 1.5闪存。
5次闪现,这是之前的情况,后来当我们引入了推理策略后,成功率从5%跃升至95%。嗯,这通常就是我们看到的现象,你知道,就像大家都在那里或多或少地进行某种程度的自动化提示优化,我不会说所有人,但确实有很多人在做。Jeepa这篇论文非常流行,大家基本上都在实施其中的方法,这确实能带来一些性能上的提升。
但这远非改进,远非你所能获得的一切,如果你真正思考这些推理策略,它们将被编写成代码,而不仅仅是更好的提示。
>> 那么,如果初创公司想要利用Poetic来提升其代理能力,他们应该怎么做呢?>> 是的,目前我们尚未发布任何产品,但如果你访问poetic.ai,那里有一个按钮可以点击,用于申请早期访问权限。如果你是初创公司……
如果你是一家初创公司,正处于早期试用阶段。或者你是一家公司,面临着一个极其棘手的问题,已经尝试了所有可能的方法,力求使其可靠且稳固,却始终无法完全达到目标,感觉还需要更多助力,那么请告诉我们。我们正在寻找的就是这类难题。
嗯,那就告诉我们类似的问题吧。告诉我们你们正在研究什么,我们会联系你们。当我们准备好与你们合作时,你们会是第一个知道的。我的意思是,如果你们在人类最后的考试中名列前茅,那确实相当了不起。
所以,你已经长大了。所以,你已经长大了。所以,你已经完全独立了,就像苏打水一样,而我则完全沉浸在那苏打水的世界里,然后我想,高跷基本上让任何公司都变成了苏打水。基本上让任何公司都变成了苏打水。基本上让任何公司都变成了苏打水。 >> 就是这个意思。是的,是的。而你 >> 就是这个意思。是的,是的。而你 >> 就是这个意思。是的,是的。
我们审视ArcGI结果和人文学科期末考试成绩时,发现它们展现了两种不同的能力。我们确实能够有效提升这些能力。
我们确实能提升你的推理能力,我们确实能提升推理能力,我们确实能提升推理能力,我们确实能深化知识提取,深化知识提取,深化知识提取,从这些模型中提取深层知识。然后你就完全免疫了,完全免疫了,完全免疫了,免受“苦涩教训”的影响。没错。没错。没错。YC的下一期项目正在接受申请。你心中有创业的火花吗?心中有创业的火花吗?心中有创业的火花吗?请访问y combinator.com/apply提交申请。
com/apply。请在y combinator.com/apply申请。尽早申请并填写申请表,这将有助于提升你的想法。好的,回到视频内容。稍微换个话题,但这是我好奇的一点。
嗯,所以你是在十多年前来到Google的,当时他们收购了你的第一家YC初创公司,那家公司叫Portable。Portable是做移动应用跨平台移植的,比如安卓之类的。这和那种递归自我改进的AGI完全不同。你是怎么实现这种跨越的?
嗯,你是怎么做出那个转变的?到了Google之后发生了什么?嗯,到了Google之后发生了什么?嗯,到了Google之后发生了什么?嗯,是什么让你觉得你可能想要转变方向,去做些不同的事情?转变方向,去做些不同的事情?转变方向,去做些不同的事情?我很想听听那个故事。我很想听听那个故事。我很想听听那个故事。那次收购,嗯,是一个绝佳的机会,让我反思接下来真正想做什么,对吧?
真正想接下来做什么,对吧?就像Google所在的地方,本身就是一个能让你尝试许多不同事物的平台。所以我花了一些时间思考,在我的旅程中,下一步该往哪里走。我意识到那些问题……
我意识到,最让我兴奋的问题,真正让我着迷的,其实是人工智能和机器人技术。当时,世界上许多顶尖人才,尤其是在这些领域的佼佼者,都聚集在Google。于是我便前去与他们交流,他们最终也接纳了我加入其中。
他们让我加入一个新的AI机器人团队,在Google研究项目中,这对我来说是个绝佳的机会,因为那并非我的专业背景。我原本的领域是计算机安全,以及跨平台移动系统的构建。加入这个团队后,我很快意识到硬件确实很难搞,而且我当时对机器人技术更多是抱有憧憬,但我对机器学习却怀有极大的热情。
所以我刚刚,嗯,关于机器学习。我经历了一个非常艰难的转变,转向专门从事机器学习研究,嗯,并且做了大约十年,在Google,然后又在Google和DeepMind。
对于那些想要涉足人工智能领域,特别是应用型AI并围绕其创建初创公司的工程师们,你们今天有什么建议吗?面对日新月异的世界,他们应该如何思考这个问题?
这或许有点显而易见,但你应该勇于尝试,每天都要用AI做点什么。始终努力用AI去实践,不断挑战自我,探索它的能力边界。然后,去构建你真正想要创造的东西,对吧?即便对我来说也是如此。
嗯,就连对我来说,要开发一个应用,对吧?嗯,就拿我来说,去年夏天我花了一个周末,用GPT5帮我开发了一个iPhone应用。我已经有十年没做过这个了。速度真快。
>> 是啊,又快又简单。而且那已经是,你知道,很久以前的事了。大概八个月前吧。
那大概是八个月前的事了。现在它变得更快更高效了。别限制自己。对于任何你能想象到的事情,都应该尝试使用AI,看看它能带你走多远,这样你就能让世界变得更美好。我们时间有限,就说到这里。
今天的节目时间就到这里,伊恩,非常感谢你今天带来的精彩分享,特别是为我们介绍了Stilts。我们迫不及待想在YC(Y Combinator)中应用它,甚至想用它来优化Gary的清单。总之,要做的事情实在太多了。
>> 是的,谢谢邀请我参加,这次交流非常愉快。