我们都对Claude Code上瘾了。

Y Combinator 油管初创课堂 2026-03-04 纯讲解
总结 这期视频主要聊了为什么Claude Code(一个基于命令行的AI编码工具)让人上瘾,以及它如何改变编程工作流,特别适合追求速度的小团队和个人开发者。
工具 - AI编码工具:Claude Code, Cursor, GitHub Copilot, CodeEx, Cloud Code (可能指Claude Cloud或类似服务); - **平台/
建议 1. 亲自尝试Claude Code:体验命令行AI编程的流畅感,特别是其调试和自动化测试能力。
播客音频
YC_我们都对Claude Code上瘾了。
一句话总结

这期视频主要聊了为什么Claude Code(一个基于命令行的AI编码工具)让人上瘾,以及它如何改变编程工作流,特别适合追求速度的小团队和个人开发者。

核心论点展开
为什么Claude Code让人上瘾?
. 用起来感觉像在代码里飞,效率极高。
. 它能直接在你的命令行里跑,调试复杂的嵌套任务、找漏洞、写测试,一气呵成。
. 这种体验解放了创造力,让很久不写代码的人也能重新高效工作。
谁在用,怎么用?
. 小公司和个人开发者最爱用,因为他们追求的就是快,没时间折腾别的。
. 大公司流程多,顾虑也多,反而可能用得慢。
. 想成为顶尖用户,得看你用的技术栈(比如Vercel, Cloudflare Workers)和是否擅长管理给AI的“上下文提示”。
命令行(CLI)为什么赢了?
. 一开始大家觉得未来编程是和AI“聊天”,AI做完事发个拉取请求(PR)回来。
. 但现在看,直接在命令行里和AI协作更自然、更自由,反而超越了传统的IDE(集成开发环境)。
. 命令行让你和代码保持了一点距离,不用在脑子里记所有状态,体验更流畅。
信任与工作流整合
. 未来人人可能更像“管理者”,但前提是要真正信任AI,理解它在干嘛。
. 工具切换很频繁(比如从Cursor换到Claude Code),关键是找到最适合当前任务的。
. Claude Code的发布模式很棒,下载就能用,没有复杂流程,促进了自下而上的普及。
如何成为高手?
. 管理好上下文:别让AI“吃太撑”,主动清理或拆分任务,保持高质量输出。
. 利用现有生态:用那些模板丰富、配置少的平台(如Vercel),让AI专注业务逻辑。
. 理解AI的超能力与局限:AI有超强“持久性”,会不停尝试,但可能陷入循环或制造重复代码。需要你明确目标并引导。
. 善用辅助工具:用AI做代码审查、跑测试,效果很好。也可以设置“金丝雀测试”来监控上下文是否已混乱。
关键数据与案例
. 视频嘉宾是OpenAI早期Codex项目成员,也是Segment公司(数十亿美元估值)的创始人。
. 提到使用Claude Code后,感觉像换了“仿生膝盖”,效率提升五倍,一天能完成五个人的工作量。
. 举例说明AI能调试五层嵌套的延迟任务,并自动编写测试防止问题复发。
. 开源项目Supabase的成功,部分归功于优秀的文档和社区推荐,这影响了AI助手的推荐结果。
提到的工具/产品/技术
. AI编码工具:Claude Code, Cursor, GitHub Copilot, CodeEx, Cloud Code (可能指Claude Cloud或类似服务)
. 平台/服务:Vercel (Next.js), Cloudflare Workers, Supabase, PostHog, Sentry, New Relic
. 技术概念:命令行界面 (CLI), 集成开发环境 (IDE), 上下文窗口 (Context Window), 微调 (Fine-tuning), 强化学习 (RL), 模型上下文协议 (MCP), 代理 (Agent)
金句
. “感觉就像在代码里飞一样。”
. “这工具能调试嵌套了五层的延迟任务,找出漏洞然后写测试,保证问题不再出现,这简直太疯狂了。”
. “命令行界面有种奇特的复古未来感,竟然超越了所有本应代表未来的IDE。”
. “你给编码代理提供什么核心内容,它就会以此为基础不断扩展。”
对 Vibe Coder 的价值
. 效率爆炸:展示了AI编码工具如何极大提升个人产出,实现“一人顶五人”。
. 工作流重塑:强调了命令行交互和上下文管理的重要性,为优化自身工具使用提供了思路。
. 选型参考:分析了不同工具(Claude Code vs. CodeEx)的架构差异和适用场景。
. 避坑指南:指出了AI编码的常见陷阱(如上下文污染、目标不清导致重复代码),并给出了实用解决方案。
. 趋势洞察:讨论了AI工具如何影响技术选型、产品推广(自下而上)和未来编程形态。
建议
亲自尝试Claude Code:体验命令行AI编程的流畅感,特别是其调试和自动化测试能力。
精进“上下文工程”:学习如何给AI清晰、有效的指令和背景信息,这是发挥其能力的关键。
为AI优化你的项目:采用结构清晰、依赖少的架构(如微服务、Serverless),使用成熟平台减少配置负担。
建立检查与平衡:积极使用AI进行代码审查,并在持续集成(CI)中自动运行测试,确保代码质量。
关注“协调”功能:期待或探索能管理多个AI任务和对话上下文的工具,以应对更复杂的工作流。

用四元代码时,感觉就像……哦,仿佛在代码中飞yi行。当它运行在你的命令行界面里,这东西能调试嵌套五层的延迟任务,找出漏洞所在,然后为之编写测试,从此永绝后患。这简直太疯狂了。

这再也不会发生了。这太疯狂了。我认为每个在业余爱好者层面或小型初创公司里尝试这类技术的人,他们都在竭尽全力推动编码智能体的极限,因为你根本没有时间去琢磨其他事情。

就像初创公司一样,你还有其他选择。就像初创公司一样,你还有其他选择。就像初创公司一样,你还有其他选择。你只需要专注于速度。我认为在规模更大的公司里,你会有更多可失去的东西。在规模更大的公司里,你会有更多可失去的东西。在规模更大的公司里,你会有更多可失去的东西。那么,成为编码助手顶尖1%用户有哪些建议呢?成为编码助手顶尖1%用户有哪些建议呢?成为编码助手顶尖1%用户有哪些建议呢?是的。你使用的技术栈是什么?

>> 嘿,大家好,欢迎回到《光锥》的另一期节目。加里,你准备好录制了吗?

>> 我现在正处于计划模式,不过好吧。是的,我想是时候了。抱歉。那么,欢迎来到《光锥》的另一期节目。今天我们将……

今天我们请到了一位非凡的嘉宾,凯尔文·弗伦奇·欧文。他是OpenAI公司最早开发编解码器的人之一,在此之前,他还创立了Segment,这家价值数十亿美元的公司最终实现了非常成功的退出。凯尔文,欢迎回来。>> 谢谢邀请。

我想这对我们所有人来说都是一段疯狂的时光。

我最近对Claude Code非常非常上瘾,我会形容它就像十年前我是个马拉松跑者,我热爱跑步,但后来遭受了灾难性的膝盖损伤,这被称为经理模式,我因此停止了编码,这真是rag且糟糕。

呃,但最近这九天简直太棒了。这些天仿佛开启了我记忆中所有能做的事,就像我换了个全新的全膝关节,其实是个仿生膝盖,让我能跑得比以前快五倍。你怎么看?

因为你是我的意思是,你正处在最前沿。我是说,Codeex开创了许多如今大家仍在使用的理念,而且Codeex本身也在不断进化。

简单来说,当时我在openai,正在做Codeex网页项目。那时cursor已经上市,他们构建了一个适配层,我记得是基于3.5版本,能在你的IDE中运行。

FOD代码刚刚发布,它当时是以命令行界面(CLI)的形式运行的,我们当时就有这样一种想法:嘿,未来的编程体验会更像是与同事交谈一样——你提出一个问题,他们去处理,然后带着一个拉取请求(PR)回来找你。

嗯,这就是我们当时做PR的情况。嗯,这就是我们当时做PR的情况。嗯,这就是我们最初采用网页视图的起点。嗯,最初采用网页视图的起点。嗯,最初采用网页视图的起点。嗯,那就是我们当时在构建的东西。我认为那就是我们当时在构建的东西。我认为那就是我们当时在构建的东西。我认为从方向上看,这个方向从方向上看,这个方向从方向上看,这个方向对于事物应有的发展路径来说,大体上仍然是正确的。但对于事物应有的发展路径来说,大体上仍然是正确的。但对于事物应有的发展路径来说,大体上仍然是正确的。但显然现在大家都在用显然现在大家都在用显然现在大家都在用命令行界面来编码了。就像他们现在都在用那些命令行界面来编码了。就像他们现在都在用那些命令行界面来编码了。

他们越来越多地使用这些工具,无论是云代码工具还是编解码器。

至少对我来说,其中的教训是,在某种意义上你是对的,未来每个人都会成为管理者,或者至少这是我的个人见解。但要想达到那个阶段,沿途需要经历许多步骤,你必须真正建立起对模型的充分信任,并理解它在做什么。

你最近转用云端开发了。在代码方面,过渡体验如何?就把它作为你的技术栈之一来使用而言,感觉怎么样?

>> 是的。云端代码现在确实成了我日常的主要工具。说实话,这种切换每隔几个月就会发生。有一段时间我……

有一段时间,我每隔几个月就会用。有一段时间,我深深沉迷于cursor。我觉得他们新推出的模型速度真的很快,实际上相当不错。后来我逐渐转向了Quad Code,尤其是在Opus云服务方面。

云代码确实是一个非常有趣的产品,代码本身也极具魅力,我认为其产品与模型的协同运作效果被大大低估了。如果你深入研究,

我认为T036做得特别出色的一点,就是它能很好地拆分上下文。比如,当你要求Cla Code执行某项任务时,它通常会生成一个探索子代理或类似机制。

代理或类似多个代理,每个代理都在运行海克库普来遍历文件系统,探索其中的内容,它们各自在其上下文窗口中进行操作。我认为熵公司在这方面已经有所发现,围绕给定任务……

当给定一个任务时,这个任务是否适合上下文窗口?是否应该将其分割成多个部分?模型在这方面表现得异常出色,我认为这为它们带来了极佳的效果。我认为最引人入胜的一点是,由于它基于终端,这是可组合原子集成的最纯粹形式。如果你来自集成开发环境(IDE)优先的世界,这也是cursor所在的地方,我猜Codeex也是如此,那么这种更自由形式的上下文查找概念就不会显得如此自然,对吧?这种字符串是如此独特。

如此独特的字符串。如此独特的字符串。 >> 是的,我个人也感到惊讶,我 >> 是的,我个人也感到惊讶,我 >> 是的。

我个人感到惊讶,不知道你们怎么想,但我确实惊讶于,这就像一种奇特的复古未来感,仿佛那些20年前的技术——命令行界面(CLI),竟然在某种程度上超越了所有本应代表未来的集成开发环境(IDE)。

我认为这非常重要,超过100%。是的,我认为这实际上很重要,因为它不是一个集成开发环境(IDE),因为它某种程度上让你与正在编写的代码保持距离。就像IDE主要是用来浏览文件的,对吧?而你试图保持……

你试图在脑海中记住所有状态,理解正在发生的一切。但命令行界面(CLI)是完全不同的存在,这意味着它们在用户体验上拥有更多的自由空间。

至于我,我不了解你的情况,但我觉得,在使用云代码时,那种感觉就像是,在使用云代码时,那种感觉就像是,在使用云代码时,那种感觉就像是,哦,我感觉自己仿佛在代码中翱翔,你懂吗?就像是,哦,我感觉自己仿佛在代码中翱翔,你懂吗?就像是,哦,我感觉自己仿佛在代码中翱翔,你懂吗?就像是,各种事情都在进行中。有各种事情都在进行中。有各种事情都在进行中。有小小的进度指示器。那种感觉小小的进度指示器。那种感觉小小的进度指示器。

这有点像在给我状态更新,但真正编写的代码并非核心焦点。我是说,开发环境实在太乱了。我真的很喜欢沙盒在概念上的那种简洁感。

但后来我就遇到了一堆疯狂的问题,比如只是想做个简单的测试,对吧?它需要访问Postgress,结果却搞不定,或者你也知道,我的codeex.md文件最后写了20行代码,可即便这样还是不行。

当它在你的命令行界面里时,它可以直接访问你的开发数据库。我是说,我不确定是否应该这样做,但我实际上也让它访问了我的生产数据库来执行操作,然后它就能直接完成。就像这样,好吧,我研究过这个情况。

我研究了一下,觉得可能是这个问题,我得去调试这个并发问题。天哪,这个工具居然能调试嵌套延迟任务,深入五层找出问题所在,然后编写测试确保它不再发生。这简直太不可思议了。

这太疯狂了。这种事不会再发生了。这太疯狂了。 >> 是的。而且我认为那种分发模式 >> 是的。而且我认为那种分发模式 >> 是的。而且我认为那种分发模式说实话被低估了。比如考虑一个 cursor 或云代码或编解码器CLI,你能直接下载并使用,无需获取权限或任何手续,这带来了巨大的改变。

实际上,我体验了巨大的不同。前几天我试用了一款产品,你需要下载一个桌面应用程序,然后它会执行你笔记本电脑上运行的代码,并通过MCP服务器与桌面产品进行通信。嗯。

嗯。而且>>这就像是一种非常有趣的方式>>这就像是一种非常有趣的方式>>这就像是一种非常有趣的方式,现在开始用你的笔记本电脑工作,现在开始用你的笔记本电脑工作,现在开始用你的笔记本电脑工作,你不需要得到任何人的许可,你不需要得到任何人的许可,你不需要得到任何人的许可。你只需下载产品就能开始使用。你只需下载产品就能开始使用。你只需下载产品就能开始使用。>>是的。我当时在看像New Relic这样的工具>>是的。我当时在看像New Relic这样的工具>>是的。

我看New Relic有MCP,但你知道Sentry也可以有MCP,不过Sentry能复制Markdown,它基本上就像一个自动修复bug的工具。就在那里。

在这个瞬息万变的世界里,有趣的是,你希望产品能自下而上地推广,而非自上而下,因为自上而下的方式实在太慢了。就像公司的首席技术官,他的决策过程往往迟缓。

就像一家公司的首席技术官,他会有所有这些关于安全和隐私的担忧,万一出现安全问题怎么办,以及如何精确控制,而工程师们则可能只是安装了这个东西,然后开始使用,觉得这东西太棒了。

我确实有一个困扰,那就是我通常是个面向企业级市场的B2B人士,但我觉得当你进行自上而下的销售时,会形成某种程度的壁垒。必须得有公司能够突破这一点,让产品变得像是人人都能接触到的东西,也许个人用户也能轻松采用。

那是原版的,嗯,拿去吧。那是原版的,嗯,拿去吧。那是原版的网景导航者。网景导航者是免费的。网景导航者是免费的。

它原本供非商业用途免费使用,然后呢,人们会下载下来用于商业用途,接着他们就能追踪IP地址,查明所有这些不同公司里到底有多少客户,然后说:“你们该为此付费了。你们正在……”

你违规了,但只需购买许可证即可。所以我想知道你是否能在这里再做一次。

我的意思是,你关于分布的观点非常有趣,因为现在人们可能只是在做架构决策,直接决定在claude code中使用什么,他们甚至可能不知道要使用什么分析工具,只要代码说用PostHog,他们就会用PostHog,百分之百如此。

我建议的一家公司正在讨论他们的GEO战略,也就是生成式优化策略,或者说是在聊天机器人中如何呈现的策略。他所说的内容很有趣。

他说的事情很有趣,他们的一位竞争对手列出了一个他们所在类别中你应该使用的工具前五名榜单。当然,他们的工具在这个前五名榜单中名列前茅。

就像任何人看到这个都会觉得,哦,这明显有偏见。就好像排名第一的工具就是那个领域内的,你懂吗?

但学习管理系统(LMS)被误导了,它们就像是被愚弄了一样,不断地提取大量上下文信息,然后宣称:“哦,这是顶尖的。”接着它们就会直接推荐它。我认为,是的,如果你在销售一个开发者工具,拥有优质的文档、活跃的社交媒体存在感,这些都是至关重要的。

就像拥有社会认同一样,比如可能在Reddit上被推荐,再比如在Reddit上被多次提及,所有这些都能为你的项目增添不少分量,极大地助力你的推广。这也是为什么我认为许多开源项目能够迅速走红。其中一个例子就是Superbase,它确实取得了巨大的成功。

嗯,这确实火起来了。是的,是的。嗯,它在去年真正火起来,部分原因是因为他们去年,部分原因是因为他们去年,部分原因是因为他们拥有如此出色的开源文档,教你如何设置一大堆东西。每当有人问如何设置东西时。

每当有人询问如何设置任何需要某种后端Firebase类型交易的东西时,所有学习管理系统的默认答案实际上都是Superbase。我只是在尝试回答一些由此产生的问题。关键在于它正在赢得市场。

关键在于它在互联网上大获成功,而且早在互联网普及之前就已经如此,甚至在Stack Overflow这类平台兴起时也是如此。那时候人们搜索Google,而现在几乎没人再用Google了。这简直太疯狂了。是的,这确实有点疯狂,但本质上还是同样的道理。不过我得说,它对开源项目的推动作用确实超乎寻常地大。

我会说,我有点不成比例地。

我想说的是,不知道你们有没有看到,他们最近发布了一篇关于构建自家编程代理的博客文章,文中提到他们使用了开放代码作为测试框架,因为模型能够查看源代码并理解其工作原理。

我工作时经常这样做。对于开源产品,我会克隆代码库,然后启动CodeEx或Cloud Code,并询问:“嘿,给我介绍一下这里的情况。”这真的非常有用。

>> 对于想要构建编程助手的人,你认为有哪些建议?既然你已经在这方面有很多经验,现在有哪些经验教训是你想要分享的?>> 我认为最重要的一点是妥善管理上下文。

基本上,我们很好地掌握了语境。基本上,

我们当时好像有一个检查点,大概是03版本,属于某个推理模型之一。然后我们对其进行了大量的fine-tuning强化学习训练,具体来说就是给出一系列问题,比如解决编程难题、修复测试或是实现某个功能等等,接着模型通过强化学习来回应这些任务。

因此我认为大多数人都是如此。我认为大多数人不会做得恰到好处,但你可以做的是弄清楚,比如我应该向这个代理提供什么样的上下文,以获得最佳可能的结果。对于云代码来说也是如此。

因此,对于云代码,如果你观察它的运作过程,就像是,哦,如果你观察它的运作过程,就像是,哦,如果你观察它的运作过程,就像是,哦,我打算生成一大批这样的探索子代理。它们会去探索子代理。它们会去探索子代理。它们会在文件系统中搜索不同的模式。它们会返回。呃,文件系统。它们会返回。呃,文件系统。它们会返回。呃,它们会拥有这个上下文。它们会拥有这个上下文。它们会拥有这个上下文。

他们会为我总结,然后我再自己总结,这样我就有了前进的方向。观察不同智能体如何构建这个语境,这很有趣。嗯,我想T106这个语境。

我认为T106采用了一种方法,他们实际上是通过语义搜索来嵌入所有内容,然后找出哪个查询最接近这个。如果你看看Codeex或Cloud Code,他们其实只是用了类似Grip的工具。

我认为这很有效,因为代码的语境密度非常高。嗯,就像你想想代码行,每行可能不到80个字符。

你的代码库中没有太多像大型数据块或JSON这样的内容。也许有一些JSON,但不多。你可以适当利用git,但不必过度依赖。你可以通过git ignore来识别并过滤掉那些不相关或已打包的内容。同时,你可以使用gp工具来处理这些打包文件。

你可以使用gp和rip grep来查找代码周围的上下文,这能让你很好地理解那段代码在做什么。你可以浏览文件夹结构。此外,元素非常擅长处理那些对人类来说极其复杂的gp表达式。

那会想要折磨人类。那会想要折磨人类。>> 是的。对。对。对。对。这就像是>> 是的。对。对。对。对。这就像是>> 是的。对。对。对。对。这就像是实践中的强化学习。实践中的强化学习。实践中的强化学习。>> 对。所以我认为所有这些,比如如果你>> 对。所以我认为所有这些,比如如果你>> 对。所以我认为所有这些,比如如果你正试图构建一个系统,嗯,我正试图构建系统来整合正试图构建系统来整合正试图构建系统来整合呃,用于非编码工作的智能体。呃,我呃,用于非编码工作的智能体。呃,我呃,用于非编码工作的智能体。

嗯,我觉得你可以从中学到很多经验,比如如何将数据整理成最接近代码的格式,让模型能够聚焦并查看其周边区域,从而获取正确的结构化数据。

>> 鉴于许多顶级编程助手之所以强大,关键在于上下文工程。那么,要成为顶尖的1%用户,有哪些技巧呢?>> 是的。你使用什么技术栈?>> 是的。你是如何做到如此高效地使用它的?

一个优势是,如果你能大幅减少代码和基础设施的配置。嗯,所以我大部分工作就像在Vercel、Next.js或Cloudflare这样的平台上部署技术栈。

比如Cloudflare Workers,它已经为你准备了许多现成的模板,处理了许多基础工作,这样你就不必过多考虑诸如“我需要搭建所有这些不同的服务,处理服务发现,以及在某个中央注册中心注册,或者管理所有这些数据库”之类的问题。

就像所有这些数据库一样。它就像,哦,一切都在这一两百行代码里大致定义好了。我也更倾向于采用微服务的方式,或者那些结构相当清晰的独立包。

我认为也值得了解,比如LLM这类编码智能体普遍具备哪些超能力。我记得安德烈·卡帕西刚发推文提到过:它们具有超强持久性,会不顾一切地持续运行,最终往往只是对现有内容进行大量复制扩展。

所以,就是让现有的东西变得更多。如果你试图引导他们去做某件事,这值得——我的意思是,我可以在这个例子中稍微拿OpenAI开个玩笑。OpenAI有一个巨大的单体代码库。它已经存在了几年,现在有成千上万的工程师在提交代码。

有些工程师正在参与。其中一些工程师经验极为资深,他们来自元公司,深谙如何编写生产代码。另一些则是刚毕业的博士。团队背景相当多元,因此语言模型会根据你的引导方向,汲取不同的知识。

我认为编码代理有很大的发展空间,实际上,它们需要探索出我们应该生成的最优代码类型。显然,为模型提供检查自身工作的方式能极大提升性能。

因此,你越能在持续集成(CI)等环节中运行测试,效果就越好。就我个人而言,我也会相当积极地使用代码审查机器人。我知道像Reptile YC这样的公司在这方面做得非常出色。我使用的cursor错误检测机器人已经相当成熟,而且我实际上也很喜欢用Codeex进行代码审查。

我发现Codeex在代码审查方面也很出色。它在正确性方面做得非常好,非常出色。这些都是智能体擅长的领域。它们在探索代码库方面也表现优异。我认为它们表现不佳的地方在于,如果你的目标不明确,它们可能会产生更多问题。

如果你的目标不是提高效率,他们往往会倾向于制造更多重复代码,并花费大量时间重新实现那些你可能会想“哦,你当然不想这么做”的功能。我认为关键在于理解背景。

我认为语境污染确实存在,它就像陷入一个循环,不断持续,因为它具有这种持久性,但它所引用的token在寻求解决方案方面并不正确。嗯,所以有一件事我

嗯,我经常做的一件事就是非常主动地清理上下文,通常是在它超过50%的时候。哦,哇。是的,是的。我不……有个人叫德克斯,来自Human Layer公司,那其实是另一家YC公司。是的,一家来自Fall 24的YC公司。

>> 是的,一家来自Fall 24的YC公司。

>> 是的,一家来自Fall 24的YC公司。

>> 对,对。他经常谈论这个。

>> 对,对。他经常谈论这个。

>> 对,对。他经常谈论这个。对,对,对。

>> 他有个概念,就像LLM的

>> 他有个概念,就像LLM的

>> 他有个概念,就像LLM的

进入愚蠢区

进入愚蠢区

进入愚蠢区

>> 就是说,在达到一定数量的

>> 就是说,在达到一定数量的

>> 就是说,在达到一定数量的

token之后,呃,它就开始

token之后,呃,它就开始

token之后,呃,它就开始

质量下降。实际上我

质量下降。实际上我

质量下降。

我确实认为这一点非常正确,特别是当你思考强化学习可能如何运作时。想象一下你是一名大学生,正在参加考试。在考试的前五分钟,你会想:“哦,我有的是时间,一定能考得很好。”

就像,我会在世界上大展拳脚。就像,我会做得非常出色。我会仔细思考每一项工作。我会仔细思考每一项工作。我会仔细思考每一个问题。"假设你有大约五个问题。"假设你有大约五个问题。"假设你只剩下大约五分钟,而你还有一半的时间,你还有一半的时间,你还有一半的试卷没做。你会想,'天哪,我只能尽力而为了。'就像,我只能尽力而为了。就像,我只能尽力而为了。就像,这就是带上下文窗口的语言模型,对吧?带上下文窗口的语言模型,对吧?带上下文窗口的语言模型,对吧?

我认为创始人使用的一个技巧是,在语境的开头设置一个像金丝雀一样的信号。那里面有些非常深奥的东西,就像一些非常有趣的事情。比如说,我不知道,我的名字是卡尔文,然后巴拉巴拉。我早上8点喝了茶。

一些随机的事实。然后继续,随机的事实。接着继续,随机的事实。再继续,你问它,你还记得我的名字吗?你还记得我什么时候喝茶了吗?当它开始遗忘时,我认为这有点像是上下文被污染的迹象。这是我见过人们使用的一个技巧。

他们随机进行了一次金丝雀测试。随机金丝雀测试。随机金丝雀测试。>> 我还没试过这个,但我完全>> 我还没试过这个,但我完全>> 我还没试过这个,但我完全相信。是的,相信。是的,相信。是的,>> 这挺有意思的。我之前没遇到过>> 这挺有意思的。我之前没遇到过>> 这挺有意思的。我之前没遇到过任何压缩前的错误,但也许任何压缩前的错误,但也许任何压缩前的错误,但也许我没太注意。不过你没太注意。不过你没太注意。

但你说那实际上是在主动地做一些事情,它只是开始做一些事情,它只是开始做一些事情,它只是开始做一些更奇怪的事情,这些奇怪的事情并不像是最优的。最优的。最优的。>> 是的。是的。>> 是的。是的。>> 是的。是的。>> 好的。我得留意那个,那个,那个>> 在云代码本身内部可以解决的。就像>> 在云代码本身内部可以解决的。就像>> 在云代码本身内部可以解决的。

它应该能够进行某种检测,比如在说什么,围绕这个语境进行自我内部的心跳监测。是的,我认为我们目前还没有达到那个水平。我同意你的观点。

呃 呃 呃 >> 目前确实很难妥善管理 >> 目前确实很难妥善管理 >> 目前确实很难妥善处理上下文。我认为某种程度上 处理上下文。我认为某种程度上 处理上下文。我认为某种程度上 解决方法是拆分 解决方法是拆分 解决方法是拆分 上下文窗口,然后尝试整合 上下文窗口,然后尝试整合 上下文窗口,然后尝试整合 所有内容。但你仍然处于 所有内容。但你仍然处于 所有内容。

但你现在某种程度上仍处于这样的状态:在云端代码会话结束时,所有存在于上下文中的内容都基本固定了。这其实挺有意思的。

codeex方法则恰恰相反,他们在OpenAI博客上对此进行了阐述,该博客提到系统会在每个回合后定期执行压缩操作。这样一来,编解码器便能够持续运行极长的时间。

如果你查看CLI中的百分比,你会看到它随着压缩操作的进行而上下波动。我猜这些操作非常频繁。

我猜云代码和CodeEx之间存在着截然不同的架构,听起来CodeEx实际上更为深入,它是专为运行时间更长的任务设计的。所以,这有点像脱离了常规任务范畴。

所以,这从一开始就是不同的应用场景,接着又是另一个不同的应用场景,然后又是另一个不同的应用场景,因此架构也大相径庭。我想目前看来,结果似乎就是如此。

我猜现在看起来,2026年可能会成为命令行界面(CLI)的元年,但另一方面,T157这个概念其实就在这里,而T158也即将到来。目前的编码代理已经非常非常聪明了,但还不足以长时间独立运行。不过,如果计算能力从现在起提升10倍,我们是否就能实现让它们在编解码器上运行24小时或48小时的任务?那样的架构正是为那个世界准备的。

那个世界。那个世界。 >> 是的,我认为这是个好问题。这 >> 是的,我认为这是个好问题。这 >> 是的,我认为这是个好问题。这某种程度上可以追溯到两家公司的某种创始基因。就像我 某种程度上可以追溯到两家公司的某种创始基因。就像我 某种程度上可以追溯到两家公司的某种创始基因。

我觉得Anthropic一直都非常热衷于为人类打造工具,尤其是在风格和语调方面,比如它会告诉你:“这是语调的风格,以及它应该如何与你所有其他作品相协调。”我认为四元代码就像是这一理念的自然延伸。

这在很多方面都是一个非常自然的延伸。它在很多方面运作得就像人类一样,比如当需要建造一个狗屋之类的东西时,它会想:“哦,我得去五金店买齐所有材料,然后琢磨怎么把它们组装起来。”

然而,它们都契合。然而,它们都契合。然而,这确实深入体现了这样一种理念,即我们将训练出最佳模型,我们将训练出最佳模型,我们将训练出最佳模型,并随时间不断强化,使其能够处理越来越长远的事务,在这一追求通用人工智能的进程中。因此,它可能完全不像人类那样运作。

就像完全回归到人类一样。就像完全回归到人类一样。就像回到狗屋的例子,它就像狗屋的例子,它就像狗屋的例子,它就像>>但AlphaGo也没有。>>但AlphaGo也没有。>>但AlphaGo也没有。>>是的,但AlphaGo也没有。它>>是的,但AlphaGo也没有。它>>是的,但AlphaGo也没有。它就像是,哦,它就像是相反,我会拥有像是,哦,它就像是相反,我会拥有像是,哦,

这就像是我将拥有一台3D打印机,它能从头开始打印出另一台3D打印机,而那台打印机又能再打印出一台3D打印机,就像打印狗屋一样,而且它会完全像一个狗屋,完全符合你的期望,只是过程会非常漫长,定制化程度极高,过程中可能会有些古怪,但最终它会成功运作。也许在未来的发展中,这将是正确的选择,因此观察它们如何展开将会非常有趣。

我的意思是,归根结底要看他们如何表现。

总的来说,后者似乎多少有些不可避免,但我实在太喜欢前者了。你知道吗,甚至这个想法——我大概十年前就想过——当时我就在那里,写着自己那些非常古怪的反思,试图弄清楚在重构或试图理解代码时,一切都在哪里,或者是什么情况。

试图理解代码或诸如此类的东西。试图理解代码或诸如此类的东西。这就是我使用它时的感受。这就是我使用它时的感受。这就是我使用它时的感受。就好像我能在一天内完成五个人的工作量。就好像我能在一天内完成五个人的工作量。就好像我能在一天内完成五个人的工作量。就像火箭助推器一样。就像火箭助推器一样。就像火箭助推器一样。简直难以置信。简直难以置信。简直难以置信。>> 是的。我认为这将会非常>> 是的。我认为这将会非常>> 是的。

我认为观察这一趋势在大公司和小公司中如何发展将会非常有趣。

我认为每个在业余爱好者层面或小型初创公司尝试这类技术的人,他们都在尽可能地将编码智能体推向极限,因为作为初创公司,你根本没有时间去琢磨其他事情。

就像一家初创公司,你追求的是速度。你就是要追求速度。你就是要追求速度。我认为关键在于以速度为导向。我认为关键在于以速度为导向。我认为关键在于以速度为导向。

我认为在大公司里,你会有更多东西可能失去,而且公司内部有各种代码审查流程,很可能已经组建了庞大的企业团队。我觉得,当这些单打独斗的个人团队发现其他团队的做法不对,并决定自己动手构建一个更有效的原型时,情况会变得非常奇怪。

我那个原型似乎运作得更好了。我认为在某个时刻,它会开始运作得更好,而且我认为这种格局转变将会是一件非常有趣又奇特的事情。

我十岁的孩子每天都有写作任务,昨天是他第一次使用人工智能。我当时就觉得,这不像是一个十岁孩子能写出来的表达。然后我就在想,在这个背景下,因为我们正在……

我们了解工作背景,因为我们接触大量18到22岁的年轻人,他们虽然有过实习经历,但尚未涉足管理类工作。我们正在探讨产品市场契合度的问题,一旦实现,将能处理数以百万计的工作岗位,同时应对成千上万的误差挑战。

这才是真正的错误管理。这才是真正的错误管理。这才是真正的错误管理。这真的,你知道,这真的,你知道,这真的,你知道,极其枯燥乏味,就像梳理极其枯燥乏味,就像梳理极其枯燥乏味,就像梳理成千上万的错误,成千上万的错误,成千上万的错误,然后手动确保然后手动确保然后手动确保这个东西能为所有这个东西能为所有这个东西能为所有后台用户正常工作。后台用户正常工作。后台用户正常工作。

下一代如何理解这一点?下一代能理解这一点吗?下一代能理解这一点吗?

云代码机器人真的能教人们了解架构之类的东西吗?还是说,你只会一头撞上去,让用户们只能默默忍受,然后大家不得不自己摸索?至少就我而言,在产品上花费最多时间的地方,就是理清产品模型——也就是说,用户今天必须理解哪些东西,以及他们可以使用哪些基本元素来实现他们想要的任何功能。

我总是考虑他们想要什么。我总是考虑他们想要什么。我总是这样看待Slack。就好像Slack本身就在Slack里一样。就好像Slack本身就在Slack里一样。从某些方面来说,它并非全新的概念。从某些方面来说,它并非全新的概念。从某些方面来说,它并非全新的概念。就像在它之前已经存在许多聊天工具一样,就像在它之前已经存在许多聊天工具一样,就像在它之前已经存在许多聊天工具一样。嗯,但关键在于他们,嗯,但关键在于他们,嗯,但关键在于他们。

嗯,但关键在于他们以简洁明了的方式设置了频道、消息和互动功能,让人们能够轻松理解并感叹:"哦,我明白该怎么操作了。"这对用户来说非常合理。然而,当用户逐渐熟悉之后……

但一旦他们习惯了那种方式,就很难再改变,对用户来说后期调整非常困难,你知道吗?比如,也许他们最初更倾向于文档优先的方式,或者现在他们正试图融入智能代理的概念。要改变用户的思维模式确实很不容易。

要改变用户的心智模型。因此,至少对我自己来说,构建产品时,你必须从一开始就非常仔细地思考这个问题。因为无论你向编码代理提供什么样的核心内容,它们都会以此为基础运行,并不断扩展。YC的下一步也是如此。

YC的下一个项目,让更多梦想永恒延续。YC新一期孵化项目现已开放申请。你心中有创业的火种吗?立即前往y combinator.com/apply提交申请。行动永远不嫌早,填写申请的过程本身就能让你的想法更上一层楼。好了,回到视频内容。

>> 你对他如此了解,是否有什么特别的见解?比如关于这位代理人...

那么,什么样的工程师会从中受益更多呢?总的来说,我认为资历越深的工程师,受益越大。

嗯,因为……嗯,因为……嗯,因为这些智能体非常擅长捕捉某种想法,并将其付诸实践。如果你能用几句话来激发它,那感觉就像是,哦,突然间我就有了这个想法。我在浏览代码库时经常有这种感觉。

这就像,哦,浏览代码库时,总会发现一些我希望有所不同的地方。能够启动这些改进,然后看到它们反馈回来,我认为这非常强大,能极大地放大你的影响力。

I empowering and multiplies your impact. I empowering and multiplies your impact. I think also being able to detect like think also being able to detect like think also being able to detect like which sorts of changes are good or bad which sorts of changes are good or bad which sorts of changes are good or bad architecturally is very important or architecturally is very important or architecturally is very important or like have a sense for where you might like have a sense for where you might like have a sense for where you might want to flag something to an agent. I want to flag something to an agent. I want to flag something to an agent.

我认为那些更有条理的工程师,他们的思维方式更偏向管理型,而且很可能这里恰好缺少一个待开发的产品。

嗯,也许可以称之为“协调者”之类的功能,它能贯穿你所有的会话,并适时提醒你:“嘿,你之前在处理的那个任务已经完成了,需要你在这里进行确认。”或者“你应该把注意力转移到另一件事上了。”我觉得这样的设计会很实用。

我认为,指挥者应当补充这一点,就像为智能体设计的上下文管理一样,我们同样需要为人类进行上下文管理。是的,我的意思是,我希望每天醒来时,都能看到类似这样的信息:嘿,这是昨晚完成的所有工作。

比如这里有三个需要你在一夜之间做出的决定。

有些领域需要深入思考,比如你计划要做的事情——我希望我的日程能按部就班地推进,你知道,还有其他让生活更高效的事。比如,如果你能快速搭建一个想法的原型来展示,那正是我所说的这类实用领域。

我的意思是,展示这一点,因为这是一个领域——显然,智能体在这方面表现得非常出色。我发现自己经常在编写类似原型代码,比如“嘿,我有了这个内存中的键值存储,你现在能把它转换成适用于生产数据库之类的吗?”能够简洁地在代码中表达想法,并且我认为,对于什么是正确的架构有一种直觉,这仍然是模型们做得不够好的领域。

就像不要做得最好一样。就像不要做得最好一样。>> 所以,如果你要回到你的>> 所以,如果你要回到你的>> 所以,如果你要回到你的大学时代,重新学习计算机科学,大学时代,重新学习计算机科学,大学时代,重新学习计算机科学,并且你可以自己选择并且你可以自己选择并且你可以自己选择课程或教学大纲,你会课程或教学大纲,你会课程或教学大纲,你会学什么?就我个人而言,我学什么?就我个人而言,我学什么?就我个人而言,我认为理解系统仍然认为理解系统仍然认为理解系统仍然非常重要。

嗯,只是要掌握一些非常重要的概念。比如理解Git的工作原理,或者HTTP协议、数据库这类核心机制——所有这些不同的系统。我认为这些基础知识仍然至关重要。

我可能会做的另一件事是,安排一个学期,每周都专注于构建某个项目,并真正尝试将模型的能力推向极限。你会感觉到自己能够不断突破。

每当你做某件事时,总会有种感觉——仿佛可以随时提升一个层级,让模型去执行任务。就像拥有一个执行指令,能自动推进计划的下一阶段。

执行计划的下一阶段,执行计划的下一阶段,

然后我可能可以有一个实现所有命令的工具,它会逐步执行,创建新的子代理,接着我可能可以有一个检查工作的功能。我认为,了解模型在哪些方面能够或不能够实现这一点,是一个不断变化的目标,因此值得进行大量的尝试和调整。

我是说,另一件事也相当重要。我是说,另一件事也相当重要。我是说,另一件事真的非常令人兴奋,我是说,我真的非常非常渴望,我是说,我真的非常非常渴望,我是说,我真的很希望能有机会教导18到22岁的年轻人。就像,在座的各位,就像在座的各位,就像在座的各位,都拥有人们真正渴望和喜爱的东西。所以,问题在于,我们该如何传授这些呢?我们该如何传授这些呢?我们该如何传授这些呢?

我在想,五年后那些最优秀的18到22岁的年轻人,会不会因为创作力极其旺盛,而拥有超凡脱俗的品味和一切?他们理应如此,对吧?

他们应该更多地接触现实、启动项目,频率要达到上一代人的十倍。说到这一点,有件事我一直很好奇,不知道你们是否也有同感。我成长过程中,妈妈常对我说:“别同时做太多事。”

你并没有在真正地多任务处理。你并没有在真正地多任务处理。你并没有在真正地关注我在做什么。嗯,关注我在做什么。嗯,关注我在做什么。嗯 >> 而且我觉得这话有一定道理。 >> 而且我觉得这话有一定道理。 >> 而且我觉得这话有一定道理。就像我常常会分心,就像我常常会分心,就像我常常会分心,对着电脑却没有真正集中注意力。但是对着电脑却没有真正集中注意力。但是对着电脑却没有真正集中注意力。但我确实认为我比我们的父母但我确实认为我比我们的父母但我确实认为我比我们的父母更擅长多任务处理。嗯,更擅长多任务处理。嗯,更擅长多任务处理。

呃,现在我看到这一代新人。

我觉得他们实际上比我们更擅长多任务处理,因为他们是在互联网时代长大的,应对着像TikTok这类短视频平台和各种短内容。看起来他们在这方面确实有优势。

似乎这两种深度思考模式都有其存在的空间:一种是专注于观察所见、理解问题并寻求解决之道;另一种则是在众多不同事物间快速切换,不断转换思考背景。

>> 多动症模式。 >> 多动症模式。 >> 多动症模式。 >> 没错,新一代在这方面确实挺厉害的 >> 没错,新一代在这方面确实挺厉害的 >> 没错,新一代在这方面确实挺厉害的。 >> 是的,我确实认为存在一种 >> 是的,我确实认为存在一种 >> 是的,我确实认为存在一种聪明人的类型。而且可能和多动症有关,就像总是同时进行着很多好项目,但就是从来没能真正完成任何一个。

我或许能与此产生共鸣。我或许能与此产生共鸣。我或许与这种性格有点相似。嗯,性格有点相似。嗯,性格有点相似。嗯,>>你释放出你的那种氛围密码。>>你释放出你的那种氛围密码。>>你释放出你的那种氛围密码。>>是的,但我不会仅仅因为>>是的,但我不会仅仅因为>>是的,但我不会仅仅因为Claude code。那有点像我现在Claude code。那有点像我现在Claude code。

这大概就是我现在的情况,我觉得有些人脑子里就像有十根分支同时运转,但一天的时间总是不够,没法把任何一件事真正完成。所以,它们总是半途而废。

现在它只完成了一半。现在就像是冷代码带你越过终点线,冷代码带你越过终点线,冷代码在一切事情上带你越过终点线。就是这样,在一切事情上。就是这样,在一切事情上。就是这样,你在你的博客文章中提到了这一点,你在你的博客文章中提到了这一点,你在你的博客文章中提到了这一点,关于它感觉像是一个视频游戏,关于它感觉像是一个视频游戏,关于它感觉像是一个视频游戏,但就像是,但就像是,但就像是,总有一种持续的新奇感。就像你开始,持续的新奇感。就像你开始,持续的新奇感。

就像你开始做某件事,通常在做某件事时,通常在做某件事时,通常当你感到有点无聊,当你感到有点无聊,当你感到有点无聊,然后我有了另一个更好的主意,我有了另一个更好的主意,我有了另一个更好的主意,我应该开始做那个,然后,我应该开始做那个,然后,我应该开始做那个,然后再回来做这个。就像你可以那样做,再回来做这个。就像你可以那样做,再回来做这个。就像你现在可以那样做,但现在,实际上一切都可以,但现在,实际上一切都可以,但现在,实际上一切都可以完成。完成。完成。

>> 让我们暂时展望一下未来。 >> 让我们暂时展望一下未来。 >> 让我们暂时展望一下未来。那是40年后。软件依然存在。数据库依然存在。访问控制依然存在。但就其核心而言,我的意思是软件完全是个人化的。访问控制以及谁有权访问

访问控制以及谁有权执行它,有点像那种人们仍在开会讨论的“经理模式”,但公司的其他一切——它的功能、规则——却是由人们在自己的云代码中自行定义,就像通过命令行界面(CLI)那样的方式。

一个类似命令行界面的东西,我不太确定,也许它就是个CLI,或者像是拥有庞大的……嗯,就像是拥有庞大的工人军团,然后我不知道那会是什么样子,那会是什么样子,那会是什么样子 >> 就像想象一下,如果每次有公司 >> 就像想象一下,如果每次有公司 >> 就像想象一下,如果每次有公司注册使用Segment,你就复制代码库,给他们自己的副本,代码库,给他们自己的副本,代码库,给他们自己的副本,让Segment在他们自己的服务器上运行,然后我

如果他们想更换服务器,或者想对任何设置进行调整,他们只需通过一个类似代理编码循环的聊天窗口进行沟通,然后直接编辑他们自己的代码段版本。随着公司不断推出新功能,总有某个代理会找到合并的方法。

啊,我完全能想象那种场景。其实我最近也在思考类似的方向,虽然不确定这个未来离我们还有多远。但最终,或许每个工作者都会拥有自己的云端计算机和一套云代理系统,这些代理程序为他们持续运行,而人们主要就是在和这些代理进行交互对话。

基本上就是来回对话的感觉。基本上就是来回对话的感觉。这有点像拥有一个超级行政助理,它会提醒我:“哦,这些是我需要注意的事项。让我快速做出决定。让我在这件事上多花点时间。让我去和其他人碰个面。”

"因为我认为仍然有人。"因为我认为仍然有人。"因为我认为仍然会有空间给那些想要面对面交流、想要面对面交流、想要面对面交流想法的人。至少我从中获得了许多满足感。然后满足感从中而来。然后满足感从中而来。

此外,还会有一支代理大军,它们将代表你行事,自动化处理大量事务。我认为,未来的公司规模可能会变得更小,但数量会更多,它们将承担更多的工作。

他们中有更多人正在做更多的事情。

我很好奇想看看PG制造者的更新版本与管理者日程安排相比会是什么样子,因为我觉得在YC,我们很多工作本质上都是管理者日程,这确实让我们很难进行任何类型的自主软件开发。

但现在你完全可以拥有软件。但现在你完全可以拥有软件。但现在你完全可以拥有软件,这就是为什么很多合作伙伴、合作伙伴、合作伙伴>>就像在会议中那样做,我喜欢>>就像在会议中那样做,我喜欢>>就像在会议中那样做,我喜欢就在这个播客一开始的时候。就在这个播客一开始的时候。就在这个播客一开始的时候。你让它运行,然后回来。你让它运行,然后回来。你让它运行,然后回来。>>嗯,就像在口袋里,对吧?就像>>嗯,就像在口袋里,对吧?就像>>嗯,就像在口袋里,对吧?

就像以前那样,除非你至少能腾出4小时不受打扰的时间来做某件事,否则根本不值得开始,对吧?我认为这实际上深刻反映了我们是如何改变编程方式的。过去的情况就是如此。

过去,为了编写任何代码,你必须用大量关于所有不同类名、函数及其相关代码的数据来填充自己的上下文窗口。这需要花费数小时来构建那个上下文窗口。而现在,只需10分钟就能完成。

所以,每次只能抽出10分钟来做这件事,真是让人沮丧极了。

我认为,对于这个未来世界,一个关键要素或许是数据模型仍需保持一致性,并且记录系统必须稳固。当前,我们仍处于某种初始阶段,这正是一个机遇,因为现在正是开创性事物崭露头角的时机。

它仍然在很大程度上与数据库紧密结合,无论是SQL还是NoSQL查询,这些查询都非常底层。但我设想的是能够为定制软件的所有不同视图生成所需全部数据的东西。因此,世界上很多内容都会是定制视图,但我认为统一化的部分,我们仍然需要确保数据的准确性。

正确。正确。

我认为数据具有很强的引力,这一点在那些通过T152或MCP提供访问的公司身上就能看出来。比如,我觉得Slack稍微限制了他们的T152接口,因为他们不希望人们轻易地从Slack中提取所有数据,然后在此基础上构建T089体验。

经验之上再添经验。经验之上再添经验。>> 我在想,基于这个观点,如果让你>> 我在想,基于这个观点,如果让你>> 我在想,基于这个观点,如果让你用现在的工具重建Segment,用现在的工具重建Segment,用现在的工具重建Segment,>> 它会是什么样子?我是说,Segment>> 它会是什么样子?我是说,Segment>> 它会是什么样子?我是说,Segment这个业务挺有意思的,呃,我们最初这个业务挺有意思的,呃,我们最初这个业务挺有意思的,呃,我们最初是从构建这些集成开始的,是从构建这些集成开始的,是从构建这些集成开始的,对吧?嗯,所以就像,哦,你需要对吧?嗯,所以就像,哦,你需要对吧?

嗯,所以这就像是,哦,你需要把相同的数据分别连接到Mixpanel、Kissmetrics和Google Analytics等平台。我觉得现在编写这样的代码,过去可能是一件更烦人或更困难的事情,因此为此付费是值得的。

现在那个价值似乎已经降到了零。

是的,实际上在很多情况下,你最好这样说:“哦,我其实想以这种方式来映射它,并且我想要这种特定的行为。”

我只需告诉四轴飞行器或Codeex该做什么,它就会执行,这样我就能得到想要的行为。所以我认为,像这样分段的价值已经急剧下降了。

我认为关键在于维持数据管道的持续运行,并不断将业务中的多个环节自动化,比如安排那些应通过客户IO系统在每次客户注册时自动发送的邮件递送,或是为你管理受众群体——这类价值依然存在。而且我认为,你可以在此基础上做更多有趣的事情,比如:既然我掌握了所有这些数据,对客户有了全面的了解,那么我该如何更有效地通过邮件与他们沟通呢?

我是否应该更改产品的某些部分?当他们登录时,我是否应该成为产品的一部分?我是否应该根据用户身份提供不同的入门引导?

就好像有很多更有趣的事情,你可以通过实际运行一些小型语言模型代理来处理它们,并做出改变。这就是我会做的调整。

>> 所以这有点像沿着技术栈向上移动

>> 所以这有点像沿着技术栈向上移动

>> 所以这有点像沿着技术栈向上移动

回到你之前的评论,一路回溯

回到你之前的评论,一路回溯

回到你之前的评论,一路回溯

底层的具体细节已经消失

底层的具体细节已经消失

底层的具体细节已经消失

现在更多是在战役层面操作

现在更多是在战役层面操作

现在更多是在战役层面操作

这个层面要抽象得多

这个层面要抽象得多

这个层面要抽象得多

>> 是的。我的意思是,我惊讶于这种转变的程度

>> 是的。我的意思是,我惊讶于这种转变的程度

>> 是的。

我是说,我真的很惊讶,仅仅从我正在处理的内容背景中,它就能如此准确地推断出我的动机。 >> 是啊,我至今仍对编程感到惊叹不已。

我至今仍对编码助手感到惊叹,因为本质上你就像递给他们一份代码库的副本,然后悄悄从门缝塞进一张小纸条,上面写着:“嘿,去实现这个功能。”

他们对你公司是做什么的、客户是谁几乎一无所知。也许训练数据里有相关信息,因为他们知道你是加里。但即便如此,它居然能运行起来,这实在让我震惊。

我认为语境确实至关重要,对吧?因为如果它抓住了一个不太准确的点,就没有太多依据可循。而如果它遗漏了某些关键信息,就只会重新复现错误。

>> 你认为当前的限制是什么?

>> 你认为当前的限制是什么?

>> 你认为当前的限制是什么?我是说,比如现在的上下文窗口?

我是说,比如现在的上下文窗口?

我是说,上下文窗口仍然是一个限制,但它已经变得如此之大,以至于我们可以做一些事情,虽然无法进行大规模的架构重构,但我们能做很多。

然后如果opus 4.5 以某种方式获得了……

5号不知怎么变得聪明多了,然后这就解锁了一个大事件,挺有意思的。我完全不清楚那到底是预训练还是后训练阶段的事。

除了你提到的BasiC模型,还有哪些其他类似的控制因素呢?除了BasiC模型,还有哪些其他类似的控制因素呢?除了BasiC模型,还有哪些其他类似的控制因素呢?比如前沿模型intel智能,比如前沿模型intel智能,比如前沿模型intel智能,以及上下文窗口。我的意思是,我仍然认为上下文窗口可能是最重要的因素,就像如果观察云端代码执行,它确实如此。

最终将这些任务分配给不同的上下文窗口,当每个窗口返回结果时,就像是得到某种摘要,因此也无法获得完整的全貌。如果你的问题太大,无法适应单个窗口,那么无论怎样压缩都无济于事。我想指出,Anthropic在将这些任务委托给子上下文窗口方面,已经发现了一些相当有用的方法。

而且我认为子上下文窗口,而且我认为子上下文窗口,而且我认为这仍然是一个障碍。这仍然是一个障碍。这仍然是一个障碍。>> 所以如果我们每次都有百万>> 所以如果我们每次都有百万>> 所以如果我们每次都有百万百万token上下文,我们会做得更好。百万token上下文,我们会做得更好。百万token上下文,我们会做得更好。>> 是的,我也这么想。并且想办法解决>> 是的,我也这么想。并且想办法解决>> 是的,我也这么想。

我们需要找到一种更好的方法来专门训练这些超长上下文轨迹,因为仔细想想,互联网上存在大量关于“下一句是什么”或“下一段是什么”的训练数据。

如果你有下一段要来的话。如果你有8万个token生成出来,有8万个token生成出来,有8万个token生成出来,就像理解接下来该做什么一样,比如哦,我应该参考那2万个token,就像那样,那2万个token,就像那样,那2万个token,就像那样,这更棘手。我认为这种集成和协调开始成为限制因素。我的意思是,我认为限制因素。

我认为关键在于代码审查。我的意思是,代码审查中有很多相关内容。比如,当我们合并所有这些代码时,是谁在监督?还需要人工监督吗?我们如何验证这些变更?然后我在想,如何拉取变更?

然后我认为,就像从你的工具中正确提取上下文一样,比如你提到的Sentry,你希望Sentry能自动识别一个PR,接着可能将其推送到部分流量中进行测试,如果一切顺利,再全面推广。所有这些自动化流程仍需构建。

我惊讶于构建的重要性。我惊讶于测试的重要性。就像我在荒野中的头两三天那样操作,几乎没有测试。然后有一天我决定:“好吧,今天是重构日。我要达到100%的测试覆盖率。”

"然后我就开始加速,像疯了一样。那感觉就像是,‘哦,它做到了。它真的管用。’我几乎都不需要。"

我几乎很少需要手动测试,因为测试覆盖率非常高,几乎不会出现任何故障。这与所有公司在编码之外的提示工程中所采用的方法非常相似,很大程度上就是测试驱动开发。

我认为我们与杰克·海勒有过这样的经历,那是一个重大的范式转变,就像获取优质提示的方式完全是通过测试驱动,就像评估一样。从某种意义上说,测试用例就是你的评估。现在存在一些流程上的问题。

我想我们可能需要一个爪式代码,一个能与Stack Overflow交流的爪式代码,一个能像爪式代码栈那样运作的Stack Overflow。就像我遇到了这个问题,简直太疯狂了。

这简直太疯狂了,我原本应该使用任务Q的优先级,但实际上我甚至没有再次编写,我并没有写这个。是机器写的。

机器写了一个带逗号的字符串,以为它会采用那种语法,但系统期望的是类似JSON数组的格式,结果就是没有任何任务会运行。

然后我花了大约30分钟,我花了大约30分钟,我花了大约30分钟,深入研究了Rails任务内部,深入研究了Rails任务内部,深入研究了Rails任务内部,比如Active Job的几千行代码,比如Active Job的几千行代码,比如Active Job的几千行代码,试图调试发生了什么,试图调试发生了什么,试图调试发生了什么,结果真的找到了那个bug。结果真的找到了那个bug。结果真的找到了那个bug。我当时就觉得太不可思议了。我当时就觉得太不可思议了。我当时就觉得太不可思议了。

我只是回想十年前我会怎么做,十年前我会怎么做,十年前我会怎么做,我可能会想:嘿,为什么这些工作不起作用,为什么这些工作不起作用,为什么这些工作不起作用?然后我会去Stack Overflow找答案,然后我会去Stack Overflow找答案,然后我会去Stack Overflow找答案,或者看一篇Rails博客文章,然后发现:哦,原来那个愚蠢的bug还没人修复,那个愚蠢的bug还没人修复,那个愚蠢的bug还没人修复,就是你本以为可以放一个逗号分隔的字符串进去,但实际上必须确保它是一个数组。

确保它是一个数组。确保它是一个数组。>> 嗯哼。>> 嗯哼。>> 嗯哼。>> 我当时想,天哪,那真的非常>> 我当时想,天哪,那真的非常>> 我当时想,天哪,那真的非常有趣。我觉得那就像是唯一有趣的事。

我认为,这就像是思考这里会发生什么、这里会发生什么、这里会发生什么的最难部分之一,因为,呃,有些事情你作为人类在命令行界面中会做,这非常明显,但即便是那种想法——比如智能体是否应该拥有它们自己的Stack Overflow——如果你只是将智能提高,你知道,我甚至不知道该怎么称呼它,比如提高10个IQ点,10个虚拟IQ点,它真的会那样做吗?

它会不会>>比如它真的会那样做吗?它会不会>>比如它真的会那样做吗?它只会觉得哦对那是个字符串只会觉得哦对那是个字符串只会觉得哦对那是个字符串随便吧。随便吧。随便吧。>>是的。是的。我觉得这里面>>是的。是的。我觉得这里面>>是的。是的。我觉得这里面有些非常有趣的东西,比如关于智能体记忆。嗯,而且云代码某种程度上具有记忆功能。嗯,而且云代码某种程度上具有记忆功能。

嗯,云代码已经自行搭建好了,我认为它通过存储所有对话历史记录来实现这一点,就像文件一样。所以你可以想象,给它访问一个工具的权限,这个工具就能读取之前的对话历史。我认为在协作方面还存在一些缺失的部分。

那里会有很多合作的机会。

如果能有一种巧妙的方式分享同事的提示,那该多棒啊。这样你就能看到并感叹:"哦,我遇到了这个问题,但其实那边的布莱恩早就解决了。"这样一来,我们俩就能共享知识了。我认为这确实很有必要。

我觉得这里面有点门道,有点像那种模型生成的维基百科,或者类似Graopedia那种东西。

>> 我现在满脑子都在想,你有没有 >> 我现在满脑子都在想,你有没有 >> 我现在满脑子都在想,你有没有看过那个Claude机器人的社交平台,就像是看过那个Claude机器人的社交平台,就像是看过那个Claude机器人的社交平台,就像是爪式机器人互相交流的网络,爪式机器人互相交流的网络,爪式机器人互相交流的网络,这难道就是莫伦的进化方向吗?这难道就是莫伦的进化方向吗?这难道就是莫伦的进化方向吗? >> 是啊。我猜他们还不知道。 >> 是啊。我猜他们还不知道。 >> 是啊。我猜他们还不知道。

Clawbot本质上就像是你的个人AI助手,你可以在自己的设备上运行它。你可以下载使用。我的首要建议是,不要让它访问你的电子邮件,或者任何敏感信息。

嗯,因为它的安全性尚不明确,而且很可能,几乎可以肯定,目前正有许多人可能正被其诱导输入信息。但有人此刻正被其诱导。

但有人创建了一个——其实我还没真正创建过——嗯,我其实没见过,但我在推特上看到过——一个网站,每个人都可以在上面启动自己的类似爪机机器人的个人代理,然后这些代理可以互相交流,现在网上就充斥着这些由AI生成的内容,全是这些个人AI代理在互相交谈。

彼此之间。彼此之间。>>是的,我的意思是它看起来像Reddit,但如果Reddit是由代理运行的。我的意思是,看到Codeex在编写代码时展现出的个性很有趣。我会说,它做了很多人类不做的事情,有点像这种阿尔法。

这有点像AlphaGo的感觉,它仿佛会说:“哦,我来写个Python脚本,修改文件系统的某个部分。”我觉得这非常有趣,像是它通过学习掌握的一种近乎异质的行为。

>> 嗯,但至少对我来说,它在调试复杂问题时确实能带来超乎寻常的效果,而这些问题往往是T132容易忽略的。

>> 你能举个例子谈谈什么样的复杂问题吗?比如并发或命名问题之类的,对吧?

我发现这些模型在处理并发时表现得相当不错。很多时候,会遇到这样的情况:哦,有一个请求需要遍历多个不同的服务。

我的意思是,关于你提到的那个,嗯,我的意思是,关于你提到的那个,嗯,我的意思是,关于你提到的那个,嗯,序列化和反序列化,序列化和反序列化,序列化和反序列化,比如包含逗号的内容。比如包含逗号的内容。比如包含逗号的内容。

嗯,这就像是,哦,它需要追踪某种围绕这些的复杂行为,或者说是,呃,我不知道,刷新复杂的UI状态的方式,而且如果文件很多的话,经常会错过,但codeex似乎能捕捉到。

>> 有意思。

>> 是的。

>> 是的,关于未来会怎样的预测。

关于工具将如何持续演变的预测。这非常有趣,我感觉自己某种程度上像是这片土地上的新公民,仿佛刚刚才意识到这一切正在发生。

我终于知道了经理的日程安排,终于有一个项目出现了,我当时就想,我要全力以赴投入进去。而现在,我感觉自己就像身处异乡的陌生人,但这里的一切又与我记忆中的景象如出一辙。

我想我们大家都有同感,我认为最关键的是要持续探索调整,因为一切都在不断变化,每隔几个月就会有所不同。

我确实认为,未来最能从编程助手获益的人,将会是那些更偏向管理型的人,他们专注于以特定方式引导流程。

他们可能在某些方面更像设计师或艺术家,需要决定产品中具体包含哪些元素,以及哪些部分可以省略。

我认为他们会非常擅长持续思考自动化,以及他们在哪些方面缺乏背景信息。

我觉得好笑的是,我刚才尝试在我的Rails项目中使用codeex,但很明显,OpenAI公司里根本没人关心Rails技术。不过这也没什么,毕竟Rails现在就像一种残留的语言,显得有点古怪。只是碰巧我在十年前对它钻研得特别深入。然后有意思的是,无论谁都能做出点东西,但人们真正想要的东西却非常难实现。即使你拥有像mit这样近乎无限的资源,情况依然如此。

就好像,我猜如果有人,比如Codeex的人正在看的话,我的请求会是:把所有的运行时环境列个清单,然后逐一添加一些语法糖。这大概最多也就10个拉取请求的事儿,针对那些顶级的,大概15个运行时环境吧。

我想这有点像运行时间的问题。我想这有点像一种提醒,提醒人们现在软件对用户来说不好用的借口比以往任何时候都少得多。是的,我确实认为在训练数据的混合方面,这是一个有趣的观点。

Codex的训练数据混合条款。Codex在Python单一仓库上表现极佳,在Python单一仓库上表现极佳,在Python单一仓库上表现极佳,OpenAI的形态。OpenAI的形态。OpenAI的形态。>> 是的,是的。我记得>> 是的,是的。我记得>> 是的,是的。我记得在内部使用OpenAI时,我心想在内部使用OpenAI时,我心想在内部使用OpenAI时,我心想天哪,这个工具太棒了。它天哪,这个工具太棒了。它天哪,这个工具太棒了。它不可思议。嗯,它某种程度上让不可思议。嗯,它某种程度上让不可思议。

从数据组合的角度来看,这确实有一定道理,并且与从事相关研究的人员背景也相符。我认为Enthropic公司更侧重于前端技术方面的一些工作。至于其他方面,我就不太清楚了。

嗯,我不知道,比如说Ruby,谁有最好的模型,谁整合了数据组合。有些实验室倾向于认为数据越多越好。

嗯,所以他们只会尽可能多地投放数据,而我认为其他人则在混合策略上更为精准。我认为这取决于具体采用哪种混合方式。

我认为,根据你采取的方法不同,结果可能会有很大差异。比如,只关注排名前10%的JavaScript内容,与全面审视所有内容相比,结果会截然不同。

实际上我认为OpenAI模型在Ruby方面表现得相当出色,从我了解的情况来看,关键在于模型周围的配套工具。是的,确实如此。哦,有意思,明白了。

>> 这简直就像是Rails有个奇怪的地方,>> 这简直就像是Rails有个奇怪的地方,>> 这简直就像是Rails有个奇怪的地方,你必须以特定方式访问Postgres,你必须以特定方式访问Postgres,你必须以特定方式访问Postgres,否则就无法适配。是的,就是那种否则就无法适配。是的,就是那种否则就无法适配。是的,就是那种沙盒机制。沙盒机制。沙盒机制。>> 对,沙盒机制。这真是个>> 对,沙盒机制。这真是个>> 对,沙盒机制。

这真是个有趣的问题,因为我觉得T093在沙盒化和安全问题上,比几乎其他所有人都要重视得多。

我记得我们在构建CodeEx时,基本上,每次发布模型都必须经过的一道关卡就是,你必须讨论安全与风险问题。

我们正在研究的一个重点是提示注入问题,特别是针对开放互联网访问的情况,因为许多用户都表示:“这必须在互联网上运行才行。”我们的反应是:“哦,我们不确定。”就像在说:“这看起来很容易被提示注入。”操作员也对此表示赞同。

>> 操作员也是,对,那个,对。

>> 操作员也是,对,那个,对。

>> 操作员也是,对,那个,对。

>> 所以,呃,我们团队的PM,亚历克斯,

>> 所以,呃,我们团队的PM,亚历克斯,

>> 所以,呃,我们团队的PM,亚历克斯,

>> 呃,基本上就像是提出了一个,呃,基本上就像是提出了一个,呃,基本上就像是提出了一个,

>> 问题,而且它有一个非常明显的问题,而且它有一个非常明显的问题,而且它有一个非常明显的问题,

>> 提示注入,就像是,“哦,提示注入,就像是,“哦,提示注入,就像是,“哦,

>> 揭示这个东西。”然后他告诉揭示这个东西。”然后他告诉揭示这个东西。”然后他告诉

>> 模型说,“嘿,去修复这个问题。”模型说,“嘿,去修复这个问题。”模型说,“嘿,去修复这个问题。”

"呃,然后他就说,'哦,这绝对不可能成功。'结果呢,提示注入立刻就见效了,你懂吧?所以我觉得T093的担忧非常合理,他就像在说,'嘿,我们得把所有东西都放在沙箱里运行。'"

我们会确保它不会触及你机器里所有这些敏感文件。我们会非常小心地处理机密信息。我想,如果你是一家初创公司,正处在快速发展的阶段,你可能并不在意这些。你只是希望一切能顺利运行。

Y,我就是想让它能运行。Y,你懂的,你懂的,你懂的。

>> 你是不是那种会危险地跳过权限的人?

>> 你是不是那种会危险地跳过权限的人?

>> 你是不是那种会危险地跳过权限的人?

>> 呃,其实我不是。我有一套自己的原则。

>> 呃,其实我不是。我有一套自己的原则。

>> 呃,其实我不是。我有一套自己的原则。

>> 那你呢?你在运行吗?

>> 那你呢?你在运行吗?

>> 那你呢?你在运行吗?

>> 不,我喜欢阅读,你知道的。我喜欢了解它在做什么。

>> 不,我喜欢阅读,你知道的。我喜欢了解它在做什么。

>> 不,我喜欢阅读,你知道的。我喜欢了解它在做什么。

>> 你会跳过权限吗,杰瑞?

>> 你会跳过权限吗,杰瑞?

>> 你跳过权限了吗,杰瑞? >> 百分之百。 >> 百分之百。 >> 百分之百。 >> 活在当下。 >> 活在当下。 >> 活在当下。 >> 天啊。YC工程团队里大概一半一半。 >> 天啊。YC工程团队里大概一半一半。 >> 天啊。YC工程团队里大概一半一半。 >> 大概是五五开。 >> 大概是五五开。 >> 大概是五五开。 >> 安全工程师看到这部分会说,"这段视频不能发布。直接从播客里剪掉。不能让这段内容流传出去。" >> 安全工程师看到这部分会说,"这段视频不能发布。直接从播客里剪掉。不能让这段内容流传出去。" >> 安全工程师看到这部分会说,"这段视频不能发布。直接从播客里剪掉。不能让这段内容流传出去。"

我认为这取决于具体情况。比如,如果你在一家大企业,你可能不会想这么做。但如果你是一家初创公司,没什么可失去的,那或许就会去做。YC已经从初创阶段发展了一些,不过我们依然保持着初创公司的心态,我认为这很重要。好的。

我认为这很重要。太棒了,我的意思是,这真是太棒了。凯尔文,非常感谢你加入我们。当然,谢谢邀请我。天哪,太有趣了。好了,回到Claude。

原视频 导出PDF