这期视频介绍了ChatGPT的新资料库功能、谷歌AI Studio的重大升级、Midjourney V8的发布、一项关于AI使用动机的深刻研究,以及Gamma、GPT-4.5 Mini/Nano、Figma AI、Cursor自动模式等一系列AI工具的最新动态。
* ChatGPT资料库功能于3月25日生效。
* 测试Midjourney V8时,使用了约300张图片进行评分。
* 在关于AI使用动机的研究中,“个人转变”和“生活管理”位列第二、第三位。
* ChatGPT:资料库(Library)功能。
* 谷歌:AI Studio, Gemini, 反重力(Anti-Gravity)应用构建工具, Firebase。
* Midjourney:V8版本。
* Anthropic:相关用户研究。
* Gamma:演示文稿/图形设计工具。
* Lovable:网站创建/通用助手工具。
* OpenAI:GPT-4.5 Mini, GPT-4.5 Nano。
* Figma:AI助手。
* Cursor:自动模式(Automatic Mode)。
* Claude:计算机调度/远程控制功能。
* FAI:集成多种图像/视频生成模型的服务。
* MCP服务器:用于连接外部应用到AI平台的工具。
* AI有点像钱,它只是让你更像自己。(只是放大让你更像自己)
* 多人应用从来没这么容易实现过。
* 你怎么可能比完美更好呢?你只能做得不一样。
* 一次意外的错误输出,就可能让你不再信任这个工具。所以始终需要有人参与。
* 效率提升:ChatGPT资料库和Cursor自动模式能极大优化文档处理和编码的工作流。
* 创新可能:谷歌AI Studio降低了多人实时应用开发的门槛,为创建互动式原型或工具提供了新思路。
* 技术选型:了解GPT-4.5小模型、MCP服务器等最新工具,有助于在项目中做出更优的技术决策。
* 风险认知:深刻理解AI的“不可靠性”,提醒我们在依赖AI自动化时,必须建立审查和监督机制。
欢迎来到生成式人工智能的又一周。我们将关注多个动态,其中一项聊天工具的更新引入了资料库标签,这显著提升了处理各类Word文档、Excel表格及其协作方式的体验。
然后我们每周都有更多爪机更新,简直是疯狂。他们现在已经开始发货了。有一个自动模式,
有一种自动模式,它能够自行运作,同时努力避免风险操作和更新,转向一个更加用户友好且功能强大的平台,这是前所未有的。因此,所有故事都汇集于此。
那么,本周各大巨头的动态以及更多精彩内容,尽在本期《AI新闻速递》节目中。我们汇集了人工智能领域的所有新发布,并筛选出我们认为重要且对您有用的信息。现在,让我们开始吧。
从这个聊天功能开始是个好主意,因为说实话,过去几个月里,我注意到自己在使用这些工具时行为发生了改变——我起草的Word文档或Excel表格数量明显增加了。至于PowerPoint,我目前还是保持原有的使用习惯。
制作PPT时,我通常还是会选择Gamma AI,它最近推出了新功能,这个我们稍后再详谈。但对于Word文档和Excel表格,这些模型的表现已经足够出色,现在开始使用LLM确实非常值得。
我特别喜欢Chat GPD能清楚地认识到这一点,并且他们专门为此引入了一个新功能。这是一个专门存放你各类文档的库。尽管这听起来可能……
虽然这听起来可能很简单,但我觉得这实际上是一种思维方式的转变,尤其是在处理人工智能时,管理上下文——正如你可能知道的,这是我们与AI协作中的核心环节之一。哦,在我们深入之前,这是什么?嗯,这是一个……
嗯,这是一个新功能,具体是什么呢?这是一个侧边栏的新标签页,它会收集你最近使用的各种文件。所以,如果你截了屏并添加进来,它就会显示在这里。同样地,如果你创建了像个人财务追踪器这样的Excel表格,相应的工具也会出现在这个库中。
如你所见,出现在这个库中。如你所见,出现在这个库中。如你所见,这并不具有追溯效力。这并不具有追溯效力。这并不具有追溯效力。它仅适用于自3月25日起的所有文件。但有趣的是,有趣的是,有趣的是,我想让你了解这个使用场景,因为显然这是一种访问这些文件的方式。很好,我可以进入,我可以进入,我可以进入。
我可以直接在这里下载,而不是去聊天记录里找。这确实很方便。不过我觉得最棒的是,你可以选中这些内容,然后开启一个全新的聊天会话。
现在,很明显,这个个人财务追踪器是空的,但我的思绪立刻跳到了这里——我会把我日常工作中经常用到的一些重要背景文件添加进来。这样一来,获取信息就变得非常方便了。
这样,当我需要时,就能轻松找到并查阅它们。举个例子,我有一个个人DNA文件,它记录了我的身份信息和各种目标。你还会注意到,他们改变了这些文件的显示界面,而在此之前……
以前,你的文件只是显示出来。以前,你甚至无法打开一个Markdown文件。甚至无法打开一个Markdown文件。甚至无法打开一个Markdown文件。现在它能展示完整的格式化内容。现在它能展示完整的格式化内容。现在它能展示完整的格式化内容。这太棒了。而且我还能直接在这里与它聊天。这太棒了。而且我还能直接在这里与它聊天。这太棒了。而且我还能直接在这里与它聊天。所以这只是在聊天中的一次转变。所以这只是在聊天中的一次转变。所以这只是在聊天中的一次转变。因此,所有其他的聊天也因此而改变。因此,所有其他的聊天也因此而改变。
因此,所有其他LLMs也将遵循这一趋势,我们将不再局限于纯文本的展示方式。我们正转向不同的输出类型,如Excel表格、Word文档、信息图表以及上周视频中展示的交互式视觉内容,而不仅仅是文字。
我认为视频比纯文本更有效。我认为大多数人确实应该转变工作方式,从依赖文本输入输出转向思考:我能为当前对话或任务提供哪些文档作为背景信息。
当你把他们带到那里之后,最终,我想向你展示的是,你甚至可以进入这里的新聊天。只需输入添加。然后我就能从这里链接那些文件。如果我们回到这里。
如果我们回到最初创建个人财务追踪器的聊天记录,你甚至可以在一次对话中完成这件事,对吧?这正是它真正令人惊叹之处,也是我认为每个人都应该立即开始使用它的原因。如果你想要的话。
如果你想了解更多关于上下文管理的内容,我本周专门制作了一个视频,重点讲解云端协作项目。另一个在管理上下文时极其有用的功能,我也为此单独录制了视频。
那么,我们接着来看看本周还有哪些新动态。接下来是Google对其AI工作室进行的一次重大升级。
这一点其实很有意思,因为他们当时拥有这些独立的产品。正如我们之前讨论的,Google存在一种趋势:他们先创建大量实验性应用和不同项目,随着时间推移,再将其中成功的部分逐步整合。
他们挑选出最有效的方案,将其优化至最佳状态,并最终转化为独立的产品。这里的情况也是如此。他们拥有Google AI Studio,这基本上是面向开发者的Gemini。这是一个很好的描述方式。但同时,许多非技术背景的消费者也使用它,因为它提供了大量预设选项。
你之前拥有大量这类预设模板,完全免费使用,操作简便,能轻松搭建应用或网站。如今他们彻底改版,将其与另一款你可能听说过的应用合并了。
我们之前在节目里讨论过这个。它被称为反重力技术,那确实是他们的反重力技术,那确实是他们的反重力技术,那确实是他们的agentic应用构建器。它非常agentic应用构建器。它非常agentic应用构建器。它非常自主,能力很强。它变得自主,能力很强。它变得自主,能力很强。
它在X上小火了一阵,但我觉得热度逐渐消退了,因为大家最终还是会回到Claude Code、Claude协同办公、Open Claw或Lovable。我认为这些应用比反重力更值得推荐。
但现在他们推出了这款商品,这款商品之所以引人注目,是因为它非常用户友好,并且内置了大量预设。所以,我想让你看看这个。其中有一些令人印象深刻的演示,展示了技术复杂的内容,比如使用3D粒子的多人游戏或多人体验。
在使用3D粒子的过程中,你会发现这些演示正大力突出多用户交互的特性,因为其他模型在这方面一直难以实现。这不仅关乎代码,还涉及服务器架构的支撑。
但最酷的是,它包含了数据库和身份验证功能,让你能够为多个用户创建共享工具或游戏。之所以能做到这一点,是因为正如我所说,他们正在将其与多种功能进行整合。
我之前没提到的是,他们还整合了第三个元素。你可能熟悉也可能不熟悉,但Google还包含了Firebase,简单来说,它本质上是一个能与应用连接的数据库,让你可以创建账户等功能。好吧,如果这些听起来都不太明白的话。
好吧,如果刚才那些都没听明白也没关系。我直接演示给你看。当你进入这个界面时,看起来可能差不多,但当你切换到构建模式——看这里!立刻就会弹出提示:现在你可以轻松构建多人联机体验了。
现在,这在AI领域是非常独特的一点,让我告诉你。所以,如果我向下滚动,这就是我的意思。如果我说的一切对你来说都毫无头绪,这里有一系列示例应用。而真正有趣的部分来了,当我点击其中一个时,
当我点击其中一个,瞬间就被带入了一个实时在线的版本,这里有其他玩家参与其中。
所以,根据他们的活动,比如在这个应用中,Cosmic Flow,我会看到他们的cursor在流动,如果你按下按钮,就会生成这个。这只是一个小小的互动游戏。那么,如果我想让这个应用完全属于我自己呢?
嗯,这里再简单不过了。你只需前往混音区,给它起个名字,点击应用。现在它就会创建一个副本,这个副本完全属于你。你可以立即按下启动键来测试这个副本。
或者你也可以使用左侧的聊天功能进行修改。好了,现在这是一个功能性的应用程序,目前只有一个玩家版本,尚未部署到网络上。另外,我还没有做任何改动。我可以调整粒子寿命,或者添加新功能,随你心意。
关键在于,如果你已经准备就绪,并且希望这款应用支持多人模式,那么发布它其实非常简单,只需点击这里的发布按钮即可。我提前做了一件事:设置了一个账单配置文件,只需要填写我的地址和信用卡信息。
必须添加我的地址和信用卡信息。这让你能够看到这个屏幕,在这里你可以发布应用。你只需点击发布应用,就完成了。现在,我有了一个在线的实时应用程序,如果我们愿意,就可以玩together。这从未如此简单过,简直不可思议。
说真的,这太疯狂了。说真的,这太疯狂了。说真的,多人应用从未能如此轻松地实现。所以现在真的可以如此轻松地实现了。所以现在真的可以如此轻松地实现了。所以这确实是人工智能向前迈出的一大步。确实是人工智能向前迈出的一大步。确实是人工智能向前迈出的一大步。
我们可以在这方面合作,当然,这虽然是个游戏,但你或许可以想象一个基于生产力的应用程序,你的团队在其中协作,突然间它不仅拥有多用户界面,还具备诸如实时画布等功能,允许多人同时使用白板。
你同时使用白板。有了这个,你可以让这类事情变得非常容易。现在你知道了,我确实想补充一点,托管和使用它会花费你一些钱。这就是为什么你需要设置账单账户。下一个故事是关于账单账户的。
接下来的故事来自一家在业界堪称传奇的公司,然而网络上的情绪却普遍非常负面。这就是Midjourney V8,没错,全新版本的Midjourney V8——这款曾经遥遥领先的最佳图像生成器。但时至今日,市场上已涌现出众多其他竞争者。
随着时间的推移,涌现出许多其他工具。它们不仅擅长生成,更精于编辑。事实证明,编辑功能正是许多用户真正需要的。尽管如此,他们还是以Alpha版本发布了V8。起初,你需要对大约300张图片进行评分。
我们立刻进行了常规测试,这些测试提示你可能很熟悉。但主要结论是,不行。这里的提示遵循度真的很弱。比如在这张图片中,我们明确要求的是漫威超级英雄,结果却得到了DC的超级英雄。在其他测试中,也出现了类似的问题。
在其他作品中,元素有所缺失。不过,我确实注意到的是构图有些偏离中心。你看,通常电影剧照中的这对情侣应该位于画面中央。他们却偏到了一侧。所以,这大概更偏向一种电影化的构图模式。但总的来说,我并不……
但总的来说,我无法将此事视为一种进步呈现给你。这不过是我们已有事物的变体。而这正是许多图像生成器,包括我近期探索的写照——它们似乎已在不久前臻于完美。
你如何才能比完美更好?你只需与众不同。嘿,如果你觉得这有用,请务必订阅频道,这对我们帮助很大。好的,我们继续。
所以,接下来这个研究,我觉得非常非常有趣,不过这可能源于我作为AI创造者和训练者的个人偏好。这是一项由Anthropic通过网络界面采访人们进行的研究,其中包含了许多深刻的见解。我确实推荐大家阅读一下。
太棒了。读到这句话,太棒了。读到这句话,太棒了。读到这句话,我深有共鸣。我深有共鸣。我深有共鸣。我觉得它说得太对了。人工智能有点像钱。它只是让你更像自己。只是放大,让你更像自己。只是放大,让你更像自己。对吧?说得真好。如此精准的见解,对吧?说得真好。如此精准的见解,对吧?说得真好。如此精准的见解,根据我的经验。总之,正如我所说,根据我的经验。
总之,正如我所说,这里内容很多,但我喜欢的是看到人们对AI的期望——个人转变和生活管理实际上分别排在第二和第三位。所以,并不全是职业方面的。这确实也符合我的经验,时间自由也是如此。
时间自由显然是一个重要因素。顺便一提,你可以点开这些内容,查看更多关于专业卓越的引述。它们展示了人工智能如何真正实现了人们的愿景,因此意义重大。
因此,它是一个强大的生产力工具,人们用它来提升效率,也将其视为认知伙伴,类似于思维克隆的协作模式。而人们最担忧的主要问题,根据我的经验来看,也确实如此,就是其不可靠性。
你完成一项任务,但接着又重复了五次,其中有一次结果完全出乎意料,于是你无法再信赖这个工具。因此,始终需要有人参与其中。是的,不可靠性是最大的问题。这篇文章非常有趣,值得一读。
这篇文章真有意思。多看点吧。好的,那我们接着聊。这周的亮点之一就是Gamma Imagine。这也是我最近在这个领域注意到的一个趋势。如果你还不了解,GMA在我看来是这个领域里最好的演示文稿制作工具。
此外,在这个领域里,还有一款你可能知道的应用程序——T097,我认为它是最好的网站创建工具,至少是最用户友好、设计最美观的一个。最近,这两款应用都开始推出其他新功能。
所以,这里Gamma正试图转型为图形设计工具。同样地,Lovable上周宣布,他们现在也正转向成为一个通用助手,为你创建文档。我的意思是,我理解他们有这样的打算。
我的意思是,我理解他们必须持续发展,可能确实需要不断扩张,但增长或许已经趋于平缓。不过,没错,你正试图与行业巨头竞争,而这将会非常艰难。总之,如果你想尝试将其用于社交媒体内容创作,伽马,我想它现在应该已经对你开放了。那么,我们接下来可以着手准备了。
接着是OpenAI发布asi了GPT5.4 Mini和Nano版本。这些模型对大多数消费者而言可能并不相关,但对于开发者来说,如果他们正在构建智能体,部分子智能体可能会采用这些模型。
它们更快、更便宜,一如这些小型模型通常的表现,而且就模型尺寸而言,benchmark的表现令人印象深刻,但同样,大多数消费者并不会使用它。接着,Figma也不会采用此模型。
接着,Figma也推出了AI助手,以应对上周Stitch发布所带来的竞争,我们正在为此制作专门的视频。请关注我们的频道,留意相关内容。
Clot Code通过其全新的自动模式推出了更多功能,这实际上非常酷,因为如果你还不知道的话,Clot Code过去有一个命令,我甚至在发布时就立刻展示过。它的基本意思是:在任何事情上都无需征求我的许可。
别问我任何事的许可。直接去做。然后它就这么做了,变得一发不可收拾。在某些情况下,它删除了所有人的所有文件夹;在其他情况下,它只是把事情搞定。而自动模式基本上就是这么回事。
自动模式基本上是一个轻量级版本,其中分类器会查找即将执行的代码块,如果判定为危险操作,则会请求权限。但在大多数情况下,它会直接执行任务。是的,代码块也在逐渐演变成一个更加自主的系统。
此外,我还想指出,人们一直在热炒远程Claude计算机的使用,但实际上,那不过是他们重新包装了上周节目中我们讨论过的一个功能,我认为那最初可能只是功能命名上的一个失误。
Claude的调度功能让你可以通过手机远程控制电脑。现在这个功能只是品牌包装更佳,人们就为之疯狂。这就像是上周发布的补丁一样,突然就火了起来。
上周这个补丁发布时,大家纷纷反应过来“哦对已经上线了”,接着又感叹“哦这确实不错”。这种向善的力量展现出来还挺有意思的。总之我们从上周开始就拥有这个功能了。还有个新动态是Gemini正在向免费账户逐步开放个人intel智能功能,这是之前已经宣布过的更新。
之前宣布的消息,现在终于要来了。这是他们自动收集更多背景信息的方式,并将其提供给免费账户。因此,他们正朝着更个性化的体验迈进,正如所有竞争对手所做的那样。
但Google拥有的个人数据比大多数其他实体都要多。最后,这一点可能对许多人来说难以理解,但我希望你知道它的存在。它是一个MCP服务器,因此是一种途径。
这是一个MCP服务器,用于将外部应用程序接入云端协作平台等场景。而我长期使用的这项服务名为FAI。
它本质上是一个集合,汇集了所有不同的图像生成和视频生成模型于一处。而File的亮点在于,你只需连接一次,之后就能使用所有的图像模型和视频模型。
现在有了这个MCP服务器,它能链接到聊天GPT。所以,如果你想半自动化地利用AI创建图像和视频,这个MCP服务器让一切变得前所未有的简单。我是说它超级简单,比以前更容易。就这样。你发现什么了吗?
你找到有用的内容了吗?很想知道在下面的评论中,哪一个是你个人的最爱。那么,我是艾戈尔,祝你有个愉快的一周。