Qwen 3.6 Plus版本刚刚发布,规模宏大!

Prompt Engineering 油管AI课堂 2026-04-03 纯讲解
总结 阿里刚刚发布了Qwen 3.6 Plus,这是一个规模巨大、能力超强的模型,尤其在推理和编程方面表现顶级,但关键是你得把它放在合适的开发框架里用,效果才最好。
工具 - 模型:Qwen 3.6 Plus (Preview); - 开发框架/工具:Open Code (开发框架), Open Cloud Cloud Code, Kilo Co
建议 1. 立刻去试:别光看分数,去Open Router上亲手用一下Qwen 3.6 Plus预览版,最好结合一个
播客音频
Prompt E_Qwen 3.6 Plus版本刚刚发布,规模宏大!
一句话总结

阿里刚刚发布了Qwen 3.6 Plus,这是一个规模巨大、能力超强的模型,尤其在推理和编程方面表现顶级,但关键是你得把它放在合适的开发框架里用,效果才最好。

核心论点展开
模型本身:推理和编程是王牌
. 这个模型推理能力极强,还能理解图像和视频,感觉是把之前Qwen 3.5 Omni展示的全能都加进来了。
. 它最厉害的就是写代码,能力非常突出,甚至能突破一些常规限制。
. 它有一百万的上下文窗口,但不是开源的,Plus系列通常是Qwen的专有模型。
使用场景:别当聊天机器人用
. 这个模型是专门为智能体编码(agentic coding)训练的,所以最好在特定的开发框架里用它。
. 你可以把它集成到第三方系统里,比如Open Cloud Cloud Code、Kilo Code,还有Qwen Code。
. 工具的选择会变得很关键,框架能让模型规划、执行、测试并优化代码。
实际效果:框架决定上限
. 在合适的框架里,模型能进行“思考-行动”的循环,检查结果并迭代,输出质量大大提升。
. 比如,同样的提示词,在普通聊天窗口和智能体框架里运行,出来的代码复杂度和完成度天差地别。
. 它生成的UI界面审美在线,动画效果也很精致,开箱即用比之前版本好很多。
关键数据与案例
. 上下文窗口:一百万。
. 基准测试:表现非常接近Opus 4.1,但视频作者更推荐亲手试用。
. 案例一(洛杉矶3D导览):能快速生成带导航的3D旅游景点可视化,过程包含清晰的自我对话和代码修正。
. 案例二(国际空间站追踪):在智能体框架下,能生成位置极其精确、带真实昼夜效果的地球与国际空间站实时位置图。对比测试中,Qwen效果最好,GPT 4.5甚至没出结果。
. 案例三(宝可梦PDF):能准确创建功能完整的PDF百科全书。
. 案例四(金门大桥模拟):能处理复杂提示,生成可交互模拟(调整天气、时间、交通流量等),但UI组件仍有改进空间。
. 推理测试:能准确解决改编版的“电车难题”,但在一个经典的“过河问题”变体上,和其他模型一样被误导了注意力,给出了完整但非最简的答案。
提到的工具/产品/技术
. 模型:Qwen 3.6 Plus (Preview)
. 开发框架/工具:Open Code (开发框架), Open Cloud Cloud Code, Kilo Code, Qwen Code
. 平台:Open Router (可免费试用Qwen 3.6 Plus预览版)
. 概念:智能体(Agent), 智能体编码(Agentic Coding), 思维链(Chain of Thought)
金句
. “关键是你得明智地选择你的测试框架。”
. “你不应该把它当聊天模型来用。这些模型是为智能体编码而训练的。”
. “这很可能是我见过的、对这个特定提示最好的输出之一。”
. “一年前连这都做不到。就在一年前,最先进的模型也做不了类似的事。所以这进步真的挺惊人的。”
对 Vibe Coder 的价值
. 顶级编程助手:如果你在做需要复杂代码生成和迭代的项目,Qwen 3.6 Plus是目前顶尖的选择之一。
. 框架思维:强调了将强大模型与正确框架(如Open Code)结合的重要性,这能最大化开发效率和输出质量。
. 免费试用机会:目前可以在Open Router上免费体验,是实际测试其编码能力的低成本机会。
. 关注智能体开发:模型在智能体(Agent)场景下的表现突出,是探索AI自主编程和复杂任务分解的重要工具。
建议
立刻去试:别光看分数,去Open Router上亲手用一下Qwen 3.6 Plus预览版,最好结合一个开发框架(如Open Code)来测试复杂的编码任务。
明确场景:把它定位为“智能体编码引擎”,而不是通用聊天机器人,用在需要规划、执行和迭代的编程工作上。
利用其强项:多尝试需要复杂推理、代码生成和UI/动画效果的任务,体验其开箱即用的高质量输出。
保持关注:阿里后续可能会发布开源权重的模型,可以留意相关更新和基准测试。

哇,这比我想象的还要好,它甚至能实时追踪国际空间站的位置。他们确实在网页应用和前端开发上下了功夫,而且品味相当不错。所以,阿里巴巴刚刚发布了Qwen 3.6 plus版本。

6 plus版本正无限接近技术前沿。该模型具备极强的推理与编码能力,几乎达到业界顶尖水平。尤其在代码编写方面表现卓越,甚至能突破常规限制。稍后我将在视频中展示几个具体案例。

现在,视频后面会有这些例子。现在,它配备了100万上下文窗口。配备了100万上下文窗口。配备了100万上下文窗口。遗憾的是,这不是一个开源权重模型。通常,Plus系列是专有的Qwen模型。是专有的Qwen模型。是专有的Qwen模型。

然而,对于此次发布,他们不仅专注于编码,而且你还可以将其用于其他第三方系统,如Open Cloud Cloud Code、Kilo Code以及Qwen Code。现在,工具的选择将变得至关重要。我们将在视频的后续部分详细讨论这一点。

现在,我们稍后在视频中再谈这个。现在,我们稍后在视频中再谈这个。现在,这是一个非常强大的模型,具备非常强大的推理能力。它能够理解图像和视频。看来,他们正在引入所有在Qwen 3.5 Omni中展示的全能能力。

这也使得计算机能够使用代理。好的,在接下来的视频中,我将向你们展示如何实际应用这个模型的具体例子。但为了完全透明,本视频由阿里巴巴赞助。不过,所有观点均为我个人意见,他们并未干预。

他们甚至还没看过我即将发布的视频。另外说明一点,我并没有提前接触到模型,所以我使用了Qwen 3.6 plus预览版,这将在视频后续部分提及。最终检查点。

最后一个检查点可能略有不同,因为它可能略有不同,因为它可能略有不同,因为这个没有multimodal inputs。这个没有multimodal inputs。这个没有multimodal inputs。现在,就benchmarks而言,我认为现在,就benchmarks而言,我认为现在,就benchmarks而言,我认为它非常接近Opus 4. 6。它非常接近Opus 4. 6。它非常接近Opus 4. 6。

就我个人而言,我并不太关注这些benchmark,因为它们通常方向正确,但评估模型能力的最佳方式还是亲自测试。这正是我们接下来视频中要做的。

在接下来的视频中,我将展示几个快速演示,然后教大家如何正确使用这个模型。因为如果你试图将其当作聊天模型来用,将无法获得最佳性能。

现在,你可以在Open Router中免费使用此功能。只需前往模型页面,在模型列表中选择Qwen 3.6 plus预览版。请注意,我将要展示的检查点是预览版本,并非最终候选版本。

所以,这里那里可能会有细微的差别,但我认为整体性能趋势将保持不变。目前,这可以在Open Router中免费使用。好的,我们开始吧,我们将运行一个非常简单的提示。

我们想要创建一个洛杉矶的3D可视化,其中突出显示所有不同的旅游景点,并且用户应该能够在不同景点之间导航。现在,如果你观察生成速度,嗯,它非常快。这是一种推理过程。

这是一个具有不同思维预算层级的推理模型,你可以设定不同的思维预算或思维层级。尽管它运行速度很快,但实际上耗时较长,因为它会生成大量的token。因此,这里展示的是我之前运行的同一提示的版本。

我想向你展示之前的推理轨迹是怎样的。它的结构非常清晰,你可以看到其中包含一种自我对话的过程,在最终确定实施方案之前,它会逐一审视每个实施细节。

在此过程中,它还会生成代码片段。有时,这些代码片段可能过于冗长,因为如果你仔细观察,它基本上生成了完整的输出,然后经过了自我验证或自我修正。

好的,他们在这个模型上做得相当出色。好的,他们在这个模型上做得相当出色。好的,他们在这个模型上做得相当出色。现在,在这种情况下,我们来回讨论了几次。现在,在这种情况下,我们来回讨论了几次。现在,在这种情况下,我们来回讨论了几次。现在,这是它最终生成的输出。现在,这是它最终生成的输出。现在,这是它最终生成的输出。

我告诉它我不想提供任何密钥,但它还是找到了一个开源地图,而且动画效果相当不错。我只需点击目的地,它就有这种飞越效果,相当酷炫。要知道,一年前连这都做不到。

就在一年前,即便是最先进的模型也无法做到类似的事情。因此,这确实是相当惊人的进步。然而,你不应该将其用作聊天模型。这些模型是为agentic编码而训练的,所以你应当在特定的框架内使用它们。

为了展示一个例子,我以追踪国际空间站实时位置为例,我以追踪国际空间站实时位置为例,我以追踪国际空间站实时位置为例,使用了相同的提示,并运行了Qwen、Opus、Gemini,使用了相同的提示,并运行了Qwen、Opus、Gemini,使用了相同的提示,并运行了Qwen、Opus、Gemini,但遗憾的是,GPT 4.5版本未能产生任何结果。但遗憾的是,GPT 4.5版本未能产生任何结果。但遗憾的是,GPT 4.5版本未能产生任何结果。

现在,在每一个案例中,你将会看到一些非常有趣的结果。所以,这是Qwen。我认为地球的呈现相当准确。然而,我们完全看不到国际空间站。

现在,我认为Gemini在地球的呈现上也做得相当不错,尽管还有改进的空间,并且它也加入了国际空间站。然而,其位置本身并不准确。这是来自Opus的输出tpu,我不太确定它具体在想什么。

不知道它究竟在想什么。这看起来不像地球。哦,我已经用ChatGPT尝试了同样的提示好几次了,但都没有成功。

现在的问题是,我曾在聊天会话中使用提示,即使模型具备推理能力,它也只能单次生成代码。以下是同一提示在测试框架中运行时的输出结果。

这是极其精确的。这是极其精确的。这是极其精确的。那么,这里是非洲和国际空间站正朝Asia方向移动。那么,这里是非洲和国际空间站正朝Asia方向移动。那么,这里是非洲和国际空间站正朝Asia方向移动。这基本上是完全相同的位置。这基本上是完全相同的位置。这基本上是完全相同的位置。好的,这就是我实际使用的提示。这出自Gemini 3.1版本的发布博客文章。好的,这就是我实际使用的提示。这出自Gemini 3.1版本的发布博客文章。好的,这就是我实际使用的提示。这出自Gemini 3.1版本的发布博客文章。

在这种情况下,我们希望获得一个真实的白昼与黑夜的呈现,同时也要展现地球的真实面貌,以及通过国际空间站(ISS)获取的实时位置信息。现在,在这个具体案例中,我使用了Open Code作为开发框架,并且正在使用免费提供的Python 3.6+版本。

6 plus,至少在录制本视频时,已在Open Code上免费提供。现在,这个工具赋予模型规划、执行计划、测试以及必要时进一步优化输出的能力。

现在,这个agentic框架使模型能够进行规划,将计划分解为更小的部分,执行计划,评估结果,并在需要进一步行动时进行迭代。

如果你将模型置于这个循环中,即使是处理更复杂的提示,你也会看到更好的输出结果。我想再展示几个例子,因为我认为这个模型本身非常出色,但配合恰当的框架使用效果更佳。

这是一个非常简单的提示,我要求它创建一份关于前25只传说宝可梦的百科全书PDF。这是输出结果。你会发现它在功能上是准确的,完全按照我们的要求执行,并附带了一些相当精美的动画效果。

此外,它生成的动画效果相当出色。开箱即用,它所创建的用户界面相比之前的版本有了显著提升,审美品味在线。现在,我拿着完全相同的提示词,未作任何修改,直接用于Open Code。

我们再次使用一个框架,让智能体能够围绕其想要实现的目标进行规划,执行计划,并在此基础上迭代优化。这是使用相同提示和此循环机制所得到的输出结果。

现在,如果你要求它重新构想同一个网页应用,让它呈现出由一家价值数十亿美元的设计公司所打造的设计风格,它完全能够做到。这很可能是我所见过的针对这一特定提示的最佳输出之一,其中包含了一些非常、非常精致的动画效果。

现在,还有一件事,在agentic线束中,它具备进行交错思考的能力。

所以,在这里你可以看到,它先是思考,然后采取一些行动,接着再思考,再行动,如此循环往复,这非常棒,因为它能够审视自己已采取行动的结果,并在此基础上进一步构建。好的,让我再展示另一个有趣的输出。

让我再展示一个有趣的输出。这是金门大桥的模拟。这是一个非常复杂的提示,包含许多不同的动态部分,我认为它做得相当不错。不过,在这个具体案例中,用户界面组件确实需要一些改进,而且还有一些非常……

此外,还有一些非常有趣的工作案例。同时,也存在一些引人深思的失败案例。我意识到的一点是,这些树木竟然悬在空中,这确实有点滑稽,对吧?除此之外,还有其他一些内容,那么现在让我来展示一下模拟过程。

现在,你可以改变天气,而天气的变化会相应地改变天空的景象。如果你将时间调整到夜晚,你甚至能看到彗星划过天际。比如,我们刚才就看到了一颗,对吧?所以,它能够追踪这些变化,这确实相当酷。

此外,追踪功能相当不错。此外,追踪功能相当不错。此外,嗯,嗯,嗯,你可以增加或减少交通流量。你也可以调整交通。你还可以增加或减少海洋中的波浪,这相当酷。所以,总的来说,我认为它一点也不差。

现在,在Open Router上,他们声称它具备非常强大的推理能力。我想验证一下这些能力。如果你看过我之前的一些视频,我通常会使用这个误导性注意力测试。我会选取一些……

我从这里选取了一些提示来测试不同的模型。第一个测试是电车难题的改编版本,其中轨道上的五个人已经死亡。它能够相当准确地推理出结果。

所以,最初,它能够识别出这些人已经死亡。基于这一点,

综上所述,经过层层思考,最终的答案本质上就是:这是对经典思想实验的一次巧妙转折,但实际上它让伦理选择变得更加清晰。在这种情况下,你并不想拉动操纵杆,对吧?所以,答案非常直接明了。

所以,非常直接,对吧?所以,非常直接,而且我注意到大多数推理模型现在都能准确回答这个问题。但是,大多数推理模型都会在这个问题上出错。这是一个经典的过河问题,一个经典的渡河谜题,只是带有一个简单的转折。我们只想要

我们只想要一个简单的转折。我们只想要农夫把山羊带到对岸。农夫把山羊带到对岸。农夫把山羊带到对岸。我们不在乎其他事情。我们不在乎其他事情。我们不在乎其他事情。现在,不幸的是,就像我之前测试过的其他推理模型一样,它陷入了那个陷阱,认为这是一个经典的过河谜题。

同样,在这种情况下,注意力同样,在这种情况下,注意力同样,在这种情况下,注意力被误导了。它考虑的是如何被误导了。它考虑的是如何被误导了。它考虑的是如何将所有物品转移到将所有物品转移到将所有物品转移到另一边。现在,你会注意到另一边。现在,你会注意到另一边。现在,你会注意到它确实它确实它确实在思考链中深入思考答案。它们确实在思考链中深入思考答案。它们确实在思考链中深入思考答案。

与我们所见过的其他模型的思维链相比,它们确实非常详尽。

现在,在这里,他们进行了一个我认为非常有趣的训练步骤。在流程链中,最终步骤似乎是自我修正或精炼,我注意到几乎在每一个回应中,末尾都有这个自我修正的环节。看起来这已成为一个固定的环节。

这似乎是他们特意添加的一个步骤。不幸的是,对于这个具体的提示,它表明提示是直截了当的,我将清晰地阐述经典解决方案。而这正是它所实现的。

好的,第一步是把山羊带到对岸,但之后它没有停下,而是继续确保所有东西都安全抵达对岸。这很聪明,但并非完全符合我们的预期。

总的来说,这是一个非常非常强大的版本,你完全可以将其用于agentic编码任务。关键在于你需要明智地选择你的测试框架。此外,奎因还告诉我,他们也将发布一些开源权重的模型。

在录制模型的时候也是如此。录制这段视频时,我无法获取相关资源,因此无法将其包含在内。不过,我可能会在另一个视频中介绍benchmark以及那些开源模型。无论如何,请记得查看。

这是一个非常强大的agentic编程模型,这是一个非常强大的agentic编程模型,这是一个非常强大的agentic编程模型,我想你会喜欢它的。我想你会喜欢它的。我想你会喜欢它的。总之,我希望你觉得这个视频有用。总之,我希望你觉得这个视频有用。总之,我希望你觉得这个视频有用。感谢观看,一如既往,我们下期再见。感谢观看,一如既往,我们下期再见。感谢观看,一如既往,我们下期再见。

原视频 导出PDF