阿里刚刚发布了Qwen 3.6 Plus,这是一个规模巨大、能力超强的模型,尤其在推理和编程方面表现顶级,但关键是你得把它放在合适的开发框架里用,效果才最好。
哇,这比我想象的还要好,它甚至能实时追踪国际空间站的位置。他们确实在网页应用和前端开发上下了功夫,而且品味相当不错。所以,阿里巴巴刚刚发布了Qwen 3.6 plus版本。
6 plus版本正无限接近技术前沿。该模型具备极强的推理与编码能力,几乎达到业界顶尖水平。尤其在代码编写方面表现卓越,甚至能突破常规限制。稍后我将在视频中展示几个具体案例。
现在,视频后面会有这些例子。现在,它配备了100万上下文窗口。配备了100万上下文窗口。配备了100万上下文窗口。遗憾的是,这不是一个开源权重模型。通常,Plus系列是专有的Qwen模型。是专有的Qwen模型。是专有的Qwen模型。
然而,对于此次发布,他们不仅专注于编码,而且你还可以将其用于其他第三方系统,如Open Cloud Cloud Code、Kilo Code以及Qwen Code。现在,工具的选择将变得至关重要。我们将在视频的后续部分详细讨论这一点。
现在,我们稍后在视频中再谈这个。现在,我们稍后在视频中再谈这个。现在,这是一个非常强大的模型,具备非常强大的推理能力。它能够理解图像和视频。看来,他们正在引入所有在Qwen 3.5 Omni中展示的全能能力。
这也使得计算机能够使用代理。好的,在接下来的视频中,我将向你们展示如何实际应用这个模型的具体例子。但为了完全透明,本视频由阿里巴巴赞助。不过,所有观点均为我个人意见,他们并未干预。
他们甚至还没看过我即将发布的视频。另外说明一点,我并没有提前接触到模型,所以我使用了Qwen 3.6 plus预览版,这将在视频后续部分提及。最终检查点。
最后一个检查点可能略有不同,因为它可能略有不同,因为它可能略有不同,因为这个没有multimodal inputs。这个没有multimodal inputs。这个没有multimodal inputs。现在,就benchmarks而言,我认为现在,就benchmarks而言,我认为现在,就benchmarks而言,我认为它非常接近Opus 4. 6。它非常接近Opus 4. 6。它非常接近Opus 4. 6。
就我个人而言,我并不太关注这些benchmark,因为它们通常方向正确,但评估模型能力的最佳方式还是亲自测试。这正是我们接下来视频中要做的。
在接下来的视频中,我将展示几个快速演示,然后教大家如何正确使用这个模型。因为如果你试图将其当作聊天模型来用,将无法获得最佳性能。
现在,你可以在Open Router中免费使用此功能。只需前往模型页面,在模型列表中选择Qwen 3.6 plus预览版。请注意,我将要展示的检查点是预览版本,并非最终候选版本。
所以,这里那里可能会有细微的差别,但我认为整体性能趋势将保持不变。目前,这可以在Open Router中免费使用。好的,我们开始吧,我们将运行一个非常简单的提示。
我们想要创建一个洛杉矶的3D可视化,其中突出显示所有不同的旅游景点,并且用户应该能够在不同景点之间导航。现在,如果你观察生成速度,嗯,它非常快。这是一种推理过程。
这是一个具有不同思维预算层级的推理模型,你可以设定不同的思维预算或思维层级。尽管它运行速度很快,但实际上耗时较长,因为它会生成大量的token。因此,这里展示的是我之前运行的同一提示的版本。
我想向你展示之前的推理轨迹是怎样的。它的结构非常清晰,你可以看到其中包含一种自我对话的过程,在最终确定实施方案之前,它会逐一审视每个实施细节。
在此过程中,它还会生成代码片段。有时,这些代码片段可能过于冗长,因为如果你仔细观察,它基本上生成了完整的输出,然后经过了自我验证或自我修正。
好的,他们在这个模型上做得相当出色。好的,他们在这个模型上做得相当出色。好的,他们在这个模型上做得相当出色。现在,在这种情况下,我们来回讨论了几次。现在,在这种情况下,我们来回讨论了几次。现在,在这种情况下,我们来回讨论了几次。现在,这是它最终生成的输出。现在,这是它最终生成的输出。现在,这是它最终生成的输出。
我告诉它我不想提供任何密钥,但它还是找到了一个开源地图,而且动画效果相当不错。我只需点击目的地,它就有这种飞越效果,相当酷炫。要知道,一年前连这都做不到。
就在一年前,即便是最先进的模型也无法做到类似的事情。因此,这确实是相当惊人的进步。然而,你不应该将其用作聊天模型。这些模型是为agentic编码而训练的,所以你应当在特定的框架内使用它们。
为了展示一个例子,我以追踪国际空间站实时位置为例,我以追踪国际空间站实时位置为例,我以追踪国际空间站实时位置为例,使用了相同的提示,并运行了Qwen、Opus、Gemini,使用了相同的提示,并运行了Qwen、Opus、Gemini,使用了相同的提示,并运行了Qwen、Opus、Gemini,但遗憾的是,GPT 4.5版本未能产生任何结果。但遗憾的是,GPT 4.5版本未能产生任何结果。但遗憾的是,GPT 4.5版本未能产生任何结果。
现在,在每一个案例中,你将会看到一些非常有趣的结果。所以,这是Qwen。我认为地球的呈现相当准确。然而,我们完全看不到国际空间站。
现在,我认为Gemini在地球的呈现上也做得相当不错,尽管还有改进的空间,并且它也加入了国际空间站。然而,其位置本身并不准确。这是来自Opus的输出tpu,我不太确定它具体在想什么。
不知道它究竟在想什么。这看起来不像地球。哦,我已经用ChatGPT尝试了同样的提示好几次了,但都没有成功。
现在的问题是,我曾在聊天会话中使用提示,即使模型具备推理能力,它也只能单次生成代码。以下是同一提示在测试框架中运行时的输出结果。
这是极其精确的。这是极其精确的。这是极其精确的。那么,这里是非洲和国际空间站正朝Asia方向移动。那么,这里是非洲和国际空间站正朝Asia方向移动。那么,这里是非洲和国际空间站正朝Asia方向移动。这基本上是完全相同的位置。这基本上是完全相同的位置。这基本上是完全相同的位置。好的,这就是我实际使用的提示。这出自Gemini 3.1版本的发布博客文章。好的,这就是我实际使用的提示。这出自Gemini 3.1版本的发布博客文章。好的,这就是我实际使用的提示。这出自Gemini 3.1版本的发布博客文章。
在这种情况下,我们希望获得一个真实的白昼与黑夜的呈现,同时也要展现地球的真实面貌,以及通过国际空间站(ISS)获取的实时位置信息。现在,在这个具体案例中,我使用了Open Code作为开发框架,并且正在使用免费提供的Python 3.6+版本。
6 plus,至少在录制本视频时,已在Open Code上免费提供。现在,这个工具赋予模型规划、执行计划、测试以及必要时进一步优化输出的能力。
现在,这个agentic框架使模型能够进行规划,将计划分解为更小的部分,执行计划,评估结果,并在需要进一步行动时进行迭代。
如果你将模型置于这个循环中,即使是处理更复杂的提示,你也会看到更好的输出结果。我想再展示几个例子,因为我认为这个模型本身非常出色,但配合恰当的框架使用效果更佳。
这是一个非常简单的提示,我要求它创建一份关于前25只传说宝可梦的百科全书PDF。这是输出结果。你会发现它在功能上是准确的,完全按照我们的要求执行,并附带了一些相当精美的动画效果。
此外,它生成的动画效果相当出色。开箱即用,它所创建的用户界面相比之前的版本有了显著提升,审美品味在线。现在,我拿着完全相同的提示词,未作任何修改,直接用于Open Code。
我们再次使用一个框架,让智能体能够围绕其想要实现的目标进行规划,执行计划,并在此基础上迭代优化。这是使用相同提示和此循环机制所得到的输出结果。
现在,如果你要求它重新构想同一个网页应用,让它呈现出由一家价值数十亿美元的设计公司所打造的设计风格,它完全能够做到。这很可能是我所见过的针对这一特定提示的最佳输出之一,其中包含了一些非常、非常精致的动画效果。
现在,还有一件事,在agentic线束中,它具备进行交错思考的能力。
所以,在这里你可以看到,它先是思考,然后采取一些行动,接着再思考,再行动,如此循环往复,这非常棒,因为它能够审视自己已采取行动的结果,并在此基础上进一步构建。好的,让我再展示另一个有趣的输出。
让我再展示一个有趣的输出。这是金门大桥的模拟。这是一个非常复杂的提示,包含许多不同的动态部分,我认为它做得相当不错。不过,在这个具体案例中,用户界面组件确实需要一些改进,而且还有一些非常……
此外,还有一些非常有趣的工作案例。同时,也存在一些引人深思的失败案例。我意识到的一点是,这些树木竟然悬在空中,这确实有点滑稽,对吧?除此之外,还有其他一些内容,那么现在让我来展示一下模拟过程。
现在,你可以改变天气,而天气的变化会相应地改变天空的景象。如果你将时间调整到夜晚,你甚至能看到彗星划过天际。比如,我们刚才就看到了一颗,对吧?所以,它能够追踪这些变化,这确实相当酷。
此外,追踪功能相当不错。此外,追踪功能相当不错。此外,嗯,嗯,嗯,你可以增加或减少交通流量。你也可以调整交通。你还可以增加或减少海洋中的波浪,这相当酷。所以,总的来说,我认为它一点也不差。
现在,在Open Router上,他们声称它具备非常强大的推理能力。我想验证一下这些能力。如果你看过我之前的一些视频,我通常会使用这个误导性注意力测试。我会选取一些……
我从这里选取了一些提示来测试不同的模型。第一个测试是电车难题的改编版本,其中轨道上的五个人已经死亡。它能够相当准确地推理出结果。
所以,最初,它能够识别出这些人已经死亡。基于这一点,
综上所述,经过层层思考,最终的答案本质上就是:这是对经典思想实验的一次巧妙转折,但实际上它让伦理选择变得更加清晰。在这种情况下,你并不想拉动操纵杆,对吧?所以,答案非常直接明了。
所以,非常直接,对吧?所以,非常直接,而且我注意到大多数推理模型现在都能准确回答这个问题。但是,大多数推理模型都会在这个问题上出错。这是一个经典的过河问题,一个经典的渡河谜题,只是带有一个简单的转折。我们只想要
我们只想要一个简单的转折。我们只想要农夫把山羊带到对岸。农夫把山羊带到对岸。农夫把山羊带到对岸。我们不在乎其他事情。我们不在乎其他事情。我们不在乎其他事情。现在,不幸的是,就像我之前测试过的其他推理模型一样,它陷入了那个陷阱,认为这是一个经典的过河谜题。
同样,在这种情况下,注意力同样,在这种情况下,注意力同样,在这种情况下,注意力被误导了。它考虑的是如何被误导了。它考虑的是如何被误导了。它考虑的是如何将所有物品转移到将所有物品转移到将所有物品转移到另一边。现在,你会注意到另一边。现在,你会注意到另一边。现在,你会注意到它确实它确实它确实在思考链中深入思考答案。它们确实在思考链中深入思考答案。它们确实在思考链中深入思考答案。
与我们所见过的其他模型的思维链相比,它们确实非常详尽。
现在,在这里,他们进行了一个我认为非常有趣的训练步骤。在流程链中,最终步骤似乎是自我修正或精炼,我注意到几乎在每一个回应中,末尾都有这个自我修正的环节。看起来这已成为一个固定的环节。
这似乎是他们特意添加的一个步骤。不幸的是,对于这个具体的提示,它表明提示是直截了当的,我将清晰地阐述经典解决方案。而这正是它所实现的。
好的,第一步是把山羊带到对岸,但之后它没有停下,而是继续确保所有东西都安全抵达对岸。这很聪明,但并非完全符合我们的预期。
总的来说,这是一个非常非常强大的版本,你完全可以将其用于agentic编码任务。关键在于你需要明智地选择你的测试框架。此外,奎因还告诉我,他们也将发布一些开源权重的模型。
在录制模型的时候也是如此。录制这段视频时,我无法获取相关资源,因此无法将其包含在内。不过,我可能会在另一个视频中介绍benchmark以及那些开源模型。无论如何,请记得查看。
这是一个非常强大的agentic编程模型,这是一个非常强大的agentic编程模型,这是一个非常强大的agentic编程模型,我想你会喜欢它的。我想你会喜欢它的。我想你会喜欢它的。总之,我希望你觉得这个视频有用。总之,我希望你觉得这个视频有用。总之,我希望你觉得这个视频有用。感谢观看,一如既往,我们下期再见。感谢观看,一如既往,我们下期再见。感谢观看,一如既往,我们下期再见。