Claude最强Sonnet模型46来了百万token上下文-kaiyun科技股份有限公司

News

评测资讯

当前位置：首页 > 评测资讯 > 行业动态

Claude最强Sonnet模型46来了百万token上下文

2026-02-21 08:26:27

浏览次数：次

返回列表

Claude最强Sonnet模型46来了百万token上下文(图1)

　　这次是 Anthropic，率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」

　　Claude 称，新模型对编码、计算机使用、长上下文推理、智能体规划、知识工作和设计进行了全面升级。

　　2024 年 10 月，Claude 率先推出了通用的计算机使用模型。当时，这种技术「仍处于实验阶段 —— 有时操作繁琐且容易出错」。

　　AI 计算机使用的标准基准 OSWorld 展示了 Claude 模型的进步程度。该基准会在模拟计算机上运行真实软件（Chrome、LibreOffice、VS Code 等），设置数百项任务。该基准也没有特殊的 API 或专用连接器；模型看到计算机并与其互动的方式与人非常相似：点击（虚拟）鼠标和在（虚拟）键盘上打字。

　　在过去的十六个月里，Sonnet 模型在 OSWorld 上的性能稳步提升。这些改进在基准测试之外也可见一斑：早期的 Sonnet 4.6 用户在多项任务（诸如浏览复杂电子表格或填写多步骤网页表单）中，看到了达到人类水平的能力，并且能在多个浏览器标签页中整合处理信息。

　　当然，该模型在使用计算机方面仍落后于最熟练的人类。但进步的速度依然显著。这意味着：计算机使用的价值在提升 —— 并且表明能力更强的模型已指日可待。

　　与此同时，计算机使用也带来了风险：恶意行为者可能试图通过提示注入攻击，将指令隐藏在网站中来劫持模型。

　　Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全评估显示，与其前代 Sonnet 4.5 相比，Sonnet 4.6 在这方面有重大改进，表现与 Opus 4.6 相近。

　　除了计算机使用，Claude Sonnet 4.6 在各项基准测试中均有提升。它的智能水平接近 Opus 级别，但价格更实惠，使其适用于更广泛的任务。

　　一个表格展示了流行基准测试中 Sonnet 4.6 与其他前沿模型的相对性能比较。

　　用户报告说，它在修改代码前能更有效地理解上下文，并能整合共享逻辑而非简单复制。

　　相比于 11 月发布的前沿模型 Opus 4.5，用户甚至有 59% 的时间更喜欢 Sonnet 4.6。他们评价 Sonnet 4.6 在过度工程化和「偷懒」方面显著减少，在指令遵循方面有kaiyun平台明显改进。用户报告了更少的虚假成功声明、更少的幻觉，以及在多步骤任务中更一致的执行力。

　　Sonnet 4.6 的上下文窗口为 100 万 token，足以在单个请求中容纳整个代码库、长篇合同或数十篇研究论文。更重要的是，Sonnet 4.6 能有效地在所有上下文中进行推理。这使得它在长程规划方面表现更佳。

　　在Vending-Bench Arena评估中特别清晰地看到了这一点。该测试评估模型长期运营（模拟）业务的能力 —— 并且包含竞争元素，不同 AI 模型相互竞争以获取最大利润。

　　Sonnet 4.6 发展出一种有趣的新策略：它在模拟的前十个月大力投资于产能，支出远超竞争对手，然后在最后阶段急剧转向专注于盈利能力。这一转向的时机使其最终远远领先于竞争对手。

kaiyun科技股份有限公司 - 专业3C数码评测与垂直社群平台

首页

关于我们

评测资讯

产品库

社群

选购指南

联系我们

Claude最强Sonnet模型46来了百万token上下文