性能持平价格大降80%Anthropic新模型杀疯了-kaiyun科技股份有限公司

News

评测资讯

2026-02-20 14:03:05

浏览次数：次

性能持平价格大降80%Anthropic新模型杀疯了(图1)

　　这次发布的核心不在于技术突破本身，而在于它以低得多的价格，达到了与竞品齐平的性能。。

　　然而在多项基准测试中，Sonnet 4.6接近甚至超越了价格高出五倍的Opus 4.6。

　　过去需要旗舰模型才能完成的任务，现在用Sonnet 4.6这种中档模型就能做到。

　　这些差距表明，对于前沿研究和需要顶级准确度的场景，Opuwww.kaiyun.coms 4.6仍是最好的模型。但对于大多数生产环境，这个差距已经缩小到可以接受的程度。

　　计算机使用能力指的是AI像人类一样操作计算机的能力，通过鼠标点击、键盘输入来与软件交互，而不依赖API接口。

　　前一阵引发热议的豆包手机助手，其底层的UI-TARS模型，就是在OSWorld基准上完成了权威测试，取得了47.5%的成绩。

　　那么以此作为判断依据，进而不难推测，Sonnet 4.6的实际表现将会非常惊艳。

　　一个能够直接看屏幕并与之交互的模型，可以在不构建定制连接器的情况下，自动操作将所有可交互的系统。

　　Anthropic在发布时提到，早期用户已经看到接近人类水平的表现，能够完成复杂的电子表格任务和多步骤网页表单。

　　保险科技公司Pace的CEO贾米考夫（Jamie Cuffe）表示，Sonnet 4.6在他们复杂的保险计算机使用基准测试中达到94%的成绩，是所有测试过的Claude模型中最高的。

　　对于部署需要浏览网页和与外部系统交互的代理的企业来说，这种安全防护是必须的。

　　外媒报道，一些早期的Sonnet 4.6用户表示，原本企业需要花五倍的钱才能买到的能力，现在用Sonnet 4.6就能获得差不多的效果。

　　她指出通过自适应思考和高努力模式（high effort mode），“除了最困难的分析任务外，我们在所有任务上都看到了Opus级别的性能，且配置更高效灵活。以Sonnet的价格，这将降低工作成本。”

　　Sonnet 4.6配备了100万token的超长上下文窗口，以容纳整个代码库、法律文件或数十篇研究论文。

　　Vending-Bench Arena测试的是模型运营模拟企业的能力，不同AI模型相互竞争以获得最大利润。

　　在没有人类提示的情况下，Sonnet 4.6发展出一种新颖策略：在前十个模拟月份中大量投资产能，支出远超竞争对手，然后在最后阶段急转弯专注于盈利能力。

　　模型在365天模拟结束时的余额约为5700美元，而Sonnet 4.5约为2100美元。

　　Anthropic正处于上市前最关键的阶段，因此他们不止要发布模型，还要借着模型去扩张业务。

　　与此同时，Anthropic也在印度的班加罗尔开设了首个印度办事处，印度现在占全球Claude使用量的约6%，仅次于美国。

　　Anthropic的进步也导致了最近几天软件股的大规模抛售，就连业绩大涨的微软，也经历了股价暴跌。

　　投资者越来越担心AI对这些业务的潜在颠覆，Sonnet 4.6可能会加剧这种不安的氛围。

　　也不知道是不是Anthropic飘了，他们还将其免费层级默认升级到了Sonnet 4.6，开发者可以通过Claude API直接调用。

kaiyun科技股份有限公司 - 专业3C数码评测与垂直社群平台