Anthropic公司今日宣布推出升级版的Claude 3.5 Sonnet和全新的Claude 3.5 Haiku模型

10/23/2024

www.anthropic.com

https://www.chatbro.cn/news/67186bb5a0ad1ffee2b0267a

Claude 3.5 Sonnet在编码领域实现了显著提升，继续保持行业领先地位。而Claude 3.5 Haiku则在成本和速度与前代Haiku相似的情况下，性能与Claude 3 Opus相当，甚至在许多评估中超越了它。

此外，Anthropic公司还推出了一项开创性的公测功能——计算机使用能力。开发者现在可以指导Claude像人类一样使用计算机，包括查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个提供这项公测功能的AI模型。尽管这项功能目前还处于实验阶段，可能会遇到一些困难和错误，但Anthropic公司希望通过开发者的反馈快速改进。

一些公司如Asana、Canva、Cognition、DoorDash、Replit和The Browser Company已经开始探索这些新功能，执行需要数十甚至数百步才能完成的任务。例如，Replit正在利用Claude 3.5 Sonnet的计算机使用和UI导航能力，为其Replit Agent产品开发一个关键特性，用于在构建过程中评估应用程序。

升级后的Claude 3.5 Sonnet现已向所有用户开放。开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用计算机使用功能的beta版本。而全新的Claude 3.5 Haiku将于本月晚些时候发布。

Claude 3.5 Sonnet在行业基准测试中表现出广泛的改进，特别是在代理编码和工具使用任务上。在编码方面，其在SWE-bench Verified上的性能从33.4%提高到49.0%，超过了所有公开可用的模型，包括OpenAI o1-preview和专为代理编码设计的系统。在更具挑战性的航空领域，其在TAU-bench上的性能也从36.0%提高到46.0%。新版本的Claude 3.5 Sonnet在价格和速度上与前代保持一致。

早期客户反馈表明，升级版的Claude 3.5 Sonnet为AI驱动的编码带来了重大飞跃。GitLab在DevSecOps任务中测试了该模型，发现其推理能力更强（在用例中高达10%），且没有增加延迟，非常适合驱动多步骤的软件开发过程。Cognition使用新的Claude 3.5 Sonnet进行自主AI评估，与前一版本相比，在编码、规划和问题解决方面取得了显著改进。The Browser Company在自动化基于Web的工作流程中使用该模型，发现Claude 3.5 Sonnet的表现超过了他们之前测试的所有模型。

作为与外部专家合作的持续努力的一部分，美国AI安全研究所（US AISI）和英国安全研究所（UK AISI）对新的Claude 3.5 Sonnet模型进行了联合预部署测试。

Anthropic公司还评估了升级版的Claude 3.5 Sonnet的灾难性风险，并发现根据其负责任的扩展政策中概述的ASL-2标准，对于这个模型仍然是合适的。

Claude 3.5 Haiku是最快模型的下一代。与Claude 3 Haiku的成本和速度相同，Claude 3.5 Haiku在每项技能集上都有所改进，并在许多智能基准测试中甚至超越了前一代中最大的模型Claude 3 Opus。Claude 3.5 Haiku在编码任务上尤其强大，例如，在SWE-bench Verified上得分为40.6%，超过了使用公开可用的最先进模型的许多代理，包括原始的Claude 3.5 Sonnet和GPT-4o。

凭借低延迟、改进的指令遵循和更准确的工具使用，Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务以及从大量数据（如购买历史、定价或库存记录）中生成个性化体验。

Claude 3.5 Haiku将于本月晚些时候在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供——最初作为仅限文本的模型，随后将支持图像输入。

在教授Claude导航计算机方面，Anthropic公司正在尝试一些根本性新事物。他们不是为Claude完成单个任务制作特定工具，而是教授其通用的计算机技能，使其能够使用为人类设计的广泛标准工具和软件程序。开发者可以使用这种初步能力来自动化重复性流程、构建和测试软件，并执行研究等开放式任务。

为了使这些通用技能成为可能，Anthropic公司构建了一个API，允许Claude感知和与计算机界面交互。开发者可以集成这个API，使Claude能够将指令（例如，“使用我计算机和在线的数据填写此表格”）转换为计算机命令（例如检查电子表格；移动光标以打开Web浏览器；导航到相关网页；用这些页面上的数据填写表格等）。在OSWorld上，该API评估AI模型像人类一样使用计算机的能力，Claude 3.5 Sonnet在仅限截图类别中得分为14.9%，明显优于下一个最佳AI系统的7.8%的得分。当给予更多步骤来完成任务时，Claude的得分为22.0%。

虽然预计这项能力在未来几个月将迅速改进，但Claude目前使用计算机的能力并不完美。一些人类可以轻松执行的操作——如滚动、拖动、缩放——目前对Claude来说仍然是挑战，Anthropic 鼓励开发者从低风险任务开始探索。由于计算机使用可能为垃圾邮件、错误信息或欺诈等更熟悉的威胁提供新的途径，Anthropic公司正在采取主动方法促进其安全部署。他们开发了新的分类器，可以识别何时使用计算机使用功能以及是否发生伤害。