返回

Anthropic公司今日宣布推出升级版的Claude 3.5 Sonnet和全新的Claude 3.5 Haiku模型

https://www.chatbro.cn/news/67186bb5a0ad1ffee2b0267a
cover

Claude 3.5 Sonnet在编码领域实现了显著提升,继续保持行业领先地位。而Claude 3.5 Haiku则在成本和速度与前代Haiku相似的情况下,性能与Claude 3 Opus相当,甚至在许多评估中超越了它。

此外,Anthropic公司还推出了一项开创性的公测功能——计算机使用能力。开发者现在可以指导Claude像人类一样使用计算机,包括查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个提供这项公测功能的AI模型。尽管这项功能目前还处于实验阶段,可能会遇到一些困难和错误,但Anthropic公司希望通过开发者的反馈快速改进。

一些公司如Asana、Canva、Cognition、DoorDash、Replit和The Browser Company已经开始探索这些新功能,执行需要数十甚至数百步才能完成的任务。例如,Replit正在利用Claude 3.5 Sonnet的计算机使用和UI导航能力,为其Replit Agent产品开发一个关键特性,用于在构建过程中评估应用程序。

升级后的Claude 3.5 Sonnet现已向所有用户开放。开发者可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用计算机使用功能的beta版本。而全新的Claude 3.5 Haiku将于本月晚些时候发布。

Claude 3.5 Sonnet在行业基准测试中表现出广泛的改进,特别是在代理编码和工具使用任务上。在编码方面,其在SWE-bench Verified上的性能从33.4%提高到49.0%,超过了所有公开可用的模型,包括OpenAI o1-preview和专为代理编码设计的系统。在更具挑战性的航空领域,其在TAU-bench上的性能也从36.0%提高到46.0%。新版本的Claude 3.5 Sonnet在价格和速度上与前代保持一致。

早期客户反馈表明,升级版的Claude 3.5 Sonnet为AI驱动的编码带来了重大飞跃。GitLab在DevSecOps任务中测试了该模型,发现其推理能力更强(在用例中高达10%),且没有增加延迟,非常适合驱动多步骤的软件开发过程。Cognition使用新的Claude 3.5 Sonnet进行自主AI评估,与前一版本相比,在编码、规划和问题解决方面取得了显著改进。The Browser Company在自动化基于Web的工作流程中使用该模型,发现Claude 3.5 Sonnet的表现超过了他们之前测试的所有模型。

作为与外部专家合作的持续努力的一部分,美国AI安全研究所(US AISI)和英国安全研究所(UK AISI)对新的Claude 3.5 Sonnet模型进行了联合预部署测试。

Anthropic公司还评估了升级版的Claude 3.5 Sonnet的灾难性风险,并发现根据其负责任的扩展政策中概述的ASL-2标准,对于这个模型仍然是合适的。

Claude 3.5 Haiku是最快模型的下一代。与Claude 3 Haiku的成本和速度相同,Claude 3.5 Haiku在每项技能集上都有所改进,并在许多智能基准测试中甚至超越了前一代中最大的模型Claude 3 Opus。Claude 3.5 Haiku在编码任务上尤其强大,例如,在SWE-bench Verified上得分为40.6%,超过了使用公开可用的最先进模型的许多代理,包括原始的Claude 3.5 Sonnet和GPT-4o。

凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku非常适合面向用户的产品、专门的子代理任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。

Claude 3.5 Haiku将于本月晚些时候在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供——最初作为仅限文本的模型,随后将支持图像输入。

在教授Claude导航计算机方面,Anthropic公司正在尝试一些根本性新事物。他们不是为Claude完成单个任务制作特定工具,而是教授其通用的计算机技能,使其能够使用为人类设计的广泛标准工具和软件程序。开发者可以使用这种初步能力来自动化重复性流程、构建和测试软件,并执行研究等开放式任务。

为了使这些通用技能成为可能,Anthropic公司构建了一个API,允许Claude感知和与计算机界面交互。开发者可以集成这个API,使Claude能够将指令(例如,“使用我计算机和在线的数据填写此表格”)转换为计算机命令(例如检查电子表格;移动光标以打开Web浏览器;导航到相关网页;用这些页面上的数据填写表格等)。在OSWorld上,该API评估AI模型像人类一样使用计算机的能力,Claude 3.5 Sonnet在仅限截图类别中得分为14.9%,明显优于下一个最佳AI系统的7.8%的得分。当给予更多步骤来完成任务时,Claude的得分为22.0%。

虽然预计这项能力在未来几个月将迅速改进,但Claude目前使用计算机的能力并不完美。一些人类可以轻松执行的操作——如滚动、拖动、缩放——目前对Claude来说仍然是挑战,Anthropic 鼓励开发者从低风险任务开始探索。由于计算机使用可能为垃圾邮件、错误信息或欺诈等更熟悉的威胁提供新的途径,Anthropic公司正在采取主动方法促进其安全部署。他们开发了新的分类器,可以识别何时使用计算机使用功能以及是否发生伤害。