搜索

gpt-云顶yd2223线路检测

·2024-06-21 19:18
openai劲敌出手,追击gpt-4o。
c 轮海外2019-02
人工智能安全和研究公司
我要联系

一夜之间,刚封神的gpt-4o被赶超了。

智东西6月21日报道,昨日晚间,anthropic推出了新一代大模型claude 3.5 sonnet,在多项全球权威测评中一举超越了openai的gpt-4o。

claude 3.5 sonnet不仅超过其已发最强模型claude 3 opus,在研究生水平的推理 (gpqa)、本科生水平的知识 (mmlu) 和编码能力 (humaneval)多方面,也都刷新了行业基准。

在速度和成本方面,claude 3.5 sonnet是claude 3 opus的两倍,加上优惠的价格,它很适合帮用户处理编程、联动程序等复杂任务。

目前,用户可以通过claude网页和ios程序免费试用claude 3.5 sonnet,付费用户能更高速访问。

同时,客户可通过anthropic api、amazon bedrock和google cloud获取该模型。api的收费标准是3美元/每百万输入tokens,15美元/每百万输出tokens,支持200k tokens上下文窗口。

发布之后,claude 3.5 sonnet立马在ai圈引起轰动。有网友称,使用claude 3.5 sonnet编程比gpt-4o效率高10倍。

有网友3分钟完成了马里奥游戏的克隆版,称最疯狂的是基于最新artifacs预览功能,一键看到编程应用的预览效果。

anthropic被视为openai最有力的竞争对手之一,本次claude 3.5 sonnet的发布可谓狙击gpt-4o。这是其claude 3.5的中杯版本,claude 3.5 haiku和claude 3.5 opus计划今年晚些时候推出。

有一个有意思的细节,在anthropic的演示视频中出现的演示用户是“sam”,这似乎是在问候openai的ceo sam altman。

官方地址:https://claude.ai/

01.生成2倍速,多项能力赶超gpt-4o

claude 3.5 sonnet在其公布的gpqa、mmlu、humaneval等所有测评中,都超越了openai的gpt-4o,仅数学能力得分略低于gpt-4o。

在ai搜索引擎创企perplexity的试用评估中,claude 3.5也获得了优于gpt-4o的表现。claude 3.5 sonnet现已在付费ai搜索引擎perplexity pro上推出。

在社交媒体x,不少第三方测评团队也给出了试用结论,相比于gpt-4o,claude 3.5 sonnet几乎成了推理、语言、编程、数据分析、数学和指令遵循方面的“六边形战士”。

claude 3.5 sonnet不仅超过其已发最强模型claude 3 opus,在速度和成本方面,claude 3.5 sonnet也与anthropic的中端型号claude 3 sonnet旗鼓相当——运行速度是claude 3 opus的两倍,成本仅1/5。

在内部代理编码评估中,claude 3.5 sonnet成功解决了64%的问题,表现优于仅解决了38%的claude 3 opus。在得到指导和相关工具后,claude 3.5 sonnet 能够独立编写、编辑和执行代码,并具备复杂的推理和故障排除能力。

有网友在社交平台x贴出使用体验,仅仅25秒,claude 3.5 sonnet帮他编写了一个功能整齐的游戏程序。

02.最强视觉模型,多测评超gpt-4o,图表识别能力炸场

claude 3.5 sonnet也是anthropic目前最强大的视觉模型。

它在标准视觉基准测试中超越了claude 3 opus。对于需要视觉推理的任务,如解释图表和图形,这些改进尤为显著。此外,claude 3.5 sonnet还能准确地从质量不高的图像中转录文本。

如下图所示,在多项权威测评中claude 3.5 sonnet超过了gpt-4o,在所有测评中超越了gemini 1.5 pro。

如下图所示,claude 3.5 sonnet可以快速识别pdf文件内容并输出折线图。

当被继续要求生成网页演示内容,claude 3.5 sonnet也可以胜任。

03.颠覆对话式协作,交互升级,四步编程并渲染游戏

现在,anthropic还将在claude.ai上推出artifacts这一新功能,相当于一个预览功能,用以丰富用户与claude的互动方式。

当用户请求claude生成代码片段、文本文档或网站设计等内容时,这些artifacts将在一个专用窗口中与对话一同展示。这为用户提供了一个动态工作区,他们可以实时查看、编辑和构建claude的创作,将ai生成的内容融入自己的项目和工作流程中。

这一功能的推出标志着claude从对话式ai向协作式工作环境的进化。

如下图所示,如果要搭建一款游戏并预览效果,用户进需要四个步骤。

首先,输入文本让claude 3.5 sonnet生成一个特定大小和风格的角色。

然后,让claude 3.5 sonnet为类似风格的视觉要素编程。

紧接着,一个整体的游戏页面被搭建出来,用户可以随时看到代码的生成过程。

最后,就连游戏运行起来的效果,用户也可以通过artifacts模式进行预览。

在社交媒体x上,有网友称“这太疯狂了”,认为工件 渲染窗口是最佳的编码方式。

作为anthropic对安全和透明度的承诺,anthropic最近已将claude 3.5 sonnet提供给英国人工智能安全研究所(uk aisi)进行部署前的安全评估,并与美国人工智能安全研究所(us aisi)分享了结果。

anthropic称其模型开发的核心原则之一是保护隐私。除非用户明确允许,否则anthropic不会使用用户提交的数据来训练生成模型。anthropic称其到目前为止未使用任何用户数据来训练生成模型。

04.结语:openai劲敌出手,追击gpt-4o

anthropic被认为是openai最强竞争对手之一,claude 3.5 sonnet是claude 3.5系列首款产品,今年晚些时候推出的claude 3.5 haiku和claude 3.5 opus,是等待openai的后招。

除了研发下一代模型系列,anthropic还在开发支持企业应用的功能和模式,包括与企业应用程序的集成。anthropic的团队还在探索诸如“记忆”这样的功能,让claude能够记住用户的偏好和特定的交互历史,从而提供更加个性化和高效的用户体验。

本文来自微信公众号,作者:李水青,编辑:心缘,36氪经授权发布。

1
54

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
你可能也喜欢这些文章

最新文章推荐

特邀作者

作者有点忙,还没写简介

最近内容

报道的项目

我要联系
人工智能安全和研究公司

下一篇

一些变化正在发生,积极因素也正在积蓄,抱以乐观态度静待结果。

昨天

热门标签

36氪app让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

网站地图