Claude3在今天凌晨正式发布了。这个由OpenAI分裂出去的兄弟公司Anthropic,在悄然无息之间,就这么默默地把Claude3发了。没有所谓的发布会,并没有像其他科技公司一样,召开一个隆重的发布会,仅仅只是在X上发布了一个帖子。

Claude3发布

看来是对本次Claude3相当有自信。

Anthropic今晚一共发布了三个模型,名字分别是:Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

Opus大概意思就是史诗级乐章,牛逼上天那种。

Sonnet是十四行诗。

Haiku是俳句,日本的那种三行短诗。

所以可以简单的理解成:Opus(超大杯)、Sonnet(大杯)、Haiku(中杯)

这三个的区别没什么特别可说的,直接通过下面这个图形就可以看出三者之间的区别。

Claude3性能测试

Claude免费版本只能使用Sonnet,如果要使用Opus就需要充值20美刀,和OpenAI的策略一样。ChatGPT3.5可以免费使用,ChatGPT Plus就需要付费订阅。

两者之间的订阅价格也是一样的,简直是全面向OpenAI看起,完全是有一较高下的含义。

在尝试了各种方法之后,使用 Claude订阅 成功订阅了 Claude,第一时间用起来。

Claude订阅

OpenAI依然位居全球人工智能领域技术实力之巅,其即将推出的Sora与GPT-5预计将超越现有所有AI工具,展现无与伦比的优势。ChatGPT Plus升级就验到ChatGPT Plus最新的功能。

训练时间

Claude训练时间

可以看到目前Claude最新训练时间是2023年的8月份,而ChatGPT Plus的数据最新指导2023年的4月份。这一局Claude略胜一筹。

推理能力

通过官方文档的介绍,本次Claude3进化最大的,就是推理,就是逻辑。口说无凭,就通过实际的例子来做说明。

解释补集法的概念,并用补集法计算这道概率题:”一家公司有两个部门,A部门3个男生,2个女生,B部门4个男生,6个女生,现在要派3个人去出差,要求每个部门至少出一人,那么至少有一个女生被派出的概率是多少?”

一道致命题,在已经明确补集法的情况下,GPT4的错误率依然高达50%。但是Claude3 Opus,我测了10遍,准确率90%,就很爽。

Claude3推理测试

张三是一名推销员,她在绿房子卖掉了三分之一的吸尘器,在红房子多卖了 2 台,在橙房子卖掉了剩下吸尘器的一半。如果张三还剩下 5 台吸尘器,她一开始有多少台吸尘器?

Claude3推理测试

当然,还可以直接上物理题,直接传图就行。全对。

Claude3识图回答物理问题

这个功能直接让目前很多的学习类APP直接无路可走。对于家长来说,也是辅导孩子学习的神器。简直就是父母的福音了。

顺便测试下其他学科的能力。

化学问题基本上没有问题。

Claude3识图回答化学问题

语文。在中文语境下的一些逻辑怪圈,也没问题。

Claude3分析中文语义

整体看,Claude在逻辑和推理上的进化巨大,初中的理科题基本都能横着走,不过高中题基本都还是全线阵亡状态。很强大!

多模态

GPT4V也出来很久很久了,多模态,绝对是让人永远离不开的功能之一。这一次Claude3也支持绘图功能了。看起来是准备全方位和OpenAI掰腕子了。

按照官方给出的数据

Claude3性能评测

除了在科学示意图(Science diagrams)这个领域超的稍微多一些之外,其他基本没有差别。

放个科学示意图的Case,Claude3表现也很惊艳。

Claude3的多模态能力

一个网站的截图直接还原网页的源代码。以后设计师之需要设计页面原型,后面由 vv直接生产页面代码了。后面产品经理和设计师直接可以完成产品开发了,前端程序员们很难忽悠到他们了。

Claude3根据图片写代码的能力

接下来,测试的其他能力,比如看图猜信息的能力。

比如看图猜地名。

Claude3看图猜地名

看图猜艺术家。

Claude3看图猜艺术作品

完全不在话下。

200K长文本优化

目前是支持最长的文本的AI产品了。相比上一代,Claude3上下文准确性能力大幅度提高。

我们给Claude3丢一个超长文本,要求他回答相关问题。

我们的问题是

“你写妙鸭相机那篇文章时,用了一个人的照片作为案例,那个人是谁?”

Claude3的长文本能力

可以看到Claude3回答得完全正确,没有任何问题。

Claude3的长文本能力的回答

我们再次一个文档内跨度比较大的查询的case。

Claude3的跨长文本能力的回答

整体精准度和语义理解都很不错。

总体来说,基于超长文本的对话、总结、查询的能力,也终于在Claude3中补齐了。

综合来看,Claude3 Opus,依旧是目前最为水桶的大模型。

Claude模型对比

Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku之间的功能对比。

Claude 3 Opus

Claude 3 Opus能力测试

Claude 3 Sonnet

Claude 3 Sonnet能力测试

Claude 3 Haiku

Claude 3 Haiku能力测试

三张图一眼就能看明白,牛逼的更贵,便宜的更快。付费就可以变得更强。

总结

总结一下,Claude3这次更新后,有独一档的推理能力、跟GPT4V打平的多模态、还有200K长文本优化。

昨天通过一晚上的研究,通过 wildcard ,1分钟成功订阅 Claude3 Pro的能力,我整体尝试下来,还是非常的惊艳。

但是我想说的是,OpenAI仍然是全球技术实力最为强大的人工智能公司,后续OpenAI即将开放的Sora和GPT-5必将碾压目前的所有的AI智能工具。

对于我个人而言,除了模型本身的能力之外,模型可用的工具也很重要,无论是网页浏览能力、代码解释器还是GPTs可接入的API actions,整个生态也更加完善。所以,对我来说,目前用ChatGPT用得更顺手,有更丰富的在这个模型上的prompt经验,以及GPTs等工具使用经验的情况下。

通过 ChatGPT Plus升级教程 可以快速升级到ChatGPT Plus。大家可以自行感受下两者之间的差距。

参考

Claude3订阅

ChatGPT Plus升级教程

ChatGPT Plus信用卡被拒怎么办

ChatGPT怎么注册账号 2024年最新保姆级教程