原文链接:挑战GPT-4V!马斯克发布Grok-1.5V!GPT-4V又被超越了一次

在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。

就在4月12号,马斯克推出了 Grok-1.5V,该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。

但是目前来看,GPT4-Turbo目前还是最强的。在画图、看图、写作、逻辑推理、编码这些方面,其他的大模型还是和GPT4-Turbo有很大的差距。

但是按照 ChatGPT4 Turbo 升级教程 ,很方便升级到GPT4-Turbo,就可以使用GPT4-Turbo了。

Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

官方博文表示:「Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

Grok-1.5V测试结果

我们看到了 Grok-1.5V 与 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是:「Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中,Grok 的表现优于同类产品。对于下面的所有数据集,我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

referer:https://x.ai/blog/grok-1.5v

目前,Grok-1.5V将很快对我们的早期测试者和现有Grok用户开放,还没有开放源代码。

Grok-1.5V 实际表现

referer:https://x.ai/blog/grok-1.5v

虽然Grok-1.5V没有完全对用户开放,但是在博客中展示了 Grok-1.5V 的七个示例。

根据图表编写代码

直接将流程图的白板草图转换为 Python 代码

流程图

提示词

Can you translate this into Python code?(你能把它翻译成 Python 代码吗?)

Grok回答

Certainly! The flowchart you’ve provided describes a simple guessing game where the computer generates a random number, and the user has to guess it. Here’s the Python code that represents the logic in the flowchart:

当然!您提供的流程图描述了一个简单的竞猜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的 Python 代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

import random

def guess_number(): # Generate a random number between 1 and 10

target = random.randint(1, 10)

while True:
guess = int(input("Guess a number between 1 and 10: "))

if guess == target:
print("You won!")
break
else:
print("Wrong guess, try again!")

if __name__ == "__main__":
guess_number()

计算卡路里

卡路里表格

提示词

How many calories are there in 5 slices of this?(5 片有多少卡路里?)

Grok回答

If one serving size is 3 slices and contains 60 calories, then 5 slices would contain approximately 100 calories. This is calculated by first determining the calories per slice: 60 calories / 3 slices = 20 calories per slice. Then, multiply the calories per slice by the number of slices: 20 calories per slice * 5 slices = 100 calories.

如果一份是 3 片,含有 60 卡路里,那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量:60 卡 / 3 片 = 20 卡 / 片。然后,将每片的卡路里乘以片数:每片 20 卡路里 * 5 片 = 100 卡路里。

根据图片讲故事

草图

提示词

My son drew this, can you tell a short bedtime story based on his drawing?(这是我儿子画的,你能根据他的画讲一个简短的睡前故事吗?)

Grok回答

Once upon a time, in a land of adventure and wonder, there was a brave little boy named Timmy. Timmy lived in a cozy little house with his family, and he loved nothing more than exploring the world around him.

……

很久很久以前,在一个充满冒险和奇迹的国度里,有一个勇敢的小男孩,名叫提米。提米和家人住在舒适的小房子里,他最喜欢的事情就是探索周围的世界

PS: 整个故事太长了,这里只是截取了一小段,整体来说,故事讲的还是不错的。毕竟Grok用了很多Twitter上的语聊进行训练

解释梗图

梗图

提示词

I don’t get it, please explain(我不理解,啥意思?)

Grok回答

这幅图幽默地将初创公司和大公司作了对比。在标有 “初创企业” 的左侧,有一群人在一起挖洞。他们都在积极参与,洞已经挖得很深了。

在标有 “大公司” 的右侧,有一群人围着一个洞站着。然而,与初创公司不同的是,只有一个人真正在挖洞,其他人都在观看或从事其他活动。

这幅图的幽默感来自于对初创企业和大公司之间差异的夸大。在初创公司,人们往往有一种紧迫感,希望每个人都能直接为手头的任务做出贡献。相比之下,大公司往往被描述为官僚主义更严重,所有团队成员对每个项目的直接参与更少。

哈哈哈哈哈,看来Grok理解得非常到位啊,Twitter估计没少看。

将表格转换为 CSV 文件格式

excel表格

提示词

Please convert this table to csv.(请将此表转换为 csv。)

Grok回答

1
2
3
4
5
6
7
8
medal,name,sport,event,date
1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September
1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September
1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September
2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September
2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September
3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September
3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

辨别木头的腐朽程度

腐朽的木头

提示词

These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?(这些孔出现在我的甲板上的螺钉周围。是不是烂了?我应该更换吗?)

Grok回答

甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞,这是木材腐烂的常见迹象。

为了确保露台的安全和使用寿命,建议更换受影响的木板。这将有助于防止其受到进一步损坏,并保持其结构的完整性。

如果您不确定如何更换木板,咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度,并就最佳行动方案向您提供专家建议。

解决Leetcode中等难度的问题

Leetcode题目

提示词

Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

Grok回答

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
def find_triplets(nums):
result = []
nums.sort()

for i in range(len(nums) - 2):
if i > 0 and nums[i] == nums[i - 1]:
continue

target = -nums[i]
left = i + 1
right = len(nums) - 1

while left < right:
if nums[left] + nums[right] == target:
result.append([-target, nums[left], nums[right]])
left += 1
right -= 1
while left < right and nums[left] == nums[left - 1]:
left += 1
while left < right and nums[right] == nums[right + 1]:
right -= 1
elif nums[left] + nums[right] < target:
left += 1
else:
right -= 1

return result

总结

从Grok-1.5V放出来的实例来看,Grok-1.5V的图片识别能力还是很强的。毕竟Grok-1.5V是马斯克的,估计是借鉴了特斯拉的图像识别技术。

ChatGPT刚刚更新了最新最强大的GPT4-Turbo,马斯克这边立马放出来了Grok-1.5V。

看来各家的大模型技术又要卷起来了啊。现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,

希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户。

按照 ChatGPT4 Turbo 升级教程 ,很方便升级到GPT4-Turbo,可以体验到目前最强大的人工智能工具。