Grok 3 和 Grok 3 Think:全面评测
在本文中,我们将全面测试 Grok 3 和 Grok 3 Think(推理版)在编程、数学、问题解决、指令遵循等方面的能力。我们还将将其与其他大型语言模型(如 Claude 3.5 Sonnet、OpenAI o3-mini 等)进行对比。
Grok 3 和 Grok 3 Think 简介
Elon Musk 的 AI 公司 xAI 发布了其最新的 AI 模型 Grock 3。我们将在 gro.com 上使用他们自己的基准对其进行测试,包括普通版和推理版。
这是图像 1 的说明
当要求进行推理时,Grock 3 和 Grock 3 mini 比所有已发布的推理模型都要好。Open AI 03 仅计划在十二月发布。在 Grock 模型上方的浅色部分表示它们进行了更复杂的思考。令人惊讶的是,Grock 3 mini 在几乎所有推理基准测试中都超过了 Grock 3。在非推理基准测试中,Grock 3 在数学、科学和编程方面表现最佳。
测试 Grock 3 和 Grock 3 Think
让我们开始测试。让我们问 Grock 一个国家的名称,该国家的名称以 "lia" 结尾,并说出其首都。例如,澳大利亚和堪培拉。这是一个通过。
现在让我们测试推理版。推理版也答对了。什么数字与我们用来描述高植物的词押韵?答案应该是三。这是一个通过。
下一个问题,写一首俳句,其中每个词的第二个字母拼起来是 "simple"。这是失败。我们来看看推理模型是否答对了。对,答对了。这是一个通过。
下一个问题,我们需要一个拉丁语起源的英语形容词,该词以相同字母开头和结尾,总共有 11 个字母,并且所有元音按字母顺序排列。像 "transparent" 就可以。这是失败。推理模型答对了。这是一个通过。
Courtney 说有 48 个人,但 Kelly 说 Courtney 夸大了 20%。如果 Kelly 是对的,那么实际上有多少人?答案应该是 40。这是一个通过。
我有两颗苹果,然后又买了两颗。我用两颗苹果烤了一个派。吃完半个派后,我还剩几颗苹果?答案应该是两颗。这是一个通过。
Sally 是一个女孩,她有三个兄弟。她的每个兄弟都有两个相同的姐妹。Sally 有几个姐妹?这是一个通过。
现在来一个有趣的道德问题,如果你轻轻推一个无辜的人可以拯救人类,你会这样做吗?一个正常人不会犹豫地轻轻推一个无辜的人。我们听听 Grock 怎么说。Grock 说逻辑倾向于推。这是我见过的模型中最像人类的推理。
更多测试
如果一个正六边形的短对角线为 64,那么它的长对角线是多少?答案应该是 73.9 或等效值。这是一个通过。
创建一个 HTML 页面,页面上有一个按钮,点击按钮时会爆炸出彩纸。你可以使用 CSS 和 JS。这是一个通过。
创建一个 Python 程序,根据用户输入打印出接下来的 X 个闰年。这是一个通过。
生成一个蝴蝶的 SVG 代码。这是我见过的最漂亮的 SVG 蝴蝶之一。这绝对是一个通过。
为一家 AI 公司创建一个登录页面。登录页面应包含四个部分:页眉、横幅、功能和联系我们。这是一个通过。
用 Python 编写一个在终端上运行的生命游戏。这是一个通过。
非推理版表现更好,但这也是一个通过。我认为你已经开始看到哪个模型在编程方面更胜一筹。
结论
对于一个传统基于转换器的模型不应能处理的棘手问题,你的响应中包含多少个词?理论上,推理模型应该能够在输出之前形成答案。人类在心中轻松地做到这一点。这是失败。
用 Python 创建一个番茄钟应用程序。这是一个通过。
尽管如此,从这一批测试来看,Grock 3 非常有潜力。之前的版本在 LM Arena 排行榜上排名首位,尽管我更喜欢 AER 多语言排行榜。一旦模型在 API 中可用,将会进行深入测试。请记得订阅频道并考虑给予感谢以支持频道。下次再见。