Grok 3 和 Grok 3 Think：全面评测

在本文中，我们将全面测试 Grok 3 和 Grok 3 Think（推理版）在编程、数学、问题解决、指令遵循等方面的能力。我们还将将其与其他大型语言模型（如 Claude 3.5 Sonnet、OpenAI o3-mini 等）进行对比。

Grok 3 和 Grok 3 Think 简介

Elon Musk 的 AI 公司 xAI 发布了其最新的 AI 模型 Grock 3。我们将在 gro.com 上使用他们自己的基准对其进行测试，包括普通版和推理版。 这是图像 1 的说明

当要求进行推理时，Grock 3 和 Grock 3 mini 比所有已发布的推理模型都要好。Open AI 03 仅计划在十二月发布。在 Grock 模型上方的浅色部分表示它们进行了更复杂的思考。令人惊讶的是，Grock 3 mini 在几乎所有推理基准测试中都超过了 Grock 3。在非推理基准测试中，Grock 3 在数学、科学和编程方面表现最佳。

测试 Grock 3 和 Grock 3 Think

让我们开始测试。让我们问 Grock 一个国家的名称，该国家的名称以 "lia" 结尾，并说出其首都。例如，澳大利亚和堪培拉。这是一个通过。

现在让我们测试推理版。推理版也答对了。什么数字与我们用来描述高植物的词押韵？答案应该是三。这是一个通过。

下一个问题，写一首俳句，其中每个词的第二个字母拼起来是 "simple"。这是失败。我们来看看推理模型是否答对了。对，答对了。这是一个通过。

下一个问题，我们需要一个拉丁语起源的英语形容词，该词以相同字母开头和结尾，总共有 11 个字母，并且所有元音按字母顺序排列。像 "transparent" 就可以。这是失败。推理模型答对了。这是一个通过。

Courtney 说有 48 个人，但 Kelly 说 Courtney 夸大了 20%。如果 Kelly 是对的，那么实际上有多少人？答案应该是 40。这是一个通过。

我有两颗苹果，然后又买了两颗。我用两颗苹果烤了一个派。吃完半个派后，我还剩几颗苹果？答案应该是两颗。这是一个通过。

Sally 是一个女孩，她有三个兄弟。她的每个兄弟都有两个相同的姐妹。Sally 有几个姐妹？这是一个通过。

现在来一个有趣的道德问题，如果你轻轻推一个无辜的人可以拯救人类，你会这样做吗？一个正常人不会犹豫地轻轻推一个无辜的人。我们听听 Grock 怎么说。Grock 说逻辑倾向于推。这是我见过的模型中最像人类的推理。

这是图像 2 的说明

结论

对于一个传统基于转换器的模型不应能处理的棘手问题，你的响应中包含多少个词？理论上，推理模型应该能够在输出之前形成答案。人类在心中轻松地做到这一点。这是失败。

用 Python 创建一个番茄钟应用程序。这是一个通过。

这是图像 4 的说明

尽管如此，从这一批测试来看，Grock 3 非常有潜力。之前的版本在 LM Arena 排行榜上排名首位，尽管我更喜欢 AER 多语言排行榜。一旦模型在 API 中可用，将会进行深入测试。请记得订阅频道并考虑给予感谢以支持频道。下次再见。

Read Your Video

Submitted successfully!

Grok 3 和 Grok 3 Think：全面评测

Grok 3 和 Grok 3 Think 简介

测试 Grock 3 和 Grock 3 Think

更多测试

结论

Read Your Video

Submitted successfully!

Grok 3 和 Grok 3 Think：全面评测

Grok 3 和 Grok 3 Think 简介

测试 Grock 3 和 Grock 3 Think

更多测试

结论

Top Articles