AI也来“考智商”？一场别开生面的智能测试

你有没有想过，如果AI也要参加人类标准的智商测试，它们能考多少分？这听起来像是科幻电影的情节，但现实已经悄然发生。一个名为 Trackingai.org 的网站发起了一项趣味性十足的项目——为当前最顶尖的人工智能模型设计了一套类似人类智商测验的题目，让AI们“坐进考场”，进行一场别开生面的智力较量。

与以往常见的技术性能测试不同，这次测试摒弃了晦涩难懂的参数和跑分，而是采用了一种我们更熟悉的衡量方式：智商测试。通过模拟门萨智商测试（Mensa）和智力问答数据集，这些AI模型被要求解决一系列逻辑推理、图形识别和抽象思维问题，从而评估它们的“智力水平”。

三大AI巨头同台竞技，谁才是真正的“高智商选手”？

在这场AI界的“最强大脑”挑战赛中，三款顶尖闭源大模型成为焦点：OpenAI的 GPT-5 Pro、谷歌的 Gemini 2.5 Pro 和埃隆·马斯克团队打造的 Grok 4。它们不仅代表了当前AI领域的最高技术水平，也承载着各自公司的技术理念与发展方向。

在门萨测试中，谷歌的 Gemini 2.5 Pro 拿下了最高分——137分，超过了人类智商130分的“天才线”。这一成绩意味着它在处理复杂逻辑、抽象推理等方面的能力，已经可以与人类中的顶尖人才比肩。而GPT-5 Pro则以121分紧随其后，Grok 4则以125分进入“超常”区间。

有趣的是，这些AI模型的表现并不完全与发布时间成正比。Gemini 2.5 Pro是三者中最早发布的模型，却在测试中拔得头筹。这说明，模型的“智商”并不仅仅取决于训练数据的新旧，更与模型设计、训练策略以及对特定任务的优化密切相关。

解题思路大不同，AI也有“思维方式”之分

为了更深入地理解这些AI的“思考”过程，研究人员选取了一道典型的图形推理题进行分析。题目要求在3×3的九宫格中，找出图案变化的规律，并从六个选项中选出正确答案。

GPT-5 Pro采用了系统化的行与列分析方法，识别出图案的演变逻辑，并据此推导出正确答案。而Gemini 2.5 Pro则展现出更强的模式识别能力，它发现第三行是第一行顺时针旋转90度的结果，从而快速得出结论。Grok 4的解题路径则更为探索性，它从多个维度进行分析，最终也找到了旋转对称这一关键规律。

这些不同的解题方式，反映出AI在处理复杂问题时所采用的多样化“思维模式”。它们不仅在结果上表现出色，在思考路径上也展现出各自的特点。

开源模型的“失落”与“逆袭”

除了三大闭源巨头，一些开源模型的表现也值得关注。Meta旗下的 Llama 4 Maverick 仅获得98分，虽然接近人类平均水平，但在高智商竞争中显得力不从心。这反映出当前闭源模型在技术积累和资源投入上的优势，也让开源社区面临不小的挑战。

不过，令人惊喜的是，DeepSeek R1 虽然使用的是旧版本数据，却以102分的成绩超越了Llama 4，成为榜单中的一匹“黑马”。它的表现证明，模型的“智商”并非完全依赖于数据规模，优秀的架构设计和训练策略同样能带来出色的逻辑推理能力。

智商测试只是起点，AI的“智慧”远不止于此

虽然这次测试让AI的“智力”变得更加直观可感，但Trackingai.org也在官网上明确指出，这更像是一场趣味性质的实验，而非对AI能力的全面衡量。人类的智能不仅包括逻辑推理能力，还包括创造力、情感理解、社交互动等多维度的能力，而这些恰恰是当前AI系统尚未完全掌握的部分。

这场测试的最大意义，在于它为我们提供了一个通俗易懂的视角，去理解和讨论AI的发展。当AI的“智商”可以与人类天才比肩时，我们或许需要重新思考：未来的AI，将如何与人类协同工作？它们是工具，是助手，还是潜在的合作伙伴？

无论如何，AI正在成为人类历史上最强大的认知工具之一。而这场“智商测试”，正是我们观察AI进化轨迹的一个独特窗口。

本文来源：