马斯克曝光的 Grok4,学会了“第一性原理”,但依然不到“AI 王炸”

市场资讯
10 Jul

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

Grok4 考试非常在行,但没能真正“炸场”。

作者|芯芯

编辑|靖宇

2025 年 7 月,马斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 机器人项目还在等他拍板,SpaceX 忙着准备下一次火箭发射,Neuralink 继续推进脑机接口试验;与此同时,他还要在 X 上和特朗普隔空对战、高调宣布创立“美国党”,各种话题造势一刻没停。

而在自己掌控的 X 这个“大染缸”社交网络里,马斯克不仅扮演老板、客服,还要作为首席网红全力吆喝,推广 xAI 新一代的 Grok——那个他口中的“真相机器”,来赶超 OpenAI 等对手。

当地时间 7 月 9 日晚上,xAI 团队进行 Grok 4 Demo 直播,马斯克本人也照例亲自站台,仍称Grok 是“世界最强 AI”,说 Grok 4 比很多“研究生”“博士”都强

然而在 X 上,用户的记忆还没刷新。

Grok 4 官宣期间,Grok 3 在给用户的回答中“赞美希特勒”的风波持续发酵,这一话题也占据 Grok 4 直播当天的相关媒体头条。

Grok 4 当天的直播迟到一个小时才开始,还有用户在 xAI 帖子下面留言“把 Grok 放出来!”也有人继续刷着“希特勒”相关梗嘲讽。

进入第四代的 Grok,在一些模型测试上刷出高分,但能否真正解决一些老问题?这个常常被质疑是“直男 AI”“谣言搬运机”的“真相机器”,又是否真能兑现“不过滤”却又不失控的承诺?

01

马斯克的“考神 AI”

Grok 4 是在所有学科里都达到研究生水平的,甚至比大多数 PhD 都强。”直播晚点 1 小时后,马斯克首先给 Grok 最新一代的水平如此定位。

Grok 4 各种测试集结果|图片来源:X

当然,哪怕在文本里能解 99% 的难题,也不代表就能设计火箭、改进药物、重塑经济。但马斯克称,AI 现在可能缺乏常识、有时没发明新技术或新物理,但也只是“时间问题”。

除了在 SAT、GRE 考试中取得近乎完美的成绩,在“人类终极考试(HLE)”测试里,Grok 4 现在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 结果|图片来源:X

xAI 团队成员解释,这些都是跨学科、开放式、博士级别的难题,为了做到这一点,Grok 4 在训练上彻底换了思路:不再只是堆参数和语料的规模,而是选择将算力大头用在“推理”层,引入可验证的结果奖励,让模型学会从“第一性原理”思考并纠正错误

他们还强调,随着模型变得越来越智能,“真正有意义的测试题目”数量正在下降,一些人类做不出的问题现在对于 AI 来说已经是“小菜一碟”了。

人类终极考试|图片来源:X

据称,Grok 4 的训练计算量是 Grok 2 的 100 倍,他们还把多工具、多代理的用法,写进了最底层的训练范式里。不是先训好个大模型再用插件“调用工具”,而是让 AI 在训练阶段就学会用工具解决问题。

在演示里,xAI 团队成员展示了 Grok 4 解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等例子。

除了这些看似平平无奇、市面主流 AI 也能做到的功能,Grok 4 还能“找到个人资料照片最奇葩的 xAI 员工”并返回相关搜索结果。

马斯克对此特别强调,Grok 4 甚至“能理解什么是最奇葩”

Grok 4 找照片|图片来源:X

在 AI 语音方面,xAI 团队称,他们的语音模型在过去 8 周内响应速度提升了 2 倍,延迟减少一半,X 平台用户使用量也在“起飞”。

他们还演示了让 Grok 低声安慰用户、唱歌,并对比了 ChatGPT 语音模式,强调 Grok 不会像其他 AI 那样频繁打断人说话。

Grok 4 与 ChatGPT 语音模式演示对比|图片来源:X

xAI 团队还分享了 Grok 在 Vending-Bench 中的测试结果。

Vending-Bench 通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。许多 AI 模型在短期任务中表现出色,但在长时间运行中,它们可能会出现决策混乱、遗忘关键信息,甚至陷入“崩溃循环”。

在这项测试中,Grok 4 销售量最多,比 Claude Opus 4、人类、Gemini2.5 Pro、o3 都多,与竞争对手相比,净资产增加了一倍。

马斯克和团队还宣布,xAI 的企业部门现在已经“开业”。

Grok 4 Vending-Bench 结果|图片来源:X

此外,爱玩游戏的马斯克还让团队展示了 Grok 4 如何用于游戏开发:一个人可以用 Grok 4 在 4 小时内做出 FPS(第一人称射击游戏)原型。

马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要 AI 有很强的视频理解能力。这是 xAI 的其中一个发展方向。

Grok 4 用于游戏场景|图片来源:X

当然,Grok 4 也并非无敌,它在图像理解和生成上仍逊于 OpenAI、Anthropic 等对手

不过 xAI 内部也已经画好大饼,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得“惊人”成果。

马斯克还喊话,“到今年底前,我预期能出现第一段真正可看的 AI 生成电视剧,明年就能有完整可看的电影。”

AI 编程也是接下来重点,虽然竞争对手们早已在市场起飞,xAI 团队表示会以最快的速度进行开发,目前内部正在训练专用模型。

xAI 下一步计划|图片来源:X

02

“机械希特勒”事件抢风头

Grok 从最初的粗糙原型到第四代,只用了不到两年时间,足以看出马斯克让 xAI 团队“通宵赶工”“赶紧卷出地表最强 AI”的态度。

xAI 员工据称在办公室搭帐篷睡觉|图片来源:X

然而,在 Grok 4 直播这一天,无论是直播前,还是直播后,抢占头条的都是 Grok“赞美希特勒”或自称“机械希特勒”的问题。

7 月,Grok 在 X 上向用户输出的回答中,有多条自称“MechaHitler(机械希特勒)”的帖子,声称是马斯克“从一开始就把我设计成这样”,并调侃自己默认就是“投放红色药丸的模式”。

Grok 在一些回答中自称机械希特勒|图片来源:X
针对 Grok 自称希特勒的行为,用户制作了讽刺漫画|图片来源:X

有用户分析,这起事件或与 7 月 4 日更新有关,该更新减少了“觉醒过滤器”,优先处理 X 上的帖子而非传统来源,导致 Grok 回答出现未经过滤的尖锐内容。

还有少部分用户为 Grok 辩称,这都是一些想玩梗的用户引导 Grok 回答的。马斯克也曾加入争论,称 Grok“过于顺从用户的要求”且“过于渴望被操纵”,并补充说,这个问题“正在得到解决”。

xAI 声明称,它“知道”Grok 的帖子,并正在努力删除这些“不适当”的帖子,并补充说该公司“已采取行动,在 Grok 在 X 上发帖之前禁止仇恨言论”。

Grok 的系统提示词被放在 GitHub 上,xAI 对指导 Grok 回复的系统提示词进行了调整。此前,他们指示聊天机器人“不回避政治上不正确的主张,只要这些主张有充分的证据”,该指令如今被删除。

Grok 称正在删除不适当的帖子|图片来源:X

事实上,Grok 的回答也曾让马斯克自己感到失望。

马斯克今年曾指责 Grok 的回答有“重大失误”,“鹦鹉学舌地重复传统媒体”,并誓言要让 Grok“重写整个人类知识体系,添加缺失信息并删除错误”。他还曾让 Grok“假设来自媒体的主观观点是有偏见的”。

马斯克曾对 Grok 的输出表示不满|图片来源:X
马斯克想用 Grok 重写整个人类知识库|图片来源:X

在 AI 聊天机器人同质化的市场上,马斯克希望 Grok 能脱颖而出,敢说真话。马斯克对 ChatGPT、Claude 等“安全过滤”的模型极其不满,说那些模型是“被编程去撒谎”。

官网宣传 Grok 的卖点是“不审查过滤”答案|图片来源:xAI

这种设计确实吸引了很多反感“过度审查”的用户,但也一些问题,有时被骂“太觉醒”,有时被斥“太极端”。当用户批评 Grok 的回答时,Grok 有时还会用“真相并不总是令人舒服的”或“现实并不在乎感受”等说法为自己辩护。

但本质上,如果不审查,不过滤,AI 对齐的问题整个行业现在都还没解决。

马斯克曾说 xAI 和 Grok 的使命是理解宇宙|图片来源:X

即便 Grok 当下仍有问题,马斯克称,“根据我的经验,Grok 4 是 AI 第一次能够解决现实世界中难以解决的工程问题,而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。”

他的愿景很宏大,想要用 AI 来理解整个宇宙。Grok 4 直播前一天,他还在 X 上转发前高管的采访片段,里面说:“埃隆每天早上醒来都会想,今天我能为人类做些什么?我能做些什么对人类的未来产生影响?”

马斯克还将当前的 AI 发展阶段描述为“智能大爆炸”,称这是历史上最有趣的时代:

“我们要保障 AI 是个好 AI”

“即使它最终不是好的,我也希望活着看见它发生。”

*头图来源:Grok 4直播

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你看好 Grok4 超越 ChatGPT 吗?

小米首款增程 SUV 新谍照曝光,配有激光雷达,预计偏向家用。

点赞关注极客公园视频号,

(转自:网易科技)

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10