马斯克开源𝕏最新算法!全网开发者逐行拆解

新智元
May 16

新智元报道

编辑:好困

【新智元导读】马斯克又搞大事!𝕏把社交平台绝对不会公开的两样东西“广告”和“审查”,连同一个能直接跑的推荐模型,一口气全推上了GitHub。6亿人每天刷到什么,现在是Grok说了算。

就在刚刚,马斯克把𝕏最新版的算法给开源了!

老马的官宣只有一句话,但瞬间就引来了超2700万网友的围观。

之所以这么炸,是因为社交平台有两样东西是绝不能给外人看的:

第一,广告注入系统,也就是“印钞机”。

第二,内容审查管线,也就是“生死簿”。

而𝕏把这两样的源码,连同一个3GB大小的推荐模型,一口气全放到了GitHub上!

仓库地址:https://github.com/xai-org/x-algorithm

不是,𝕏连广告代码都给了?

1月19日,𝕏第一次把推荐算法开源。

当时公开的是Phoenix排名模型和Thunder信息流引擎,也就是是“你打开For You看到什么”的决策逻辑。

但广告系统的代码,一个字都没有。

这回,全给了。

新增的home-mixer/ads/目录里,有四个相关的Rust文件。

partition_organic_blender.rs,负责把广告和自然内容混在一起

safe_gap_blender.rs,负责控制两条广告之间至少隔几条自然帖子

ads_brand_safety_hydrator.rs + ads_brand_safety_vf_hydrator.rs,负责管品牌安全,确保广告不会出现在暴力或色情内容旁边

注意这里的关键词,blender,混合器。

也就是说,广告不是硬插的,是跟你发的帖子、你关注的人发的帖子一起排队、一起打分、然后按规则混合的。

你刷到的每一条广告,都是“赢”了旁边那几条自然内容才出现在那个位置的。

有个审帖工具,名字叫“deluxe”

另一个从未公开过的组件是grox/目录。

它专管帖子发出之后、进入推荐之前的那道“审查流水线”。

六个分类器各管一摊:

spam.py,负责垃圾内容检测

post_safety_screen_deluxe.py,负责安全审查(“豪华版”这个命名,很𝕏)

safety_ptos.py,负责平台服务条款策略检查

banger_initial_screen.py,负责爆款初筛,判断一条帖子是否“够炸”

reply_ranking.py,负责回复排序

classifier.py,负责通用内容分类

这里最有意思的是banger_initial_screen。banger,爆款

也就是说,𝕏的算法里专门有一个分类器在判断“这条帖子炸不炸”,炸的优先往前排。

整套Grox管线用Python写成,跟Rust写的推荐系统主体形成了分层。

其中,Rust跑毫秒级排序,Python管“这条内容该不该存在”。

配套的还有Kafka数据加载器、ASR语音识别处理、帖子摘要生成器,以及一个调度引擎把这些任务编排成不同的“plan”跑起来。

3GB模型给你,拿去直接跑

技术圈最兴奋的可能是第三个变化。

以前开源推荐算法,你看得到逻辑但跑不起来。没有模型权重,代码就是一堆空壳。

这回𝕏直接塞了一个预训练好的mini Phoenix模型

Mini Phoenix Model├── 嵌入维度: 256├── 注意力头: 4├── Transformer层数: 2├── 模型体积: ~3 GB(Git LFS分发)└── 推理入口: python run_pipeline.py(检索→排序,一行跑通)

一行命令,从检索到排序的完整推理流程就能跑通,pipeline结构跟生产环境一模一样。

当然,mini模型的参数规模远小于线上那个。

但这已经是社交平台历史上,第一次有人把“能跑的模型”和“生产级代码”打包在一起给出来。

一条帖子的生死,15个概率说了算

广告、审查、模型是这次最炸的三个新组件。但它们各自填进了推荐pipeline的具体位置。

1月那一版,pipeline六步里大部分只有骨架代码。

这次补全之后,每一步都有了完整的Rust或Python实现。

从2个候选源到7个以上,从0个用户画像hydrator到17个。

直接把整条pipeline从“能看”变成了“能跑”。

整条pipeline的灵魂在第5步打分。

Phoenix的Grok Transformer给每条帖子打分时,会同时预测15种用户行为的概率。

最终得分的评判如下:

Final Score = Σ (weight_i × P(action_i))

正向行为 → 正权重(加分)负向行为 → 负权重(重扣)

15道考试,11道加分题,4道送命题。

你的帖子每一条都要走这么一遍。

We have eliminated every single hand-engineered feature and most heuristics from the system。

所有手工规则全砍了,100%靠Transformer端到端学出来。

打分机制里还有一个设计叫Candidate Isolation,候选隔离。

Transformer推理的时候,候选帖子之间互相“看不见”。

每条帖子只能看到用户的历史行为,看不到同一批里有什么其他帖子。

为什么要这么做?

因为如果候选帖子互相影响,同一条帖子跟50条候选一起送进去和跟500条一起送进去,得分会不一样。

而𝕏通过注意力掩码把这个依赖彻底切断,每条帖子的分数独立、稳定、可缓存。

换句话说,这15种预测,不是在猜“这个人喜欢什么”,是在判断你会做什么、不会做什么、以及做完之后会不会后悔。

你的For You,现在是一本打开的书

如今,全球主流社交平台里,𝕏是唯一一个把推荐算法、广告系统和内容审查管线都摊在GitHub上的。

你的For You怎么排序,广告怎么混进来,哪些内容会被干掉,现在都有一份Rust和Python写成的答案。

而且这套推荐系统已经100%切换到Grok Transformer驱动,手工规则全砍。

也就是说,xAI的模型能力已经从聊天机器人,渗透到了6亿人每天的信息消费决策里。

推荐系统,可能是当下最有实权的AI应用场景。谁控制了排序,谁就控制了注意力。

有兴趣的可以git clone下来跑一把。

3GB模型,一行命令,你就能看到那15个概率是怎么决定你每天刷到什么的。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10