让LLM扔块石头,它居然造了个投石机

量子位
Oct 22, 2025

让LLM扔块石头,结果它发明了投石机?

大模型接到任务:“造一个能把石头扔远的结构。”

谁成想,它真的开始动手造了,在一个真实的物理仿真世界里,一边搭零件,一边看效果,一边修改。

最后,它造的投石机,把石头扔了出去。

这就是来自港中大(深圳)、港中大的研究团队(Wenqian Zhang, Weiyang Liu, Zhen Liu)带来的最新研究——《Agentic Design of Compositional Machines》

他们推出了一个叫BesiegeField的新平台,它就像一个给大模型的“机械工程师训练场”,专门测试AI能不能像人一样,从零开始设计并造出能动的、有功能的复杂机器。

这还没完。BesiegeField支持上百次的并行实验,一旦引入强化学习(Reinforcement Learning),大模型就能“自我进化”:从反馈中调整策略,逐步学会结构设计的物理逻辑,最终学会如何“造出能动的结构”

大模型怎么写出一个机械结构

首先得明确,这不是让大模型去画CAD图,它也控制不了三维细节。研究者提出了一种叫“组合式机械设计”(Compositional Machine Design)的方法。

说白了,就是把机械结构限定在“用标准零件组装”这个范围里。每个零件(比如支架、关节)都有标准尺寸和接口,大模型只需要决定:

用哪些零件

它们之间怎么连

这样,复杂的设计就被简化成一个“离散结构组合问题”。到底好不好用?能不能动?稳不稳?交给物理仿真去验证。

为了让模型好理解和修改,研究者用了一种类似XML的“结构化表示机制”,设计机械就变成了一种语言模型擅长的结构生成任务。

一个自进化训练场

上面说的这一切,都发生在BesiegeField这个仿真平台里。它跑在Linux集群上,能同时跑几百个机械实验,并给到完整的物理反馈——比如速度、受力、能量变化、投掷距离、稳不稳定、机械损坏度等等。

这些反馈不仅能验证设计,还能作为强化学习的“奖励信号”,指导模型改进策略。

在这个平台里,模型的设计形成了闭环:生成 → 仿真 → 拿反馈 → 调整 → 再来一次

就算不更新模型参数,它也能靠反馈优化输出;如果引入强化学习,模型就能通过这些量化的奖励信号,系统性地提升设计能力和成功率。

平台还设计了一系列从易到难的任务,比如直线行驶、投掷、抓取,甚至还有过障碍、地形坡度、穿环投掷等更复杂的场景,构成了一个多样化的实验空间。

为什么造机器这么难

造机器的挑战,不在于零件多少,而在于它们能不能“在动态中协同工作”来完成复杂功能。

拿投石机来说,配重、支点、发射臂必须在关键时刻协同发力,才能把能量精准地扔出去。

只要一个地方偏差,整个机器就可能失效:没配重,打不出去;缺支点,原地转圈;少了杠杆,石头飞不起来。

这些问题,只有在真实仿真中才能被发现,也只有这样,模型才能一步步搞懂“结构到底是怎么动起来的”

差距有多大?人类设计的投石机能投近200米,而大模型设计的,常常连30米都到不了。

这其中,差距就在于对“结构协同”和“发力效率”的理解。

这也是BesiegeField要解决的核心问题——让它懂得结构之间“如何协同去完成任务”。

模型真学会造结构了吗

为了解决单个模型“想不明白”的难题,研究团队构建了一套“智能体工作流”(Agentic Workflow),让多个AI协作。

这套系统里有不同角色:

总设计师(Meta-Designer): 负责拆解任务。

结构设计师(Designer): 搭建初始方案。

审查员(Inspector + Refiner): 检查结构和连通性。

反馈查询员(Active Env Querier): 跑仿真并从大量反馈数据内抽取对任务最有用的信息报告。

分析/优化员(Refiner): 解读反馈,提出修改。

团队测试了多个主流模型,发现在这套工作流下,Gemini 2.5 Pro的表现很突出。

比如在优化投石机时,Gemini 2.5 Pro能根据仿真反馈,识别出“底座太小导致结构失衡”、“旋转轴方向错误导致无法发力”等问题,并提出“移除旧底座”、“重新定位手臂和容器”、“构建新底座”等修改方案。

对比表格显示,这套“多角色分层设计”(Hierarchical Design)策略,在投石机(Catapult)和小车(Car)任务上,其平均分(Mean)和最高分(Max)都显著优于以Gemini为代表的部分“单一模型”或简单的“迭代修改”策略。

关键这些成果是模型自己在真实反馈里逐步学会调整的

怎么让AI越造越聪明?

有了工作流还不够,还得让模型能“自我进化”。研究团队引入了强化学习(RL),具体用了一种叫RLVR(基于可验证反馈的强化学习)的策略。

BesiegeField的仿真反馈就是现成的“奖励信号”(Reward):比如投掷距离多远?能不能成功执行任务?能运行多久?

研究团队用了Pass@k Training方法(即在k次尝试中选奖励最大的那个样本作为训练信号),对Qwen2.5-14B-Instruct这个模型进行持续微调。

效果很明显。随着迭代次数增加,模型设计的结构越来越好,投掷距离也越来越远。

定量数据也显示,在“Cold-Start + RL”(用少量好例子启动+强化学习)的策略下,模型在小车任务上的最高分达到了45.72,投石机任务的平均分和最高分也都是最优的。

这是首次证明,LLM确实能借助RL,在仿真反馈中持续提升机械设计能力

AI创造力的新边界

总的来说,BesiegeField带来的不只是一个仿真平台,更像是一种新的“结构创造范式”

它把复杂的机械设计,转变成了一个AI擅长的“结构化语言生成任务”;

它提供了一个闭环,让模型能在真实的物理反馈中,学会理解力学规律和结构协同;

它支持任务难度可控、流程模块化、结果可定量评估;

更重要的是,它提供了一个观察AI如何获得“空间智能”和“物理智能”的起点。

研究团队期待,未来AI造的不仅是投石机,而是能奔跑、搬运、协作的各种复杂结构——让语言模型真正具备“造出会动的东西”的能力

项目主页:https://besiegefield.github.io

论文地址:https://www.arxiv.org/abs/2510.14980

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10