炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
当你试图交流或理解某些想法时,语言往往力有不逮。有时更高效的方式是绘制简单的概念草图——比如用电路图来解析系统运作原理。
但若人工智能能协助我们探索这种可视化表达呢?
当前,多数 AI 系统虽擅长创作写实油画或卡通插画,却难以把握素描的精髓:那种逐笔勾勒、反复迭代的过程,正是人类借以头脑风暴并修正创意表达的关键。
近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)与斯坦福大学联合开发的新型绘图系统“SketchAgent”改变了这一现状。该系统采用多模态语言模型,可在数秒内将自然语言指令转化为草图。无论是独立创作还是人机协作,它都能完成绘制,既可以配合人类共同作画,也能根据分段文字描述逐步构建草图
该论文第一作者、CSAIL 博士后研究员 Yael Vinker 指出,这一系统开创了人机交互的更自然方式。“人们往往没有意识到自己日常绘制了多少草图。人类会用速写来梳理思路或研讨创意,我们的工具旨在模拟这一过程,让多模态语言模型能更有效地辅助人类实现视觉化表达。”
虽然像 DALL-E 3 这样的文本转图像模型可以创作出引人入胜的绘画,但它们缺少素描的一个关键要素:自发的、富有创意的过程,在这个过程中,每一笔都可能影响整体设计。SketchAgent 的绘画则被建模为一系列笔触,看起来更自然流畅,就像人类的素描一样。
先前的研究依赖人类绘制数据集进行模型训练,其规模与多样性往往受限。SketchAgent 则另辟蹊径,直接调用预训练语言模型——这些模型虽掌握海量概念,却不懂如何素描。当研究者教会语言模型这种笔触序列创作法后,SketchAgent 开始绘制它从未明确训练过的各种概念。
SketchAgent 通过独创的“素描语言”教会 AI 模型逐笔作画——无需依赖训练数据,而是将草图转化为网格上带编号的笔触序列。研究人员以房屋为例演示绘制过程:每道笔触都标注对应元素,使模型能够举一反三理解新概念。
作为一种冻结参数的多模态大语言模型,SketchAgent 接收三类输入:包含素描语言规范的系统提示;带有具体任务指令的用户提示(如“画一条鲨鱼”);空白绘图画布。根据任务要求,该系统会生成代表笔触序列的文本响应。这些笔触数据经处理转化为矢量图形后呈现在画布上。画布可被循环利用于两种场景:配合更新后的提示重新输入模型,用于执行新增任务或修改草图;供人类用户调取以实现协作绘图。
Vinker 团队也验证了 SketchAgent 究竟是与人类协同创作,还是在独立创作。他们在协作模式下测试了该系统:人类与 AI 需合力完成特定概念的绘制。移除 AI 贡献的笔触后,团队发现这些笔触对最终成图至关重要。例如删除代表桅杆的人工笔触后,整幅帆船草图便难以辨认。
也就是说,通过研究人员设计的基于 Web 的协作式草图绘制环境,用户可以和 SketchAgent 轮流在共享画布上绘制,根据给定的文本概念创作出可识别的草图。参与者以两种模式绘制概念:单人模式(各自独立绘制)和协作模式(用户和 SketchAgent 协作绘制,每次添加一笔,直到双方都对最终效果满意为止)。绿色表示用户绘制的笔触,粉色表示 SketchAgent 绘制的笔触 。
用户还可以通过聊天对话反复编辑他们的草图。研究团队演示了该系统创作的各种概念草图:机器人、蝴蝶、DNA双螺旋、流程图,甚至悉尼歌剧院等抽象图案。未来,该工具或可发展为互动艺术游戏,既能辅助教师和研究者图解复杂概念,也能为用户提供快速绘画教学。
此外,用户还可以使用 SketchAgent 将草图变为动图。
在另一个实验中,研究者为 SketchAgent 接入不同多模态语言模型进行测评。结果发现,Claude 3.5 Sonnet 生成的矢量图形(可转换为高清图像的文本文件)最具人类特质,表现优于 GPT-4o 和 Claude 3 Opus 等模型。“这一结果暗示该模型处理视觉信息的方式与众不同。”合著者 Tamar Rott Shaham 指出。
她补充道,SketchAgent 可能成为超越文本交互的新型人机协作界面:“随着模型理解草图等多元模态的能力提升,用户将获得更直觉化、类人的表达方式,这能显著丰富交互体验,提升 AI 的易用性与适应性。”
尽管 SketchAgent 展现出巨大的潜力,目前仍无法完成专业素描。它能用简笔画呈现基础概念,但对徽标、句子、独角兽等复杂生物及特定人物形象的绘制仍力不从心。协作过程中,模型偶现理解偏差——例如画出双头兔。Vinker 解释,这可能源于其“思维链”推理机制:当模型将绘图任务分解为多个步骤时,可能误解人类对哪部分草图做出贡献。研究者考虑通过扩散模型合成数据来优化这些绘图技能。
此外,该系统常需多轮提示才能生成拟人涂鸦。未来团队计划优化交互界面,简化与多模态语言模型的协作绘图流程。但该工具已证明:通过人机逐步协作,AI 有望以人类思维方式绘制多元概念,最终实现更契合设计意图的成果。
1.https://yael-vinker.github.io/sketch-agent/
2.https://news.mit.edu/2025/teaching-ai-models-to-sketch-more-like-humans-0602
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.