Skip to content

09 · 多模态:贴图改 UI

📚 系列导航:上一篇 08 四类高频工作流 给了四类场景的模板。这一篇加一个新维度——不光能打字,还能直接给它看图:报错截图、设计稿、架构图,丢进去它就懂。


01 为什么要给它看图

当一件事「描述起来比截图还费劲」的时候,就该上图了。官方原话:当文本描述不清楚或繁琐时使用图像

场景打字描述有多累上图有多省
页面错位/样式不对「这个 div 往右偏了二十几像素,还跟下面那块重叠了」截个图,它一眼看到错位
报错弹窗/控制台红字手敲一长串堆栈截图甩进去,上下文一起给
还原设计稿/仿组件「主色偏紫的蓝,圆角不大不小……」给图让它自己量

02 三种喂图方式

方法操作最适合
拖进窗口从文件管理器拖进终端新手,最直觉
ctrl+v 粘贴复制图片后按 ctrl+v最高频,截图后直接用
给文件路径提示里直接写路径脚本/已存文件

WARNING

全篇最大的坑:Mac 粘贴图片用 ctrl+v,不是你习惯的 cmd+v 很多终端里 cmd+v 粘的是文件路径文本,图根本没进去,还以为不支持。ctrl+v 是哪儿都好使的路。

粘贴成功后输入框出现 [Image #1] 标记,表示图上好了。


03 三大用途

用途一:贴报错截图

把出问题的截图甩给它,让它看着现场断案。报错弹窗里有图标、有颜色、有排版,手敲只能描述个大概,截图就是给 Claude 的「现场照片」。

text
Here's a screenshot of the error. What's causing it?

用途二:还原设计稿

给它一张设计稿,让它吐出能跑的代码。这是效率差距拉开最大的地方——对着图量数值、调间距、试配色,原本是最枯燥的体力活。

text
照着这张设计稿生成对应的 CSS
text
What HTML structure would recreate this component?

TIP

合理预期:它不是像素级复刻,是给你一个高完成度的起点。从零写 CSS 和改它给的八成稿,完全是两个工作量。

用途三:读图表/架构图

图表、数据库 schema、架构图——这类「讲关系」的图用文字串起来特别绕,用图一目了然。

text
This is our current database schema. How should we modify it for the new feature?
text
Are there any problematic elements in this diagram?

接手陌生项目时,对方甩来一张架构图 PNG,直接喂给 Claude 让它先讲讲系统大概怎么跑——比自己对着图干瞪眼快得多。


04 多图与引用

  • 同一条提示塞多张:比如「这是旧设计稿、这是新设计稿,对比改了哪些地方」
  • Claude 用 [Image #1][Image #2] 编号引用,多图时一眼对上
  • 点开编号就能打开图片:Mac 上 Cmd+Click,Windows/Linux 上 Ctrl+Click

NOTE

注意两个快捷键是反的:粘贴图片用 ctrl,点开图片链接 Mac 上却用 Cmd——别记混了。


05 动手:拖一张图让它读

bash
claude

把桌面任意一张图拖进终端窗口,输入框出现 [Image #1] 标记,接着打字:

text
这张图里是什么?用中文描述一下你看到的内容

预期:Claude 读取图片,准确描述图里内容。看到它说对了 = 喂图成功。

Mac 试粘贴方式:在预览里复制图片,回终端按 ctrl+v(不是 cmd+v)。按完出来路径文本就是按错了,删掉重来。


06 小结

维度关键点
怎么喂拖进窗口 / ctrl+v 粘贴 / 给路径
最大坑Mac 用 ctrl+v,别用 cmd+v
三大用途报错/UI 截图、还原设计稿、读图表/架构图
何时上图描述比截图还累的时候
多图与引用同一条可塞多张,[Image #N] 编号引用,点开查看

NOTE

下一篇10 会话经营:上下文窗口怎么管、对话怎么压缩、模式怎么切——把 Claude 的注意力省在真正要紧的事上。

Claude Code 实战手册