模型策略
如果你想快速开始体验 Midscene,请选择模型并参考配置文档:
本篇文档会重点介绍 Midscene 的模型选用策略。如果你需要进行模型配置,请参考 模型配置。
背景知识:UI 自动化的技术路线
使用 AI 模型驱动 UI 自动化的有两个关键点:规划合理的操作路径,以及准确找到需要交互的元素。其中“元素定位”能力的强弱,会直接影响到自动化任务的成功率。
为了完成元素定位工作,UI 自动化框架一般有两种技术路线:
- 基于 DOM + 截图标注:提前提取页面的 DOM 结构,结合截图做好标注,请模型“挑选”其中的内容。
- 纯视觉:利用模型的视觉定位能力 ,基于截图完成所有分析工作,即模型收到的只有图片,没有 DOM,也没有标注信息。
Midscene 采用纯视觉路线来完成元素定位
Midscene 早期同时兼容「DOM 定位」和「纯视觉」两种技术路线,交由开发者自行选择比对。但在几十个版本迭代、上百个项目的测试后,我们有了一些新的发现。
DOM 定位方案的稳定性不足预期,它常在 Canvas 元素、CSS background-image 绘制的控件、跨域 iframe 中的内容、没有充分被辅助技术标注的元素等情况下出现定位偏差。这些时不时出现的异常情况,会让开发者投入大量时间去排查和修复,甚至陷入奇怪的 Prompt 调优怪圈。
与此同时,我们发现「纯视觉」方案开始体现出它的优越性:
- 效果稳定:这些模型在 UI 操作规划、组件定位、界面理解等领域的综合表现较好,能够帮助开发者更快上手。
- 适用于任意系统:自动化框架不再依赖 UI 渲染的技术栈。无论是 Android、iOS、桌面应用,还是浏览器中的 canvas 标签,只要能获取截图,Midscene 即可完成交互操作。
- 易于编写:抛弃各类 selector 和 DOM 之后,开发者与模型的“磨合”会变得更简单,不熟悉渲染技术的新人也能很快上手。
- token 量显著下降:相较于 DOM 方案,视觉方案的 token 使用量最多可以减少 80%,成本更低,且本地运行速度也变得更快。
- 有开源模型解决方案:开源模型表现渐佳,开发者开始有机会进行私有化部署模型,如 Qwen3-VL 提供的 8B、30B 等版本在不少项目中都有着不错的效果
综合上述情况,从 1.0 版本开始,Midscene 只支持纯视觉方案,不再提供“提取 DOM”的兼容模式。这一限制针对 UI 操作与元素定位;在数据提取或页面理解场景中,仍可按需附带 DOM 信息。
推荐使用的视觉模型
经过大量项目实测,我们推荐使用这些模型作为使用 Midscene 的默认模型:豆包 Seed,千问 VL,Gemini-3(Pro/Flash),UI-TARS。
这些模型都具备良好的“元素定位”能力,且在任务规划、界面理解等场景上也有不错的表现。
如果你不知道从哪里开始,选用你眼下最容易获得的模型即可,然后在后续迭代中再进行横向比对。
Midscene 对模型的 UI 定位能力(也称之为 Visual Grounding 特性)要求很高,gpt-5 一类的模型在此类场景表现很差,无法作为默认模型。但你可以考虑把它作为专用的“规划模型”,我们会在后文提到。

