AI 桌面电脑的新潮流：当创新更多体现在营收上，而不是体现在智能代理上

工具声称可以控制浏览器、文件和程序，但可能会把简单任务变成漫长而昂贵的 API 调用序列

新一轮人工智能公司竞赛，不只是为了打造更聪明的模型。它们也在寻找新的地方，让这些模型可以消耗 token。

在聊天、编程助手和内容生成器之后，轮到能够控制电脑的应用程序登场了。这些智能体可以看见屏幕、移动鼠标、点击按钮、填写表单、打开文件，并代替用户在不同程序之间导航。

演示通常很令人惊叹。智能体接到一条简短指令，打开浏览器，搜索信息，把数据转移到电子表格里，然后交付看似已经完成的任务。它仿佛是工作新时代的开端。

在某些情况下，确实可能如此。

但在很多其他情况下，我们只是用一连串按使用量计费的概率性决策，替代了一个简单、廉价且可预测的自动化流程。在带有人工智能的桌面应用中，创新也许更多体现在营收上，而不是体现在智能体本身。

电脑变成了一台消耗 API 的机器

在传统的软件模式中，公司支付月度许可费，然后使用工具。到了新型智能体时代，账单可能包含订阅、基础设施、模型使用、图像处理、工具调用、搜索、响应生成，以及在出错时的重试。

智能体不只是要理解任务。它还必须观察屏幕，解读视觉元素，决定点击哪里，等待系统响应，分析新界面，并不断重复这个过程，直到得到结果。

每一步都可能产生更多上下文、更多 token 和更多处理。

直接集成一次 API 调用就能完成的事，可能需要几十次视觉交互。与其向系统请求结构化数据，智能体反而要打开一个页面，寻找正确的字段，滚动屏幕，点击、复制、切换窗口，再粘贴到别处。

这是一种模仿人类行为的高级方式，但并不总是执行数字任务最聪明的方式。

最典型的例子就是剪报

想象一家公关公司使用桌面智能体来搜索与客户相关的新闻。

机器人打开浏览器，进入搜索引擎，输入公司名称，分析结果，点进一篇文章，等待广告和页面元素加载，寻找日期，识别媒体名称，复制链接，返回剪报系统并填写字段。

然后对下一篇文章重复同样的流程。

如果遇到横幅、Cookie 弹窗、验证码、页面缓慢或布局不同，它就必须理解问题并尝试另一条路径。在整个过程中，它不断发送图像、接收指令并消耗模型资源。

这就像派一个类人机器人去按电梯按钮。

更合理的架构几乎不需要人工智能。它会使用 API、RSS 源、搜索引擎、结构化抓取和确定性规则来收集标题、链接、媒体名称、日期和内容。然后再通过 URL、哈希或文本相似度去重。

人工智能只会在真正需要解释的地方介入：判断文章是否与客户相关、分类主题、评估来源的重要性、生成摘要，并指出可能的风险或机会。

在这种模式下，传统软件负责可预测的体力活，语言模型执行认知部分。成本更低，速度更快，流程也更容易审计。

当由智能体控制浏览器时，一切都变成了推理。就连打开一个标签页，也成了一次要收费的决策。

在软件开发中，表演也很昂贵

当桌面智能体被用来做一些小的代码修改时，同样的失衡也会出现。

开发环境本来就具备全局搜索、直接访问文件、终端、版本控制、错误分析、自动化测试，以及能够精确编辑代码的工具。与编辑器集成的助手可以定位函数、提出修改、展示 diff，并执行测试，而不必模拟一个人用鼠标操作。

让桌面智能体打开 IDE、视觉上寻找文件、在菜单中导航并输入修改，也许能工作。但这会增加一层不必要的缓慢和不确定性。

IDE 内的智能体了解项目结构。桌面智能体只认识屏幕像素。

为了做一个小改动，第二种选择往往需要更多步骤、更多上下文和更多出错机会。用户看着光标移动，会觉得它更自主，但视觉上的自主并不等于技术上的高效。

这就是“集成进系统”与“上演一出人类如何使用系统的戏剧”之间的区别。

智能体也会对错误尝试收费

语言模型执行任务时，并不具备数学意义上的绝对正确保证。即使是最先进的系统，仍然可能误读屏幕、点错元素、丢失上下文、重复操作，或需要重做流程的一部分。

这带来了一个有趣的商业特征：供应商赚到的钱，不仅来自完成的工作，也来自失败的尝试。

在传统软件里，错误是开发者必须修复的问题。而在通过 API 消耗模型时，错误也可能意味着更多 token、更多调用和更多处理。

智能体不一定要好很多。从商业角度看，只要它能工作更久就够了。

这就像雇一位按思考收费的专业人士，甚至连错误的想法也收费。

这并不意味着所有基于智能体的产品都别有用心。开发能够操作不同界面的系统，确实是一个真实的技术挑战。问题出在：当一种令人印象深刻的能力被自动当作任何流程的最佳方案时。

并不是所有能由智能体操作的东西，都应该由智能体来操作。

桌面智能体什么时候真正有意义

在某些情况下，这类技术确实很有价值。没有 API 的老旧系统、封闭门户、专有程序、跨多个应用的零散任务，以及不值得做常规集成的流程，都可能受益于视觉智能体。

当任务的金钱价值很高、执行次数很少，而且用其他方式自动化成本过高时，也可能有优势。在这种情况下，为一次执行支付几美元，相比产出而言也许微不足道。

错误在于把这种例外当成标准架构。

在让智能体控制电脑之前，公司应该回答一些不那么“电影化”的问题：任务会执行多少次、每次成本多少、多少步骤依赖解释、可接受的错误率是多少、人工监督成本又是多少。

同时，还必须把智能体与那些没那么炫目的替代方案进行比较：直接集成、脚本、传统自动化、浏览器扩展、系统原生功能，或者仅仅是在正确工具中使用一个语言模型。

问题不该是“智能体能不能做这个？”，而应该是“这是不是做这件事最经济、最可靠的方式？”

最好的人工智能，往往是不太显眼的那种

在设计良好的自动化中，用户不需要盯着一个光标在屏幕上到处跑，才相信背后真的有智能在工作。

采集由代码完成。数据以结构化方式到达。规则处理可预测的部分。模型只在需要解决歧义、解释上下文，或生成真正依赖语言和推理的内容时才被调用。

模型越少需要假装自己是在使用电脑的人，就越有机会构建出快速、廉价且可靠的流程。

智能体的未来很可能会很重要。它们会在传统集成到不了、而人类解释仍然必要的地方发挥作用。但这并不推翻技术领域的一条老原则：最现代的解决方案，并不一定就是最好的架构。

真正的进步，不在于让人工智能点击一切，而在于知道它什么时候不该点击。

在这一区别变得清晰之前，我们还会看到许多桌面应用被包装成技术革命，尽管它们最主要的“发现”只是：把用户的每一个动作都变成新的收费机会。