新一轮人工智能公司竞赛,不只是为了打造更聪明的模型。它们也在寻找新的地方,让这些模型可以消耗 token。

在聊天、编程助手和内容生成器之后,轮到能够控制电脑的应用程序登场了。这些智能体可以看见屏幕、移动鼠标、点击按钮、填写表单、打开文件,并代替用户在不同程序之间导航。

演示通常很令人惊叹。智能体接到一条简短指令,打开浏览器,搜索信息,把数据转移到电子表格里,然后交付看似已经完成的任务。它仿佛是工作新时代的开端。

在某些情况下,确实可能如此。

但在很多其他情况下,我们只是用一连串按使用量计费的概率性决策,替代了一个简单、廉价且可预测的自动化流程。在带有人工智能的桌面应用中,创新也许更多体现在营收上,而不是体现在智能体本身。

电脑变成了一台消耗 API 的机器

在传统的软件模式中,公司支付月度许可费,然后使用工具。到了新型智能体时代,账单可能包含订阅、基础设施、模型使用、图像处理、工具调用、搜索、响应生成,以及在出错时的重试。

智能体不只是要理解任务。它还必须观察屏幕,解读视觉元素,决定点击哪里,等待系统响应,分析新界面,并不断重复这个过程,直到得到结果。

每一步都可能产生更多上下文、更多 token 和更多处理。

直接集成一次 API 调用就能完成的事,可能需要几十次视觉交互。与其向系统请求结构化数据,智能体反而要打开一个页面,寻找正确的字段,滚动屏幕,点击、复制、切换窗口,再粘贴到别处。

这是一种模仿人类行为的高级方式,但并不总是执行数字任务最聪明的方式。

最典型的例子就是剪报

想象一家公关公司使用桌面智能体来搜索与客户相关的新闻。

机器人打开浏览器,进入搜索引擎,输入公司名称,分析结果,点进一篇文章,等待广告和页面元素加载,寻找日期,识别媒体名称,复制链接,返回剪报系统并填写字段。

然后对下一篇文章重复同样的流程。

如果遇到横幅、Cookie 弹窗、验证码、页面缓慢或布局不同,它就必须理解问题并尝试另一条路径。在整个过程中,它不断发送图像、接收指令并消耗模型资源。

这就像派一个类人机器人去按电梯按钮。

更合理的架构几乎不需要人工智能。它会使用 API、RSS 源、搜索引擎、结构化抓取和确定性规则来收集标题、链接、媒体名称、日期和内容。然后再通过 URL、哈希或文本相似度去重。

人工智能只会在真正需要解释的地方介入:判断文章是否与客户相关、分类主题、评估来源的重要性、生成摘要,并指出可能的风险或机会。

在这种模式下,传统软件负责可预测的体力活,语言模型执行认知部分。成本更低,速度更快,流程也更容易审计。

当由智能体控制浏览器时,一切都变成了推理。就连打开一个标签页,也成了一次要收费的决策。

在软件开发中,表演也很昂贵

当桌面智能体被用来做一些小的代码修改时,同样的失衡也会出现。

开发环境本来就具备全局搜索、直接访问文件、终端、版本控制、错误分析、自动化测试,以及能够精确编辑代码的工具。与编辑器集成的助手可以定位函数、提出修改、展示 diff,并执行测试,而不必模拟一个人用鼠标操作。

让桌面智能体打开 IDE、视觉上寻找文件、在菜单中导航并输入修改,也许能工作。但这会增加一层不必要的缓慢和不确定性。

IDE 内的智能体了解项目结构。桌面智能体只认识屏幕像素。

为了做一个小改动,第二种选择往往需要更多步骤、更多上下文和更多出错机会。用户看着光标移动,会觉得它更自主,但视觉上的自主并不等于技术上的高效。

这就是“集成进系统”与“上演一出人类如何使用系统的戏剧”之间的区别。

智能体也会对错误尝试收费

语言模型执行任务时,并不具备数学意义上的绝对正确保证。即使是最先进的系统,仍然可能误读屏幕、点错元素、丢失上下文、重复操作,或需要重做流程的一部分。

这带来了一个有趣的商业特征:供应商赚到的钱,不仅来自完成的工作,也来自失败的尝试。

在传统软件里,错误是开发者必须修复的问题。而在通过 API 消耗模型时,错误也可能意味着更多 token、更多调用和更多处理。

智能体不一定要好很多。从商业角度看,只要它能工作更久就够了。

这就像雇一位按思考收费的专业人士,甚至连错误的想法也收费。

这并不意味着所有基于智能体的产品都别有用心。开发能够操作不同界面的系统,确实是一个真实的技术挑战。问题出在:当一种令人印象深刻的能力被自动当作任何流程的最佳方案时。

并不是所有能由智能体操作的东西,都应该由智能体来操作。

桌面智能体什么时候真正有意义

在某些情况下,这类技术确实很有价值。没有 API 的老旧系统、封闭门户、专有程序、跨多个应用的零散任务,以及不值得做常规集成的流程,都可能受益于视觉智能体。

当任务的金钱价值很高、执行次数很少,而且用其他方式自动化成本过高时,也可能有优势。在这种情况下,为一次执行支付几美元,相比产出而言也许微不足道。

错误在于把这种例外当成标准架构。

在让智能体控制电脑之前,公司应该回答一些不那么“电影化”的问题:任务会执行多少次、每次成本多少、多少步骤依赖解释、可接受的错误率是多少、人工监督成本又是多少。

同时,还必须把智能体与那些没那么炫目的替代方案进行比较:直接集成、脚本、传统自动化、浏览器扩展、系统原生功能,或者仅仅是在正确工具中使用一个语言模型。

问题不该是“智能体能不能做这个?”,而应该是“这是不是做这件事最经济、最可靠的方式?”

最好的人工智能,往往是不太显眼的那种

在设计良好的自动化中,用户不需要盯着一个光标在屏幕上到处跑,才相信背后真的有智能在工作。

采集由代码完成。数据以结构化方式到达。规则处理可预测的部分。模型只在需要解决歧义、解释上下文,或生成真正依赖语言和推理的内容时才被调用。

模型越少需要假装自己是在使用电脑的人,就越有机会构建出快速、廉价且可靠的流程。

智能体的未来很可能会很重要。它们会在传统集成到不了、而人类解释仍然必要的地方发挥作用。但这并不推翻技术领域的一条老原则:最现代的解决方案,并不一定就是最好的架构。

真正的进步,不在于让人工智能点击一切,而在于知道它什么时候不该点击。

在这一区别变得清晰之前,我们还会看到许多桌面应用被包装成技术革命,尽管它们最主要的“发现”只是:把用户的每一个动作都变成新的收费机会。