本白皮书总结了 GUI Agent的概念、发展阻碍、技术架构和核心实现、产品形态和场景落地、未来与展望。
人工智能的演进将经历算法阶段、模型阶段、智能体阶段和智能体生态阶段四个阶段,其中算法阶段的核心特征是主要解决“如何计算”的问题,由统计学和传统的机器学习算法驱动,智能体阶段的核心特征是大模型不再是一个简单的Chatbot,而是可以主动完成任务的智能助理,智能体生态阶段的核心特征是AI将从单体智能走向多智能体协作和智能体工作流。不同的 Agent扮演不同的角色(如程序员、测试员)共同完成庞大的工程。
GUI Agent 是人机交互自动化的范式革命。人机交互经历了三次浪潮,分别是CLI阶段、GUI阶段、GUI Agent阶段,GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命,其核心是从“人操作机器”转向“机器理解并执行人的意图”,最终将消灭“应用孤岛”,使操作系统回归‘用户意图执行者“的本质。主要表现在交互逻辑革命、用户角色革命、能力边界革命、生态模式革命四个方面。
GUI Agent 驱动因素由Agent 面临的智能化困境和大模型底层技术的突破进展两方面组成。在 Agent面临的智能化困境方面,“API覆盖率不足”造成的“长尾软件孤岛”、传统 RPA 维护成本过高、跨应用跨生态造成的碎片化工作流、复杂软件使用和学习门槛较高是传统 Agent 面临的最大阻碍;在大模型底层技术的突破进展方面,VLM视觉理解能力飞跃,从“鉴赏”到“操作”的进化和LLM实现从“直觉式反应”到“深思熟虑”的进化是让 GUI Agent 得以实现的关键因素。
GUI Agent 组成包括感知模块、决策与规划模块、执行模块、反馈优化模块等四个最重要的模块,同时底层沙盒环境也是GUI Agent 安全可控的良好保障。基于各个模块设计逻辑的不同,GUI Agent形成了端到端视觉大模型、代码生成路径、多智能体协作路径三大主流技术路径。并且基于实践经验,将每个模块的核心内容、困难和挑战、技术考量维度、技术解决方案进行详细的展开和解释,期望能够与行业从业者交流、讨论和反馈。
详细介绍了 GUI Agent 可能的产品形态和落地场景,包括对手机、电脑、OS 生态和人机自动化交互具体场景的可能性。同时,提出了未来 GUI Agent 的发展可能性、面临的困难和挑战等。
无

