2025年4月23日,微软正式发布了面向Windows桌面的全新Agent操作系统——UFO²。这一创新产品基于自然语言处理和多模态大语言模型(LLM),旨在通过深度集成与优化,实现复杂任务的自动化执行和多任务协同工作流,为用户带来前所未有的智能化体验。
核心功能与技术亮点 深度集成Windows系统 UFO²通过原生API和COM接口与Windows系统深度集成,使得自动化任务无需依赖视觉定位或鼠标操作,直接调用底层接口即可完成复杂任务。例如,在Excel中自动填充数据或在Outlook中创建邮件,只需简单指令即可实现。 ![]() UFO²引入了画中画界面功能,允许用户在隔离的虚拟桌面环境中运行AI代理,从而实现多任务并行处理。这种设计不仅提升了任务执行效率,还避免了用户操作的干扰。 HostAgent与AppAgent双架构 UFO²采用双Agent架构,其中HostAgent负责解析用户指令、调度任务并协调多个AppAgent执行具体操作。这种模块化设计提高了任务执行的鲁棒性和可维护性。 混合控制技术 UFO²结合了GUI交互和原生API调用,通过动态选择最佳控制方式,显著提升了任务执行的成功率和效率。例如,在WAA测试中,UFO²的自动化成功率达到了30.5%,远高于传统RPA工具。 持续知识整合与安全检测 UFO²通过持续整合外部知识库和历史记录,优化推理过程,并在执行前检测潜在危险操作,确保用户数据的安全性。 多轮交互与任务预测 UFO²支持多轮交互和基于上下文的任务预测,能够逐步细化用户指令并智能推断下一步操作,从而大幅提高任务完成的准确性。 应用场景与用户体验 UFO²适用于多种真实应用场景,包括但不限于: 跨应用工作流:如从Excel导出数据到Outlook发送邮件。 企业任务自动化:减少重复性劳动,如文件录入和数据处理。 智能客服:快速响应用户需求,提供个性化服务。 教育辅助:演示或教学操作步骤。 UFO²还特别适合需要高效协同工作的场景,例如团队成员通过画中画界面同时处理多个任务,而互不干扰。 开源与未来展望 微软宣布UFO²开源,并开放其代码库供开发者使用。这一举措不仅推动了桌面自动化技术的发展,也为全球开发者提供了探索AI与操作系统结合可能性的平台。 微软表示,UFO²是其在AI领域的重要里程碑,未来将继续优化其性能,并探索更多跨平台兼容性和通用性提升的可能性。 |