通用人工智能公司阶跃星辰(StepFun AI)今日正式开源其全新图形用户界面(GUI)智能体 GELab-Zero。该模型可直接理解屏幕像素、解析界面结构,并自主完成跨平台(Windows、macOS、Web、移动端)的复杂操作任务,如填写表单、数据抓取、软件测试与办公自动化等,无需依赖 API 或预设脚本。
GELab-Zero 基于多模态大语言模型架构,融合视觉感知、语义推理与动作规划能力,支持自然语言指令驱动。例如,用户只需输入“登录邮箱并下载昨天的发票附件”,智能体即可自动识别界面元素、执行点击与输入,并完成文件保存。在内部基准测试中,GELab-Zero 在通用 GUI 任务上的成功率较现有开源方案提升超 35%。
“我们希望 GELab-Zero 成为人人可用的‘数字员工’基础组件,”阶跃星辰 CEO 表示,“通过完全开源,推动社区共建更可靠、透明、可扩展的智能体生态。”
GELab-Zero 已在 GitHub 和 Hugging Face 同步开源,包含模型权重、推理代码及训练数据集构建工具,支持本地部署与微调。项目采用 Apache 2.0 许可证,欢迎开发者、研究者及企业自由使用与贡献。
关于阶跃星辰(StepFun AI)
阶跃星辰致力于打造具备感知、推理与行动能力的通用 AI 智能体,已推出 Step-1 系列大模型、Step-Audio 音频模型及多模态智能体框架,持续推动 AI 从“问答”走向“做事”。