昆仑万维发布轻量级多模态智能体Skywork R1V4-Lite,开启随手拍即行动新交互时代
2025年11月18日,昆仑万维正式推出轻量级多模态智能体 Skywork R1V4-Lite。该模型首次在同一架构中统一了主动图像操作、深度推理与任务规划三大核心能力,突破传统“看图回答”模式,实现从感知到行动的闭环。
用户只需拍摄一张照片,R1V4-Lite 即可自主完成复杂任务:自动旋转校正视角、多次放大识别模糊文字、绘制辅助线验证几何关系,甚至跨模态搜索定位真实地点。整个过程无需提示词或额外输入,真正实现“即时多模态洞察”。
技术上,R1V4-Lite 支持联网搜索触发深度研究能力,构建“搜索—推理—验证”闭环,并能基于视觉输入自动生成可执行的任务链,涵盖工具选择、参数生成与执行顺序规划。在多项权威多模态基准测试中,其整体表现超越 Gemini 2.5 Flash,部分任务甚至达到 Gemini 2.5 Pro 水平。
得益于高效的轻量化设计,该模型响应速度约为 Gemini 2.5 Pro 的 1/19,吞吐量提升近两倍,适用于移动端、高并发在线服务及实时智能助手等场景。
昆仑万维表示,R1V4-Lite 验证了“小模型也能强、快、多模态”的新范式,其升级版 R1V4-Pro 也即将发布,未来将持续推进“多模态推理 × 智能体 × 工具增强”的技术路线,推动AI从理解世界走向主动交互与任务执行。