阿里巴巴推出了一款名为WebWatcher的多模态深度研究智能体,旨在解决现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现出强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。该智能体不仅在四大核心领域全面领先于当前主流的开源与闭源多模态大模型,还在四大VQA基准测试中表现优异,超越了GPT-4o等主流模型。WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,通过多模态高难度数据生成、推理轨迹构建与后训练等环节提升模型能力。
阿里巴巴推出WebWatcher,作为其在多模态深度研究领域的重大突破,旨在解决现有系统在复杂任务中的局限性。WebWatcher通过整合多种工具,如网页浏览、图像搜索、代码解释器和OCR,能够像人类研究员一样处理复杂任务,展现出强大的视觉理解、逻辑推理和工具调度能力。该智能体在四大核心领域全面领先于主流模型,并在四大VQA基准测试中表现优异,超越了GPT-4o等主流模型。WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,通过多模态数据生成、推理轨迹构建与后训练等环节提升模型能力。这一成果为复杂信息检索和深度研究任务提供了新的解决方案。