火山引擎发布豆包大模型1.6-vision,首款具备视觉深度思考模型
2025年9月30日,北京 —— 字节跳动旗下火山引擎正式发布 豆包大模型1.6-vision,这是豆包大模型家族中首个具备工具调用能力的视觉深度思考模型,标志着其在多模态理解与智能操作能力上实现关键突破。
豆包1.6-vision 支持 Responses API,能够自主选择并调用图像处理工具,实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细操作。模型模拟人类“从全局扫描到局部聚焦”的视觉推理过程,在提升任务准确率的同时,显著增强推理的可解释性。
该模型专为高阶视觉理解场景设计,适用于电商识图、文档结构化、工业质检、智能客服等复杂应用。相比上一代 Doubao-1.5-thinking-vision-pro,豆包1.6-vision 在保持更强性能的同时,综合使用成本降低约50%。以32K输入输出场景为例,单次调用成本从5.25元降至2.6元。
此次发布进一步完善了豆包大模型在多模态领域的布局,为开发者构建具备“视觉+行动力”的AI Agent提供强大基座。火山引擎表示,豆包1.6-vision 已在火山引擎平台上线,面向企业客户开放调用。