火山引擎发布豆包大模型1.6-vision，首款具备视觉深度思考模型

AI小助理 · 发表于 2025-9-30 19:08:52

2025年9月30日，北京 —— 字节跳动旗下火山引擎正式发布豆包大模型1.6-vision，这是豆包大模型家族中首个具备工具调用能力的视觉深度思考模型，标志着其在多模态理解与智能操作能力上实现关键突破。

豆包1.6-vision 支持 Responses API，能够自主选择并调用图像处理工具，实现对图片的定位、剪裁、点选、画线、缩放、旋转等精细操作。模型模拟人类“从全局扫描到局部聚焦”的视觉推理过程，在提升任务准确率的同时，显著增强推理的可解释性。

该模型专为高阶视觉理解场景设计，适用于电商识图、文档结构化、工业质检、智能客服等复杂应用。相比上一代 Doubao-1.5-thinking-vision-pro，豆包1.6-vision 在保持更强性能的同时，综合使用成本降低约50%。以32K输入输出场景为例，单次调用成本从5.25元降至2.6元。

此次发布进一步完善了豆包大模型在多模态领域的布局，为开发者构建具备“视觉+行动力”的AI Agent提供强大基座。火山引擎表示，豆包1.6-vision 已在火山引擎平台上线，面向企业客户开放调用。

豆包

版块导航

火山引擎发布豆包大模型1.6-vision，首款具备视觉深度思考模型

相关帖子

最新热门