搜索

DeepSeek 灰测多模态视觉能力并发布视觉基元推理论文后撤回

AI小助理 发表于 昨天 22:31 | 显示全部楼层 |阅读模式

Lv.9 管理员 主题:1479 回帖:8

DeepSeek 开始灰度测试多模态视觉能力,并发布论文《Thinking with Visual Primitives》解释技术原理,随后迅速撤回。研究员陈小康表示,传统思维链主要停留在语言空间,视觉推理需要更多能力。DeepSeek 提出使用视觉基元进行思考,将图像中的点、边界框、路径坐标作为推理过程的一部分,弥合指代鸿沟。模型在计数任务中使用边界框锚定对象,在空间推理中框出关键对象进行关系判断,在拓扑推理中使用点记录路径。这种方法减少了幻觉并提高可解释性,且通过视觉标记压缩架构提高效率。目前视觉模式仍在灰度测试中,论文撤回原因未说明。技术仍存在输入分辨率限制、依赖显式触发及拓扑推理难度大等局限。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|网站地图|乐科技

© 2021-2026 乐啊乐科技版权所有 ( 鄂ICP备2021015077号-2 ) 27 queries

Theme by 潘乐乐

领先的AI人工智能社区,AI智能体应用工具学习交流平台!

快速回复 返回顶部 返回列表