DeepSeek 灰测多模态视觉能力并发布视觉基元推理论文后撤回
DeepSeek 开始灰度测试多模态视觉能力,并发布论文《Thinking with Visual Primitives》解释技术原理,随后迅速撤回。研究员陈小康表示,传统思维链主要停留在语言空间,视觉推理需要更多能力。DeepSeek 提出使用视觉基元进行思考,将图像中的点、边界框、路径坐标作为推理过程的一部分,弥合指代鸿沟。模型在计数任务中使用边界框锚定对象,在空间推理中框出关键对象进行关系判断,在拓扑推理中使用点记录路径。这种方法减少了幻觉并提高可解释性,且通过视觉标记压缩架构提高效率。目前视觉模式仍在灰度测试中,论文撤回原因未说明。技术仍存在输入分辨率限制、依赖显式触发及拓扑推理难度大等局限。
|
|
|
|
|
|
|
|