通义千问推出 Qwen-Image-i2L,颠覆图像生成与编辑范式
阿里巴巴通义实验室正式发布全新多模态模型 Qwen-Image-i2L,标志着其在图像生成与编辑领域实现重大突破。
作为 Qwen-Image 系列的最新成员,i2L(image-to-language)模型首次实现从图像到高精度结构化语言描述的逆向生成能力,可精准解析图像中的物体布局、文字内容、色彩搭配及空间关系,并输出可用于再生成的高质量提示词。这一能力显著提升了“图生图”“图生文”“图文联合编辑”等任务的语义一致性与细节还原度。
结合 Qwen-Image 原有的 200 亿参数架构、MSRoPE 多模态位置编码和双流协同机制,Qwen-Image-i2L 在中文文本渲染准确率上保持 97.29% 的行业领先水平,同时支持像素级图像编辑、跨模态检索与自动标注。
该模型已开源并集成至 ComfyUI 等主流工作流平台,适用于电商、设计、广告及AIGC创作场景,为视觉内容生产带来更高效率与更强可控性。