2025年10月15日,北京 —— 字节跳动今日正式开源其自研的FaceCLIP模型,一款专为人脸理解优化的多模态对比学习框架。该模型在通用CLIP架构基础上,引入大规模人脸语义对齐训练,显著提升了人脸识别、属性分析与跨模态检索的准确性与鲁棒性。
FaceCLIP通过融合人脸图像与文本描述(如“戴眼镜的亚洲女性”“微笑的中年男性”等),实现了细粒度的人脸语义理解能力。在多个公开基准测试中,FaceCLIP在人脸检索、零样本分类和属性预测任务上均优于现有开源模型,尤其在遮挡、低光照等复杂场景下表现突出。
字节跳动表示,开源FaceCLIP旨在促进学术界与工业界在可信AI、隐私保护与多模态感知等方向的协同创新。项目代码、预训练模型及使用文档已发布于GitHub,采用Apache 2.0开源协议,支持学术研究与商业应用。
项目地址:
https://github.com/bytedance/FaceCLIP