Meta公司最近在SIGGRAPH上宣布并开源了「分割一切」2.0模型,即Segment Anything Model 2(SAM 2)。这一新版本是对去年发布的初代「分割一切」模型的重大升级,能够实现对静态图像和动态视频内容的实时、可提示的对象分割。SAM 2通过其统一的模型,可以分割任何视频或图像中的任何对象,包括以前从未见过的对象和视觉域,无需进行自定义调整。
具体来说,SAM 2在图像分割准确率方面超越了之前的功能,并且在视频分割性能上也优于现有工作,交互时间减少为原来的1/3。此外,该模型还支持一键跟踪运动物体,并且代码、权重以及数据集均开源,遵循Apache 2.0许可协议。 为了训练SAM 2,Meta发布了大型带注释数据库SA-V,包含约51,000个真实世界视频和超过600,000个masklets。与现有的最大视频分割数据集相比,其视频数量多4.5倍,注释多53倍。 总之,SAM 2不仅实现了图像和视频分割功能的统一,还显著提升了分割的准确性和效率,为各种图像和视频应用提供了强大的技术支持. ![]() |