旷视MegActor开源AI人像视频框架，输入照片可模仿任意表情包

AI小助理 · 发表于 2024-6-26 17:22:46

旷视科技近期发布了一项名为MegActor的开源AI人像视频生成框架，该技术允许用户通过输入一张静态肖像图片和一段视频文件，生成表情丰富、动作一致的AI人像视频。MegActor框架的生成视频长度取决于给定的驱动视频的长度，并且与市场上其他AI视频模型不同，MegActor选择以开源的方式提供给开发者社区使用，以确保实际效果的可复现性。

MegActor的开源特性意味着其训练数据全部来自公开可获取的开源数据集，并且配合开源代码，使得感兴趣的从业者可以从头开始完整复现这些效果。此外，MegActor采用了原始图像进行驱动，与多数厂商使用的方法不同，能够捕捉到更细致的表情和运动信息。

MegActor框架由两个主要阶段构成：首先，使用ReferenceNet对参考图像进行特征提取，得到参考图像的外观和背景等信息；其次，使用PoseGuider对输入的视频进行运动和表情信息提取，并将这些信息迁移到参考图像上。尽管使用原始视频进行驱动可以带来更丰富的表情细节和运动信息，但也存在ID泄露问题和原始视频中的背景及人物皱纹等无关信息可能干扰合成效果的挑战。

MegActor的发布，展示了旷视科技在AI视频生成领域的创新和领导地位，同时也为开发者社区提供了一个强大的工具，以实现更加逼真和个性化的视频生成效果。

MuseV和MegActor在生成视频时对分辨率的处理有何不同?

MuseV和MegActor在生成视频时对分辨率的处理方式存在明显差异。MuseV在较低分辨率下能够展现更大的动作范围，但相应的视频质量会降低；而在高分辨率下，虽然画质得到提升，动作范围却会受到限制。这表明MuseV在不同分辨率下对动作和画质的平衡进行了调整，但可能还需要更多类型的数据进行训练以优化表现。"由于训练数据类型有限，MuseV 在较低分辨率下具有更大的动作范围，但视频质量较低；在高分辨率下，画质更好、但动作范围较小。"

旷视科技的MegActor在开源社区中有哪些优势和挑战?

旷视科技的MegActor作为开源AI人像视频生成框架，在开源社区中具有显著的优势和面临的挑战。优势方面，MegActor能够生成表情丰富、动作一致的AI人像视频，且训练数据全部来自公开可获取的开源数据集，配合开源代码，确保了实际效果的可复现性。"MegActor 的训练数据全部来自公开可获取的开源数据集，配合开源代码，使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的效果。" 此外，MegActor的开源特性鼓励社区贡献和技术创新，促进了技术的快速发展和应用的广泛性。

然而，MegActor也面临着一些挑战。使用原始视频进行驱动虽然能带来丰富的表情细节和运动信息，但存在ID泄露问题以及原始视频中的背景和人物皱纹等无关信息可能会干扰合成效果的技术挑战。"然而，使用原始视频进行驱动依然存在两大核心技术挑战：一是 ID 泄露问题；二是原始视频中的背景和人物皱纹等无关信息会干扰影响合成表"

MegActor生成的视频在表情和动作的自然度上与其他AI视频模型相比如何?

MegActor生成的视频在表情和动作的自然度上表现出色，与其他AI视频模型相比具有明显的优势。MegActor能够呈现出丝毫毕现的效果，面部细节更加丰富自然，画质更出色。"MegActor 能够呈现出丝毫毕现的效果，面部细节更加丰富自然，画质更出色。" 此外，MegActor采用了原始图像进行驱动，与多数厂商使用 sketch、pose、landmark 的中间表示不同，能够捕捉到细致的表情和运动信息，进一步提升了表情和动作的自然度。"为了完全复刻原始视频的表情和动作，MegActor 采用了原始图像进行驱动，这与多数厂商使用 sketch、pose、landmark 的中间表示皆然不同，能够捕捉到细致的表情和运动信息。"

旷视科技的MegActor在处理ID泄露问题和背景干扰方面采取了哪些技术措施?

针对ID泄露问题和背景干扰，MegActor采取了一系列技术措施。为了避免ID泄露问题，MegActor使用了换脸和风格化方法1:1生成合成资料，实现了表情和动作一致、但ID不一致的资料。"為了避免 ID 洩露問題，MegActor 還使用換臉和風格化方法 1:1 生成合成資料，實現表情和動作一致、但 ID 不一致的資料。" 此外，为了提高对大范围动作和夸张表情的模仿能力，MegActor还进行了相应的技术优化，以减少背景和人物皱纹等无关信息对合成效果的干扰。

旷视科技的MegActor框架是否支持其他类型的输入，例如音频或文本?

目前，MegActor框架主要支持通过输入一张静态肖像图片和一段视频文件来生成AI人像视频。"用户只需输入一张静态的肖像图片，以及一段视频（演讲、表情包、rap）文件，即可生成一段表情丰富、动作一致的 AI 人像视频。" 尽管MegActor在处理视频和图像输入方面表现出色，但根据现有信息，MegActor尚未明确支持音频或文本等其他类型的输入。然而，旷视科技作为AI领域的领军企业，未来可能会扩展MegActor的功能，以支持更多样化的输入类型。

版块导航

旷视MegActor开源AI人像视频框架，输入照片可模仿任意表情包

最新热门