一键搞定唇形同步!ComfyUI Latent Sync 详细教程

陆克科技
2025-02-20

还在为视频中人物口型与声音不同步而烦恼吗?字节跳动研发的 Latent Sync 技术,现在通过 ComfyUI 扩展,让您轻松实现超强唇形同步效果!本教程将带您深入了解 Latent Sync 技术原理,并详细讲解如何在 ComfyUI 中安装和使用该扩展,打造令人惊艳的视频效果。


项目地址: https://github.com/ShmuelRonen/ComfyUI-LatentSyncWrapper


Latent Sync 是一项纯唇形拟核技术,它通过强大的音频驱动,精准控制视频人物的口型,实现自然的唇音同步。与传统的面部标志点驱动不同,Latent Sync 采用浅空间拟核,效果更出色,适用范围也更广泛,无论您是制作短视频、动画,还是进行 AI 数字人创作。现在,Latent Sync 技术已经完美移植到 ComfyUI 平台,并提供了便捷的扩展安装方式。即使您是 ComfyUI 新手,也能轻松完成安装,快速体验 Latent Sync 的强大功能。


安装步骤:

  • 克隆仓库:

    • 在 ComfyUI根目录的 custom node 文件夹内运行命令提示符 ( 在文件夹地址栏输入cmd 回车 )

    • 输入 git clone https://github.com/ShmuelRonen/ComfyUI-LatentSyncWrapper.git 按回车键开始克隆...


  • 安装依赖包:

    • 进入 ComfyUI-LatentSyncWrapper 文件夹内运行命令提示符 ( 在文件夹地址栏输入cmd 回车 )

    • 输入 pip install -r requirements.txt 按回车键开始安装...


  • 下载模型:

    • 下载 3.4G 模型放置 comfyui根目录的/custom_nodes/ComfyUI-LatentSyncWrapper/checkpoints/

    • 下载 tiny.pt 模型放置 comfyui根目录的/custom_nodes/ComfyUI-LatentSyncWrapper/checkpoints/whisper/whisper 文件夹需要手动创建


  • 重启 ComfyUI:

    • 重启 ComfyUI,确保启动过程无报错信息,Latent Sync 扩展即可成功安装。


ComfyUI 工作流:操作步骤详解

Latent Sync 在 ComfyUI 中的使用也非常简单,只需加载官方提供的工作流,并进行简单的配置即可。‍官方工作流文件在 custom node 文件夹内的 ComfyUI-LatentSyncWrapper 文件夹下的 workflow 文件夹中可以找到


使用步骤详解:

  1. 加载工作流: 在 ComfyUI 中加载 Latent Sync 工作流文件。

  2. 上传素材:   上传您需要进行唇形同步的视频和音频素材。您可以使用教程提供的官方素材进行测试,也可以替换为您自己的素材。

  3. 运行工作流:   点击 " Queue Prompt " 按钮,ComfyUI 将自动运行工作流,进行唇形同步处理。

  4. 查看结果:   等待处理完成后,您即可预览并导出唇形同步后的视频效果。


优化技巧与注意事项

为了获得最佳的唇形同步效果,请务必注意以下几点:

  • 视频和音频预处理至关重要:

    • 视频重采样:   将视频帧率重采样至 25 帧/秒,确保视频流畅度和同步效果。

    • 音频重采样:   将音频采样率重采样至 16kHz,这是 Latent Sync 模型的最佳音频输入格式。

  • 音频重采样方法多样:

    • Python 脚本:   您可以使用 Python 脚本进行音频重采样,教程中可能提供了示例代码。

    • ComfyUI Python 节点:   ComfyUI 也提供了 Python 节点,方便您在工作流中直接进行音频处理。

  • 检查音频属性:   重采样后的音频比特率建议在 256kbps 左右,以保证音频质量。

  • 分辨率灵活:   Latent Sync 对视频分辨率没有特殊限制,您可以根据需求选择合适的分辨率。