还在为视频中人物口型与声音不同步而烦恼吗?字节跳动研发的 Latent Sync 技术,现在通过 ComfyUI 扩展,让您轻松实现超强唇形同步效果!本教程将带您深入了解 Latent Sync 技术原理,并详细讲解如何在 ComfyUI 中安装和使用该扩展,打造令人惊艳的视频效果。
项目地址: https://github.com/ShmuelRonen/ComfyUI-LatentSyncWrapper
Latent Sync 是一项纯唇形拟核技术,它通过强大的音频驱动,精准控制视频人物的口型,实现自然的唇音同步。与传统的面部标志点驱动不同,Latent Sync 采用浅空间拟核,效果更出色,适用范围也更广泛,无论您是制作短视频、动画,还是进行 AI 数字人创作。现在,Latent Sync 技术已经完美移植到 ComfyUI 平台,并提供了便捷的扩展安装方式。即使您是 ComfyUI 新手,也能轻松完成安装,快速体验 Latent Sync 的强大功能。
安装步骤:
克隆仓库:
在 ComfyUI根目录的 custom node 文件夹内运行命令提示符 ( 在文件夹地址栏输入cmd 回车 )
输入 git clone https://github.com/ShmuelRonen/ComfyUI-LatentSyncWrapper.git 按回车键开始克隆...
安装依赖包:
进入 ComfyUI-LatentSyncWrapper 文件夹内运行命令提示符 ( 在文件夹地址栏输入cmd 回车 )
输入 pip install -r requirements.txt 按回车键开始安装...
下载模型:
下载 3.4G 模型放置 comfyui根目录的/custom_nodes/ComfyUI-LatentSyncWrapper/checkpoints/
下载 tiny.pt 模型放置 comfyui根目录的/custom_nodes/ComfyUI-LatentSyncWrapper/checkpoints/whisper/,whisper 文件夹需要手动创建。
重启 ComfyUI:
重启 ComfyUI,确保启动过程无报错信息,Latent Sync 扩展即可成功安装。
ComfyUI 工作流:操作步骤详解
Latent Sync 在 ComfyUI 中的使用也非常简单,只需加载官方提供的工作流,并进行简单的配置即可。官方工作流 文件在 custom node 文件夹内的 ComfyUI-LatentSyncWrapper 文件夹下的 workflow 文件夹中可以找到。
使用步骤详解:
加载工作流: 在 ComfyUI 中加载 Latent Sync 工作流文件。
上传素材: 上传您需要进行唇形同步的视频和音频素材。您可以使用教程提供的官方素材进行测试,也可以替换为您自己的素材。
运行工作流: 点击 " Queue Prompt " 按钮,ComfyUI 将自动运行工作流,进行唇形同步处理。
查看结果: 等待处理完成后,您即可预览并导出唇形同步后的视频效果。
为了获得最佳的唇形同步效果,请务必注意以下几点:
视频和音频预处理至关重要:
视频重采样: 将视频帧率重采样至 25 帧/秒,确保视频流畅度和同步效果。
音频重采样: 将音频采样率重采样至 16kHz,这是 Latent Sync 模型的最佳音频输入格式。
音频重采样方法多样:
Python 脚本: 您可以使用 Python 脚本进行音频重采样,教程中可能提供了示例代码。
ComfyUI Python 节点: ComfyUI 也提供了 Python 节点,方便您在工作流中直接进行音频处理。
检查音频属性: 重采样后的音频比特率建议在 256kbps 左右,以保证音频质量。
分辨率灵活: Latent Sync 对视频分辨率没有特殊限制,您可以根据需求选择合适的分辨率。