双人对话AI视频神器:把电影级口型同步塞进了家用电脑

摘要: 最近LTX-2.3视频生成,简直杀疯了! 就连做双人对话短视频,都手到擒来。 从前,你拍双人对话视频。 你要凑两个人的档期,要对台词,要架两台机位,拍完还要剪口型、对气口、修表情。 而最近我试了LTX-2.3双人视频版,真香! 你不再需要摄影棚,不再需要第二个演员,甚至不需要会剪辑。 一张显卡,一段...

最近LTX-2.3视频生成,简直杀疯了!

就连做双人对话短视频,都手到擒来。


从前,你拍双人对话视频。

你要凑两个人的档期,要对台词,要架两台机位,拍完还要剪口型、对气口、修表情。

而最近我试了LTX-2.3双人视频版,真香!

你不再需要摄影棚,不再需要第二个演员,甚至不需要会剪辑。

一张显卡,一段音频,就能让两个人在画面里自然聊天、对唱,口型还能对上。

终于不再是"单人独角戏"


以前的AI视频生成,基本都在玩"单人秀"。

一个美女对着镜头说话,一个产品特写缓缓旋转。

但只要画面里出现两个人,立刻崩坏——脸会粘在一起,眼神乱飘,说话像各说各的。

LTX-2.3双人视频版把这个瓶颈打破了。

它的Audio-to-Video模式支持多角色场景。

你可以上传一段包含两个声音的音频——比如一段男女对话的播客,或者一首情歌对唱。

模型会自动识别不同的声线,把对应的口型和表情分配给画面里的两个人。

你甚至可以在提示词里指定"穿红衬衫的男人说..."或者"白头发的女人回应...",模型会把台词和人物对上。

男女对唱:给音频配画面,而不是给画面配音频


更让我意外的是它的"唱歌"能力。

LTX Studio的官方文档里,Audio-to-Video被分成了三种口型模式:Person Talks(说话)、Person Sings(唱歌)、No Lip Sync(不对口型)。

它不只是简单地把嘴型开合匹配到音频,而是真的能理解歌声的节奏和情感起伏。

它的原理不是后期贴嘴型,而是在生成视频的过程中,就把音频当作"主控制信号"。

模型在扩散过程中同时处理声音和画面,所以人物的头部摆动、眉毛挑动、甚至身体的轻微律动,都是跟着音频走的。

这比传统的"先拍视频再配音"要自然得多。

8G显存怎么跑起来的?秘密在"蒸馏"和"量化"


说到这里,你可能要问:22B参数的模型,怎么可能在8G显存上跑?

答案是"蒸馏"加"量化"的双重压缩。

LTX-2.3-Distilled-1.1本身就是从完整版蒸馏而来,推理步骤从50步砍到了8步,计算量大幅减少。

但这还不够,伟大的开源社区又做了两件事:

第一,GGUF量化。

Unsloth和QuantStack发布的GGUF版本,把模型文件从42GB压到了7.94GB到15GB不等。

Q4_K_M级别的文件大约15GB,配合ComfyUI-GGUF节点。

可以把部分层 offload 到内存,让8G显存的显卡也能参与推理。

第二,FP8半精度。

Kijai发布的FP8版本专门针对RTX 40系显卡优化,显存占用进一步降低。

当然,代价是有的。

8G显存跑不了4K,也跑不了太长片段。

单次生成上限大约20秒,分辨率建议控制在720p以内。

但对于短视频来说,20秒剪成三段,够发一条抖音了。

无所谓我会出手

为了让大家能够轻松体验到该项目的魅力,我当然是:无所谓,我会出手.gif


为大家准备了一个免费整合包,让你不用配置环境,直接就能用。


上传图片&音频:上传一张双人图片和双人对话音频。

写提示词:正提示词写 “想要的效果”,反提示词写 “不要的效果”,提示词越具体,效果越准。

点击生成:点击 “生成视频”,AI自动逐帧生成视频,耗时取决于视频长度。

支持下载:生成后先预览,不满意可改提示词重生成,满意就下载成品,直接发抖音、快手、视频号。

以下是我亲测的案例:

原图:


生成的视频:

写在最后


我翻了一下LTX-2.3的更新日志,发现Lightricks从2.0到2.3,一直在做同一件事:

降低使用门槛,同时提高生成质量。

2.0时代,你要24G显存才能玩。

2.3时代,16G显存可以跑FP8。

到了Distilled-1.1,8G显存居然也能摸到了。

这不像某些闭源模型,越做越重,越做越贵,最后变成云服务的提款机。

Lightricks选择开源,而且把蒸馏版、超分模块、LoRA训练脚本全放了出来,态度很明确:让个人创作者也能用。

简直堪称赛博菩萨

如果你也有生成双人视频的需求,可以考虑试试看。

Github开源:https://github.com/Lightricks/LTX-2
夸克网盘分享:https://pan.quark.cn/s/22ec56e0f254
提取码:hzvD