双人对话AI视频神器:把电影级口型同步塞进了家用电脑
- 免费干货
- 4小时前
- 8热度
- 0评论
最近LTX-2.3视频生成,简直杀疯了!
就连做双人对话短视频,都手到擒来。

从前,你拍双人对话视频。
你要凑两个人的档期,要对台词,要架两台机位,拍完还要剪口型、对气口、修表情。
而最近我试了LTX-2.3双人视频版,真香!
你不再需要摄影棚,不再需要第二个演员,甚至不需要会剪辑。
一张显卡,一段音频,就能让两个人在画面里自然聊天、对唱,口型还能对上。
终于不再是"单人独角戏"

以前的AI视频生成,基本都在玩"单人秀"。
一个美女对着镜头说话,一个产品特写缓缓旋转。
但只要画面里出现两个人,立刻崩坏——脸会粘在一起,眼神乱飘,说话像各说各的。
LTX-2.3双人视频版把这个瓶颈打破了。
它的Audio-to-Video模式支持多角色场景。
你可以上传一段包含两个声音的音频——比如一段男女对话的播客,或者一首情歌对唱。
模型会自动识别不同的声线,把对应的口型和表情分配给画面里的两个人。
你甚至可以在提示词里指定"穿红衬衫的男人说..."或者"白头发的女人回应...",模型会把台词和人物对上。
男女对唱:给音频配画面,而不是给画面配音频

更让我意外的是它的"唱歌"能力。
LTX Studio的官方文档里,Audio-to-Video被分成了三种口型模式:Person Talks(说话)、Person Sings(唱歌)、No Lip Sync(不对口型)。
它不只是简单地把嘴型开合匹配到音频,而是真的能理解歌声的节奏和情感起伏。
它的原理不是后期贴嘴型,而是在生成视频的过程中,就把音频当作"主控制信号"。
模型在扩散过程中同时处理声音和画面,所以人物的头部摆动、眉毛挑动、甚至身体的轻微律动,都是跟着音频走的。
这比传统的"先拍视频再配音"要自然得多。
8G显存怎么跑起来的?秘密在"蒸馏"和"量化"

说到这里,你可能要问:22B参数的模型,怎么可能在8G显存上跑?
答案是"蒸馏"加"量化"的双重压缩。
LTX-2.3-Distilled-1.1本身就是从完整版蒸馏而来,推理步骤从50步砍到了8步,计算量大幅减少。
但这还不够,伟大的开源社区又做了两件事:
第一,GGUF量化。
Unsloth和QuantStack发布的GGUF版本,把模型文件从42GB压到了7.94GB到15GB不等。
Q4_K_M级别的文件大约15GB,配合ComfyUI-GGUF节点。
可以把部分层 offload 到内存,让8G显存的显卡也能参与推理。
第二,FP8半精度。
Kijai发布的FP8版本专门针对RTX 40系显卡优化,显存占用进一步降低。
当然,代价是有的。
8G显存跑不了4K,也跑不了太长片段。
单次生成上限大约20秒,分辨率建议控制在720p以内。
但对于短视频来说,20秒剪成三段,够发一条抖音了。
无所谓我会出手
为了让大家能够轻松体验到该项目的魅力,我当然是:无所谓,我会出手.gif。

为大家准备了一个免费整合包,让你不用配置环境,直接就能用。

上传图片&音频:上传一张双人图片和双人对话音频。
写提示词:正提示词写 “想要的效果”,反提示词写 “不要的效果”,提示词越具体,效果越准。
点击生成:点击 “生成视频”,AI自动逐帧生成视频,耗时取决于视频长度。
支持下载:生成后先预览,不满意可改提示词重生成,满意就下载成品,直接发抖音、快手、视频号。
以下是我亲测的案例:
原图:

生成的视频:

写在最后

我翻了一下LTX-2.3的更新日志,发现Lightricks从2.0到2.3,一直在做同一件事:
降低使用门槛,同时提高生成质量。
2.0时代,你要24G显存才能玩。
2.3时代,16G显存可以跑FP8。
到了Distilled-1.1,8G显存居然也能摸到了。
这不像某些闭源模型,越做越重,越做越贵,最后变成云服务的提款机。
Lightricks选择开源,而且把蒸馏版、超分模块、LoRA训练脚本全放了出来,态度很明确:让个人创作者也能用。
简直堪称赛博菩萨!
如果你也有生成双人视频的需求,可以考虑试试看。
Github开源:https://github.com/Lightricks/LTX-2
夸克网盘分享:https://pan.quark.cn/s/22ec56e0f254
提取码:hzvD