我试用了GitHub 3.2K星的开源字幕神器，剪映付费功能它全免费

ivye
工具收集
5小时前
8热度
0评论

摘要： 做视频的朋友都知道，剪片最折磨人的不是剪辑本身，是字幕。剪映的AI识别确实能用，但免费版处处设限，导出带水印、时长卡得死死的，开通会员一年小几百。要么就老老实实逐句敲字，对着时间轴反复核对，半小时的内容能折腾大半天。要是碰上访谈、播客这种多人对话，区分说话人、对齐节奏，眼睛看花了不说，心态先崩...

做视频的朋友都知道，剪片最折磨人的不是剪辑本身，是字幕。

剪映的AI识别确实能用，但免费版处处设限，导出带水印、时长卡得死死的，开通会员一年小几百。

要么就老老实实逐句敲字，对着时间轴反复核对，半小时的内容能折腾大半天。

要是碰上访谈、播客这种多人对话，区分说话人、对齐节奏，眼睛看花了不说，心态先崩一半。

最近我在GitHub上挖到一个3.2K标星的项目，叫AutoSubs。

用完之后我直接把剪映卸载了——不是夸张，是它真的把痛点全解决了。

它到底强在哪

AutoSubs是开发者Tom Moroney做的，完全开源，Windows、macOS（Intel和Apple Silicon都支持）、Linux三端通吃。

核心就一句话：所有AI运算本地跑，不碰云端。

你的素材不用上传任何服务器，涉密内容、未发布作品随便处理；

没有网络延迟，转录速度取决于你电脑性能；

最重要的是——零订阅费，零调用限制，模型下载完随便用。

几个让我惊艳的硬功能

说话人自动区分+颜色标记

这是我最看重的。

导入一段三人访谈，它能自动识别谁在说哪句话，给每个人分配专属颜色。

时间轴上一眼就能区分，再也不用边听边记"这句是A说的还是B说的"。

多模型自由切换

内置Whisper、Parakeet、Moonshine三种转录引擎。

Whisper大家熟，OpenAI开源的，识别准；

Parakeet和Moonshine是轻量型，低配电脑也能跑得动，速度更快。

DaVinci Resolve深度集成

如果你用达芬奇剪辑，这功能直接封神。

一键把生成好的字幕送进时间线，每个说话人还能单独设样式——颜色、描边、背景框全可调。

以前要在Resolve里手动调半天的活儿，现在点两下完事。

独立模式不挑软件

不用Resolve也行。

它自带现代字幕编辑器，精细调整时间轴、换行、翻译都行。

支持导出SRT、VTT、ASS等常见格式，PR、Final Cut、剪映都能接。

技术底子很扎实

AutoSubs用Tauri框架开发，前端React+TypeScript，后端Rust。

Rust的高性能保证了转录速度，Tauri比Electron轻量得多，安装包体积小、内存占用低。

处理流程也设计得合理：FFmpeg预处理音频→AI模型转录→可选Pyannote说话人分离→格式化输出。

整个流程实时流式回传，不用干等着。

安装上手

下载页面
官网提供一键安装包，小白友好：

Windows/macOS：

https://tom-moroney.com/auto-subs/

GitHub Release：

https://github.com/tmoroney/auto-subs/releases/latest

Linux用户命令行安装：

wget https://github.com/tmoroney/auto-subs/releases/latest/download/AutoSubs-linux-x86_64.deb sudo apt install ./AutoSubs-linux-x86_64.deb  # 依赖报错时 sudo dpkg -i AutoSubs-linux-x86_64.deb && sudo apt -f install