我试用了GitHub 3.2K星的开源字幕神器,剪映付费功能它全免费
- 工具收集
- 5小时前
- 8热度
- 0评论
做视频的朋友都知道,剪片最折磨人的不是剪辑本身,是字幕。
剪映的AI识别确实能用,但免费版处处设限,导出带水印、时长卡得死死的,开通会员一年小几百。
要么就老老实实逐句敲字,对着时间轴反复核对,半小时的内容能折腾大半天。
要是碰上访谈、播客这种多人对话,区分说话人、对齐节奏,眼睛看花了不说,心态先崩一半。

最近我在GitHub上挖到一个3.2K标星的项目,叫AutoSubs。
用完之后我直接把剪映卸载了——不是夸张,是它真的把痛点全解决了。
它到底强在哪
AutoSubs是开发者Tom Moroney做的,完全开源,Windows、macOS(Intel和Apple Silicon都支持)、Linux三端通吃。

核心就一句话:所有AI运算本地跑,不碰云端。
你的素材不用上传任何服务器,涉密内容、未发布作品随便处理;
没有网络延迟,转录速度取决于你电脑性能;
最重要的是——零订阅费,零调用限制,模型下载完随便用。
几个让我惊艳的硬功能

说话人自动区分+颜色标记
这是我最看重的。
导入一段三人访谈,它能自动识别谁在说哪句话,给每个人分配专属颜色。
时间轴上一眼就能区分,再也不用边听边记"这句是A说的还是B说的"。
多模型自由切换
内置Whisper、Parakeet、Moonshine三种转录引擎。
Whisper大家熟,OpenAI开源的,识别准;
Parakeet和Moonshine是轻量型,低配电脑也能跑得动,速度更快。
DaVinci Resolve深度集成

如果你用达芬奇剪辑,这功能直接封神。
一键把生成好的字幕送进时间线,每个说话人还能单独设样式——颜色、描边、背景框全可调。
以前要在Resolve里手动调半天的活儿,现在点两下完事。
独立模式不挑软件
不用Resolve也行。
它自带现代字幕编辑器,精细调整时间轴、换行、翻译都行。
支持导出SRT、VTT、ASS等常见格式,PR、Final Cut、剪映都能接。
技术底子很扎实
AutoSubs用Tauri框架开发,前端React+TypeScript,后端Rust。
Rust的高性能保证了转录速度,Tauri比Electron轻量得多,安装包体积小、内存占用低。
处理流程也设计得合理:FFmpeg预处理音频→AI模型转录→可选Pyannote说话人分离→格式化输出。
整个流程实时流式回传,不用干等着。
安装上手

官网提供一键安装包,小白友好:
Windows/macOS:
https://tom-moroney.com/auto-subs/
GitHub Release:
https://github.com/tmoroney/auto-subs/releases/latest
Linux用户命令行安装:
wget https://github.com/tmoroney/auto-subs/releases/latest/download/AutoSubs-linux-x86_64.deb sudo apt install ./AutoSubs-linux-x86_64.deb # 依赖报错时 sudo dpkg -i AutoSubs-linux-x86_64.deb && sudo apt -f install
最后
我用了两周,处理过播客、访谈、教程视频几种类型。
准确率方面,普通话带口音的内容,Whisper large模型下错误率不到5%,比剪映免费版强一截。
说话人分离在安静环境下很准,背景太杂或人太多时会偶尔串,但手动修正比从零开始快十倍。
唯一要注意的是模型体积。
Whisper large大概3GB,第一次下载需要耐心,之后离线随便用。
如果你每个月花在字幕上的时间超过10小时,或者对隐私有要求,AutoSubs值得试试。
把时间省下来做内容,比反复调时间轴有价值多了。
官网:https://tom-moroney.com/auto-subs/
GitHub:https://github.com/tmoroney/auto-sub