Codex AI视频生成 — Codex免费生成视频：几分钟搭一条AI视频流水线

ivye
免费干货
4小时前
10热度
0评论

发现一个特别顺手的路子，不用自己从零去写接口，也不用手动拼什么API参数，直接让Codex调一个现成的Skill，AI视频生成就能跑起来。

这套组合是：Codex + agnes-ai-generation-skill + Agnes视频生成模型

Skill用的是这个开源项目：https://github.com/Yacey/agnes-ai-generation-skill

Agnes是Sapiens AI旗下的一个AI平台，目前去官方注册的话可以免费用他们的模型，这点挺良心的。

一句话说清楚就是——Codex负责"帮我操作和组织流程"，Skill负责"把Agnes API封装成工具"，Agnes负责"真正干活，生成视频"。你看看，是不是比从零搭一套简单太多了？

说实话，我之前自己折腾过手动调API那套流程，参数一多就容易出错，而且每次换个模型还得改一堆东西。用了这个Skill之后，感觉像是有个人帮你把所有脏活累活都封装好了，你只管提需求就行。

具体怎么个分工法？Codex接到你的指令之后，会自动判断需要调用哪些Skill能力，然后把参数整理好丢给Agnes接口，最后视频生成完毕再返回给你。整个过程基本不用你插手。

不过话说回来，免费额度肯定是有限的，重度使用的话可能还是得看看他们的付费方案。但拿来体验一下、做个demo什么的，完全够用了吧。

为什么这个组合好用？

说实话，以前调AI视频模型那套流程，真挺折腾人的。你得先注册平台账号，翻半天文档找API，生成Key，然后自己写请求代码、调接口、处理异步任务、不停轮询结果、最后还得解析返回的URL……

技术上不难，但碎啊，零零散散一大堆步骤。

有了Codex + Skill之后感觉完全不一样。我直接告诉Codex我想生成什么视频，它就自动去调用Skill里的脚本，Skill帮我搞定Agnes视频接口的请求，自动轮询任务状态，最后把视频链接丢给我。整个流程顺滑多了。

我觉得这就是Agent Skill最该干的事——把一套重复的工作流打包封装好，让AI助手不再只是嘴上说"你应该怎么做"，而是直接上手帮你搞定。你想想，这差距是不是挺明显的？

第一步：注册Agnes，获取API Key

打开Agnes官网：https://agnes-ai.com/

注册后进入平台后台，找到API Key相关页面，创建一个自己的Key。

注意：免费额度和可用模型可能随平台规则变化，建议以注册时后台显示为准。不要把API Key发给别人，也别写进公开仓库。

第二步：安装Agnes Skill

仓库地址：https://github.com/Yacey/agnes-ai-generation-skill

说实话，这个仓库挺实用的——它把Agnes的文本、图片、视频生成能力全部封装成了Codex可以直接调用的Skill。视频那部分用的模型是：agnes-video-v2.0

如果你之前配过Codex Skill的话，那基本没啥难度。直接把这个仓库装到Codex的skills目录里，完事儿Codex就能自动识别这个Skill了。到时候你让它生成视频，它就知道该怎么调用了。

第三步：配置API Key

Skill调用Agnes API时，需要从环境变量里读取API Key。常见变量名：

AGNES_API_KEY

在本地终端里可以这样设置：

$env:AGNES_API_KEY="你的 Agnes API Key"

如果你希望长期可用，可以把它写进系统环境变量。最简单的方法是把Key发给Codex，让AI帮你设置。

第四步：让Codex生成视频

配置好之后，直接对Codex说：

帮我用Agnes生成一个5秒左右的视频：一只白色猫咪走在傍晚的海边，夕阳逆光，镜头缓慢推进，电影感，真实摄影风格。

Codex会调用Skill里的视频生成能力。

Agnes视频接口是异步的，不是立刻返回成片。它通常会先返回一个task id，然后等待状态从queued、in_progress变成completed。

一个更适合视频模型的提示词写法

直接丢一句"帮我生成一个猫在海边的视频"也不是不行，但说实话，出来的东西往往跟你脑子里想的不太一样。

你得把画面、镜头、光线、动作这些细节拆开了说清楚，模型才知道怎么干活。打个比方，像这样写：

A cinematic realistic video of a white cat walking slowly along a quiet beach at sunset. Warm backlight, soft ocean waves, shallow depth of field, gentle handheld camera movement, slow push-in shot, natural fur motion, high-detail realistic photography style.

我自己的经验——视频prompt最好把这几类信息揉进去：

Skill背后实际调用了什么？

翻开这个Skill的API参考，Agnes视频生成用的是 agnes-video-v2.0 模型。老实讲，参数其实没几个：

width: 1152
height: 768
num_frames: 121
frame_rate: 24
seed: 固定随机种子
negative_prompt: 反向提示词

不过有个容易踩坑的地方——num_frames必须满足 8n + 1 这个规则。你看81、121都行。我倒是建议短视频测试先用81帧就够用了，正式输出再上121帧。

还能怎么玩？

除了文生视频，这个Skill还支持更多模式：

我比较推荐的玩法是：先让Codex用Agnes生成一张满意的封面图，再把这张图作为输入，让Agnes做图生视频。这样主体一致性通常比纯文生视频更容易控制。

进阶：怎么做一条30秒长视频？

单条5秒视频挺简单的，prompt写清楚就能出结果。

但如果想做一条30秒左右、有连续剧情、有统一角色的短片，思路就不能只是"让模型一次性生成更长"。

更稳的方法是：把30秒拆成6个镜头，每个镜头5秒，再用Codex把生成、抽帧、续写、裁剪、拼接这些步骤串起来。

比如我这次做的是：

主题：一只白色猫咪在傍晚海边散步
总时长：30秒
镜头数量：6个
每个镜头：5秒
风格：电影感、真实摄影、夕阳海边、角色一致

最直觉的做法是直接写6个prompt，分别生成6段视频，然后拼起来。对吧？

但这样特别容易翻车。角色会变，猫的体型忽大忽小，镜头距离跳来跳去，海边场景也可能每段都不一样。因为模型每生成一段，都像是在重新开始想象，根本不管上一段长啥样。

更好的办法：不要让每个镜头都从同一个角色图重新开始，而是让上一镜头的最后一帧，成为下一镜头的起点。

这样做的好处挺明显的。下一段视频继承的不只是"这是一只白猫"，还继承了上一段结束时的姿态、构图、光线、海浪位置和镜头距离。说实话，这对AI长视频来说特别关键。像Kling、Veo这类视频模型，上一镜头最后一帧到下一镜头起始帧的连续性，通常比你在prompt里堆更多形容词管用得多。

一个实际踩坑：别把镜头全喂同一张图

6个镜头全用同一张角色参考图，你觉得角色会更统一对吧？但说实话，叙事连续性反而容易崩。

为啥？每个镜头都在"从参考图重新出发"——模型根本不知道上一段视频猫走到了哪，上一段具体什么构图它也不管。各管各的，拼起来就别扭了。

我倒是更推荐尾帧生成后镜这个思路。平台要是支持Last Frame Reference、Video Extend或者Image-to-Video，都能这么玩。

话说回来，我踩过一个坑：把本地尾帧直接转成data URL丢进去，任务确实能创建，但生成结果忽好忽坏。后来发现更稳的做法是先用图生图把尾帧转成平台图片URL，再拿这个URL当下一段图生视频的输入。多一步，稳很多。

拼接之后要是出现时间戳错位或者播放兼容问题的话，裁剪阶段统一一下帧率、重置时间戳、把音轨去掉，后面会顺不少。

这种流程其实特别适合让Codex介入。它帮你自动生成命令、批量处理片段、检查最终时长，甚至某个镜头挂了还能接着重试。挺省心的。

这套方案适合谁？

如果你是开发者，拿它来快速验证 AI 视频工作流挺合适的。

如果你是内容创作者——封面动效、短视频素材、B-roll、视觉概念片这些场景都能用。老实讲，我自己最早就是冲着做封面动效去的，结果发现它比预想的能做的事多得多。

如果你正在研究 Agent，那这套方案值得拿来当案例看。Codex 不只是写代码对吧？它还可以通过 Skill 调用外部模型，把一个复杂任务拆成一步步可执行的动作。这真的有用吗？我觉得还挺有启发的。

话说回来，我喜欢这套方案的原因特别简单：它把"用 AI 生成视频"这件事，从翻文档、写接口、调参数的工程活，变成了一句自然语言指令就搞定。

Codex 负责理解和执行，Skill 负责封装工具，Agnes 负责生成结果。分工挺清晰的。

但你猜怎么着？当你需要做更长的视频时，Codex 的价值才真正体现出来——它不只是发起一次生成，而是能把"生成参考图、分镜、续写、抽帧、裁剪、拼接"这些步骤组织成一条完整的流水线。光想想就觉得省事不少。

这可能就是以后很多 AI 工具的形态：不是打开十几个网页来回复制粘贴，而是把各种能力接进 Agent，让它替你跑完整个流程。

Codex 生成视频需要付费吗？

Codex 本身和 Skill 都是免费的，Agnes 平台注册后也会送免费额度。目前免费额度够日常测试和做短视频用了，具体多少得看你注册时后台显示的数字。

Agnes 视频生成模型支持哪些参数？

主要支持 width、height、num_frames、frame_rate、seed 和 negative_prompt 这几个。num_frames 要注意，得是 8n+1 的格式，常用的就是 81 帧（大概 3.4 秒）和 121 帧（大概 5 秒）。分辨率最高到 1152x768。

怎么提升 AI 长视频的连续性？

核心方法其实就一个：尾帧续写。用上一镜头的最后一帧作为下一镜头的输入参考。这样模型能继承姿态、构图、光线和场景位置，比单纯堆提示词形容词效果好太多了。

参考链接：

Agnes AI 官网：https://agnes-ai.com/

agnes-ai-generation-skill GitHub 仓库：https://github.com/Yacey/agnes-ai-generation-skill

转自：https://mp.weixin.qq.com/s/ikCmo1LOIQXWNJq1hggpYw