Codex AI视频生成 — Codex免费生成视频:几分钟搭一条AI视频流水线

发现一个特别顺手的路子,不用自己从零去写接口,也不用手动拼什么API参数,直接让Codex调一个现成的Skill,AI视频生成就能跑起来。

这套组合是:Codex + agnes-ai-generation-skill + Agnes视频生成模型

Skill用的是这个开源项目:https://github.com/Yacey/agnes-ai-generation-skill

Agnes是Sapiens AI旗下的一个AI平台,目前去官方注册的话可以免费用他们的模型,这点挺良心的。

一句话说清楚就是——Codex负责"帮我操作和组织流程",Skill负责"把Agnes API封装成工具",Agnes负责"真正干活,生成视频"。你看看,是不是比从零搭一套简单太多了?

说实话,我之前自己折腾过手动调API那套流程,参数一多就容易出错,而且每次换个模型还得改一堆东西。用了这个Skill之后,感觉像是有个人帮你把所有脏活累活都封装好了,你只管提需求就行。

具体怎么个分工法?Codex接到你的指令之后,会自动判断需要调用哪些Skill能力,然后把参数整理好丢给Agnes接口,最后视频生成完毕再返回给你。整个过程基本不用你插手。

不过话说回来,免费额度肯定是有限的,重度使用的话可能还是得看看他们的付费方案。但拿来体验一下、做个demo什么的,完全够用了吧。

为什么这个组合好用?

说实话,以前调AI视频模型那套流程,真挺折腾人的。你得先注册平台账号,翻半天文档找API,生成Key,然后自己写请求代码、调接口、处理异步任务、不停轮询结果、最后还得解析返回的URL……

技术上不难,但碎啊,零零散散一大堆步骤。

有了Codex + Skill之后感觉完全不一样。我直接告诉Codex我想生成什么视频,它就自动去调用Skill里的脚本,Skill帮我搞定Agnes视频接口的请求,自动轮询任务状态,最后把视频链接丢给我。整个流程顺滑多了。

我觉得这就是Agent Skill最该干的事——把一套重复的工作流打包封装好,让AI助手不再只是嘴上说"你应该怎么做",而是直接上手帮你搞定。你想想,这差距是不是挺明显的?

第一步:注册Agnes,获取API Key

打开Agnes官网:https://agnes-ai.com/

注册后进入平台后台,找到API Key相关页面,创建一个自己的Key。

注意:免费额度和可用模型可能随平台规则变化,建议以注册时后台显示为准。不要把API Key发给别人,也别写进公开仓库。

第二步:安装Agnes Skill

仓库地址:https://github.com/Yacey/agnes-ai-generation-skill

说实话,这个仓库挺实用的——它把Agnes的文本、图片、视频生成能力全部封装成了Codex可以直接调用的Skill。视频那部分用的模型是:agnes-video-v2.0

如果你之前配过Codex Skill的话,那基本没啥难度。直接把这个仓库装到Codex的skills目录里,完事儿Codex就能自动识别这个Skill了。到时候你让它生成视频,它就知道该怎么调用了。

第三步:配置API Key

Skill调用Agnes API时,需要从环境变量里读取API Key。常见变量名:

AGNES_API_KEY

在本地终端里可以这样设置:

$env:AGNES_API_KEY="你的 Agnes API Key"

如果你希望长期可用,可以把它写进系统环境变量。最简单的方法是把Key发给Codex,让AI帮你设置。

第四步:让Codex生成视频

配置好之后,直接对Codex说:

帮我用Agnes生成一个5秒左右的视频:一只白色猫咪走在傍晚的海边,夕阳逆光,镜头缓慢推进,电影感,真实摄影风格。

Codex会调用Skill里的视频生成能力。

Agnes视频接口是异步的,不是立刻返回成片。它通常会先返回一个task id,然后等待状态从queued、in_progress变成completed。

一个更适合视频模型的提示词写法

直接丢一句"帮我生成一个猫在海边的视频"也不是不行,但说实话,出来的东西往往跟你脑子里想的不太一样。

你得把画面、镜头、光线、动作这些细节拆开了说清楚,模型才知道怎么干活。打个比方,像这样写:

A cinematic realistic video of a white cat walking slowly along a quiet beach at sunset. Warm backlight, soft ocean waves, shallow depth of field, gentle handheld camera movement, slow push-in shot, natural fur motion, high-detail realistic photography style.

我自己的经验——视频prompt最好把这几类信息揉进去:

Skill背后实际调用了什么?

翻开这个Skill的API参考,Agnes视频生成用的是 agnes-video-v2.0 模型。老实讲,参数其实没几个:

width: 1152
height: 768
num_frames: 121
frame_rate: 24
seed: 固定随机种子
negative_prompt: 反向提示词

不过有个容易踩坑的地方——num_frames必须满足 8n + 1 这个规则。你看81、121都行。我倒是建议短视频测试先用81帧就够用了,正式输出再上121帧。

还能怎么玩?

除了文生视频,这个Skill还支持更多模式:

我比较推荐的玩法是:先让Codex用Agnes生成一张满意的封面图,再把这张图作为输入,让Agnes做图生视频。这样主体一致性通常比纯文生视频更容易控制。

进阶:怎么做一条30秒长视频?

单条5秒视频挺简单的,prompt写清楚就能出结果。

但如果想做一条30秒左右、有连续剧情、有统一角色的短片,思路就不能只是"让模型一次性生成更长"。

更稳的方法是:把30秒拆成6个镜头,每个镜头5秒,再用Codex把生成、抽帧、续写、裁剪、拼接这些步骤串起来。

比如我这次做的是:

主题:一只白色猫咪在傍晚海边散步
总时长:30秒
镜头数量:6个
每个镜头:5秒
风格:电影感、真实摄影、夕阳海边、角色一致

最直觉的做法是直接写6个prompt,分别生成6段视频,然后拼起来。对吧?

但这样特别容易翻车。角色会变,猫的体型忽大忽小,镜头距离跳来跳去,海边场景也可能每段都不一样。因为模型每生成一段,都像是在重新开始想象,根本不管上一段长啥样。

更好的办法:不要让每个镜头都从同一个角色图重新开始,而是让上一镜头的最后一帧,成为下一镜头的起点。

这样做的好处挺明显的。下一段视频继承的不只是"这是一只白猫",还继承了上一段结束时的姿态、构图、光线、海浪位置和镜头距离。说实话,这对AI长视频来说特别关键。像Kling、Veo这类视频模型,上一镜头最后一帧到下一镜头起始帧的连续性,通常比你在prompt里堆更多形容词管用得多。

一个实际踩坑:别把镜头全喂同一张图

6个镜头全用同一张角色参考图,你觉得角色会更统一对吧?但说实话,叙事连续性反而容易崩。

为啥?每个镜头都在"从参考图重新出发"——模型根本不知道上一段视频猫走到了哪,上一段具体什么构图它也不管。各管各的,拼起来就别扭了。

我倒是更推荐尾帧生成后镜这个思路。平台要是支持Last Frame Reference、Video Extend或者Image-to-Video,都能这么玩。

话说回来,我踩过一个坑:把本地尾帧直接转成data URL丢进去,任务确实能创建,但生成结果忽好忽坏。后来发现更稳的做法是先用图生图把尾帧转成平台图片URL,再拿这个URL当下一段图生视频的输入。多一步,稳很多。

拼接之后要是出现时间戳错位或者播放兼容问题的话,裁剪阶段统一一下帧率、重置时间戳、把音轨去掉,后面会顺不少。

这种流程其实特别适合让Codex介入。它帮你自动生成命令、批量处理片段、检查最终时长,甚至某个镜头挂了还能接着重试。挺省心的。

这套方案适合谁?

如果你是开发者,拿它来快速验证 AI 视频工作流挺合适的。

如果你是内容创作者——封面动效、短视频素材、B-roll、视觉概念片这些场景都能用。老实讲,我自己最早就是冲着做封面动效去的,结果发现它比预想的能做的事多得多。

如果你正在研究 Agent,那这套方案值得拿来当案例看。Codex 不只是写代码对吧?它还可以通过 Skill 调用外部模型,把一个复杂任务拆成一步步可执行的动作。这真的有用吗?我觉得还挺有启发的。

话说回来,我喜欢这套方案的原因特别简单:它把"用 AI 生成视频"这件事,从翻文档、写接口、调参数的工程活,变成了一句自然语言指令就搞定。

Codex 负责理解和执行,Skill 负责封装工具,Agnes 负责生成结果。分工挺清晰的。

但你猜怎么着?当你需要做更长的视频时,Codex 的价值才真正体现出来——它不只是发起一次生成,而是能把"生成参考图、分镜、续写、抽帧、裁剪、拼接"这些步骤组织成一条完整的流水线。光想想就觉得省事不少。

这可能就是以后很多 AI 工具的形态:不是打开十几个网页来回复制粘贴,而是把各种能力接进 Agent,让它替你跑完整个流程。

Codex 生成视频需要付费吗?

Codex 本身和 Skill 都是免费的,Agnes 平台注册后也会送免费额度。目前免费额度够日常测试和做短视频用了,具体多少得看你注册时后台显示的数字。

Agnes 视频生成模型支持哪些参数?

主要支持 width、height、num_frames、frame_rate、seed 和 negative_prompt 这几个。num_frames 要注意,得是 8n+1 的格式,常用的就是 81 帧(大概 3.4 秒)和 121 帧(大概 5 秒)。分辨率最高到 1152x768。

怎么提升 AI 长视频的连续性?

核心方法其实就一个:尾帧续写。用上一镜头的最后一帧作为下一镜头的输入参考。这样模型能继承姿态、构图、光线和场景位置,比单纯堆提示词形容词效果好太多了。

参考链接:

Agnes AI 官网:https://agnes-ai.com/

agnes-ai-generation-skill GitHub 仓库:https://github.com/Yacey/agnes-ai-generation-skill

转自:https://mp.weixin.qq.com/s/ikCmo1LOIQXWNJq1hggpYw