我的作品 我做了一个免费 AI 视频生成器:Gemini Omni,用 Google 最新的全模态模型

geminiomni(Ethan) · June 05, 2026 · 18 hits

分享一个自己做的小产品,欢迎大家试用和提意见。

产品地址https://gemini-omni.pro


做这个的原因

我一直在用各种 AI 视频工具,但发现大多数要么太贵,要么生成效果很割裂——视频是视频,音频是音频,得自己后期合成。Google 去年发布的 Gemini 全模态模型其实已经支持文字、图片、视频、音频一起输入输出,但没有一个好用的免费前端。

所以我就自己做了一个。


主要特点

  • 全模态输入:一个 prompt 里可以同时放文字描述 + 参考图片 + 参考视频 + 音频
  • 原生音频同步:不是后期配音,是生成时就同步的音频轨道
  • 对话式编辑:不满意可以直接在对话框里说"让它更慢一点""换个背景色",不用重新从头写 prompt
  • 免费可用:注册送 10 credits,720P 带水印;付费 $29.9/月 解锁 1080P 无水印

做的过程中几个踩坑点

  1. 全模态 API 的 token 计费很复杂:视频帧数、音频时长、图片分辨率都分开计费,做预估很麻烦,最后用了分段计费的方式让用户大致知道会花多少
  2. 对话式编辑的上下文管理:每一轮编辑都要把之前的生成结果作为参考传回去,上下文窗口压力很大,目前限制了最多 5 轮连续编辑
  3. 免费用户的水印:用 FFmpeg 在 Vercel Edge Function 上实时打水印,但 Edge Function 有 4MB 响应限制,视频不能直接返回,得用 R2 中转

目前还比较早期,欢迎大家试用,有 bug 或者功能建议直接回复我。

网址:https://gemini-omni.pro

No Reply at the moment.
You need to Sign in before reply, if you don't have an account, please Sign up first.