全网都在吐槽 Gemini Omni，Google真的不行了吗？-closerAI(未授权)

更多AI前沿科技资讯，请关注我们：

https://aigc.douyoubuy.cn

全网都在吐槽 Gemini Omni，Google真的不行了吗？

大家好，我是Jimmy。这期聊聊gemini omni。个人观点，欢迎讨论。

我们看看一个简单的对比：

前面是同一个提示词在三个不同平台的生成结果。最后一个是gemini omni视频编辑案例。

自google I/O大会后，这两天AI视频圈里有个很有意思的现象。几乎所有人在对比完 Gemini Omni 和 Seedance 2.0 之后，都会下意识得出一个结论：

“Google 这次输了，而且输得挺明显。”

尤其是在 Reddit、X 以及国内创作者社区里，类似的评价几乎已经形成共识。很多人觉得 Gemini Omni 做出来的视频，明显没有 Seedance 2.0 那种“像电影”的感觉。

但如果把这件事再往深一点看，其实会发现：大家可能从一开始，就用错了评价标准。因为这两个模型，压根不是奔着同一个方向去的。

Seedance 2.0 更像一个“导演型模型”。

它追求的是镜头语言、运镜节奏、动作张力、人物稳定性，以及一种非常强的 cinematic 感受。你会发现它最容易打动人的地方，往往不是参数，也不是分辨率，而是那种很难量化的“真实感”。

比如人物奔跑时的重心变化，布料被风吹动时的惯性，镜头推进时那种真实摄影机才会有的重量感。这些东西其实特别关键。因为 AI 视频发展到今天，用户已经不再满足于“它能动”。

大家开始在意的是：它为什么这么动。

这种运动是否符合现实世界的物理逻辑，是否有真实摄影里的节奏与呼吸感。

而 Seedance 2.0 恰恰在这里做得非常成熟。很多人第一次看到它生成的视频，都会有一种很直观的感受：“终于不像 AI 了。”这是它现在最强的地方。

它解决的不是“生成”，而是“镜头可信度”。尤其是重量感（weight）。这是目前 AI 视频领域一个非常隐性的分水岭。

低级模型会让你感觉所有东西都在“飘”：人物在飘、镜头在飘、动作没有惯性、打击没有反作用力。虽然它也能动，但总会有一种“假”的感觉。

而 Seedance 已经开始接近真实摄影语言。这也是为什么大量创作者会迅速倒向它。

因为对于视频创作者来说，镜头语言是第一感知。好不好看，一秒钟就能判断。

但问题在于：Google 真的做不出这种效果吗？

我反而觉得未必。因为 Gemini Omni 从一开始，目标可能就不是做一个“AI 导演”。它更像是在做一种“世界模型”。

这一点，其实从它公开展示的一些能力里已经能看出来了。

Gemini Omni 最核心的方向，并不是电影感cinematic，而是：时序逻辑、世界状态记忆、长文本一致性、复杂推理、多轮编辑、reasoning 与 generation 的融合。它在尝试的东西，其实比“生成一个电影镜头”更大。

比如之前业内讨论很多的那个案例：

一个教授在黑板上连续推导三角函数公式。

很多普通用户可能没感觉这有什么厉害，但实际上，这对视频模型来说是非常困难的问题。因为这已经不只是视频生成了。它同时涉及：时序推理、文字连续性、空间一致性、逻辑正确性。过去的视频模型，其实非常怕“长时间生成正确文字”。一旦镜头拉长，公式、文字、逻辑关系通常都会开始崩坏。

但 Gemini Omni 展现出来的方向，是它正在尝试把 Gemini 本身的 reasoning 能力，真正注入视频系统。

换句话说：它想做的，可能是“会思考的视频模型”。这件事一旦成立，意义会非常恐怖。因为那时候的视频 AI，可能不再只是一个生成工具。它会开始具备某种“世界理解能力”。

所以从路线来看，我反而觉得：字节和 Google，实际上代表着 AI 视频行业的两种未来。

字节的路线很务实。他们明显是在优先解决创作者最痛的需求：一致性、多镜头连续、电影级动态、摄影机轨迹、短视频节奏、音画协同。本质上，Seedance 更像一个“AI 影视工业工具”。它首先考虑的是：怎样让创作者直接拿来生产内容。

而 Google 更像在做一个“数字世界模拟器”。他们关注的是：模型是否真的理解这个世界。

所以现在很多人觉得：Seedance 2.0 明显强于 Gemini Omni。这个判断其实没问题。因为现阶段，电影感就是用户最容易感知的竞争力。但如果把时间线再拉长一点，事情可能会变得完全不一样。

因为 cinematic 是可以追赶的。镜头语言、摄影美学、动作节奏，这些都可以靠数据、训练和审美团队慢慢补齐。但真正困难的，其实是世界理解能力。

如果未来 Gemini Omni 真的把：reasoning、world model、agent、multimodal memory这些能力全部打通。那么它最终要做的，可能已经不是“生成视频”了。而是在“模拟世界”。到那个阶段，视频本身，反而只是它能力的一种外显形式。

所以现在看这场竞争，其实挺有意思。

Seedance 像一个已经很成熟的导演。知道怎么调度镜头，知道怎么制造情绪，也知道什么样的画面最容易打动观众。而 Gemini Omni 更像一个智商极高的科学家。它现在可能还不太会“拍电影”。但它正在学习理解这个世界本身。

真正值得警惕的地方就在这里：如果有一天，它也学会了镜头语言。那整个 AI 视频行业，可能真的会重新洗牌。

本地算力不够怎么办？

如果本地设备算力不好的小伙伴，推荐使用线上comfyUI来运行体验：runninghub.cn

LTX-23＋ＯmniNFT 图生视频应用体验地址：

https://www.runninghub.cn/ai-detail/2057046158261968897

注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点，每日登录送100点

runningHug上的无限画布，也可以使用GPT image进行生成：

它集成了多个优秀的闭源模型：

在图像与视频生成中，一个节点就能直接调用使用并生成。十分方便，且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得，速度很快。是一个不错的选择。通过注册地址：https://www.runninghub.cn/?utm_source=kol01-RH151 注册后打开无限画面

最后几句：

如果对你有帮助，请一键三连支持下我，感谢

CloserAI AI短剧工作台（本地化解决方案）:
AI短片/短剧Agent工作台

closerAI FlowStudio本地AIGC无限画布创作工具：
CLOSERAI FlowStudio无限画布

closerAI AI绘画大师万象视界：
CLOSERAI VISION万象视界

CLOSERAI POD电商印花批量生产工作站：
https://aigc.douyoubuy.cn/?page_id=420541
印花提取：
https://aigc.douyoubuy.cn/yinhua/

以上是就是本期的分享，当然，更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：JimmyMo

更多AI前沿科技资讯，请关注我们：

https://aigc.douyoubuy.cn

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

全网都在吐槽 Gemini Omni，Google真的不行了吗？

评论(0)

提示：请文明发言取消回复

🚨7月优惠活动：普通永久会员 ¥599! 仅剩10个,抢完即止!

7月限时拼单永久特别会员拼单活动 ¥799 即可开通!

作者信息

文章展示

FLUX.3来了？Black Forest Labs的“世界模型”野心与本地玩家的期待

微软图像生成与编辑模型：Mage-Flow

Flux3:控制、真实感和世界理解方面的突破——一个多模态模型即可生成图像、视频、音频和动作。

Qwen3-VL-4b-Heretic-GGUF

krea2-identity-edit V1.1

开源视频模型：LingBot-Video