更多AI前沿科技资讯,请关注我们:

https://aigc.douyoubuy.cn

全网都在吐槽 Gemini Omni,Google真的不行了吗?

大家好,我是Jimmy。这期聊聊gemini omni。个人观点,欢迎讨论。

我们看看一个简单的对比:

前面是同一个提示词在三个不同平台的生成结果。最后一个是gemini omni视频编辑案例。

自google I/O大会后,这两天AI视频圈里有个很有意思的现象。几乎所有人在对比完 Gemini Omni 和 Seedance 2.0 之后,都会下意识得出一个结论:

“Google 这次输了,而且输得挺明显。”

尤其是在 Reddit、X 以及国内创作者社区里,类似的评价几乎已经形成共识。很多人觉得 Gemini Omni 做出来的视频,明显没有 Seedance 2.0 那种“像电影”的感觉。

但如果把这件事再往深一点看,其实会发现:大家可能从一开始,就用错了评价标准。因为这两个模型,压根不是奔着同一个方向去的。

Seedance 2.0 更像一个“导演型模型”。

它追求的是镜头语言、运镜节奏、动作张力、人物稳定性,以及一种非常强的 cinematic 感受。你会发现它最容易打动人的地方,往往不是参数,也不是分辨率,而是那种很难量化的“真实感”。

比如人物奔跑时的重心变化,布料被风吹动时的惯性,镜头推进时那种真实摄影机才会有的重量感。这些东西其实特别关键。因为 AI 视频发展到今天,用户已经不再满足于“它能动”。

大家开始在意的是:它为什么这么动。

这种运动是否符合现实世界的物理逻辑,是否有真实摄影里的节奏与呼吸感。

而 Seedance 2.0 恰恰在这里做得非常成熟。很多人第一次看到它生成的视频,都会有一种很直观的感受:“终于不像 AI 了。”这是它现在最强的地方。

它解决的不是“生成”,而是“镜头可信度”。尤其是重量感(weight)。这是目前 AI 视频领域一个非常隐性的分水岭。

低级模型会让你感觉所有东西都在“飘”:人物在飘、镜头在飘、动作没有惯性、打击没有反作用力。虽然它也能动,但总会有一种“假”的感觉。

而 Seedance 已经开始接近真实摄影语言。这也是为什么大量创作者会迅速倒向它。

因为对于视频创作者来说,镜头语言是第一感知。好不好看,一秒钟就能判断。

但问题在于:Google 真的做不出这种效果吗?

我反而觉得未必。因为 Gemini Omni 从一开始,目标可能就不是做一个“AI 导演”。它更像是在做一种“世界模型”。

这一点,其实从它公开展示的一些能力里已经能看出来了。

Gemini Omni 最核心的方向,并不是 电影感cinematic,而是:时序逻辑、世界状态记忆、长文本一致性、复杂推理、多轮编辑、reasoning 与 generation 的融合。它在尝试的东西,其实比“生成一个电影镜头”更大。

比如之前业内讨论很多的那个案例:

一个教授在黑板上连续推导三角函数公式。

很多普通用户可能没感觉这有什么厉害,但实际上,这对视频模型来说是非常困难的问题。因为这已经不只是视频生成了。它同时涉及:时序推理、文字连续性、空间一致性、逻辑正确性。过去的视频模型,其实非常怕“长时间生成正确文字”。一旦镜头拉长,公式、文字、逻辑关系通常都会开始崩坏。

但 Gemini Omni 展现出来的方向,是它正在尝试把 Gemini 本身的 reasoning 能力,真正注入视频系统。

换句话说:它想做的,可能是“会思考的视频模型”。这件事一旦成立,意义会非常恐怖。因为那时候的视频 AI,可能不再只是一个生成工具。它会开始具备某种“世界理解能力”。

所以从路线来看,我反而觉得:字节和 Google,实际上代表着 AI 视频行业的两种未来。

字节的路线很务实。他们明显是在优先解决创作者最痛的需求:一致性、多镜头连续、电影级动态、摄影机轨迹、短视频节奏、音画协同。本质上,Seedance 更像一个“AI 影视工业工具”。它首先考虑的是:怎样让创作者直接拿来生产内容。

而 Google 更像在做一个“数字世界模拟器”。他们关注的是:模型是否真的理解这个世界。

所以现在很多人觉得:Seedance 2.0 明显强于 Gemini Omni。这个判断其实没问题。因为现阶段,电影感就是用户最容易感知的竞争力。但如果把时间线再拉长一点,事情可能会变得完全不一样。

因为 cinematic 是可以追赶的。镜头语言、摄影美学、动作节奏,这些都可以靠数据、训练和审美团队慢慢补齐。但真正困难的,其实是世界理解能力。

如果未来 Gemini Omni 真的把:reasoning、world model、agent、multimodal memory这些能力全部打通那么它最终要做的,可能已经不是“生成视频”了。而是在“模拟世界”。到那个阶段,视频本身,反而只是它能力的一种外显形式。

所以现在看这场竞争,其实挺有意思。

Seedance 像一个已经很成熟的导演。知道怎么调度镜头,知道怎么制造情绪,也知道什么样的画面最容易打动观众。而 Gemini Omni 更像一个智商极高的科学家。它现在可能还不太会“拍电影”。但它正在学习理解这个世界本身。

真正值得警惕的地方就在这里:如果有一天,它也学会了镜头语言。那整个 AI 视频行业,可能真的会重新洗牌。


本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

LTX-23+OmniNFT 图生视频应用体验地址

https://www.runninghub.cn/ai-detail/2057046158261968897

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点

runningHug上的无限画布,也可以使用GPT image进行生成:

它集成了多个优秀的闭源模型:

在图像与视频生成中,一个节点就能直接调用使用并生成。十分方便,且价格优惠。它通过集成闭源模型简化了工作流程直接输入即所得,速度很快。是一个不错的选择。通过注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151 注册后打开无限画面


最后几句:

如果对你有帮助,请一键三连支持下我,感谢


CloserAI AI短剧工作台(本地化解决方案):
https://aigc.douyoubuy.cn/ai-agent/
closerAI FlowStudio本地AIGC无限画布创作工具:
https://aigc.douyoubuy.cn/closerai-flowstudio/
closerAI AI绘画大师万象视界:
https://aigc.douyoubuy.cn/closerai-vision/
CLOSERAI POD电商印花批量生产工作站:
https://aigc.douyoubuy.cn/?page_id=420541
印花提取:
https://aigc.douyoubuy.cn/yinhua/

以上是就是本期的分享,当然,更多工作流、资讯、插件、工具也可以在我们closerAI会员站上获取(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

https://aigc.douyoubuy.cn

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。