硬刚 Sora 2谷歌的 Veo 31 确实有小欣喜｜AI 上新

2025-10-20 12:59

次

　　时间 10 月 16 日，谷歌正在 Gemini API 中发布了 Veo 3。1 和 Veo 3。1 Fast 付费预览版。模子一上线，就遭到了行业的高度关心。终究，和前不久发布的 Sora 2 一样，此次 Veo 3。1 也新增了音频功能。第一，是 AI 生成视频从默片有声片子。Veo 3。1 不单可以或许要求 AI 视频实现声音画面同一，还可以或许要求 AI 更好地舆解画面内容，并赐与合适的配乐。第二，Veo 3。1 能够间接设定 AI 视频的开篇画面和结尾画面。如斯一来，Veo 3。1 不单可以或许实现短视频和短视频之间的过渡天然，也可以或许进一步节制 AI 视频的首尾不雅感。以至，Veo 3。1 能够实现每一个新的视频都是基于上一个视频的最初一个画面继续生成。正在无限叠加的 Buff 下，谷歌用一种另类的体例实现了「AI 长视频」生成。当你给 Veo 3。1 三张图片，别离为一个女性头像、一个服拆参考图以及一个场景设按时，按照提醒词要求，Veo 3。1 能够间接通过三张画面设定 AI 人物抽象，而且能够让该人物天然地说出方针台词。此次，Veo 3。1 从打进一步优化 AI 视频正在视听不雅感上的体验。同时，谷歌也是正在 AI 视频生成片段时间较短的前提下，寻找可以或许实现「AI 长视频叙事」的解法。极客公园的新栏目「AI 上新」，将带大师体验最新的 AI 使用和硬件，让你成为 AI 时代「最靓的仔」！现正在，我们也向所有喜好尝鲜和体验 AI 的同窗发出召集，只需你发觉并体验了新的 AI 使用或者功能，按照格局（参考案例：）向栏目，正在极客公园号发布，不只能获得响应稿费，且会为你「报销」AI 使用的订阅费用。同时，优良做者还无机会进入极客公园 AI 体验群，获得最新 AI 使用和东西的内测资历，加入极客公园专属相关 AI 勾当，和 AI 使用创始人一对一沟通。AGI 太久，分秒必争，让一部门人先 AI 起来吧！、进群请扫描下方二维码添加极客小帮手微信目前，通俗用户可正在 Gemini 使用法式和 Flow 免费利用，不外利用机遇无限。我们发觉不少国内 AI 视频生成平台闪现秒跟。不到一天时间，Imagine。art、Fal-ai 以及 Lovart 均暗示支撑 Veo 3。1 模子挪用。我们此次也正在 Lovart 上对 Veo 3。1 进行了快速体验。起首测试了 Veo 3。1 生成的 AI 视频能否可以或许正在音画同一上告竣分歧。第一次，我们给到 Veo 3。1 的英文提醒词是：「纽约陌头正鄙人雨，俄然一道闪电陪伴雷声而来。」能够看到根基上，闪电和雷声是正在统一时间内呈现，完成了声音画面的分歧性。我们还能够更详尽地发觉每一辆车开过水坑时，声音会有一个从远到近，从大到小的变化程度。让我们不测的是，正在 3 分钟摆布的生成 AI 视频的倒计时中，Veo 3。1 整个视频的生成时间会正在 1 分钟摆布就完成，但生成的视频片段根基上都正在 6 秒摆布，取 Sora 2 能够生成 10-20 秒的时间比拟，较着不占劣势。并且，我们还发觉正在整个画面，只要车、雨滴、和闪电是呈现动态结果，两旁的行人或者树木均是静止不动的，因而整个视频片段会呈现一些违和感，让人可以或许一眼能看出是 AI 视频。接下来，我们测试给 Veo 3。1 两张照片，并别离设定为第一张照片和最初一张照片后，看看 AI 视频的首尾不变性若何。以及 Veo 3。1 可否可以或许通过拼接的体例，实现两段视频间接毗连。为了更好的生成结果，我们给到 Veo 3。1 的第一段提醒词是：「一只顽皮的虎斑猫以流利、持续的动做跃上办公桌。以上两张图片别离为视频的首个画面和竣事画面，确保活动过程流利且合适物理纪律。」正在视频的前半部门，呈现根基上天然。可是正在小猫咪跳到电脑后面的时候，似乎变了另一只小猫出来，整个视频俄然添了几分「魔法感」。而且，正在视频的最初几秒，似乎有个开灯设定，将画面调整更亮。同时，我们给出 Veo 3。1 第二段英文提醒词：「跳上办公桌的虎斑猫爬下睡着了。以上两张图片别离为视频的首个画面和竣事画面，确保活动过程流利且合适物理纪律。」能够看出，Veo 3。1 给出的 AI 生成视频仍是比力实正在的。若是将两个视频片段毗连正在一路，则呈现的结果为：能够看出，当两个视频拼接到一路之后，除了此前提到的「魔法感」比力高耸外，视频取视频之间仍是连结了连贯性，而且也实现了必然程度上的场景拓展。我们给出一段英文指令，大意为：「一个中景镜头，画面中的女性脚色来历于人物参考图，身穿服拆参考图中的衣服。她正正在场景参考图中的场景里安步，带着猎奇而愉悦的脸色环视四周。需取供给的场景图分歧。全体气概应为片子质感，具有天然的光线和温柔的轻风。同步生成音效，如树叶的沙沙声和远处的鸟鸣。」可惜的是，这一次我们发觉 AI 视频中的人物较着建模感严沉，服拆和场景几乎都取此前给出的参考图片有较着不同，AI 感极沉，该 AI 视频几乎是此次所有测试视频里面表示结果最差的。全体看来，此次 Veo 3。1 正在音画同步以及首尾画面不变上均给出不错的 AI 结果。但正在用图片设定人物抽象，AI 人设标的目的并没有官网中引见的结果好。「胜，大获全胜。」谷歌试图正在官网昭告全国这一点。据谷歌引见，谷歌正在文生视频的总体不雅感、视频对齐程度以及视觉质量等方面，完胜 Sora 2 Pro、海螺 2。0、Seedance 1。0 Pro 和 Renway Gen 3 等一众视频模子。官网还强调，正在音画分歧性方面，Veo 3 的「视频素材」功能正在内部基准测试中，正在「全体偏好」和「视觉质量」两项目标均名列前茅。成心思的是，谷歌官网还悄然地「暗踩」OpenAI 所发布的 Sora 2，注释正在图像转视频测试中没有 Sora 2 Pro 的缘由是由于 Sora 2 Pro 目前不支撑人像生成。不外我们也发觉正在此次的对比中，谷歌似乎恍惚 Veo 3。1 和 Veo 3 的模子鸿沟，基于所有的图片显示中都是 Veo 3，而文字表达均为 Veo 3。1，因而临时也很难确定此次评测的模子，事实是方才发布的 Veo 3。1 仍是 5 个月前的 Veo 3。虽然谷歌感受甚好，但正在 AI 大佬们看来，Veo 3。1 的结果似乎略逊于 Sora 2。好比说，Otherside AI 的创始人 Matt Shumer 间接正在推特上暗示对 Veo 3。1 感应「有些失望」，他认为 Veo 3。1 结果较着逊于 Sora 2，价钱却超出跨越不少。终究，目前 Sora 2 可是免费利用。3D 数字艺术家 Travis David 则提到 Veo 3。1 并没有冲破 AI 视频生成的「8 秒」定律，且用户没有法子本人选择生成什么样的音频，让失所望。正在谷歌引见 Veo 3。1 模子博客的最初，提到了价钱取 Veo 3 不异。乍一看，我还认为谷歌此次是一次「加量不加价」的升级，但细心研究之后发觉，Veo 3。1 模子可能仍是目前市场较为高贵的视频生成模子，仅次于 Sora 2 Pro。除了 Veo 3。1，谷歌还推出 Veo 3。1 Fast，可以或许更快的生成视频，价钱也更低，不含音频的版本是每秒$0。15，加上音频生成的版本则是每秒$0。40 美元。而正在价钱表下，谷歌也为本人留出了一条，提到「正在某些环境下，音频处置问题可能会导致视频无法生成。只要正在成功生成视频后，系统才会向您收取费用。」这也可以或许申明必然程度上，该视频模子仍处于不不变的形态中。和前不久方才发布社交属性较强、更沉视趣味感的 Sora 2 比拟，Veo 3。1 较着定位正在「专业化」上。因而，音画的分歧性以及人物的不变性。谷歌给出的使用场景案例也侧面印证了这一点。据引见，GenAI 片子工做室 Promise Studios 曾经起头其 MUSE 平台中利用 Veo 3。1 来加强生成 AI 视频故事性，全体生成视频要求尽可能达到导演但愿的制做质量以及故事讲述感。AI 生成内容公司 Latitude 也正正在其生成叙事引擎中测试 Veo 3。1，但愿可以或许将用户创做的故事当即变为现实。能够看到，Veo 3。1 正试图撬动专业影视制做范畴，降低高质量视频创做的门槛和成本。这也意味着将来小我创做者或小团队，无机会通过叙事节制、定制化脚色以及音画分歧性，制做一系列气概同一的迷你短片或系列视频内容。