当前位置:

Enjoy出海 >

新闻资讯>

文生视频的一年,那些AI化的游戏将迎来Sora革新?

文生视频的一年,那些AI化的游戏将迎来Sora革新?
小歪  ·  Feb 23, 2024 5:54:10 PM

来源:游戏陀螺

 

 

这几天,AI 行业,乃至整个互联网行业,包括投资界都在谈论一件事:OpenAI 发布的文生视频模型 Sora,这一石子究竟能激起多少层浪。

 

AI 生成视频并不是一个新生赛道,所以很多人疑惑,在铺天盖地的新闻之下,Sora 到底取得了多大的进步。

 

我们将时间拉回到一年前,“AI 视频大模型”此时已经拥有足够的关注度。2023 年 2 月,Runway 发布第一代产品 Gen-1,让用户可以在 iOS 上,通过文本转化成视频格式。3 月份,Gen-2 发布,人们可以插手后期剪辑优化视频。网络热门作品《流浪地球 3 预告片》正是基于 Gen-2 创作。作者“数字生命卡兹克”借 MidJourney 生成分镜图,然后使用 Gen-2 扩散为 4 秒的视频片段,最终合成一条以假乱真的预告片。

 

或许出身自纽约大学艺术学院的三位创始人一开始想着是为影视内容输出生产力,所以 Runway 全身心加入到《瞬息全宇宙》等大片制作当中。但 AIGC 浪潮的来临,在游戏产业却迸发了出乎意料的想象和需求。

 

5 月 29 日,英伟达创始人兼首席执行官黄仁勋在 COMPUTEX 大会上展示公司为游戏提供的定制化 AI 模型代工服务——Avatar Cloud Engine(ACE),开发人员经 AI 视频生成工具 Audio to Face 一番操作实现栩栩如生的角色动画。

 

其实早在 2021 年,英伟达在 GTC 技术大会上便利用 Audio to Face 制造了一场 AI 黄仁勋演讲视频的假象。如今这一工具已成熟到可以被 Convai、Inworld、米哈游、网易游戏、掌趣科技、腾讯游戏和育碧等公司,甚至是独立游戏开发者,应用于实际项目当中。一名开发者 Fallen Leaf 用 Audio to Face 成功制作完成了《索利斯堡》(FORT SOLIS)中角色的脸部动画。

 

欧洲知名厂商之一的 GSC Game World 也在自家的得力之作《潜行者 2:切尔诺贝利之心》身上采用了该工具来实现想要的效果。

 

当然游戏产业的技术需要绝不满足于此。所以,作为互联网技术领先企业,去年秋季英伟达推出基于 AI 增强光线重建技术的 DLSS 3.5,训练的数据量是 DLSS 3 的 5 倍,可以适应更多的光照模式,最终效果比需要人工设计的降噪器更出色。以《赛博朋克 2077》为例,开启 DLSS 3.5 后,整个城市模型的质感和霓虹灯反射的清晰度得到了大幅提升。英伟达称,DLSS 3.5 结合了超分辨率、帧生成和光线重建,与没有 DLSS 渲染的画面相比,《赛博朋克 2077》帧率提高了 5 倍。

 

除此以外,该公司还针对 ACE 引入了 SteerLM 技术进行升级。该技术旨在让开发者能够定制 NPC 个性,为游戏对话等互动提供准确的情绪反馈。

 

无独有偶,艺术家团体 Sagans 运用虚幻引擎的 MetaHuman Creator,同时配合 AI 算法,仅凭文本描述就为其首部音乐录影带《Coherence》生成了大部分镜头。

 

在最终成品所描绘的后现代图景中,一位女性正在新城市中寻找着属于自己的位置,画面采用素描风格,镜头伴随着音乐不断移动,从明亮的樱花树转场至纽约地铁。

 

据了解,Sagans 是从 iOS 的 Live Link Face 应用中取得角色面部表情动画,通过 Quixel 和 LUmen 完成了背景环境,最后帮助 AI 算法生成了这般复杂行为的视频。

 

过程曲折,不过毋庸置疑,游戏行业对 AI 技术的追求正在使一批技术服务公司奋力推进旗下的 AI 业务,倒逼 AI 产业的迅速成长。

 

如今,Sora 的到来可以实实在在地只用一句话,就能完成一个不俗的视频,用 360 公司 CEO 周鸿祎的话来说,“Sora 的诞生意味着 AGI(通用人工智能)实现从 10 年缩短至一两年。”

 

比起 Gen-2 的“4 秒定律”和 Pika 的“风格化”,这颗突然袭来的“深水炸弹”不仅拉长了视频时间,功能强大,效果也是相当炸裂。

 

在一段演示时尚女性走在东京街头的视频中,Sora 不仅可以完美呈现指令的内容,并且镜头能从远景到近景,再到特写等各角度拍摄。整个 60 秒的视频非常流畅。时尚女性面部的毛孔和瑕疵清晰可见,质量让人赞叹。

 

根据 OpenAI 的说法,Sora 除了可以根据文字描述生成视频外,还可以根据现有的图片生成视频,目前可生成的视频长度在 1 分钟左右;而且,视频支持多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

 

网络上,有极客针对 Sora、Pika、Runway 和 Stable Video 四个模型输入了相同的 prompt 进行比较,结论是,Sora 不仅仅在生成时长方面有显著优势,并且难能可贵的是,它对指令的理解能力也更胜一筹。

 

Meta 推出的 Emu Video 看起来比 Gen-2 更进一步,能够支持 512×512、每秒 16 帧的“精细化创作”,但无论从对物理世界的理解能力,还是支持单视频任意机位和分辨率的角度来讲,Sora 也许是目前现有的竞争产品尚未企及的。

 

尽管如此,Sora 的短板边界依然明显。对于复杂的因果关系,Sora 也没法做到尽善尽美。譬如一段人咬饼干的视频,饼干可能不会出现咬痕。再者篮球穿过篮筐时的穿模现象,椅子悬浮移动的画面,这些怪诞的镜头,一一说明 Sora 虽然是革命性的技术进步,但水平仍不足以封神。

 

不过要知道,Sora 问世的时间距离 Gen-2 上线仅仅只有 8 个月,而 Pika 更短,它的出现又加快了行业革新的脚步,同行更加焦虑了,恍如每天面对的是日新月异的时代,不勒紧裤腰带拼命卷,可能刹那间就会被淘汰。知乎上,一位叫做“像素炼金师”的创业者表露了他在目睹 Sora 发布后的心声:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。”

 

周鸿祎在自己的口播视频里这样评论道:“有人认为有了 AI 以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

 

AI 发展过快好像整个世界都变得不真实了。出门问问创始人李志飞在朋友圈感叹:“LLM ChatGPT 是虚拟思维世界的模拟器,以 LLM 为基础的视频生成模型 Sora 是物理世界的模拟器,物理和虚拟世界都被建模和模拟了,到底什么是现实?”

 

连马斯克在 Sora 发布后数小时都在 X 平台感慨:“gg humans”。

 

Sora 的出现无疑又将引发新一轮的追赶。Runway 联合创始人兼 CEO Cristóbal Valenzuela 表示,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。

 

前阿里副总裁、Lepton AI 公司创始人贾扬清认为,Sora 的问世还可能会给对标 OpenAI 的公司带来一波被大厂收购的机会,他称这类收购为“害怕错过机会而导致的收购”。同时他表示,Sora 这类文生视频大模型的出现将会推动 AI 基础设施的需求猛增。

 

的确,为 ChatGPT 提供 GPU 的英伟达在公开四季度业绩后,于盘后涨超 10%。另一方面,诸多游戏厂商们也正在争取与英伟达、Epic 这样强劲的服务商达成独家合作,借助第三方 AI 工具及产品发力未来。又或者,一些拥有人才积累和技术的厂商也会选择自建 AI 驱动平台完善工业化流程,以此巩固护城墙。

 

显然易见,游戏厂商或许都在为了拿到一张 AI 车票而谋划。故此,面对行业日益高涨的需求,AI 的技术革命会不断继续演进吧。

开通会员,查看完整内容
来源:游戏陀螺