谷歌AI生成视频两连发：720p高清+长镜头，网友：对短视频行业冲击太大,谷歌ai算法给视频上色

2023-10-28 10:06:01 views

来源：量子位

具体内容生成AI进到视频时期！

Meta发布「用口做视频」仅一周，谷歌搜索CEO劈材哥连续派遣两位参赛选手出场市场竞争。

第一位Imagen Video与Meta的Make-A-Video相比突显一个超清，能生成1280*768屏幕分辨率、一秒24帧的视频精彩片段。

另一位参赛选手Phenaki，则能够根据200个词左右标语生成2分钟左右的广角镜头，叙述一个完整的小故事。

网民看过之后表明，这一切进度确实太快。

甚至有网友觉得，这个技术性一旦完善，会冲击性短视频领域。

那样，2个AI实际有哪些能力特点和，大家各自看来。

Imagen Video：了解风格特征与3D构造

Imagen Video一样根据近期很火的蔓延模型，立即承继自5月份图象生成SOTA模型Imagen。

除开分辨率高之外，还展现出三种尤其能力。

最先它会理解和生成不一样风格特征作品，如“水粉画”或是“马赛克画”，然后直接“梵高作品设计风格”。

它还可以了解一个物体3D构造，在转动展现中不易变型。

最终它也继承Imagen精确勾勒汉字的能力，在这个基础上只靠简易叙述造成各种各样创意动画，

这实际效果，立即当成一个视频的视频片头不过分吧？

除开运用效果优异之外，科研人员表明在其中需要用到的一些优化技巧不仅对视频生成合理，能够广泛至一般蔓延模型。

从总体上，Imagen Video是一系列模型的结合。

语言表达模型部分为谷歌搜索自己家的T5-XXL，练习之后冻洁住文本伺服电机一部分。

与承担从文本特征映射到图像特征的CLIP对比，有一个重要不一样：

语言表达模型只管编号文本特点，把文本到图像转换工作扔给了后边的视频蔓延模型。

基本模型，在生成图象的前提下以自回归方法持续预测分析下一帧，最先生成一个48*24、每秒钟3帧的视频。

下面，一系列室内空间超分辨率（Spatial Super-Resolution）和时间超分辨率（Temporal Super-Resolution）模型连续对视频做拓展解决。

全部7种蔓延模型都采用了v-prediction parameterization方法，和传统方式对比在视频场景下能够避免色调偏位。

此方法拓展到一般蔓延模型，还使样版质量标准的收敛性速度相当快。

另外还有渐进性分馏（Progressive Distillation），将每一次迭代更新所需要的取样流程递减，大大的节约显卡内存耗费。

这种优化技巧加在一起，总算使生成超清视频得以实现。

Phenaki：人人都可以是“电影导演”

Phenaki的毕业论文投进去ICLR 2023大会，在一周前Meta发布Make-a-video的情况下或是密名双盲实验审查情况。

现如今信息公示，原先研究人员一样来源于谷歌搜索。

在公开发布内容中，Phenaki展现了它互动生成视频的能力，可以随意转换视频的整体设计：超清视频/可爱卡通，还可以转换随意情景。

还能够向Phenaki键入一个原始帧以及一个提醒，便可生成一段视频。

这些都或是开胃菜，Phenaki真真正正大招是：说故事，它可以生成2分钟左右长视频，根据键入将近200好几个标识符系列的提醒来获得。

（那有了这些模型，难道不是人人都可以当导演了？手动狗头）

从文本提醒到视频，核算成本高、高品质文本视频数据信息数量不多及其视频长短可变性一直以来都是该类模型发展趋势的一大难题。

以往大部分AI模型也是通过单一提示来生成视频，但是若要生成一个长期而且连贯性的视频这还不够。

而Phenaki则能够生成2分钟左右的视频，而且还具有情节，这主要是得益于它能够依据一系列的提醒来生成视频的能力。

从总体上，科研人员引进了一个新的因果关系模型去学习表明视频：将视频看作图象的一个时间序列分析。

这一模型根据transformer，能将视频转化成离散变量这个小表明，而溶解视频乃是依照的时间因果关系次序去进行的。

再说通俗一点，就是利用室内空间transformer将单独提醒开展编号，接着再用因果关系transformer将好几个编号好提示连接起来。

一个提醒生成一段视频，这样一来，视频编码序列就能够顺着提醒中描绘的时间序列分析把整个“小故事”串在一起。

由于将视频缩小为离散变量的图像序列，这样就大大减少了AI解决标识视频的总数，在一定程度上减少了模型的练习成本费。

提及模型练习，和大型图像系统一样，Phenaki也主要是应用文本-图像数据进行练习，除此之外，科研人员还要1.4秒，帧数8FPS的短视频文本对Phenaki进行练习。

仅仅靠对很多图象文本对及其少许视频文本事例开展联合训练，便可做到提升视频数据效果。

Imagen Video和Phenaki，谷歌搜索连续释放招式，从文本到视频的AI发展潜力迅速。

值得一提的是，Imagen Video一作表明，2个精英团队将协作进行下一步科学研究。

嗯，有的网友早已等不及。

One More Thing

出自于安全与伦理道德考虑，谷歌搜索临时不容易公布2个视频生成模型的编码或Demo。

不过既然发毕业论文，发生开源系统复刻版本也是迟早的事。

终究当时Imagen毕业论文出去没几个月，GitHub上出现了Pytorch版本。

此外Stable Diffusion其背后的StabilityAI创始人兼CEO就说过，将公布比Meta的Make-A-Video更加好的模型，而且还是我们都可以用里的那类。

自然，每一次AI拥有重大进展后都会不可避免遇到那一个话题讨论——AI是否会替代人们。

目前来看，一位传媒行业的工作者表明还不足情况下：

说实话，作为一个在电影产业上班了十年的人，这一话题令人沮丧。

他认为，现阶段的视频生成AI在外行人看上去就已经足够震撼，但是专业人士会以为AI还欠缺对每一个镜头细致操纵。

针对这一话题，StabilityAI新一任CEODaniel Jeffries先前发文表明，AI最终都会带来更多岗位。

如相机的创造发明尽管替代了绝大多数肖像画家，却也造就了摄像师，还开创了福利资源那样全新的产业链。

5年后再回去看，抵制AI如同如今抵制Photoshop一样怪异，AI只不过是是另一个专用工具。

Jeffries称未来一定自然环境人工智能技术（Ambient AI）的年代，各行各业、各行各业都要在人工智能支撑下开展发展趋势。

但是现在大家更需要的是一个更对外开放的人工智能自然环境，换句话说：开源系统！

最终，如果说你就要玩一下AI生成视频得话，能够先去HuggingFace上试一下清华大学与智源实验室Cogvideo。