视频大数据期间,的确来了!
刚刚,李飞飞的斯坦福团队同谷歌互助,推出了用于生成传神视频的扩散模子W.A.L.T。
这是一个在分享潜在空间中磨真金不怕火图像和视频生成的,基于Transformer的扩散模子。 英伟达高档科学家Jim Fan转发褒贬谈:2022年是影像之年,2023是声波之年,而2024,是视频之年! 起初,征询东谈主员使用因果编码器在分享潜在空间中压缩图像和视频。 其次,为了提升顾虑和磨真金不怕火效力,征询东谈主员使用基于窗口可贵的变压器架构来进行潜在空间中的聚合空间和时候生成建模。 征询东谈主员的模子不错根据当然话语请示生成传神的、时候一致的融会: A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在期间广场上优雅的溜冰,慢动作 Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/将巧克力酱倒在香草冰淇淋甜筒上,管事室灯光 An stronaust riding a horse/别称宇航员骑着马 A squirrel eating a burger/一只松鼠在吃汉堡 A panda taking a selfie/一只正在自拍的熊猫 An elephant wearing a birthday hat walking on the beach/一头戴着寿辰帽的大象在海滩上行走 Sea lion admiring nature, river, waterfull, sun, forest/海狮赏玩当然,河流,瀑布,阳光,丛林 Pouring latte art into a silver cup with a golden spoon next to it/在银杯中进行拿铁拉花,傍边放着金勺子 Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/两个骑士用光剑决斗,电影动作镜头,极其慢动作A swarm of bees flying around their hive/一群蜜蜂在他们的蜂巢周围翱游
这个结构还不错用图片生成视频:
A giant dragon sitting in a snow covered landscape, breathing fire/一条浩瀚的龙盘踞在冰雪掩盖的地面上,喷吐着火焰An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球,大限制爆炸,慢动作 以及,生成一致性很高的3D相机融会的视频。 Cameraturns around a cute bunny, studio lighting, 360 rotation/相机围绕一只能儿的兔子旋转,管事室灯光,360度旋转网友们咋舌谈,这些天好像如故东谈主手一个LLM或者图像生成器。 本年几乎是AI发展的挑动性的一年。 两个关键有辩论 组成三模子级联W.A.L.T的措施有两个关键有辩论。 起初,征询者使用因果编码器在调节的潜在空间内聚合压缩图像和视频,从而罢了跨模态的磨真金不怕火和生成。 其次,为了提升顾虑和磨真金不怕火效力,征询者使用了为空间和时空聚合生成建模量身定制的窗口可贵力架构。 通过这两个关键有辩论,团队在已修复的视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准测试上罢了了SOTA,而无需使用无分类器指引。 终末,团队还磨真金不怕火了三个模子的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模子和两个视频超辞别率扩散模子,以每秒8帧的速率,生成512 x 896辞别率的视频。 W.A.L.T的关键,是将图像和视频编码到一个分享的潜在空间中。 Transformer骨干通过具有两层窗口约束可贵力的块来处理这些潜在空间——空间层捕捉图像和视频中的空间关系,而时空层模拟视频中的时候动态,并通过身份可贵力掩码传递图像。 而文本退换,是通过空间交叉可贵完成的。W.A.L.T科罚视频生成建模贫瘠Transformer是高度可彭胀和可并行的神经集中架构,是当今最当红的构架。 这种理念念的特质也让征询界越来越怜爱Transformer,而不是话语 、音频、语音、视觉、机器东谈主时刻等不同范围的特定范围架构。 这种调节的趋势,使征询东谈主员大致分享不同传统范围的跨越,这么就教悔了有益于Transformer的模子设想改进和编削的良性轮回。 运筹帷幄词,有一个例外,即是视频的生成建模。 扩散模子已成为图像和视频生成建模的最初表率。运筹帷幄词,由一系列卷积层和自可贵力层组成的U-Net架构一直是总共视频扩散措施的主流。 这种偏好源于这么一个事实:Transformer中统统可贵力机制的顾虑需求,与输入序列的长度呈二次方缩放。 在处理视频等高维信号时,这种缩放会导致老本过高。 Figure 5. lmageNet class-conditional generation samples 潜在扩散模子不错通过在从自动编码器派生的低维潜在空间中发轫,来缩小计较要求。 在这种情况下,一个关键的设想给与,即是所使用的潜在空间的类型:空间压缩 (每帧潜在) 与时空压缩。 空间压缩持续是首选,因为它不错期骗预磨真金不怕火的图像自动编码器和LDM,它们在大型成对图像文本数据集上进行磨真金不怕火。 运筹帷幄词,这种给与增多了集中复杂性,并约束了Transformer行为骨干网的使用,尤其是由于内存约束而生成高辞别率视频时。 另一方面,固然时空压缩不错缓解这些问题,但它解除了配对图像文本数据集的使用,后者比视频数据集更大、更万般化。 因此,征询者提议了窗口可贵力潜在Transformer (W.A.L.T) :一种基于Transformer的潜在视频扩散模子 (LVDM) 措施。 该措施由两个阶段组成。 起初,自动编码器将视频和图像映射到调节的低维潜在空间中。这种设想大致在图像和视频数据集上聚合磨真金不怕火单个生成模子,并显赫减少生成高辞别率视频的计较管事。 随后,征询者提议了一种用于潜在视频扩散建模的Transformer块的新设想,由在非叠加、窗口约束的空间和时空可贵力之间轮流的自可贵力层组成。Table 8. Training and evaluation hyperparameters.
这种设想有两个主要公正—— 起初,使用局部窗口可贵力,不错显赫缩小计较需求。 其次,它有益于聚合磨真金不怕火,其中空间层孤立处理图像和视频帧,而时空层竭力于对视频中的时候关系进行建模。 固然主张上很简便,但团队的措施让Transformer在全球基准上潜在视频传播中发扬出了稀奇的质料和参数效力,这是第一个警戒凭据。 具体来说,在类条件视频生成 (UCF-101) 、帧掂量 (Kinetics-600) 和类条件图像生成 (ImageNet)上, 不使用无分类指引,就获得了SOTA。 终末,为了解说这种措施的可彭胀性和效力,征询者还生成了传神的文本到视频生成后果。 他们磨真金不怕火了由一个基本潜在视频扩散模子和两个视频超辞别率扩散模子组成的级联模子,以每秒8帧的速率生成512X896辞别率的视频,况且在UCF-101基准测试中,获得了SOTA的zero-shot FVC分数。学习视觉记号
视频生成建模中的一个关键设想有辩论,即是潜在空间表征的给与。 理念念情况下,需要一个分享且调节的压缩视觉表征,可用于图像和视频的生成建模。 调节的表征很紧迫,这是因为由于记号视频数据(举例文本视频对)的稀缺,聚合的图像-视频学习更可取。 为了罢了视频和静态图像的调节表征,第一帧长期孤立于视频的其余部分进行编码。 为了将这个设想实例化,征询者使用了MAGVIT-v2分词器的因果3DCNN编码器-解码器。 持续,编码器-解码器由旧例D卷积层组成,它们无法孤立处理第一帧。而因果3D卷积层科罚了这个问题,因为卷积核仅对畴前的kt-1帧进行操作。
这就确保了每个帧的输出仅受前边帧的影响,从而使模子大致孤立记号第一帧。
实际视频生成 征询东谈主员琢磨了两个圭臬视频基准,即类别条件生成的UCF-101和带有5个条件帧的视频掂量Kinetics-600。 征询东谈主员使用FVD 行为主要评估想法。在这两个数据集上,W.A.L.T 显赫优于之前的总共管事(下表1)。Table 1. Video generation evaluation on frame prediction on Kinetics-600 and class-conditional generation on UCF-101.
与之前的视频扩散模子比拟,征询东谈主员在模子参数更少的情况下罢了了最先进的性能,况且需要50个DDIM推理设施。 图像生成 为了考据W.A.L.T在图像范围的建模能力,征询东谈主员磨真金不怕火了一个W.A.L.T版块,用于圭臬的ImageNet类别条件诞生。 在评估中,征询东谈主员罢黜ADM并禀报在50K样本上用50个DDIM设施生成的FID和Inception分数。 征询东谈主员将W.A.L.T与256 × 256辞别率的最先进图像生成措施进行比较(下表2)。征询东谈主员的模子在不需要特意的调度、卷积归纳偏见、编削的扩散损成仇无分类器指引的情况下优于之前的管事。尽管VDM++的FID分数略有提升,但该模子的参数清亮更多(2B)。 消融实际 在使用ViT -based模子的各式计较机视觉任务中,如故解说较小的补丁大小p不错长期提升性能。相同,征询东谈主员的征询终端也标明,减小补丁大小不错提升性能(下表3a)。 窗口可贵力 征询东谈主员比较了三种不同的STW窗口成就与全自可贵(表3b)。征询东谈主员发现,局部自可贵力不错在速率上显赫更快(高达2倍)况且减少加快器内存的需求,同期达到有竞争力(或更好)的性能。文生视频
征询者在文本-图像和文本-视频对上,聚合磨真金不怕火了文本到视频的W.A.L.T。
使用的是来自全球互联网和里面开头的约970M文本-图像对,和约89M文本-视频对的数据集。定性评估
W.A.L.T根据当然话语请示生成的示例视频,辞别率为512*896,抓续时候为3.6秒,每秒8帧。 W.A.L.T模子大致生成与文本请示一致、时候一致的传神视频。 征询东谈主员在以1或2个潜在帧为条件的帧掂量任务上,聚合磨真金不怕火了模子。 因此,模子可用于图像动画(图像到视频)和生成具有连贯镜头融会的较长视频。定量评价
科学地评估文本条件视频生成系统仍然是一个首要挑战,部分原因是枯竭圭臬化的磨真金不怕火数据集和基准。 到当今为止,征询东谈主员的实际和分析主要汇聚在圭臬学术基准上,这些基准使用沟通的磨真金不怕火数据来确保受控和公谈的比较。 尽管如斯,为了与之前的文本到视频管事进行比较,征询东谈主员还在表 5 中的零样本评估条约中禀报了 UCF-101 数据集的终端。 征询东谈主员框架的主要上风是它大致同期在图像和视频数据集上进行磨真金不怕火。 在上表5中,征询东谈主员排斥了这种聚合磨真金不怕火措施的影响。 具体来说,征询东谈主员使用第5.2 节中指定的默许诞生磨真金不怕火了两个版块的W.A.L.T-L (每个版块有 419M 参数)模子。征询东谈主员发现聚合培训不错使这两个想法皆有显赫改善。
著述开头:新智元开云kaiyun体育,原文标题:《李飞飞谷歌破局之作!用Transformer生成传神视频,下一个Pika来了?》
风险请示及免责条目 阛阓有风险,投资需严慎。本文不组成个东谈主投资建议,也未琢磨到个别用户很是的投资方向、财务景色或需要。用户应试虑本文中的任何意见、不雅点或论断是否得当其特定景色。据此投资,管事自诩。