继AnimateAnyone之后,阿里又一项“跳舞整活儿”论文火了——
这一次,只需一张脸部相片、一句话态状,就能让你在职何场地跳舞!
举例底下这段《擦玻璃》的跳舞视频:
你所需要作念的就是“投喂”一张东说念主像,以及一段prompt:
一个女孩,含笑着,在秋天的金色树叶中跳舞,一稔浅蓝色的连衣裙。
而且跟着prompt的变化,东说念主物配景和身上的衣服也会随之发生改换。举例咱们再换两句:
一个女孩,含笑着,在板屋里跳舞,一稔毛衣和长裤。
一个女孩,含笑着,在时间广场跳舞,一稔连衣裙般的白衬衫,长袖,长裤。
这即是阿里最新的一项商酌——DreaMoving,主打的就是让任何东说念主、随时且遍地地跳舞。
阵势一出,亦然激励了不少网友的关怀,有东说念主在看过后果之后直呼“Unbelievable”~
那么如斯后果,这项商酌又是何如作念到的呢?
背后旨趣诚然像Stable Video Diffusion和Gen2等文本到视频(text-to-video,T2V)模子的出现,在视频生成方面取得了冲突性发达,但现时仍然有诸多挑战需要靠近。
举例在数据集方面,现时穷乏开源的东说念主类跳舞视频数据集以及难以赢得相应的精准文本态状,这就使得让模子们去生成各类性、帧一致性、时长更长的视频成为挑战。
况兼在以东说念主为中心的本色生成界限,生成扫尾的个性化和可控性亦然要津要素。
靠近这两浩劫点,阿里团队先从数据集入辖下手作念处置。
商酌者们领先从互联网采集了大要1000个高质地的东说念主类跳舞视频。然后,他们将这些视频分割成大要6000个短视频(每个视频8至10秒),以确保视频片断中莫得转场和特别后果,这么故意于技能模块的考试。
此外,为了生成视频的文本态状,他们使用了Minigpt-v2看成视频字幕器(video captioner),十分继承了“grounding”版块,指示是隆重态状这个帧。
基于要津帧中心帧生成的字幕代表了悉数视频片断的态状,主若是准确态状主题和配景本色。
在框架方面,阿里团队则是建议了一个名叫DreaMoving、基于Stable Diffusion的模子。
它主要由三个神经汇集来组成,包括去噪U-Net(Denoising U-Net)、视频限度汇集(Video ControlNet)和本色指引器(Content Guider)。
其中,Video ControlNet是在每U-Net块之后注入畅通块(Motion Block)的图像限度汇集,将限度序列(姿态或深度)处置为特别的技能残差。
Denoising U-Net是一种养殖的Stable-Diffusion U-Net,带灵验于视频生成的畅通块。
而Content Guider则是将输入文本辅导和外不雅色彩(如东说念主脸)传输到本色镶嵌中。
在如斯操作之下,DreaMoving便不错在给定指引序列和浅显的本色态状(如文本和参考图像)看成输入的情况下生成高质地、高保真度的视频。
不外很可惜的小数是,现时DreaMoving阵势并莫得开源代码。
感酷好的小伙伴不错先关怀一波,坐等代码开源了~
本文着手:量子位开云kaiyun,原文标题:《阿里又整活儿:一张东说念主脸一句话就能跳《擦玻璃》,服装置景收缩换!》
风险辅导及免责条件 市集有风险,投资需严慎。本文不组成个东说念主投资建议,也未探讨到个别用户特别的投资野心、财务气象或需要。用户应试虑本文中的任何成见、不雅点或论断是否妥当其特定气象。据此投资,包袱鼎沸。