视频生成工作一览

视频生成

特别是DiT （Diffusion Transformers）和UViT（a Vision Transformers）模型。

模型库：https://www.aibetas.com.cn/

如图11所示，DiT通过自适应层范数（AdaLN）将条件调节与用于零初始化的附加MLP层相结合，将每个残差块初始化为单位函数，从而极大地稳定了训练过程。DiT的可扩展性和灵活性得到了实证验证。DiT成为扩散模型的新backbone。

在U-ViT中，如图11所示，将所有输入，包括时间、条件和噪声图像块，视为tokens，并提出浅 transformer 层和深 transformer 层之间的长跳连接。结果表明，基于CNN的U-Net中的下采样和上采样算子并不总是必要的，U-ViT在图像和文本到图像的生成中实现了破纪录的FID得分。

IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS(2022)

Video diffusion models (2022)

Photorealistic text-to-image diffusion models with deep language understanding(2022)

Sora

OpenAI发布

技术报告：https://openai.com/index/video-generation-models-as-world-simulators/

中文介绍：https://mp.weixin.qq.com/s/5-pySWU40omjBowsV2WCKA

逆向论文：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Sora的一个显著特征是它能够训练、理解和生成原始大小的视频和图像。传统方法通常调整视频的大小、裁剪或调整纵横比，以符合统一的标准——通常是具有固定低分辨率的方形帧的短片。这些样本通常以更宽的时间步长生成，并依赖于单独训练的帧插入和分辨率渲染模型作为最后一步，从而在视频中产生不一致性。利用diffusion transformer，Sora是第一个拥抱视觉数据多样性的模型，可以在不影响其原始尺寸的情况下，以广泛的视频和图像格式进行采样，从宽屏幕1920x1080p视频到垂直1080x1920p视频，以及介于两者之间的所有视频和图像。

简单来说，Sora 就是依赖了两个模型 Latent Diffusion Model (LDM) 加上 Diffusion Transformer (DiT)。我们先简要回顾一下这两种模型架构。

LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求大，难以拟合高分辨率图像。为了解决这一问题，实现 LDM 时，会先训练一个几乎能无损压缩图像的自编码器，能把 512x512 的真实图像压缩成 64x64 的压缩图像并还原。接着，再训练一个扩散模型去拟合分辨率更低的压缩图像。这样，仅需少量计算资源就能训练出高分辨率的图像生成模型。

LDM 的扩散模型使用的模型是 U-Net。而根据其他深度学习任务中的经验，相比 U-Net，Transformer 架构的参数可拓展性强，即随着参数量的增加，Transformer 架构的性能提升会更加明显。这也是为什么大模型普遍都采用了 Transformer 架构。从这一动机出发，DiT 应运而生。DiT 在 LDM 的基础上，把 U-Net 换成了 Transformer。

总结来说 Sora 是一个视频版的 DiT 模型，让我们看一下 Sora 在 DiT 上做了哪些改进。

sora技术文档提到的机器人相关论文：

GenAug: Retargeting behaviors to unseen situations via Generative Augmentation
CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning

Open-Sora

GitHub:https://github.com/hpcaitech/Open-Sora

Open-Sora的架构采用了Diffusion Transformer (DiT）模型，结合时间注意力层，优化了对视频数据的处理。通过预训练的VAE和文本编码器，以及空间-时间注意力机制的应用，实现了高效的空间布局和时间序列关联的学习。此外，模型还引入了多阶段训练策略，包括大规模图像预训练、视频预训练及高质量视频数据的微调，有效提升了视频生成的细节和质量。

Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models

开源：https://github.com/CompVis/latent-diffusion

Runway发布v1.5？:https://huggingface.co/runwayml/stable-diffusion-v1-5

Stability AI

是一种由文本生成图像的模型。你输入一段文本提示，它就会根据提示生成一幅图像。此外，顾名思义，Stable Diffusion是一种扩散模型。

Stable Diffusion 背后的技术方案被称为 Latent Diffusion Model，即潜在的扩散模型，此外 Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 结构，这么做可谓一举两得，因为 Transformer 结构不但能提升噪声去除效果，还是实现 Prompt 控制图像内容的关键技术。

在深度学习领域中，潜在空间（Latent Space）是指模型学习到的表示数据的抽象空间。这个潜在空间通常是一个低维的向量空间，其中每个点（向量）代表着模型对输入数据的一种表示或特征。潜在空间的概念在各种生成模型和表示学习方法中被广泛应用。

Stable Diffusion 模型最初就是在 LAION-5B 的一个大子集上训练的。

SD3, 最新版本: Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

作者提出一种新架构MMDiT（Multimodal Diffusion Transformer），它建立在DiT的基础上——没错，就是Sora采用的那个DiT模型。其中，“MM”指的是它处理多模态信息的能力。

下图是MMDiT的整体架构示意图。与之前版本的SD模型一样，SD3使用预训练模型来推导合适的文本、图像提示。

不同之处在于，MMDiT对文本和图像两种模态使用了两组独立的权重，并在图像和文本标记之间实现双向信息流，从而提高了文本理解和拼写能力。

※SVD: Stable Video Diffusion

Stability AI 2023年11月21日发布，开源

Stable Video 3D 升级版

GitHub：https://github.com/Stability-AI/generative-models

论文：https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

HuggingFace：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

技术特点：

一、多阶段训练策略

Stable Video Diffusion采用了多阶段的训练策略，包括文本到图像的预训练、视频预训练以及高质量视频微调。这种分阶段的训练方法使得模型能够逐步学习到从文本到图像，再到视频的复杂映射关系，提高了生成视频的质量和准确性。

二、灵活的应用场景

由于Stable Video Difusion提供了强大的多视图3D先验和运动表征能力，它可以广泛应用于各种场景，包括文本到视频的生成、图像到视频的生成以及对摄像机运动特定的适应性等。此外，该模型还可以以前馈方式生成对象的多个视图，具有较小的算力需求和优于基于图像方法的性能。

三、高质量的生成效果

通过多阶段的训练策略和精心准备的数据集，Stable Video Difusion能够生成高质量、动作连贯且时间一致的视频内容。

【2023-11-22】Stable Video Diffusion来了，代码权重已上线

AI 画图的著名公司 Stability AI，终于入局 AI 生成视频了。产品已经横跨图像、语言、音频、三维和代码等多种模态

本周二，基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了，AI 社区马上开始了热议。

论文地址：stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasetss
项目地址：generative-models

现在，可以基于原有的静止图像来生成一段几秒钟的视频。

基于 Stability AI 原有的 Stable Diffusion 文生图模型，Stable Video Diffusion 成为了开源或已商业行列中为数不多的视频生成模型之一。

Stable Video Diffusion 以两种图像到视频模型的形式发布，能够以每秒 3 到 30 帧之间的可定制帧速率生成 14 和 25 帧的视频。

在外部评估中，Stability AI 证实这些模型超越了用户偏好研究中领先的闭源模型（runway、pika Labs）

T2V-I2VGen-XL/Videocomposer

23年10月发布，CVPR

demo：https://modelscope.cn/studios/iic/I2VGen-XL-Demo/summary/

Paper: https://arxiv.org/abs/2306.02018

项目开源地址：https://modelscope.cn/models/damo/Image-to-Video/summary

Github地址：https://github.com/camenduru/I2VGen-XL-colab

是videocomposer的升级版

I2VGen-XL项目由阿里云达摩院研发，用于根据输入图像生成高清视频。模型经大规模视频和图像数据混合预训练，并在少量精品数据上微调，具有良好的泛化性。相比现有的视频生成模型，I2VGen-XL在清晰度、质感、语义、时序连续性等方面具有优势。

魔搭社区ModelScope是一个由阿里达摩院推出的开源模型服务平台，其主要功能和目的如下：

模型共享与探索： ModelScope汇集了各领域最先进的机器学习模型，包括但不限于自然语言处理、计算机视觉、语音识别等。用户可以在平台上发现和探索这些模型，了解其特性和性能。
一站式服务：提供从模型探索、推理、训练到部署和应用的一站式服务。用户不仅可以体验预训练模型的性能，还可以根据自己的需求对模型进行定制和训练，并方便地将训练好的模型部署到实际应用中。
易用性和灵活性： ModelScope旨在为泛AI开发者提供灵活、易用、低成本的模型服务产品。用户无需额外部署复杂的环境，就可以在平台上直接使用各种模型，降低了使用和开发AI模型的门槛。
开源与合作：作为一款开源平台，ModelScope鼓励社区成员参与模型的开发、改进和分享。通过共同合作，推动AI技术的发展和创新。
智能体开发框架： ModelScope还推出了ModelScope-Agent开发框架，如MSAgent-Qwen-7B，允许用户打造属于自己的智能体。这个框架提供了丰富的环境配置选项，支持单卡运行，并有一定的显存要求。

animatediff[ICLR2024 Spotlight]

开源地址：https://github.com/guoyww/animatediff

AnimateDiff是由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员推出的一款将个性化的文本到图像模型扩展为动画生成器的框架，其核心在于它能够利用从大规模视频数据集中学习到的运动先验知识，可以作为Stable Diffusion文生图模型的插件，允许用户将静态图像转换为动态动画。该框架的目的是简化动画生成的过程，使得用户能够通过文本描述来控制动画的内容和风格，而无需进行特定的模型调优。

Plain Text AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning（2024） SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models（2023）

Videocraft-DynamiCrafter[ECCV 2024, Oral]

https://github.com/AILab-CVC/VideoCrafter

DynamiCrafter[ECCV 2024, Oral] DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

https://github.com/Doubiiu/DynamiCrafter

是Videocraft的升级版

一个榜单：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

Video-LAVIT

项目地址:https://video-lavit.github.io

https://huggingface.co/rain1011/Video-LaVIT-v1/tree/main

Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频通常被分为多个镜头，每个镜头内的视频帧往往存在大量的信息冗余。因此，将视频分解为交替的关键帧和运动向量，关键帧捕捉主要的视觉语义，而运动向量描述其对应关键帧随时间的动态演变。这种分解表示的好处在于，与使用3D编码器处理连续视频帧相比，单个关键帧和运动向量的组合需要更少的标记来表示视频的时空动态，这对于大规模预训练更为高效。

※StreamingT2V模型

Picsart人工智能研究所、德克萨斯大学和SHI实验室联合推出

StreamingT2V是一种先进的长视频生成模型，能够通过文本直接生成2分钟、1分钟等不同时间长度的视频，且这些视频动作一致、连贯，没有卡顿，展现出高质量的视频生成能力。虽然在视频质量和多元化方面，StreamingT2V还无法与Sora模型媲美，但其在高速运动视频生成方面的表现尤为出色，为开发更长时间的视频模型提供了重要的技术参考。

Huggingface模型下载：https://huggingface.co/PAIR/StreamingT2V

AI快站模型免费加速下载：https://aifasthub.com/models/PAIR

项目及演示：https://streamingt2v.github.io

论文：https://arxiv.org/abs/2403.14773

github：https://github.com/Picsart-AI-Research/StreamingT2V

AI FLUX Image Generator: FLUX.1 Schnell

Follow-Your-Click

这项创新的技术具有非常简单的操作方法。用户只需将任意一张照片输入该模型，然后点击相应区域并添加少量简单的提示词，即可使原本静态的图像区域焕发生机，轻松地转换为一段动态视频。

论文链接:https://arxiv.org/pdf/2403.08268

GitHub: https://github.com/mayuelala/FollowYourClick

(pass)Animate Anyone-人体动作生成

Animate Anyone是阿里巴巴旗下研究院发布的动画制作Al软件。能够自动生成角色、场景、动作等动画元素，并将其组合成完美动画作品，用户只需提供一些简单的参数即可。这大大降低了动画制作的难度，让动画制作变得更加简单。

体验地址：

https://humanaigc.github.io/animate-anyone/

github地址：

https://github.com/HumanAIGC/AnimateAnyone

类似demo：https://huggingface.co/spaces/KwaiVGI/LivePortrait

(pass)Champ ：ECCV2024-人体动作生成

国外开源的让照片跳舞的AI项目！

Champ 利用潜在扩散框架内的 3D 人体参数模型，实现了无与伦比的形状对齐和运动引导。

捕捉复杂的人体几何形状和运动从未如此简单

github地址：

https://github.com/fudan-generative-vision/champ

(pass)EMU VIDEO-不开源

Demo: https://emu-video.metademolab.com/#/demo

Meta 的研究者提出了 EMU VIDEO，其论文为《EMU VIDEO:Factorizing Text-to-Video Generation by Explicit Image Conditioning》，其项目地址为https://emu-video.metademolab.com/，通过显式的中间图像生成步骤来增强基于扩散的文本到视频生成的条件

他们将文生视频问题分解为两个子问题：

根据输入的文本提示𝑝，生成图像𝐼
然后使用更强的条件：生成的图像和文本来生成视频𝑣

直观地说，给模型一个起始图像和文本会使视频生成变得更容易，因为模型只需预测图像在未来将如何演变即可

且，为了以图像约束模型 𝐹，他们暂时对图像进行补零，并将其与一个二进制掩码(指示哪些帧是被补零的)以及带噪声的输入连接起来

与直接用文本生成视频的方法不同，他们的分解方法在推理时会显式地生成一张图像，这使得他们能够轻松保留文生图模型的视觉多样性、风格和质量，这使得 EMU VIDEO 即使在训练数据、计算量和可训练参数相同的情况下，也能超越直接 T2V 方法。

(pass)MoneyPrinterTurbo

github地址：https://github.com/harry0703/MoneyPrinterTurbo

只需提供一个视频主题或关键词，就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐，然后合成一个高清的短视频。

(pass)MagicTime

MagicTime是一个创新的模型，专注于创建变形时间延迟视频。它采用了基于DiT(Detection and Tracking）的架构，有效解决了现有文本到视频（Text-to-Video,T2V）生成模型在编码现实世界物理知识方面的不足。在传统的T2V生成过程中，视频往往动作范围有限，变化表现不足，无法充分展现复杂的变形效果

MagicTime的核心贡献在于:

1.物理知识编码的改进:MagicTime通过更精确地反映现实世界的物理规律，解决了现有模型在物理知识编码上的不足。

2.动作和变化的丰富性:与以往生成的视频相比，MagicTime能够产生动作更丰富、变化更复杂的视频，更好地模拟了物体的变形过程。

项目及演示：https://pku-yuangroup.github.io/MagicTime/

论文：https://arxiv.org/abs/2404.05014

GitHub：https://github.com/PKU-YuanGroup/MagicTime/tree/main

(pass)Open-Sora-Plan

Image-to-Video还没开源

(pass)Make Pixels Dance: High-Dynamic Video Generation

字节跳动，不开源

(pass)Pixverse

王长虎，创业公司，不开源

(pass)Runway

不开源

(pass)genmo

Adobe推出了全新AI助手

(pass)leonardo

可以训练模型？

(pass)haiper

Google DeepMind、TikTok 和學術界頂尖研究實驗室的校友創立。