最新超长AI视频模型!一句话即可生成120秒视频,免费开源!

图片[1]-最新超长AI视频模型!一句话即可生成120秒视频,免费开源!-零度博客

近日,由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。

亮点总结:

  1. 生成时长达2分钟(1200帧),超越以往模型
  2. 视频质量优秀
  3. 与业内其他主流模型实现无缝衔接
  4. 开源免费,便于开发者使用和二次开发

图片[2]-最新超长AI视频模型!一句话即可生成120秒视频,免费开源!-零度博客

 

免费在线试玩:【点击进入】 目测在线人太多需要排队

自己本地搭建教程:

1.安装并安装 Python 3.10 and CUDA >= 11.6 环境 【Python 3.10 】、【Cuda 下载

2.克隆开源项目至本地:

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/

StreamingT2V 最新版打包下载:网盘下载

3.安装必备的环境:

conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt

4.(可选)如果您的系统上缺少 FFmpeg,请安装 FFmpeg

 

conda install conda-forge::ffmpeg

5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下

 

6.文本转视频

cd t2v_enhanced
python inference.py --prompt="A cat running on the street"

如要使用其他基本模型,请添加--base_model=AnimateDiff参数。用于python inference.py --help更多选项

7.图片转视频

cd t2v_enhanced
python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD

推理时间

 

ModelscopeT2V作为基础模型

 

帧数 更快预览的推理时间 (256×256) 最终结果的推理时间 (720×720)
24帧 40秒 165秒
56帧 75秒 360秒
80帧 110秒 525秒
240帧 340秒 1610 秒(约 27 分钟)
600帧 860秒 5128 秒(约 85 分钟)
1200帧 1710 秒(约 28 分钟) 10225 秒(约 170 分钟)
AnimateDiff作为基础模型

 

帧数 更快预览的推理时间 (256×256) 最终结果的推理时间 (720×720)
24帧 50秒 180秒
56帧 85秒 370秒
80帧 120秒 535秒
240帧 350秒 1620 秒(约 27 分钟)
600帧 870秒 5138 秒(~85 分钟)
1200帧 1720 秒(约 28 分钟) 10235 秒(约 170 分钟)
SVD作为基本模型

 

帧数 更快预览的推理时间 (256×256) 最终结果的推理时间 (720×720)
24帧 80秒 210秒
56帧 115秒 400秒
80帧 150秒 565秒
240帧 380秒 1650 秒(约 27 分钟)
600帧 900秒 5168 秒(~86 分钟)
1200帧 1750 秒(约 29 分钟) 10265 秒(~171 分钟)

所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。当帧数超过 80 时,采用随机混合。对于随机混合,chunk_size和 的值overlap_size分别设置为 112 和 32。

更多的文生视频在线使用:【点击前往】 支持多模型自由切换!

THE END
喜欢就支持一下吧
点赞2177 分享
相关推荐
Photoprism 开源相册的搭建教程-零度博客

Photoprism 开源相册的搭建教程

我选择用官方的Docker-Compose安装方案: 1.下载配置文件 # 路径仅供参考 mkdir /home/ubuntu/photoprism cd /home/ubuntu/photoprism wget https://dl.photoprism.org/docker/docker-compose.y...
admin的头像-零度博客admin
1.6W+2251
Windows 11 系统官方正版 iSO镜像下载!中英文官网地址-零度博客

Windows 11 系统官方正版 iSO镜像下载!中英文官网地址

  Windows 11 系统 官方最 iSO镜像下载: 英文官网:【点击前往】 中文官网:【简体】【繁体】 注意:推荐英文官网下载,内置专业工作站版
admin的头像-零度博客admin
2.4W+1682
超强AI扩图!完全免费开源,diffusers-image-outpaint,附详细本地安装教程!-零度博客

超强AI扩图!完全免费开源,diffusers-image-outpaint,附详细本地安装教程!

Diffusers Image Outpaint 技术,是一种基于扩散模型的图像生成方法。它能根据现有图像内容,生成图像的外部区域,使图像看起来更自然和完整。这在图像编辑、游戏开发、虚拟现实等领域非常有用...
admin的头像-零度博客admin
3.6W+2901
Llama 3.1 最新开源大模型!全球最大、功能最强大的开放式基础模型,附免费下载链接!-零度博客

Llama 3.1 最新开源大模型!全球最大、功能最强大的开放式基础模型,附免费下载链接!

正如预期的那样,Meta 今天发布了 Llama 3.1 系列 AI 模型。Llama 3.1 系列包括三种模型:Llama 3.1 8B、Llama 3.1 70B 和 Llama 3.1 405B。这三种模型现在都具有改进的 128K 上下文长度。此外...
admin的头像-零度博客admin
2.1W+2176
Web3.0 网络是否真的能实现?它会带来什么后果! 答案就在这里 (2022)| 零度解说-零度博客
美国新泽西惊现 “UFO”!真相究竟是外星人现身?还是军方黑科技?| 零度解说-零度博客
前所未见的恶意软件已经感染了数百台 Linux 和 Windows 设备-零度博客

前所未见的恶意软件已经感染了数百台 Linux 和 Windows 设备

小型办公室路由器?FreeBSD机器?企业服务器?它们都可能被感染! 研究人员揭示了一种前所未见的跨平台恶意软件,它感染了广泛的 Linux 和 Windows 设备,包括小型办公室路由器、FreeBSD 机器和...
admin的头像-零度博客admin
1.6W+2251
马斯克突然开源 Grok :3140亿参数,打脸OpenAI,免费可商用,点击下载,安装史上最大模型! | 零度解说-零度博客

马斯克突然开源 Grok :3140亿参数,打脸OpenAI,免费可商用,点击下载,安装史上最大模型! | 零度解说

https://youtu.be/HogOVnYldrs ------------------------------------ 🔔 Grok-1 开源模型下载:【点击前往】 Qbittorrent 客户端下载:【点击前往】 H100云GPU租赁:【点击前往】
Windows 11 正在获得新的触摸手势、开始菜单文件夹等等-零度博客

Windows 11 正在获得新的触摸手势、开始菜单文件夹等等

微软还将拖放功能带回任务栏 微软为 Windows 11 带来了新的触摸手势、开始菜单文件夹、重新设计的任务管理器以及更多改进。今天,测试人员可以使用新版本的 Windows 11 ,它充满了新功能,看起...
admin的头像-零度博客admin
1.5W+2251