当前位置: 首页>移动开发>正文

Learned Video Compression & Video Generation

评测工具:
CompressAI
指标:
相同BPP下的,PSNR和MS-SSIM
PSNR
MS-SSIM
FPS:frame per second
BPP:bits per pixel

用神经网络做视频压缩(思路类似传统Codec)

参考:https://github.com/Little-Podi/Learned_Compression
仍然包括传统Codec中的各模块端到端地用神经网络来做或是混合方案

方法 主要单位 来源 论文 代码 性能指标 --
DVC 上海交大 CVPR'19 paper 【tf code】 【torch code】 相同BPP下,PSNR优于H.264;BPP>0.1时MS-SSIM接近H.265 首个端到端的深度学习视频压缩框架,在深度学习视频压缩领域常被视为基准算法。所有关键组件,即运动估计、运动补偿、残差压缩、运动压缩、量化和码率估计,都是通过神经网络实现并联合优化的。ref
FVC 北航,北理工 CVPR'21 paper 特征空间视频编码(FVC)网络,可以通过在特征空间中执行所有的主要操作(即运动估计、运动压缩、运动补偿和残差压缩)ref
DCVC 微软 NIPS'21 paper 【code】 相同BPP下,PSNR优于H.265
DCVC-HEM 微软 MM'22 paper 【code】 最高压缩率设置下,PSNR和MS-SSIM优于H.266
DCVC-TCM 微软 Transactions on Multimedia, 2022 paper 【code】
DCVC-DC 微软 MM'22 paper 【code】 基于DCVC-HEM,挖掘上下文。 基于DCVC-HEM,挖掘上下文。
Distributed DVC 港科大 ICME'23 paper 【code】
MIMT 腾讯 ICLR'23 paper

?基于低维表示的视频压缩

关键词:autoencoder, video compression

方法 主要单位 来源 论文 代码 性能指标 --
Rate-Distortion Autoencoders 高通 ICCV'19 paper
NVP 韩国科学技术院 NIPS'22 paper 【code】

?基于隐式表示的视频压缩

关键词:implicit neural representation, codec
有点AIGC的意思

  • 传统的自编码器中的latent representation和implicit representation的区别
    • 自编码器包括编码器和解码器,发送方用编码器将输入数据映射到低维latent representation,将低维表示发给接收方;接收方将低维表示输入到decoder,还原出图像。
    • implicit representation将数据的信息存储在神经网络的权重中,直接用神经网络表示数据。发送方将视频压缩为模型,发送模型;接收方用prompt(帧索引等)从模型中查询出视频图像。
方法 主要单位 来源 论文 代码 性能指标 --
NeRV 马里兰大学,Meta NIPS'21 paper 【code】
Implicit Neural Video Compression 高通 ICLR'22 paper
NVP 韩国科学技术院 NIPS'22 paper 【code】
HNeRV 马里兰大学,Meta CVPR'23 paper 【code】 PSNR相同时,解码速度比H.264快
优化NeRV 三星 ICML'23 paper 同BPP下,超过NeRV
D-NeRV 马里兰大学,Meta CVPR'23 paper 【code】 一个模型可以编码多个视频

视频生成

关键词:video generation
典型AIGC,但做Codec太困难(算力消耗极大,原生方案速度极慢)

方法 主要单位 来源 论文 代码 性能指标 --
StyleGAN-V KAUST, Snap CVPR'22 paper 【code】
PVDM 韩国科学技术院,Google CVPR'23 paper 【code】 diffusion model
Stable-video-diffusion StabilityAI 官网 paper 【code】 (960, 720)分辨率,显存消耗60G;A100生成24帧大约需要1min。 可控性差。

https://www.xamrdz.com/mobile/4e61994235.html

相关文章: