评测工具:
CompressAI
指标:
相同BPP下的,PSNR和MS-SSIM
PSNR
MS-SSIM
FPS:frame per second
BPP:bits per pixel
用神经网络做视频压缩(思路类似传统Codec)
参考:https://github.com/Little-Podi/Learned_Compression
仍然包括传统Codec中的各模块,端到端地用神经网络来做或是混合方案
方法 | 主要单位 | 来源 | 论文 | 代码 | 性能指标 | -- |
---|---|---|---|---|---|---|
DVC | 上海交大 | CVPR'19 | paper | 【tf code】 【torch code】 | 相同BPP下,PSNR优于H.264;BPP>0.1时MS-SSIM接近H.265 | 首个端到端的深度学习视频压缩框架,在深度学习视频压缩领域常被视为基准算法。所有关键组件,即运动估计、运动补偿、残差压缩、运动压缩、量化和码率估计,都是通过神经网络实现并联合优化的。ref |
FVC | 北航,北理工 | CVPR'21 | paper | 特征空间视频编码(FVC)网络,可以通过在特征空间中执行所有的主要操作(即运动估计、运动压缩、运动补偿和残差压缩)ref | ||
DCVC | 微软 | NIPS'21 | paper | 【code】 | 相同BPP下,PSNR优于H.265 | |
DCVC-HEM | 微软 | MM'22 | paper | 【code】 | 最高压缩率设置下,PSNR和MS-SSIM优于H.266 | |
DCVC-TCM | 微软 | Transactions on Multimedia, 2022 | paper | 【code】 | ||
DCVC-DC | 微软 | MM'22 | paper | 【code】 | 基于DCVC-HEM,挖掘上下文。 | 基于DCVC-HEM,挖掘上下文。 |
Distributed DVC | 港科大 | ICME'23 | paper | 【code】 | ||
MIMT | 腾讯 | ICLR'23 | paper |
?基于低维表示的视频压缩
关键词:autoencoder, video compression
方法 | 主要单位 | 来源 | 论文 | 代码 | 性能指标 | -- |
---|---|---|---|---|---|---|
Rate-Distortion Autoencoders | 高通 | ICCV'19 | paper | |||
NVP | 韩国科学技术院 | NIPS'22 | paper | 【code】 |
?基于隐式表示的视频压缩
关键词:implicit neural representation, codec
有点AIGC的意思
- 传统的自编码器中的latent representation和implicit representation的区别
- 自编码器包括编码器和解码器,发送方用编码器将输入数据映射到低维latent representation,将低维表示发给接收方;接收方将低维表示输入到decoder,还原出图像。
- implicit representation将数据的信息存储在神经网络的权重中,直接用神经网络表示数据。发送方将视频压缩为模型,发送模型;接收方用prompt(帧索引等)从模型中查询出视频图像。
方法 | 主要单位 | 来源 | 论文 | 代码 | 性能指标 | -- |
---|---|---|---|---|---|---|
NeRV | 马里兰大学,Meta | NIPS'21 | paper | 【code】 | ||
Implicit Neural Video Compression | 高通 | ICLR'22 | paper | |||
NVP | 韩国科学技术院 | NIPS'22 | paper | 【code】 | ||
HNeRV | 马里兰大学,Meta | CVPR'23 | paper | 【code】 | PSNR相同时,解码速度比H.264快 | |
优化NeRV | 三星 | ICML'23 | paper | 同BPP下,超过NeRV | ||
D-NeRV | 马里兰大学,Meta | CVPR'23 | paper | 【code】 | 一个模型可以编码多个视频 |
视频生成
关键词:video generation
典型AIGC,但做Codec太困难(算力消耗极大,原生方案速度极慢)
方法 | 主要单位 | 来源 | 论文 | 代码 | 性能指标 | -- |
---|---|---|---|---|---|---|
StyleGAN-V | KAUST, Snap | CVPR'22 | paper | 【code】 | ||
PVDM | 韩国科学技术院,Google | CVPR'23 | paper | 【code】 | diffusion model | |
Stable-video-diffusion | StabilityAI | 官网 | paper | 【code】 | (960, 720)分辨率,显存消耗60G;A100生成24帧大约需要1min。 | 可控性差。 |