Learned Video Compression & Video Generation

移动开发2024-10-17 05:32:39

评测工具：
CompressAI
指标：
相同BPP下的，PSNR和MS-SSIM
PSNR
MS-SSIM
FPS：frame per second
BPP：bits per pixel

用神经网络做视频压缩（思路类似传统Codec）

参考：https://github.com/Little-Podi/Learned_Compression
仍然包括传统Codec中的各模块，端到端地用神经网络来做或是混合方案

方法	主要单位	来源	论文	代码	性能指标	--
DVC	上海交大	CVPR'19	paper	【tf code】【torch code】	相同BPP下，PSNR优于H.264；BPP>0.1时MS-SSIM接近H.265	首个端到端的深度学习视频压缩框架，在深度学习视频压缩领域常被视为基准算法。所有关键组件，即运动估计、运动补偿、残差压缩、运动压缩、量化和码率估计，都是通过神经网络实现并联合优化的。ref
FVC	北航，北理工	CVPR'21	paper			特征空间视频编码（FVC）网络，可以通过在特征空间中执行所有的主要操作（即运动估计、运动压缩、运动补偿和残差压缩）ref
DCVC	微软	NIPS'21	paper	【code】	相同BPP下，PSNR优于H.265
DCVC-HEM	微软	MM'22	paper	【code】	最高压缩率设置下，PSNR和MS-SSIM优于H.266
DCVC-TCM	微软	Transactions on Multimedia, 2022	paper	【code】
DCVC-DC	微软	MM'22	paper	【code】	基于DCVC-HEM，挖掘上下文。	基于DCVC-HEM，挖掘上下文。
Distributed DVC	港科大	ICME'23	paper	【code】
MIMT	腾讯	ICLR'23	paper

关键词：autoencoder, video compression

方法	主要单位	来源	论文	代码	性能指标	--
Rate-Distortion Autoencoders	高通	ICCV'19	paper
NVP	韩国科学技术院	NIPS'22	paper	【code】

关键词：implicit neural representation, codec
有点AIGC的意思

传统的自编码器中的latent representation和implicit representation的区别
- 自编码器包括编码器和解码器，发送方用编码器将输入数据映射到低维latent representation，将低维表示发给接收方；接收方将低维表示输入到decoder，还原出图像。
- implicit representation将数据的信息存储在神经网络的权重中，直接用神经网络表示数据。发送方将视频压缩为模型，发送模型；接收方用prompt（帧索引等）从模型中查询出视频图像。

方法	主要单位	来源	论文	代码	性能指标	--
NeRV	马里兰大学，Meta	NIPS'21	paper	【code】
Implicit Neural Video Compression	高通	ICLR'22	paper
NVP	韩国科学技术院	NIPS'22	paper	【code】
HNeRV	马里兰大学，Meta	CVPR'23	paper	【code】	PSNR相同时，解码速度比H.264快
优化NeRV	三星	ICML'23	paper		同BPP下，超过NeRV
D-NeRV	马里兰大学，Meta	CVPR'23	paper	【code】		一个模型可以编码多个视频

关键词：video generation
典型AIGC，但做Codec太困难（算力消耗极大，原生方案速度极慢）