transformer

DeLighT ：深度和轻量化的Transformer
基于注意力的Transformer网络被广泛用于序列建模任务，包括语言建模和机器翻译。为了提高性能，模型通常通过增加隐藏层的维度来扩展，或者通过堆叠更多的Transformer块来扩展。例如，T5使用65K的隐藏层参数，GPT-3使用96个
深度学习机器学习transformer注意力机制缩放
admin7月前
210