首页
IT技术
前端
后端
移动开发
编程语言
数据库
大数据
每日资讯
登录
标签
transformer
DeLighT :深度和轻量化的Transformer
基于注意力的Transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,模型通常通过增加隐藏层的维度来扩展,或者通过堆叠更多的Transformer块来扩展。例如,T5使用65K的隐藏层参数,GPT-3使用96个
深度学习
机器学习
transformer
注意力机制
缩放
admin
6月前
17
0