一、seq2seq模型
1.概念
(1)seq2seq是一个Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。
(2)Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。
(3)这个结构最重要的地方在于输入序列和输出序列的长度是可变的。
(4)可以用于翻译,聊天机器人、句法分析、文本摘要等。
2.encoder过程
(1)取得输入的文本,进行embedding,生成向量
(2)传入到LSTM中进行训练
(3)记录状态,并输出当前cell的结果
(4)依次循环,得到最终结果
3.decoder过程
(1)在encoder最后一个时间步长的隐藏层之后输入到decoder的第一个cell里
(2)通过激活函数得到候选的文本
(3)筛选出可能性最大的文本作为下一个时间步长的输入
(4)依次循环,得到目标
4.seq2seq模型
seq2seq结构
二、注意力机制
1.概念
(1)注意力机制是在序列到序列模型中用于注意编码器状态的最常用方法,它同时还可用于回顾序列模型的过去状态。
(2)注意力机制不仅能用来处理编码器或前面的隐藏层,它同样还能用来获得其他特征的分布,例如阅读理解任务中作为文本的词向量。
2.为什么需要注意力机制
(1)减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度。
(2)让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。
(3)Attention模型的最终目的是帮助类似编解码器这样的框架,更好的学到多种内容模态之间的相互关系,从而更好的表示这些信息,客服其无法解释从而很难设计的缺陷。
三、seq2seq与注意力机制
seq2seq+attention seq2seq