Transformer前传:Seq2Seq与注意力机制Attention
Seq2Seq定义Seq2Seq是一个Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列, Encoder使用循环神经网络(RNN,GRU,LSTM等),将一个可变长度的信号序列(输入句子)变为固定维度的向量编码表达, Decoder使用循环神经网络(RNN,GRU,LSTM等),将这个固定长度的编码变成可变长度的目标信号序列(生成目标语言) 图中的圆角矩形即为cell:可以是RNN,GRU,LSTM等结构 相当于将RNN中的$h_0$输入Encoder (将Decoder部分理解成RNN,Encoder输出的Encoder state作为$h_0$) Seq2Seq模型通过 端到端(?) 的训练方式,将输入序列和目标序列直接关联起来,避免了传统方法中繁琐的特征工程和手工设计的对齐步骤。这使得模型能够自动学习从输入到输出的映射关系,提高了序列转换任务的性能和效率 端到端(End-to-End Learning)如何理解这个端到端(End-to-End...
从神经网络语言模型(NNLM)到Word2Vec:自然语言处理中的词向量学习
自然语言处理NLP语言模型语言(人说的话)+模型(完成某个任务) 任务: 概率评估任务:在两句话中,判断哪句话出现的概率大(哪句话在自然语言中更合理) 生成任务:预测词语,我明天要____ 统计语言模型用统计的方法解决上述的两个任务 核心思想给定一个词序列,计算该序列出现的概率 比如句子:”判断这个词的词性”,分词得到”判断”,”这个”,”词”,”的”,”词性” 这句话是有顺序的(是一个序列),怎么理解(?) 就是自然语言我们所说的语序 条件概率链式法则用于解决第一个任务$$统计语言模型的核心是计算一个句子 P(w_1,w_2,…,w_n) 的联合概率,即一句话出现的概率(w_i就是单个词)\P(w_1,w_2,\cdots,w_n) = P(w_1)\cdot P(w_2|w_1)\cdots P(w_n|w_1,w_2,\cdots,w_{n-1}) = \prod_{i}P(w_i |...
循环神经网络
循环神经网络RNN神经网络序列模型通常在自然语言,音频,视频以及其他序列数据的模型 类型 语音识别:输入一段文字输出对应的文字 情感分类:输入一段表示用户情感的文字,输出情感类别或者评分 机器翻译:两种语言互译 架构类型 一对一:一个输入(单一标签)对应一个输出(单一标签) 一对多:一个输入对应多个输出;多用于图片的对象识别,比如输入一张图片,输出一段文本序列 多对一:多个输入对应一个输出,多用于文本分类或视频分类,即输入一段文本或视频片段,输出类别 多对多(1):常用于机器翻译 多对多(2):广泛用于序列标注 ...




