从神经网络语言模型(NNLM)到Word2Vec:自然语言处理中的词向量学习
自然语言处理NLP语言模型语言(人说的话)+模型(完成某个任务) 任务: 概率评估任务:在两句话中,判断哪句话出现的概率大(哪句话在自然语言中更合理) 生成任务:预测词语,我明天要____ 统计语言模型用统计的方法解决上述的两个任务 核心思想给定一个词序列,计算该序列出现的概率 比如句子:”判断这个词的词性”,分词得到”判断”,”这个”,”词”,”的”,”词性” 这句话是有顺序的(是一个序列),怎么理解(?) 就是自然语言我们所说的语序 条件概率链式法则用于解决第一个任务$$统计语言模型的核心是计算一个句子 P(w_1,w_2,…,w_n) 的联合概率,即一句话出现的概率(w_i就是单个词)\P(w_1,w_2,\cdots,w_n) = P(w_1)\cdot P(w_2|w_1)\cdots P(w_n|w_1,w_2,\cdots,w_{n-1}) = \prod_{i}P(w_i |...
循环神经网络
循环神经网络RNN神经网络序列模型通常在自然语言,音频,视频以及其他序列数据的模型 类型 语音识别:输入一段文字输出对应的文字 情感分类:输入一段表示用户情感的文字,输出情感类别或者评分 机器翻译:两种语言互译 架构类型 一对一:一个输入(单一标签)对应一个输出(单一标签) 一对多:一个输入对应多个输出;多用于图片的对象识别,比如输入一张图片,输出一段文本序列 多对一:多个输入对应一个输出,多用于文本分类或视频分类,即输入一段文本或视频片段,输出类别 多对多(1):常用于机器翻译 多对多(2):广泛用于序列标注 ...
深度学习-第2周
最近邻规则分类KNN算法介绍KNN是一种近朱者赤近墨者黑的监督学习分类算法,是基于实例的学习,属于懒惰学习(没有显式学习过程;在训练阶段不做或做很少的模型构建工作,而是在预测阶段才进行大量计算) 为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K 计算未知实例与所有已知实例的距离 选择最近K个已知实例 根据少数服从多数的投票法则,让未知实例归类为K个最邻近样本中最多数的类别 距离度量闵可夫斯基距离$$有两个k维向量\vec{a}=(x_{11},x_{12},\dots,x_{1k}),\vec{b}=(x_{21},x_{22},\dots,x_{2k}) \两个向量之间的闵可夫斯基距离为\d(x,y)=(\sum_{i=1}^{k}|x_{1i}-x_{2i}|^p)^{1/p}$$ 曼哈顿距离各个维度差值的绝对值的和$$闵可夫斯基距离中p=1\d(x,y)...





