NLP中涉及的一些基本概念

监督学习：

　　使用已知正确答案的数据，也就是标记过的数据来训练神经网络。

　　监督学习分为两类：回归（regression）分类（classification）;

　　回归：试图预测连续值，我们将输入变量和输出用一个连续函数对应起来。

　　分类：预测一个离散值，我们试图将输入变量与离散的类别对应起来。

非监督学习：

　　使用的数据集无标签，不知道输入数据对应的输出结果，尝试寻找数据中的模型和规律，比如聚类（把相似数据归为一组）和异常检测。

　　很有前景的一个非监督学习方法之一：生成式对抗网络。

半监督学习：

　　训练中使用的数据，只有一小部分是标记过的，大部分是没有标记的；和监督学习相比，成本低，但又能达到较高的准确度。

监督学习中分类和回归模型的区别:

　　定量输出称为回归，连续变量预测；（输出连续化）

　　定性输出称为分类，离散变量预测。（输出离散化）

举个例子：

　　预测明年房价多少——回归模型

　　预测明年房价比北京高还是低——分类模型

什么是 word2vec？

　　word2vec 是Google在2013年年中开源的一款将词表征为实数值向量的高效
工具，采用的模型有 CBOW（Continuous Bag-Of-Words，即连续的词袋模型）和
Skip-Gram 两种。
　　word2vec 通过训练，可以把对文本内容的处理简化为 K 维向量空间中的向量
运算，而向量空间上的相似度可以用来表示文本语义上的相似度。

NLP中涉及的一些基本概念

中文分词

　　将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

词性标注

　　词性是词汇基本的语法属性，通常也称为词类。
　　词性标注是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程。

依存句法分析

　　依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。
　　 NLP中涉及的一些基本概念　
　　

语义依存分析

　　语义依存分析 (Semantic Dependency Parsing, SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用语义依存刻画句子语义，好处在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚，直接获取深层的语义信息。　
　　语义依存分析不受句法结构的影响，将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系。这也是语义依存分析与句法依存分析的重要区别。