fastText入门 - 爱码网

简介

fastText是Facebook AI Research在2016年提出的文本分类和词训练的工具。它最大的特点：模型非常简单，训练速度快，并且能够达到与深度学习旗鼓相当的精度。

最近在做一个给微博内容分类的项目，主要目的是给微博打上商业标签。这个项目是一个经典的多分类任务，传统的方法包括：SVM、TextCNN、LSTM等。上面这些方法都略有尝试，而大名鼎鼎的fastText一直没有尝尝鲜，正好借此机会尝尝鲜。

原理

fastText主要有两个功能：训练词向量和文本分类。除此之外，它的训练中还考虑了N-gram。

训练词向量

word2vec的训练粒度是词语，而fastText进一步考虑了subword粒度。subword是一种character-level的n-gram。例如使用tri-gram，那么词语where可以分解成:

文本分类

若熟悉Continuous Bag of Words(CBOW)的模型结构，你会发现它完全有潜力扩展成一个分类模型：

fastText入门

上图左边是word2vec中CBOW的结构，右边是fastText的结构。两类模型的结构区别是：

CBOW使用context( $w_{t - 2}, w_{t - 1}, . . ., w_{t + 1}, w_{t + 2}$ )作为模型输入，而fastText使用document的词( $w_{1}, w_{2}, . . ., w_{n}$ )。
fastText使用label作为学习目标，而CBOW使用 $w_{t}$ 。

总结而言，学习目标是造成模型结构不同的决定性因素，即fastText是有监督模型，而word2vec是无监督模型。

在上述模型结构下，hidden层的计算方式是：

h i d d e n = \frac{1}{n} \sum_{i = 1}^{n} w_{i}

由于分类是模型的最终目标，因此需要一个从hidden层到label的映射，常见的映射方法：

Softmax
Hierarchical Softmax
Noise Contrastive Estimation
Negative Sampling

上述方法中，softmax是常见的多分类分类器，其余三种均是对Softmax的近似（通过近似计算，避免过大的归一化代价）。关于Softmax的近似计算，我会在以后的博客中介绍，这里介绍Softmax在fastText的应用。基于Softmax的fastText，其代价函数如下所示：

l o s s = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{j = 1}^{M} 1 (y_{i} = j) l o g ({\hat{y}}_{i j})

其中：

{\hat{y}}_{i} = s o f t m a x (h i d d e n_{i})

N-gram特征

根据上面的介绍，fastText本质上仍是一类基于词袋(bag-of-words)的分类模型，而丢失词顺序是词袋模型最受人诟病的地方。在词袋模型中，常见增加词顺序信息的方法是N-gram。但是增加N-gram的方法，将带来词典包含大量的词汇，进而导致内存溢出。为了解决此类问题，fastText采用了Hash桶的方式，把所有的N-gram哈希到buckets中，哈希到同一个bucket内的n-gram共享一个vector。具体实现过程如下所示：

fastText入门

为了更好的表述，如何将n-gram特征转化为hidden层，这里举一个例子。假设一个文本由三个词组成 $w_{1}$ ， $w_{2}$ ， $w_{3}$ ，其bigram是 $w_{12}$ ， $w_{23}$ ，那么此时hidden层的计算公式如下所示：

h i d d e n = \frac{1}{5} (w_{1} + w_{2} + w_{3} + w_{12} + w_{23})

结语

以上便是fastText的基本原理，接下来将介绍fastText在微博中的应用。

[1] 玩转fastText
[2] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information
[3] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
[4] facebookresearch/fastText