sklearn：如何加速矢量化器（例如 Tfidfvectorizer）答案

【问题标题】：sklearn: How to speed up a vectorizer (eg Tfidfvectorizer)sklearn：如何加速矢量化器（例如 Tfidfvectorizer）
【发布时间】：2014-11-29 12:01:13
【问题描述】：

在彻底分析我的程序后，我能够确定它正在被矢量化器减慢。

我正在处理文本数据，两行简单的 tfidf unigram 矢量化占用了代码执行总时间的 99.2%。

这是一个可运行的示例（这会将 3mb 训练文件下载到您的磁盘，省略 urllib 部分以在您自己的示例上运行）：

#####################################
# Loading Data
#####################################
import urllib
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk.stem  
raw = urllib.urlopen("https://s3.amazonaws.com/hr-testcases/597/assets/trainingdata.txt").read()
file = open("to_delete.txt","w").write(raw)
###
def extract_training():
    f = open("to_delete.txt")
    N = int(f.readline())
    X = []
    y = []
    for i in xrange(N):
        line  = f.readline()
        label,text =  int(line[0]), line[2:]
        X.append(text)
        y.append(label)
    return X,y
X_train, y_train =  extract_training()    
#############################################
# Extending Tfidf to have only stemmed features
#############################################
english_stemmer = nltk.stem.SnowballStemmer('english')

class StemmedTfidfVectorizer(TfidfVectorizer):
    def build_analyzer(self):
        analyzer = super(TfidfVectorizer, self).build_analyzer()
        return lambda doc: (english_stemmer.stem(w) for w in analyzer(doc))

tfidf = StemmedTfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
#############################################
# Line below takes 6-7 seconds on my machine
#############################################
Xv = tfidf.fit_transform(X_train)

我尝试将列表 X_train 转换为 np.array 但性能没有差异。

【问题讨论】：

你可以在codereview.stackexchange.com上试试这个。

标签： python scikit-learn nltk

【解决方案1】：

不出所料，慢的是 NLTK：

>>> tfidf = StemmedTfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
>>> %timeit tfidf.fit_transform(X_train)
1 loops, best of 3: 4.89 s per loop
>>> tfidf = TfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
>>> %timeit tfidf.fit_transform(X_train)
1 loops, best of 3: 415 ms per loop

您可以通过使用更智能的 Snowball 词干分析器实现来加快这一速度，例如，PyStemmer：

>>> import Stemmer
>>> english_stemmer = Stemmer.Stemmer('en')
>>> class StemmedTfidfVectorizer(TfidfVectorizer):
...     def build_analyzer(self):
...         analyzer = super(TfidfVectorizer, self).build_analyzer()
...         return lambda doc: english_stemmer.stemWords(analyzer(doc))
...     
>>> tfidf = StemmedTfidfVectorizer(min_df=1, stop_words='english', analyzer='word', ngram_range=(1,1))
>>> %timeit tfidf.fit_transform(X_train)
1 loops, best of 3: 650 ms per loop

NLTK 是一个教学工具包。它的设计速度很慢，因为它针对可读性进行了优化。

【讨论】：

这不在 Python 3.6 上 :(
这对我来说真的很慢，我正在使用字符 ngram。有什么解释吗？
没有名为“Stemmer”的模块
你必须运行“pip install PyStemmer”才能让“import Stemmer”工作