【问题标题】：Scikit Learn and Count Vectorizer ErrorScikit 学习和计数向量器错误
【发布时间】：2014-11-15 06:47:36
【问题描述】：

有谁知道这个 ImportError 的来源以及如何解决它？我正在使用 CSV 文件进行一些文本挖掘。此时，我只是尝试对文件中某些职位描述中的单词进行标记，然后向量化并计算维度。但是，我收到此错误。原始代码遵循此错误消息供您查看。我已经尝试卸载 Anaconda 并重新安装它以及所有软件包。此代码在我的 PC（旧网关）上运行得非常好，但不能在装有 Lion OSX 的 Mac（2012）上运行。

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-49-7fcd55a48eba> in <module>()
----> 1 from sklearn.feature_extraction.text import CountVectorizer
      2 cv = CountVectorizer(lowercase=True)
      3 vector = cv.fit_transform(words).toarray()
      4 print vector.shape

//anaconda/lib/python2.7/site-packages/sklearn/__init__.py in <module>()
     35     # process, as it may not be compiled yet
     36 else:
---> 37     from . import __check_build
     38     from .base import clone
     39     __check_build  # avoid flakes unused variable error

ImportError: cannot import name __check_build


from nltk.tokenize import word_tokenize

为所有帖子创建一个单词列表

words = []
for p in postList[:100]:
    temp = word_tokenize(p[2])
    temp2 = [w.lower() for w in temp]
    string = ''
    for w in temp2:
        string += w + ', '
    string = string[:-1]
    words.append(string)
print words

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(lowercase=True)
vector = cv.fit_transform(words).toarray()
print vector.shape

【问题讨论】：

这个问题与 Count Vectorizer 完全无关：你可以通过 import sklearn 重现这个问题。由于某种原因，在您的 anaconda 文件夹中安装的 scikit-learn 版本已损坏（缺少已编译的扩展）。你是如何在 anaconda 中安装 scikit-learn 的？尝试做conda remove scikit-learn 然后conda install scikit-learn 重新安装它。

标签： python-2.7 scikit-learn vectorization

【解决方案1】：

您要导入的 scikit-learn 未正确构建。检查你的搜索路径：

python -c "import sys; print(sys.path)"

和sklearn.__path__（如果 sklearn 的导入失败，则不确定这是否可行）。要么重建您现在尝试导入的 sklearn 版本（具体操作取决于它的安装方式，很可能是 python setup.py build_ext -i 或 python setup.py install）或从搜索路径中删除它。

【讨论】：