【问题标题】:Scikit Learn and Count Vectorizer ErrorScikit 学习和计数向量器错误
【发布时间】:2014-11-15 06:47:36
【问题描述】:

有谁知道这个 ImportError 的来源以及如何解决它?我正在使用 CSV 文件进行一些文本挖掘。此时,我只是尝试对文件中某些职位描述中的单词进行标记,然后向量化并计算维度。但是,我收到此错误。原始代码遵循此错误消息供您查看。我已经尝试卸载 Anaconda 并重新安装它以及所有软件包。此代码在我的 PC(旧网关)上运行得非常好,但不能在装有 Lion OSX 的 Mac(2012)上运行。

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-49-7fcd55a48eba> in <module>()
----> 1 from sklearn.feature_extraction.text import CountVectorizer
      2 cv = CountVectorizer(lowercase=True)
      3 vector = cv.fit_transform(words).toarray()
      4 print vector.shape

//anaconda/lib/python2.7/site-packages/sklearn/__init__.py in <module>()
     35     # process, as it may not be compiled yet
     36 else:
---> 37     from . import __check_build
     38     from .base import clone
     39     __check_build  # avoid flakes unused variable error

ImportError: cannot import name __check_build


from nltk.tokenize import word_tokenize

为所有帖子创建一个单词列表

words = []
for p in postList[:100]:
    temp = word_tokenize(p[2])
    temp2 = [w.lower() for w in temp]
    string = ''
    for w in temp2:
        string += w + ', '
    string = string[:-1]
    words.append(string)
print words

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(lowercase=True)
vector = cv.fit_transform(words).toarray()
print vector.shape

【问题讨论】:

  • 这个问题与 Count Vectorizer 完全无关:你可以通过 import sklearn 重现这个问题。由于某种原因,在您的 anaconda 文件夹中安装的 scikit-learn 版本已损坏(缺少已编译的扩展)。你是如何在 anaconda 中安装 scikit-learn 的?尝试做conda remove scikit-learn 然后conda install scikit-learn 重新安装它。

标签: python-2.7 scikit-learn vectorization


【解决方案1】:

您要导入的 scikit-learn 未正确构建。检查你的搜索路径:

python -c "import sys; print(sys.path)"

sklearn.__path__(如果 sklearn 的导入失败,则不确定这是否可行)。要么重建您现在尝试导入的 sklearn 版本(具体操作取决于它的安装方式,很可能是 python setup.py build_ext -ipython setup.py install)或从搜索路径中删除它。

【讨论】:

    猜你喜欢
    • 2015-01-09
    • 2014-03-15
    • 2019-02-28
    • 2014-02-02
    • 1970-01-01
    • 2017-04-07
    • 2021-12-30
    • 2016-11-11
    • 2016-06-21
    相关资源
    最近更新 更多