【发布时间】:2014-11-15 06:47:36
【问题描述】:
有谁知道这个 ImportError 的来源以及如何解决它?我正在使用 CSV 文件进行一些文本挖掘。此时,我只是尝试对文件中某些职位描述中的单词进行标记,然后向量化并计算维度。但是,我收到此错误。原始代码遵循此错误消息供您查看。我已经尝试卸载 Anaconda 并重新安装它以及所有软件包。此代码在我的 PC(旧网关)上运行得非常好,但不能在装有 Lion OSX 的 Mac(2012)上运行。
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-49-7fcd55a48eba> in <module>()
----> 1 from sklearn.feature_extraction.text import CountVectorizer
2 cv = CountVectorizer(lowercase=True)
3 vector = cv.fit_transform(words).toarray()
4 print vector.shape
//anaconda/lib/python2.7/site-packages/sklearn/__init__.py in <module>()
35 # process, as it may not be compiled yet
36 else:
---> 37 from . import __check_build
38 from .base import clone
39 __check_build # avoid flakes unused variable error
ImportError: cannot import name __check_build
from nltk.tokenize import word_tokenize
为所有帖子创建一个单词列表
words = []
for p in postList[:100]:
temp = word_tokenize(p[2])
temp2 = [w.lower() for w in temp]
string = ''
for w in temp2:
string += w + ', '
string = string[:-1]
words.append(string)
print words
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(lowercase=True)
vector = cv.fit_transform(words).toarray()
print vector.shape
【问题讨论】:
-
这个问题与 Count Vectorizer 完全无关:你可以通过
import sklearn重现这个问题。由于某种原因,在您的 anaconda 文件夹中安装的 scikit-learn 版本已损坏(缺少已编译的扩展)。你是如何在 anaconda 中安装 scikit-learn 的?尝试做conda remove scikit-learn然后conda install scikit-learn重新安装它。
标签: python-2.7 scikit-learn vectorization