【发布时间】:2018-04-17 14:25:23
【问题描述】:
如何将计数矢量化文本数据转换回文本形式。我有文本数据,我使用 countvectorizer 将其制成稀疏矩阵进行分类。现在我希望将文本数据的稀疏矩阵转换回文本数据。
我的代码
cv = CountVectorizer( max_features = 500,analyzer='word')
cv_addr = cv.fit_transform(data.pop('Clean_addr'))
for i, col in enumerate(cv.get_feature_names()):
data[col] = pd.SparseSeries(cv_addr[:, i].toarray().ravel(), fill_value=0)
【问题讨论】:
-
您想要返回原始文本?这是不可能的,向量空间表示会丢失所有位置信息。没有办法区分“狗吃了猫”和“猫吃了狗”和“吃了狗猫”
-
@juanpa.arrivillaga,我已经使用地址文本数据和其他一些数字数据列进行了地址分类。现在我已经将它们分类为基本的两类(商业和住宅)。我怎样才能理解哪些是正确分类的,哪些没有分类。Sklearn 不接受文本数据作为决策树
-
很抱歉,但这听起来与您的问题完全无关...?究竟是什么问题?您正在处理带标签的数据,不是吗?
-
@juanpa.arrivillaga,我如何知道哪些记录被正确分类,哪些记录没有被正确分类。我已将数据集拆分为测试和训练。这些数据集仅包含数值。
-
是的。但是你有标签,不是吗?
标签: python pandas scikit-learn sklearn-pandas