【发布时间】:2018-12-14 22:16:34
【问题描述】:
我得到以下代码,我将文本转换为 tf:
...
x_train, x_test, y_train, y_test = model_selection.train_test_split(dataset['documents'],dataset['classes'],test_size=test_percentil)
#Term document matrix
count_vect = CountVectorizer(ngram_range=(1, Ngram), min_df=1, max_features=MaxVocabulary)
x_train_counts = count_vect.fit_transform(x_train)
x_test_counts=count_vect.transform(x_test)
#Term Inverse-Frequency
tf_transformer = TfidfTransformer(use_idf=True).fit(x_train_counts)
lista=tf_transformer.get_params()
x_train_tf = tf_transformer.transform(x_train_counts)
x_test_tf=tf_transformer.transform(x_test_counts)
...
然后,我训练一个模型并使用 pickle 保存它。 当我在另一个程序中尝试预测新数据时,问题就来了。 基本上,我得到了:
count_vect = CountVectorizer(ngram_range=(1, 1), min_df=1, max_features=None)
x_counts = count_vect.fit_transform(dataset['documents'])
#Term Inverse-Frequency
tf_transformer = TfidfTransformer(use_idf=True).fit(x_counts)
x_tf = tf_transformer.transform(x_train_counts)
model.predict(x_tf)
当我执行这段代码时,输出是
ValueError: X 每个样本有 8933 个特征;期待 7488
我知道这是 TfIdf 表示的问题,我听说我需要使用相同的 tf_transformer 和矢量化器来获得预期的输入形状,但我不知道如何实现这一点。 我可以存储其他转换器和矢量化器,但我尝试使用不同的组合,但一无所获。
【问题讨论】:
-
你为什么要再次初始化
count_vect和tf_transformer? -
因为我在另一个python代码中
-
您不能使用
pickle或joblib保存和加载TFidf 结果吗?
标签: python python-3.x scikit-learn tf-idf