【问题标题】:Passing TFIDF Feature Vector to a SGDClassifier from sklearn将 TFIDF 特征向量从 sklearn 传递给 SGDClassifier
【发布时间】:2023-04-04 14:49:02
【问题描述】:
import numpy as np
from sklearn import linear_model
X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
Y = np.array(['C++', 'C#', 'java','python'])
clf = linear_model.SGDClassifier()
clf.fit(X, Y)
print (clf.predict([[1.7, 0.7]]))
#python

我试图通过给出一个测试用例并在 X 的训练数据上对其进行训练来预测数组 Y 的值,现在我的问题是,我想更改训练集 X 到 TF-IDF 特征向量,那怎么可能呢? 隐隐约约,我想做这样的事情

import numpy as np
from sklearn import linear_model
X = np.array_str([['abcd', 'efgh'], ['qwert', 'yuiop'], ['xyz','abc'],['opi', 'iop']])
Y = np.array(['C++', 'C#', 'java','python'])
clf = linear_model.SGDClassifier()
clf.fit(X, Y)

【问题讨论】:

    标签: python scikit-learn tf-idf


    【解决方案1】:

    您应该查看scikit-learn 中的TfidfVectorizer。 我假设 X 是要分类的文本列表。

    from sklearn.feature_extraction.text import TfidfVectorizer
    vectorizer = TfidfVectorizer()
    X_train = vectorizer.fit_transform(X)
    

    然后使用 X_train 作为新的 X 来训练你的分类器。

    clf = linear_model.SGDClassifier()
    clf.fit(X_train, Y)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-11-10
      • 2019-09-15
      • 1970-01-01
      • 2015-11-01
      • 2021-03-24
      • 2016-06-07
      • 2015-06-07
      • 1970-01-01
      相关资源
      最近更新 更多