【发布时间】:2019-05-25 20:57:59
【问题描述】:
我有一个简单的 NLP 问题,其中我有一些具有简单的二元正面或负面判断的书面评论。在这种情况下,我可以将包含“词袋”(即稀疏矩阵中的单个词)的 X 列作为自变量进行训练和测试。
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(max_features = 300)
#indipendent
X = cv.fit_transform(corpus).toarray()
#dependent
y = dataset.iloc[:, 1].values
..和因变量 y,由第 1 列表示,假定值为 0 和 1(因此基本上是正面和负面评论)。
如果不是 0 和 1,我有可以从 1 到 5 星投票的评论,我是否应该继续拥有一个 y 变量列,其值从 0 到 4?换句话说,我会撒谎以知道模型有多大不同如果用户可以在他或她的评论之后给出从 1 到 5 的评分,而不是二元的好/坏评论。 这种问题在机器学习中怎么称呼?
【问题讨论】:
-
谢谢,现在我从所有这些回复中学到了很多。我要投票给其他人并投票给@Rishi
标签: python machine-learning nlp classification