【发布时间】:2018-11-12 17:12:55
【问题描述】:
我想开始使用机器学习开发应用程序。我想对文本进行分类 - 垃圾邮件或非垃圾邮件。我有 2 个文件 - spam.txt、ham.txt - 每个文件包含数千个句子。如果我想使用分类器,比如说LogisticRegression。
例如,正如我在互联网上看到的,为了适合我的模型,我需要这样做:
`lr = LogisticRegression()
model = lr.fit(X_train, y_train)`
所以我的问题来了,X_train 和 y_train 实际上是什么?我如何从我的句子中获得它们?我在互联网上搜索,我不明白,这是我的最后一个电话,我对这个话题很陌生。谢谢!
【问题讨论】:
-
X_train 是所有具有属性的实例,y_train 是每个实例的标签。因为您的问题是二元分类问题并使用逻辑回归。您的 y_train 为 0 或 1(是否为垃圾邮件)。
标签: python machine-learning logistic-regression