【发布时间】:2020-05-14 09:06:49
【问题描述】:
我正在研究一个 Airbnb 数据集,以根据交通信息(文本数据)预测客户的评论分数(分数范围从 0 到 100)。
一个典型的交通信息是:如果您要去市中心或更远的地方探索,便利的巴士站就在街区的下方。 Zip 车也位于安妮女王山的战略位置。
我是数据科学的新手!
以下是我正在使用的数据预处理步骤。 谁能告诉我他们是否正确?
训练数据的预处理步骤:
- 转换为小写
- 删除标点符号
- 删除停用词
- 删除从数据探索中识别的常见/稀有词
- 拼写更正
- 词形还原
- 使用以下代码计算 tf-idf 向量:
tfidf = TfidfVectorizer()
train_X = tfidf.fit_transform(train_X)
测试数据的预处理步骤:
- 转换为小写
- 删除标点符号
- 删除停用词
- 拼写更正
- 词形还原
- 使用以下代码计算 tf-idf 向量:
test_X = tfidf.transform(test_X)
谢谢!
【问题讨论】:
标签: python text data-science