文本数据预处理的正确步骤是什么

【问题标题】：what are the correct steps for text data pre-processing文本数据预处理的正确步骤是什么
【发布时间】：2020-05-14 09:06:49
【问题描述】：

我正在研究一个 Airbnb 数据集，以根据交通信息（文本数据）预测客户的评论分数（分数范围从 0 到 100）。

一个典型的交通信息是：如果您要去市中心或更远的地方探索，便利的巴士站就在街区的下方。 Zip 车也位于安妮女王山的战略位置。

我是数据科学的新手！

以下是我正在使用的数据预处理步骤。 谁能告诉我他们是否正确？

训练数据的预处理步骤：

转换为小写
删除标点符号
删除停用词
删除从数据探索中识别的常见/稀有词
拼写更正
词形还原
使用以下代码计算 tf-idf 向量：

   tfidf = TfidfVectorizer()
   train_X = tfidf.fit_transform(train_X)

测试数据的预处理步骤：

转换为小写
删除标点符号
删除停用词
拼写更正
词形还原
使用以下代码计算 tf-idf 向量：

   test_X = tfidf.transform(test_X)

谢谢！

【问题讨论】：

标签： python text data-science

【解决方案1】：

您好，欢迎来到论坛！我可以添加一些：

将所有数字转换为它们的等效单词（以避免有一些数字和一些单词）。您也可以使用正则表达式将所有数字转换为特殊单词，例如 NUM。
扩展缩写。可能某个用户使用了 HH.RR 和另一个 Human Resources。
词干：即从一个词中去除词缀（后缀、前缀、中缀、环缀）以获得词干（例如eating -->eat）
如果适用，去除多余的空格
删除“停用词”，如“the”、“and”、“a”，以及评论中最常用的词。因此，首先检查文本中单词的分布，然后过滤掉顶部（无意义！）的单词。
删除页眉、页脚、HTML 标记等噪音。

如果这回答了您的问题，请不要忘记按我的答案左侧的复选标记按钮以接受它。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2021-09-30
2014-10-02

相关资源

下载 2021-06-06
下载 2023-03-07
下载 2022-12-13

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode