【问题标题】:what are the correct steps for text data pre-processing文本数据预处理的正确步骤是什么
【发布时间】:2020-05-14 09:06:49
【问题描述】:

我正在研究一个 Airbnb 数据集,以根据交通信息(文本数据)预测客户的评论分数(分数范围从 0 到 100)。

一个典型的交通信息是:如果您要去市中心或更远的地方探索,便利的巴士站就在街区的下方。 Zip 车也位于安妮女王山的战略位置。

我是数据科学的新手!

以下是我正在使用的数据预处理步骤谁能告诉我他们是否正确?

训练数据的预处理步骤:

  1. 转换为小写
  2. 删除标点符号
  3. 删除停用词
  4. 删除从数据探索中识别的常见/稀有词
  5. 拼写更正
  6. 词形还原
  7. 使用以下代码计算 tf-idf 向量:
   tfidf = TfidfVectorizer()
   train_X = tfidf.fit_transform(train_X)

测试数据的预处理步骤:

  1. 转换为小写
  2. 删除标点符号
  3. 删除停用词
  4. 拼写更正
  5. 词形还原
  6. 使用以下代码计算 tf-idf 向量:
   test_X = tfidf.transform(test_X)

谢谢!

【问题讨论】:

    标签: python text data-science


    【解决方案1】:

    您好,欢迎来到论坛!我可以添加一些:

    • 将所有数字转换为它们的等效单词(以避免有一些数字和一些单词)。您也可以使用正则表达式将所有数字转换为特殊单词,例如 NUM。
    • 扩展缩写。可能某个用户使用了 HH.RR 和另一个 Human Resources。
    • 词干:即从一个词中去除词缀(后缀、前缀、中缀、环缀)以获得词干(例如eating -->eat
    • 如果适用,去除多余的空格
    • 删除“停用词”,如“the”、“and”、“a”,以及评论中最常用的词。因此,首先检查文本中单词的分布,然后过滤掉顶部(无意义!)的单词。
    • 删除页眉、页脚、HTML 标记等噪音。

    如果这回答了您的问题,请不要忘记按我的答案左侧的复选标记按钮以接受它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-30
      • 2014-10-02
      相关资源
      最近更新 更多