【问题标题】:Add spelling/grammatical error to data向数据添加拼写/语法错误
【发布时间】:2017-11-14 07:11:03
【问题描述】:

基本上,我想增加我已有的数据集,包含一系列句子,为此我计划为数据集中的每个句子添加语法/拼写错误。我拥有的数据集是完全干净的,即没有任何拼写/语法错误。如何做到这一点,请记住不应在任何特定句子中添加太多错误,从而防止其含义/意义发生变化。

【问题讨论】:

    标签: machine-learning nlp deep-learning


    【解决方案1】:

    你看过Edit Distance吗?

    Edit Distance 通过 4 个基本操作来测量单词之间的距离:

    1. 插入(添加一个字符x)[1 个单位]
    2. 删除(正在删除x)[1 个单元]
    3. 换位(交换两个相邻的字符 xy)[1 个单位]
    4. 替换(将 x 替换为 y)[2 个单元 = 1 个插入 + 1 个删除]

    例如,“算法”和“对数”之间的编辑距离为 3。

    要引入有意义的噪声来模拟真实世界的数据,您可以考虑以下方法:

    1. 在每个字符串中,随机取1-2个单词
    2. 对于每个随机单词,从 4 种操作中选择一种,并将其随机应用于单词的任何部分。您还可以对同一个单词应用 2 个操作。 在现实世界中,您不会发现比编辑距离 3-4 更严重的错误。

    考虑编辑距离的原因是您应该确保您的错误拼写与正确拼写的偏差不超过 2-4。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-12-07
      • 2010-12-04
      • 1970-01-01
      • 1970-01-01
      • 2011-07-21
      • 2018-06-15
      • 1970-01-01
      • 2019-09-19
      相关资源
      最近更新 更多