向数据添加拼写/语法错误答案

【问题标题】：Add spelling/grammatical error to data向数据添加拼写/语法错误
【发布时间】：2017-11-14 07:11:03
【问题描述】：

基本上，我想增加我已有的数据集，包含一系列句子，为此我计划为数据集中的每个句子添加语法/拼写错误。我拥有的数据集是完全干净的，即没有任何拼写/语法错误。如何做到这一点，请记住不应在任何特定句子中添加太多错误，从而防止其含义/意义发生变化。

【问题讨论】：

【解决方案1】：

你看过Edit Distance吗？

Edit Distance 通过 4 个基本操作来测量单词之间的距离：

例如，“算法”和“对数”之间的编辑距离为 3。

要引入有意义的噪声来模拟真实世界的数据，您可以考虑以下方法：

在每个字符串中，随机取1-2个单词
对于每个随机单词，从 4 种操作中选择一种，并将其随机应用于单词的任何部分。您还可以对同一个单词应用 2 个操作。在现实世界中，您不会发现比编辑距离 3-4 更严重的错误。

考虑编辑距离的原因是您应该确保您的错误拼写与正确拼写的偏差不超过 2-4。

【讨论】：