【发布时间】:2017-11-14 07:11:03
【问题描述】:
基本上,我想增加我已有的数据集,包含一系列句子,为此我计划为数据集中的每个句子添加语法/拼写错误。我拥有的数据集是完全干净的,即没有任何拼写/语法错误。如何做到这一点,请记住不应在任何特定句子中添加太多错误,从而防止其含义/意义发生变化。
【问题讨论】:
标签: machine-learning nlp deep-learning
基本上,我想增加我已有的数据集,包含一系列句子,为此我计划为数据集中的每个句子添加语法/拼写错误。我拥有的数据集是完全干净的,即没有任何拼写/语法错误。如何做到这一点,请记住不应在任何特定句子中添加太多错误,从而防止其含义/意义发生变化。
【问题讨论】:
标签: machine-learning nlp deep-learning
你看过Edit Distance吗?
Edit Distance 通过 4 个基本操作来测量单词之间的距离:
x)[1 个单位]x)[1 个单元]x 和 y)[1 个单位]x 替换为 y)[2 个单元 = 1 个插入 + 1 个删除]例如,“算法”和“对数”之间的编辑距离为 3。
要引入有意义的噪声来模拟真实世界的数据,您可以考虑以下方法:
考虑编辑距离的原因是您应该确保您的错误拼写与正确拼写的偏差不超过 2-4。
【讨论】: