【发布时间】:2019-10-11 12:39:28
【问题描述】:
理想的目标是根据参考语料库(实际文本)纠正 Speech2text 模型的输出。我不介意在 NLP 空间或 ElasticSearch 中使用任何非自我工具
我有一个参考语料库,如下所示:
这种依赖导致了成瘾的循环 毁了生命它是一个让你生病的循环你试图停止 并且可能会在你不这样做的情况下夺走你的生命 这种成瘾循环的影响还包括不断接触 刑事司法系统,而不仅仅是一个逮捕释放周期 和违规。
事实上它要长得多...
另一方面,我有一组从 CSV 文件中的语音 2 文本模型中识别出来的句子
1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond
如你所见,因为 Speech2text 模型并不完美,例如存在错误
1) 在引用语料库时,这些子句拼写错误(例如 dick 而不是sick in number the sentence number 1 2)有些句子根本与语料库不匹配 - 例如。 3 号 3) 将句子放在一起并不能涵盖整个段落。
所以基本上我想知道在 NLP 主题中这个任务是什么,然后我可以做一个更好的谷歌搜索,如果你说出我可以利用的特定函数或示例,我将不胜感激,例如在 Space 或 NLTK 或任何其他工具中。
edit : * 我已经有使用 nlp(coursera 证书)的经验 - 因此,我正在寻找一个具体的答案和/或示例,而不是一篇科学论文。这不是一般的纠错任务,也不是基于顺序模型的下一个工作建议。
【问题讨论】:
标签: regex elasticsearch nlp nltk spacy