【问题标题】:aligning sentences to corpus and finding mismatches将句子与语料库对齐并发现不匹配
【发布时间】:2019-10-11 12:39:28
【问题描述】:

理想的目标是根据参考语料库(实际文本)纠正 Speech2text 模型的输出。我不介意在 NLP 空间或 ElasticSearch 中使用任何非自我工具

我有一个参考语料库,如下所示:

这种依赖导致了成瘾的循环 毁了生命它是一个让你生病的循环试图停止 并且可能会在你不这样做的情况下夺走你的生命 这种成瘾循环的影响还包括不断接触 刑事司法系统,而不仅仅是一个逮捕释放周期 和违规。

事实上它要长得多...

另一方面,我有一组从 CSV 文件中的语音 2 文本模型中识别出来的句子

1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond

如你所见,因为 Speech2text 模型并不完美,例如存在错误

1) 在引用语料库时,这些子句拼写错误(例如 dick 而不是sick in number the sentence number 1 2)有些句子根本与语料库不匹配 - 例如。 3 号 3) 将句子放在一起并不能涵盖整个段落。

所以基本上我想知道在 NLP 主题中这个任务是什么,然后我可以做一个更好的谷歌搜索,如果你说出我可以利用的特定函数或示例,我将不胜感激,例如在 Space 或 NLTK 或任何其他工具中。

edit : * 我已经有使用 nlp(coursera 证书)的经验 - 因此,我正在寻找一个具体的答案和/或示例,而不是一篇科学论文。这不是一般的纠错任务,也不是基于顺序模型的下一个工作建议。

【问题讨论】:

    标签: regex elasticsearch nlp nltk spacy


    【解决方案1】:

    最适合这方面的 NLP 技术可能是语言模型。 他们预测给定先前单词(或周围单词)的单词的可能性。 它们可用于纠错。
    您可能会发现以下有用:
    article
    page

    【讨论】:

    • 我正在寻找更具体的答案和/或示例。这不是一般的纠错任务,也不是基于序列模型的下一个工作建议。
    • 当您在发布答案后编辑您的问题时,您应该以“编辑:”一词开始添加的段落
    • 感谢您提醒我,但这不应该是降级的原因。
    【解决方案2】:

    为什么您认为这“不是一般的纠错任务”?我认为是这样。您很酷地研究了“语法纠正”或“句子有效性”。

    句子有效性在How to check whether a sentence is correct (simple grammar check in Python)? 讨论。列出的工具还提供建议,因此可能对您有用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2023-01-20
      • 2018-03-06
      • 1970-01-01
      • 2020-03-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多