【问题标题】:How to use NLP to detect sentences in a long text?如何使用 NLP 检测长文本中的句子?
【发布时间】:2021-09-25 15:16:39
【问题描述】:

我正在使用自动语音识别从音频文件中提取文本。然而,输出只是一长串没有任何标点符号的单词。我想做的是使用一些 NLP 技术来估计句子的开头和结尾,或者换句话说,预测标点符号的位置。我发现 CoreNLP 可以进行句子拆分,但显然只有在标点符号已经存在的情况下。

【问题讨论】:

    标签: nlp


    【解决方案1】:

    在口语中,您经常会发现人们不使用句子,而是从句简单地相互碰撞。发生这种情况的程度取决于形式和环境——演讲会比朋友在酒吧里的谈话更符合书面句子结构。

    您可以尝试的一种方法是识别通常在书面文本中开始/结束句子的单词,看看这是否可以帮助您分割数据。或者寻找动词,然后尝试找到它们之间的界限;这可能是从句边界而不是句子边界,但正如我所说,在口语中通常没有句子。

    【讨论】:

    • 我看到了口语文本没有清晰分隔的句子的问题。但是,必须有一种方法至少可以估计句子的起点和终点。谷歌云的Speech-to-Text API 显然是这样做的。除了您的建议之外,可能有希望识别与实际词性有关的模式。我正在寻找的是一些已经实现此类功能的库。有谁知道相关的事情吗?
    【解决方案2】:

    您可以在其他问题的答案中找到相关信息:Sentence annotation in text without punctuation

    特别是,其中一个答案声称deepsegment 包在不带标点的文本上效果很好。

    【讨论】:

      猜你喜欢
      • 2012-01-18
      • 1970-01-01
      • 2017-12-20
      • 1970-01-01
      • 2021-09-08
      • 1970-01-01
      • 1970-01-01
      • 2020-02-03
      • 2012-09-03
      相关资源
      最近更新 更多