如何使用 NLP 检测长文本中的句子？答案

【问题标题】：How to use NLP to detect sentences in a long text?如何使用 NLP 检测长文本中的句子？
【发布时间】：2021-09-25 15:16:39
【问题描述】：

我正在使用自动语音识别从音频文件中提取文本。然而，输出只是一长串没有任何标点符号的单词。我想做的是使用一些 NLP 技术来估计句子的开头和结尾，或者换句话说，预测标点符号的位置。我发现 CoreNLP 可以进行句子拆分，但显然只有在标点符号已经存在的情况下。

【问题讨论】：

标签： nlp

【解决方案1】：

在口语中，您经常会发现人们不使用句子，而是从句简单地相互碰撞。发生这种情况的程度取决于形式和环境——演讲会比朋友在酒吧里的谈话更符合书面句子结构。

您可以尝试的一种方法是识别通常在书面文本中开始/结束句子的单词，看看这是否可以帮助您分割数据。或者寻找动词，然后尝试找到它们之间的界限；这可能是从句边界而不是句子边界，但正如我所说，在口语中通常没有句子。

【讨论】：

我看到了口语文本没有清晰分隔的句子的问题。但是，必须有一种方法至少可以估计句子的起点和终点。谷歌云的Speech-to-Text API 显然是这样做的。除了您的建议之外，可能有希望识别与实际词性有关的模式。我正在寻找的是一些已经实现此类功能的库。有谁知道相关的事情吗？

【解决方案2】：

您可以在其他问题的答案中找到相关信息：Sentence annotation in text without punctuation。

特别是，其中一个答案声称deepsegment 包在不带标点的文本上效果很好。

【讨论】：