【发布时间】:2021-09-25 15:16:39
【问题描述】:
我正在使用自动语音识别从音频文件中提取文本。然而,输出只是一长串没有任何标点符号的单词。我想做的是使用一些 NLP 技术来估计句子的开头和结尾,或者换句话说,预测标点符号的位置。我发现 CoreNLP 可以进行句子拆分,但显然只有在标点符号已经存在的情况下。
【问题讨论】:
标签: nlp
我正在使用自动语音识别从音频文件中提取文本。然而,输出只是一长串没有任何标点符号的单词。我想做的是使用一些 NLP 技术来估计句子的开头和结尾,或者换句话说,预测标点符号的位置。我发现 CoreNLP 可以进行句子拆分,但显然只有在标点符号已经存在的情况下。
【问题讨论】:
标签: nlp
在口语中,您经常会发现人们不使用句子,而是从句简单地相互碰撞。发生这种情况的程度取决于形式和环境——演讲会比朋友在酒吧里的谈话更符合书面句子结构。
您可以尝试的一种方法是识别通常在书面文本中开始/结束句子的单词,看看这是否可以帮助您分割数据。或者寻找动词,然后尝试找到它们之间的界限;这可能是从句边界而不是句子边界,但正如我所说,在口语中通常没有句子。
【讨论】:
您可以在其他问题的答案中找到相关信息:Sentence annotation in text without punctuation。
特别是,其中一个答案声称deepsegment 包在不带标点的文本上效果很好。
【讨论】: