【发布时间】:2012-07-07 11:02:15
【问题描述】:
假设有一个句子,如“给我找点爵士音乐并播放它”,其中所有文本都被规范化并且没有标点符号(语音识别库的输出)。
除了在连词上拆分的幼稚方法之外,还有哪些在线/离线工具可用于“句子分割”?
输入:
给我找一些爵士乐并播放它
输出:
给我找些爵士音乐
玩吧
【问题讨论】:
-
您能否提供更多输入/输出示例来帮助我们理解为什么简单的连词拆分不足以解决这个问题?
-
如果你做一个简单的连词拆分,你会丢失两个句子之间的共享对象/属性。在上面的例子中,“play it”已经失去了“音乐属性”。我想在语义上而不是句法上分割句子,抱歉没有说清楚!
-
所以你想做'共指解析'(google it),然后在连词上分开?通过这样做,您的输出将类似于 ['find me some jazz music', 'play the jazz music']
标签: nlp text-segmentation