【发布时间】:2014-07-11 00:41:53
【问题描述】:
在提取包含单词的特定句子(如 extract a sentence using python 和 Python extract sentence containing word)时,有很多问题,我有足够的 NLTK 和 SciPy 初学者经验,能够自己做到这一点.
但是,我在尝试提取包含一个单词的句子时遇到了困难……以及目标句子之前和之后的句子。
例如:
“前几天我正在上学路上下雨了。我伸手去拿我的雨伞,但我意识到我把它忘在家里了。我该怎么办?我立刻跑到最近的树上。但是然后我意识到我不能一直尝试一棵没有叶子的树。”
在本例中,目标词是“可以”。如果我想提取目标句子(我能做什么?)以及前后句子(我伸手去拿我的雨伞,但我意识到我把它忘在家里了。 和 我立即跑向最近的树。),什么是好的方法?
假设我将每个段落分割成自己的文本...
for paragraph in document:
do something
...有没有合适的方法来解决这个问题?我有大约 10,000 个段落,目标词周围有不同数量的句子(出现在每个段落中)。
【问题讨论】:
-
您是否将每个段落中的句子提取到一个列表中(每个句子一个列表项)?
-
您需要找到目标词在段落中的每一个次出现,还是只找到第一次出现?
标签: python regex nlp nltk text-segmentation