【发布时间】:2020-02-26 23:48:18
【问题描述】:
我有一系列大文本文档。我需要通读它们 - 如果出现特定单词 - 提取整个句子。
所以,如果我正在搜索单词 wobble 并且文档中的句子是 Weebles wobble but they don't fall down,我想提取该句子。
最有效的方法是什么?
我可以想到两种方法:
在文档中搜索单词,然后提取特定的句子;或
遍历文档中的每个句子。检查每个句子的单词。如果句子中有单词,则提取句子。
我认为 1 在计算上比 2 更有效。但不确定语法是什么。
我没有考虑其他方法吗?
感谢任何有关效率和语法的帮助。
【问题讨论】:
-
您追求的是精确度还是效率(=速度)?使用方法#2,它更精确。
标签: regex python-3.x nlp