【发布时间】:2020-08-06 21:17:52
【问题描述】:
我正在尝试使用 Python + NLTK 对大量文章进行一些繁重的句子标记化。不幸的是,它对待“等”。作为句子的结尾而不是缩写。我怀疑它对其他缩写也会做同样的事情,比如“例如”。或“即”
我知道我可以添加如下内容:
sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
extra_abbreviations = ['et al']
sentence_tokenizer._params.abbrev_types.update(extra_abbreviations)
但我不想手动确定数据集中可能遇到的所有可能的额外缩写并手动输入它们。有没有人为这个特定问题想出一个更通用的解决方案,即使它只是一长串可以从文件加载并作为参数传递给更新方法的缩写?
【问题讨论】:
-
根据我的经验,SpaCy 的句子标记器通常能够区分缩写词和句尾标记。