【发布时间】:2020-03-24 08:57:22
【问题描述】:
我有一个庞大的 spaCy 文档列表和一个我想在文档中查找的单词列表。 一个例子:我想在一个网站文本中查找“阿司匹林”这个词,它是用 spaCy 解析的。 我要查找的关键字列表很长。
天真的方法
不要使用 spacy 而只是使用 if keyword in website_text: 作为一个简单的匹配器。当然,这样做的缺点是令牌会被忽略,搜索 test 会在 tested、attested 等词处产生误报。
使用 spaCy 的匹配器
Matcher 是一个选项,但我需要根据我的关键字列表自动构建很多匹配器。
有没有推荐的方法来完成这项任务?
【问题讨论】: