【发布时间】:2019-02-27 07:01:21
【问题描述】:
我看到的所有使用 spacy 的示例都只是在单个文本文件中读取(即很小的)。 如何将文本文件语料库加载到 spacy 中?
我可以通过酸洗语料库中的所有文本来使用 textacy 来做到这一点:
docs = textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')
for doc in docs:
print(doc)
但我不清楚如何使用此生成器对象(文档)进行进一步分析。
另外,我宁愿使用 spacy,而不是 textacy。
spacy 也无法读取单个大文件(约 2000000 个字符)。
感谢任何帮助...
拉维
【问题讨论】:
-
我和你一样惊讶于找不到一个关于这方面的例子......
标签: nlp multiprocessing generator pipeline spacy