【发布时间】:2021-04-23 17:06:07
【问题描述】:
我了解如何使用 quanteda 构建语料库和 dfm。 我也了解如何使用 spacy_parse 对文本或语料库对象进行词形还原。
但我不明白如何在我的语料库中用引理替换原始文本标记。
我希望是这样的:
corpus(my_txt) %>%
dfm(lemmatize = spacy_parse)
产生一个引理矩阵,例如:
be have go
first_text 2 6 6
second_text 4 4 2
third_text 6 4 3
相反,我找到的唯一解决方案是从 spacy_parse 输出数据帧中的“引理”列重新组合词形化文本,并使用如下代码:
txt_parsed %>%
select(doc_id, lemma) %>%
group_by(doc_id) %>%
summarise(new_txt = str_c(lemma, collapse = " "))
对更好的解决方案有什么建议吗?
【问题讨论】: