【发布时间】:2019-02-10 04:32:26
【问题描述】:
一段时间以来,我一直在为以下问题苦苦挣扎:
我想计算两个数据帧之间的字数差异(特征出现的频率)。数据框包含两列:特征(词)和频率。
我想用 df A en df B 实现以下结果: df A 中的所有特征/单词和 A 的频率减去 B 的频率。但是,当 A 中的特征没有出现在 B 中时,我想要 A 的频率回来。
我尝试了两个 sapply 函数:1 获得名称向量名称:A 的特征和频率,1 获得 B 中相同特征的频率,如果该特征存在,否则为 0。这两个然后将向量组合起来以获得所需的数据帧。该解决方案有效,但速度非常慢。
你们中有人知道获得此类结果的更快方法吗?
【问题讨论】: