【发布时间】:2020-10-20 16:12:54
【问题描述】:
我正在处理堆栈溢出数据转储 .csv 文件,我需要找到:
数据集中出现频率最高的 8 个标签。 为此,我在 data1.PostTypeId 列中看到与每一行关联的标签集。标签的频率等于具有该标签的问题的数量标记。(这意味着标记的频率等于具有该标记的行数)
注意1:文件太大,超过一百万行
注意2:我是 R 的初学者,所以我需要最简单的方法。我的尝试是使用表函数,但我得到的是标签列表,我无法找出最上面的标签
这是我使用的表格示例如下:
比如说“java”的频率最高(因为它出现在所有行中最多)
那么标签“python-3.x”是第二高频率(因为在所有行中出现次数最多) 所以基本上我需要检查表中的第二列以及那里的前 8 列是什么
等等……
【问题讨论】:
-
请提供reproducible example和预期结果
-
我加了一个例子
-
在哪里?我没看到。请按照我为您提供的链接制作可重现示例
-
reproducible 是这里的关键字@user8863554
标签: r