【发布时间】:2013-05-17 19:45:49
【问题描述】:
我是 R 的初级用户,我正在研究一项让我有些难过的任务。我有一个数据集,其中一列列出了数千份(本地)报纸的标题,另外两列列出了报纸总部附近县的报纸发行量(使用每个县的唯一县 ID 而不是潜在的非唯一县名)。
因此,有时一份报纸占据五行或更少,有时甚至十行或更多,这取决于周边县的发行量。我需要做的是将给定论文的发行量最高的县的县 ID 与与该论文对应的所有行相关联。也就是以三份在相似地区流通的报纸为例,
Paper CountyID Circulation MaxCountyID
Times 1 1000 2
Times 2 2000 2
Times 3 500 2
Chronicle 1 5000 1
Chronicle 2 4000 1
Chronicle 3 1000 1
Tribune 1 900 1
Tribune 3 700 1
虽然在实际数据集中发行量自然远小于这个值,但考虑到它的庞大规模,我预计至少在几个情况下我会遇到最高发行量,所以我认为我需要以某种方式处理这种可能性;任何绑定的县都可以显示为 MaxCounty。
编辑:我需要做的第二部分也是最后一部分是(根据我现在所拥有的)生成一个三列数据集,该数据集在每一行中指定 y 县的论文总发行量来自 x 县,其中“来自 x 县的论文”被定义为“所有 x 县是 max.county 的论文”。
【问题讨论】: