【发布时间】:2020-06-02 15:19:21
【问题描述】:
我有一个数据框,其中我有连续 15 年的农业用途代码 (1-5)。每行是一个代表一个字段的多边形。最终,我需要 R 遍历行并识别使用模式并告诉我它们各自的频率。不幸的是,在我的真实数据集中,我有超过 1 个 mio。特征,因此所有可能的模式都是未知的。
a <- data.frame(replicate(15, sample(0:5,500,rep=TRUE)))
colnames(a) <- paste0("use",2005:2019)
id <- c(1:500)
a <- cbind(id,a)
id use2005 use2006 use2007 use2008 use2009 use2010 use2011 use2012 use2013 use2014 use2015 ...
1 1 1 1 1 1 2 2 1 4 4 4 ...
2 4 4 4 4 5 5 5 0 5 5 5 ...
3 1 4 3 2 3 2 4 5 1 1 1 ...
4 1 1 1 1 1 2 2 1 4 4 4 ...
5 4 2 2 2 2 5 3 3 3 3 3 ...
所以在这个任意示例中,代码应该识别出 id 1 和 4 具有相同的模式。
最后,我认为结果是某种频率分布,以查看我的田地的农业用途是否存在某些模式。
例如:
1 1 1 1 1 2 1 1 1 3 2 4 1 1 1
[50] - 出现 50 次
5 5 5 5 5 1 1 1 1 4 4 4 2 2 3
[35] - 出现 35 次
等等所有现有的组合...
不幸的是,我不知道如何处理这个问题。我没有模式识别的经验。
谢谢!
【问题讨论】:
标签: r dataframe design-patterns row analysis