【问题标题】:How to aggregate big data?如何聚合大数据?
【发布时间】:2015-07-27 01:39:55
【问题描述】:

我有一个这样的销售数据大数据集:

  Ordernumber     Category   Sold_Items
1 123             A          2
2 123             B          1
3 234             C          1
4 345             D          1
5 456             A          2
6 456             B          1

我想把它聚合成这样:

  A   B   C   D     frequency
  2   1             2
          1         1
              1     1 

所以,基本上我希望我的销售数据中存在的每个类别组合都有一行。而且我还想知道一种组合的频率。

好吧,我用castmelt 进行了尝试,但只有当数据集足够小时才能到达那里。不幸的是,我有超过 300 万行数据,castmelt 无法再处理了。

谁能告诉我如何快速汇总我的数据?

提前谢谢你!

【问题讨论】:

    标签: r casting bigdata pivot-table melt


    【解决方案1】:

    你可以试试

    library(data.table)#v1.9.5+
    dcast(setDT(df1), Ordernumber~Category, value.var='Sold_Items')[,
            frequency:=do.call(pmax, c(.SD, na.rm=TRUE)), .SDcols=2:5]
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-11-07
      • 1970-01-01
      • 2020-12-21
      • 2011-01-16
      • 2019-09-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多