【发布时间】:2020-09-12 17:13:55
【问题描述】:
我在一个大文件 (>30GB) 上运行 n_distinct,但它似乎没有产生准确的结果。
我有另一个数据参考点,在磁盘帧聚合中输出关闭。
它在文档中提到 n_distinct 是精确计算,而不是估计。
对吗?
【问题讨论】:
-
在相当简洁的帮助页面中提到
n_unique是length(unique(x))的更快版本。 -
我不熟悉disk.frame,你是否有可能为每个块计算
n_distinct,这样如果一个值出现在不同的块中,它就会被计算多次? -
我的理解是区分每个块,然后区分完整列表
标签: r disk.frame