【发布时间】:2021-04-06 03:58:34
【问题描述】:
默认情况下,Snowflake 带有 10 TB 和 100 TB 规模的 TPC-DS 数据集。是否有可能以更少的记录/更少的容量(10 GB 甚至更少)获得相同数量的表?
提前致谢!
【问题讨论】:
-
鉴于 10TB 数据集是 100TB 数据集的“大小的十分之一”,因此必须删除某些内容才能减少。在 TPC-DS 的文档中,它记录了 400K 项目和 500K 项目。那么,当您说“数据量更少但数据相同”时,您认为减少的原因是什么?
-
我的意思是相同的数据是相同数量的表,而不是完全相同的数据。使用相同的表和更少的记录。
-
所以他们不提供较小的表格,但如果您想要一个“较小的表格”,您可以决定如何过滤掉您不想要的行。您是在问其他人是否已经这样做并共享了该数据,还是在问如何从数据中抽取样本,或者您是在问如何甚至有意义地减少数据,还是在问如何使减少的数据保持新鲜随着时间的推移(假设数据集随时间变化)
标签: snowflake-cloud-data-platform tpc