【问题标题】:TPC-DS data in Snowflake Cloud warehouse is available only with 10 TB and 100 TB, is it possible to get it with fewer records(10 GB or even lesser)?Snowflake Cloud 仓库中的 TPC-DS 数据只有 10 TB 和 100 TB 可用,是否有可能以更少的记录(10 GB 甚至更少)获得?
【发布时间】:2021-04-06 03:58:34
【问题描述】:

默认情况下,Snowflake 带有 10 TB 和 100 TB 规模的 TPC-DS 数据集。是否有可能以更少的记录/更少的容量(10 GB 甚至更少)获得相同数量的表?

提前致谢!

【问题讨论】:

  • 鉴于 10TB 数据集是 100TB 数据集的“大小的十分之一”,因此必须删除某些内容才能减少。在 TPC-DS 的文档中,它记录了 400K 项目和 500K 项目。那么,当您说“数据量更少但数据相同”时,您认为减少的原因是什么?
  • 我的意思是相同的数据是相同数量的表,而不是完全相同的数据。使用相同的表和更少的记录。
  • 所以他们不提供较小的表格,但如果您想要一个“较小的表格”,您可以决定如何过滤掉您不想要的行。您是在问其他人是否已经这样做并共享了该数据,还是在问如何从数据中抽取样本,或者您是在问如何甚至有意义地减少数据,还是在问如何使减少的数据保持新鲜随着时间的推移(假设数据集随时间变化)

标签: snowflake-cloud-data-platform tpc


【解决方案1】:

您可以克隆 10 TB 的数据库,然后删除行,直到获得 10 GB 的数据。

克隆文档:https://docs.snowflake.com/en/sql-reference/sql/create-clone.html

【讨论】:

    【解决方案2】:

    我使用 2002 年数据的 CTAS 进行了此操作。您应该 ORDER BY ,否则新表将不会被很好地聚集。您将需要查看 DATE_DIM 以确定日期范围,即 SELECT ... FROM JOIN DATE_DIM ON ... WHERE DATE_DIM.D_DATE ... ORDER BY D_DATE (或者您可以使用代理键进行连接,这并不重要)。 或者您可以创建一个具有适当数据范围的视图。 两者都比 DELETE 更快、更便宜。

    【讨论】:

      猜你喜欢
      • 2013-01-05
      • 1970-01-01
      • 2015-05-18
      • 2012-10-10
      • 1970-01-01
      • 1970-01-01
      • 2014-10-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多