【问题标题】:Flatten data source in Snowflake from Array从数组中展平雪花中的数据源
【发布时间】:2020-05-10 08:17:40
【问题描述】:

我正在尝试修复数据集中的数组。目前,我有一个数据集,其中包含多个不同 uuid 的参考号。我想做的是在 Snowflake 中将其展平以使其成为参考号,每个 uuid 都有单独的行。例如

Reference                                       UUID
1) 9f823c2a-ced5-4dbe-be65-869311462f75 "[
                                         ""05554f65-6aa9-4dd1-6271-8ce2d60f10c4"",
                                         ""df662812-7f97-0b43-9d3e-12f64f504fbb"",
                                          ""08644a69-76ed-ce2d-afff-b236a22efa69"",
                                          ""f1162c2e-eeb5-83f6-5307-2ed644e6b9eb"",
                                            ]"

最终应该看起来像:

Reference                                UUID
1) 9f823c2a-ced5-4dbe-be65-869311462f75    05554f65-6aa9-4dd1-6271-8ce2d60f10c4
2) 9f823c2a-ced5-4dbe-be65-869311462f75    df662812-7f97-0b43-9d3e-12f64f504fbb
3) 9f823c2a-ced5-4dbe-be65-869311462f75    08644a69-76ed-ce2d-afff-b236a22efa69
4) 9f823c2a-ced5-4dbe-be65-869311462f75    f1162c2e-eeb5-83f6-5307-2ed644e6b9eb

我刚开始在 Snowflake 工作,所以我是新手。看起来有一个横向变平,但这要么不能告诉我我有各种各样的错误。雪花的文档在这方面有点令人困惑。

【问题讨论】:

  • 是的,您需要将数组传递给 Flatten 表函数以分解这些值。您是否能够发布源文件 sn-p(JSON?)或者您从表中列出的那些条目是否已经在 Snowflake 中?理解这一点将有助于所需的语法。
  • 正如 Mike 所指出的,通常将此类列表存储在 JSON 的变体列中。如果 UUID 列实际上是一个字符串,我测试了将解析并在解析后的字符串上执行横向连接的代码。如果您想查看 UUID 列不是变体类型的示例,请告诉我。

标签: sql arrays snowflake-cloud-data-platform snowflake-schema snowflake-task


【解决方案1】:

虽然FLATTEN is the right approach 分解数组时,原始描述中显示的UUID 列值无效if interpreted as JSON syntax"[""val1"", ""val2""]" 并且需要更正,然后才能通过处理它来应用LATERAL FLATTEN 方法作为VARIANT 类型。

如果原始描述中的数据样本是文字样本并适用于所有列值,则以下查询将帮助将其转换为有效的 JSON 语法,然后应用横向展平以产生所需的结果:

SELECT
  T.REFERENCE,
  X.VALUE AS UUID
FROM (
  SELECT
    REFERENCE,
    -- Attempts to transform an invalid JSON array syntax such as "[""a"", ""b""]"
    -- to valid JSON: ["a", "b"] by stripping away unnecessary quotes
    PARSE_JSON(REPLACE(REPLACE(REPLACE(UUID, '""', '"'), '["', '['), ']"', ']')) AS UUID_ARR_CLEANED
    FROM TABLENAME) T,
  LATERAL FLATTEN(T.UUID_ARR_CLEANED) X

如果您的数据已经是有效的 VARIANT 类型,并且在摄取期间为 UUID 列成功完成了 PARSE_JSON,并且描述中提供的示例只是一个格式问题,仅显示 JSON 无效帖子,那么与上面相同的查询的更简单版本就足够了:

SELECT REFERENCE, X.VALUE AS UUID
FROM TABLENAME, LATERAL FLATTEN(TABLENAME.UUID) X

【讨论】:

    猜你喜欢
    • 2020-09-12
    • 2021-07-23
    • 2022-07-06
    • 2022-01-21
    • 1970-01-01
    • 2020-08-27
    • 2020-09-16
    • 2021-12-18
    • 2019-08-10
    相关资源
    最近更新 更多