在 BigQuery 中嵌套多个重复字段答案

【问题标题】：Nest multiple repeated fields in BigQuery在 BigQuery 中嵌套多个重复字段
【发布时间】：2016-03-03 19:28:52
【问题描述】：

通过导入JSON文件加载GBQ中的重复字段

通过在 BigQuery 中导入包含重复记录的 JSON 文件，您可以创建包含嵌套重复字段的表。

例如，对于架构：

[
{"type":"STRING", "name":"item"},
{"type":"RECORD", "name":"click", "mode":"REPEATED", "fields": [{"type":"TIMESTAMP", "name":"click_time"}, {"type":"STRING", "name":"userid"}]
}
]

您可以加载一个项目点击的 JSON 文件，并为每个项目重复点击。该表将包含字段item、click.click_time 和click.userid。

我的问题

假设您有一个 CSV 文件，该文件已将上述 JSON 项目点击展平，每次点击一行，但 click 和 item 的值重复。您能否将其加载到 GBQ 中并使用 GBQ 查询将其转换为您在加载带有重复字段的 JSON 文件时所拥有的等效表？

对导入的 CSV 表执行 GBQ 查询后生成的表应包含 click.click_time、click.userid 项作为字段。

【问题讨论】：

您能否提供您要加载的文件的样本？
Mikhail 打败了我 - 请参阅下面的示例文件和一个很好的答案。我能够实现 Mikhail 的解决方案，以及涉及多个 GROUP BY 字段的模式，如 item、item_category1、item_category2，具有关联的 clicks.click_time、clicks.userid。 Mikhail 说明的 UDF 解决方法比尝试使用 NEST 更灵活，尽管正如他在另一篇文章中提到的那样，它可能会导致更高的计费水平。

标签： google-bigquery

【解决方案1】：

随着 BigQuery 标准 SQL 的引入，我们有了处理记录的简单方法
试试下面，不要忘记取消选中 Show Options 下的 Use Legacy SQL 复选框

WITH YourTable AS (
  SELECT 'a1' AS item,  '2016-03-03 19:52:23 UTC' AS click_time, 'u1' AS userid UNION ALL
  SELECT 'a1' AS item,  '2016-03-03 19:52:23 UTC' AS click_time, 'u2' AS userid UNION ALL
  SELECT 'a1' AS item,  '2016-03-03 19:52:23 UTC' AS click_time, 'u3' AS userid UNION ALL
  SELECT 'a1' AS item,  '2016-03-03 19:52:23 UTC' AS click_time, 'u4' AS userid UNION ALL
  SELECT 'a2' AS item,  '2016-03-03 19:52:23 UTC' AS click_time, 'u1' AS userid UNION ALL
  SELECT 'a2' AS item,  '2016-03-03 19:52:23 UTC' AS click_time, 'u2' AS userid
)
SELECT item, ARRAY_AGG(STRUCT(click_time, userid)) AS clicks
FROM YourTable
GROUP BY item

【讨论】：

不错的更新。您知道 BigQuery 标准 SQL 语法和功能文档的链接吗？

【解决方案2】：

假设您已将表中的数据展平：

item    click_time  userid   
a1  2016-03-03 19:52:23 UTC u1   
a1  2016-03-03 19:52:23 UTC u2   
a1  2016-03-03 19:52:23 UTC u3   
a1  2016-03-03 19:52:23 UTC u4   
a2  2016-03-03 19:52:23 UTC u1   
a2  2016-03-03 19:52:23 UTC u2

在 GBQ Query 下执行您所要求的操作：
请注意：您需要使用“Allow Large Result”和“UnFlatten”选项写入表格

SELECT *
FROM JS( 
  ( // input table 
    SELECT item, NEST(CONCAT(STRING(click_time), ',', STRING(userid))) AS clicks 
    FROM YourTable
    GROUP BY item
  ), 
  item, clicks, // input columns 
  "[ // output schema 
    {'name': 'item', 'type': 'STRING'},
     {'name': 'clicks', 'type': 'RECORD',
     'mode': 'REPEATED',
     'fields': [
       {'name': 'click_time', 'type': 'STRING'},
       {'name': 'userid', 'type': 'STRING'}
       ]    
     }
  ]", 
  "function(row, emit) { // function 
    var c = []; 
    for (var i = 0; i < row.clicks.length; i++) { 
      x = row.clicks[i].split(','); 
      t = {click_time:x[0], 
            userid:x[1]} ;
      c.push(t); 
    }; 
    emit({item: row.item, clicks: c}); 
  }"
)

预期结果如下

【讨论】：