【问题标题】:unable to read from U-SQL Table无法从 U-SQL 表中读取
【发布时间】:2018-02-07 03:30:05
【问题描述】:

我在 U-SQL 中创建了一个托管表并将数据加载到表中。当我尝试从中读取时,它的显示状态“正在准备”大约 3 小时并被 Yarn 取消。

我也尝试了重建表命令和相同的场景。

它有审计数据,每当我处理来自数据湖的文件时,我都会将审计详细信息保存到该表中。如文件名、位置、记录数。到目前为止,我已经处理了大约 36,000 个文件。当我尝试使用最终审计报告时,它一直准备 3 小时并被 Yarn 取消

【问题讨论】:

  • 数据是从哪里来的,是什么样的数据,你是怎么加载到表中的?
  • @srinadhreddy.. 将评论信息添加到您的问题中。通过这种方式,您可以大大提高问题质量并防止从 SO 中投票 > 删除。

标签: azure azure-data-lake u-sql


【解决方案1】:

请提供更多信息:

  1. 如何将数据加载到表中?
  2. 您如何阅读这些文件?
  3. 您是否按照release notes 中的建议使用 FastFileSetV2dot5 预览功能?

更新

根据“处理大约 36k 个文件”的说法,我假设您将每个文件单独插入到表中。不建议这样做,并且会导致表碎片化,进而导致代码生成期间准备阶段的时间用完。由于您已经有 36k 表片段,您应该删除表,并使用我上面提到的快速文件集预览功能对文件集中指定的 36k 文件从 EXTRACT 中执行单个 INSERT。这样就可以避免这个问题。

加载数据后,需要重建表或分区以避免以后产生碎片。

我们正在努力提高可扩展性并添加更多关于重建碎片表的功能,但它们最早不会在今年 2 月之前推出。因此,避免这种碎片化很重要。

【讨论】:

  • 我已经按照上面的建议实现了,看起来不错。因为我早期的表格跨越了 36K 文件,这让我的工作失去了意义。感谢您提供信息。
猜你喜欢
  • 1970-01-01
  • 2019-03-27
  • 2015-08-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-05-21
  • 1970-01-01
  • 2019-12-22
相关资源
最近更新 更多