【发布时间】:2017-02-20 16:55:20
【问题描述】:
我想做的是让工作流和作业元数据(例如开始日期、结束日期和状态)在配置单元表中可用,以供 BI 工具使用以实现可视化。例如,我希望能够监控某个工作流程是否在某些时间失败、成功率……
为此,我需要访问 Hue 能够在工作浏览器和 Oozie 仪表板中显示的相同数据。例如,我专门为工作流寻找的是名称、提交者、状态、开始和结束时间。我想要这个的原因是,在我看来,这个工具缺乏总体概述和良好的搜索。 这个想法是,一旦我找到这些数据,我将直接 - 或通过一些处理步骤 - 将其加载到 Hive 中。
我希望看到回答的问题:
- 这些数据是存储在 HDFS 中还是分散在本地数据节点中?
- 如果它存储在 HDFS 中。我在哪里可以找到它?如果存储在本地数据节点中,Hue 是如何找到并显示的?
- 假设我可以访问数据。我希望这些数据采用什么格式。这是存储在一般日志文件中还是我可以期待一些结构化的数据?
我正在使用 CDH 5.8
【问题讨论】: