【发布时间】:2013-07-29 18:46:52
【问题描述】:
我有表单的输入记录
2013-07-09T19:17Z,f1,f2
2013-07-09T03:17Z,f1,f2
2013-07-09T21:17Z,f1,f2
2013-07-09T16:17Z,f1,f2
2013-07-09T16:14Z,f1,f2
2013-07-09T16:16Z,f1,f2
2013-07-09T01:17Z,f1,f2
2013-07-09T16:18Z,f1,f2
这些代表时间戳和事件。这些都是我手写的,但实际数据应该根据时间排序。
我想生成一组记录,这些记录将输入到需要连续时间序列的绘图函数中。我想填写缺失值,即如果有“2013-07-09T19:17Z”和“2013-07-09T19:19Z”的条目,我想生成“2013-07-09T19:18Z”的条目" 具有预定义的值。
我对这样做的想法:
- 使用 MIN 和 MAX 查找系列中的开始和结束日期
- 写入 UDF,取最小值和最大值并返回缺失的关系 时间戳
- 加入以上 2 个关系
我无法理解如何在 PIG 中实现这一点。将不胜感激。
谢谢!
【问题讨论】:
标签: hadoop apache-pig