【发布时间】:2017-04-05 09:39:31
【问题描述】:
我在 Azure Data Lake Store 中有数据,我正在使用带有 U-SQL 的 Azure 数据分析作业处理那里的数据。我有几个包含空间数据的 CSV 文件,类似于:
文件_20170301.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
45.121 | 21.123 | 2017-03-01 | 01 | 20
45.121 | 21.123 | 2017-03-01 | 02 | 10
45.121 | 21.123 | 2017-03-01 | 03 | 50
48.121 | 35.123 | 2017-03-01 | 01 | 60
48.121 | 35.123 | 2017-03-01 | 02 | 15
48.121 | 35.123 | 2017-03-01 | 03 | 80
文件_20170302.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
45.121 | 21.123 | 2017-03-02 | 01 | 20
45.121 | 21.123 | 2017-03-02 | 02 | 10
45.121 | 21.123 | 2017-03-02 | 03 | 50
48.121 | 35.123 | 2017-03-02 | 01 | 60
48.121 | 35.123 | 2017-03-02 | 02 | 15
48.121 | 35.123 | 2017-03-02 | 03 | 80
每个文件都包含不同日期和所有经纬度组合的数据。
我想合并我拥有的所有文件并拆分数据,这样我就可以为每个经纬度组合得到一个文件。
因此,在遍历文件夹中的所有文件并添加所有日期的所有数据后,我将得到以下结果:
文件_45_21.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
45.121 | 21.123 | 2017-03-01 | 01 | 20
45.121 | 21.123 | 2017-03-01 | 02 | 10
45.121 | 21.123 | 2017-03-01 | 03 | 50
45.121 | 21.123 | 2017-03-02 | 01 | 20
45.121 | 21.123 | 2017-03-02 | 02 | 10
45.121 | 21.123 | 2017-03-02 | 03 | 50
文件_48_35.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
48.121 | 35.123 | 2017-03-01 | 01 | 60
48.121 | 35.123 | 2017-03-01 | 02 | 15
48.121 | 35.123 | 2017-03-01 | 03 | 80
48.121 | 35.123 | 2017-03-02 | 01 | 60
48.121 | 35.123 | 2017-03-02 | 02 | 15
48.121 | 35.123 | 2017-03-02 | 03 | 80
理论上应该会发生以下情况:
- 在数据中查找经度和纬度组合的不同值
- 获取上述不同值的数组并为每个组合创建一个文件,并根据两个参数(经度和纬度)从源文件中提取数据
我正在努力的是如何开始循环和基于源中的两个参数提取数据,以及如何通过参数组合的不同值“分区”数据源。
【问题讨论】:
标签: azure output azure-data-lake u-sql data-partitioning