【发布时间】:2020-02-22 09:29:04
【问题描述】:
我有一个用例,我正在读取大约数十亿条记录,但我需要限制记录以查看数据行为。我有一个赦免,我正在分析有限的数据并在此基础上执行一些功能。但我正在读取整十亿条记录,然后在 Pardo 中应用限制以获得 10000 条记录。由于我的管道正在读取数十亿条记录,因此会影响管道性能。有什么办法可以限制记录,同时使用 TextIO 读取文本文件。
【问题讨论】:
-
您能提供更多信息吗?您使用哪种语言?您使用哪种光束方式阅读?
-
@rmesteves 我正在使用 java 的云数据流。我正在使用 TextIO.read 方法从 GCS 读取数据。
标签: google-cloud-dataflow apache-beam apache-beam-io