【发布时间】:2015-10-24 03:46:05
【问题描述】:
我正在尝试使用 pyspark 从 s3 读取过去 4 个月的数据并处理数据,但收到以下异常。
org.apache.hadoop.mapred.InvalidInputException:输入模式 s3://path_to_clickstream/date=201508*
每个月的第一天,由于 s3 路径中没有条目(单独的作业处理并将数据上传到 s3 路径,我的作业在该路径之前运行),作业失败。我想知道是否有办法让我捕获此异常并允许作业继续处理所有存在的路径?
【问题讨论】:
标签: python amazon-s3 exception-handling apache-spark pyspark