【发布时间】:2017-11-14 19:45:51
【问题描述】:
以下是我的类路径:
- aws-java-sdk-1.7.4.jar
- hadoop-aws-2.7.3.jar
- spark-sql-2.2.0.jar
以下代码可以正常工作:
object MySparkJob {
def main(args:Array[String]):Unit = {
val conf = new SparkConf().setAppName("MySparkTest").setMaster("local[4]")
val spark = new SparkContext(conf)
......all credentials config stuff here.......
val input = spark.textFile("s3a://mybucket/access_2017-10-30.log_10.0.0.176.gz")
val pageStats = input filter(_.contains("pagestat"))
val parsedRecords = pageStats flatMap accessLogRecordToCaseClass
val evIDs = parsedRecords map (_.evid)
println("Size is " + evIDs.collect().toSet.size)
spark.stop
}
}
我使用sbt clean compile run 运行该作业。
但在控制台中,我看到以下警告并包含异常:
17/11/10 15:22:28 WARN FileSystem: exception in the cleaner thread but it will continue to run
java.lang.InterruptedException
at java.lang.Object.wait(Native Method)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:143)
at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:164)
at org.apache.hadoop.fs.FileSystem$Statistics$StatisticsDataReferenceCleaner.run(FileSystem.java:3063)
at java.lang.Thread.run(Thread.java:748)
虽然这是一个警告,但我仍然想了解它发生的原因。可能你们中的一些人过去遇到过类似的事情并可以提供建议?
【问题讨论】:
标签: scala apache-spark amazon-s3