【问题标题】:spark scala datastax csv load file and print schemaspark scala datastax csv 加载文件和打印模式
【发布时间】:2018-04-15 11:54:17
【问题描述】:

Spark 版本 2.0.2.6 斯卡拉版本 2.11.11 使用 DataStax 5.0

import org.apache.log4j.{Level, Logger}
import java.util.Calendar
import org.apache.spark.sql.functions._

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import com.datastax.spark.connector._
import org.apache.spark.sql._

object csvtocassandra {

  def main(args: Array[String]): Unit = {
    val key_space = scala.io.StdIn.readLine("Please enter cassandra Key Space Name: ")
    val table_name = scala.io.StdIn.readLine("Please enter cassandra Table Name: ")

    // Cassandra Part

    val conf = new SparkConf().setAppName("Sample1").setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")

    println(Calendar.getInstance.getTime)

    // Scala Read CSV Part
    val spark1 = org.apache.spark.sql.SparkSession.builder().master("local").config("spark.cassandra.connection.host", "127.0.0.1")
      .appName("Spark SQL basic example").getOrCreate()

    val csv_input = scala.io.StdIn.readLine("Please enter csv file location: ")
    val df_csv = spark1.read.format("csv").option("header", "true").option("inferschema", "true").load(csv_input)

    df_csv.printSchema()
    }
    }

为什么我无法将此程序作为作业运行,试图将其提交给 spark。当我使用 IntelliJ 运行这个程序时,它可以工作。 但是当我创建一个 JAR 并运行它时,我得到了以下错误。

命令:

> dse spark-submit --class "csvtospark" /Users/del/target/scala-2.11/csvtospark_2.11-1.0.jar

我收到以下错误:

ERROR 2017-11-02 11:46:10,245 org.apache.spark.deploy.DseSparkSubmitBootstrapper: Failed to start or submit Spark application
org.apache.spark.sql.AnalysisException: Path does not exist: dsefs://127.0.0.1/Users/Desktop/csv/example.csv;

为什么它会附加 dsefs://127.0.0.1 部分,即使我在询问时只提供路径 /Users/Desktop/csv/example.csv 。

我也尝试提供 --mater 选项。我怎么会遇到同样的错误。我在本地机器上运行 DataStax Spark。没有集群。
请纠正我做错的地方。

【问题讨论】:

    标签: scala csv apache-spark datastax


    【解决方案1】:

    知道了。没关系。对此感到抱歉。

    输入应该是 file:///file_name

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-12-16
      • 2022-12-12
      • 2014-03-18
      • 2016-09-13
      • 2015-06-24
      • 1970-01-01
      相关资源
      最近更新 更多