【发布时间】:2018-03-30 00:52:37
【问题描述】:
我必须使用 spark 将数据从 SQL 服务器表加载到本地文件系统中的 csv。下面是我使用的代码。
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;password=PWD;"
val jdbcDbTable = "dbo.Table"
val jdbcDF = sqlContext.read.format("jdbc").option("url",jdbcSqlConnStr).option("dbtable",jdbcDbTable).load()
jdbcDF.write.format("com.databricks.spark.csv").save("D:\\Spark\\2")
这工作正常。我需要尝试任何其他更好的方法来进一步加快上述方法。
有什么方法可以直接从 sql server 流式传输表并写入文件系统,而不是在内存中存储一段时间。这比上面的表现更好吗?如果是,有人可以提供相同的详细信息吗
【问题讨论】:
标签: apache-spark apache-spark-sql spark-structured-streaming