【发布时间】:2020-09-18 03:18:01
【问题描述】:
在 Spark 数据框中,假设我从 oracle 获取数据,如下所示。
查询会完全在 oracle 中进行吗?假设查询很大。那么它是甲骨文的开销吗?更好的方法是在单独的数据框中读取每个过滤后的表数据并使用 spark SQL 或数据框将其连接起来,以便在 Spark 中进行完整的连接?你能帮忙吗?
df = sqlContext.read.format('jdbc').options(
url="jdbc:mysql://foo.com:1111",
dbtable="(SELECT * FROM abc,bcd.... where abc.id= bcd.id.....) AS table1", user="test",
password="******",
driver="com.mysql.jdbc.Driver").load()
【问题讨论】:
-
我建议按照您在问题中提到的步骤对 oracle 和 spark 的查询性能进行基准测试。性能因各种因素而异,例如记录数量、查询或连接的复杂程度等等,因此这个问题的回答范围很广。
标签: oracle scala performance dataframe apache-spark