【问题标题】:Apache Zeppelin - Can't load a dataframe from a HIVE table using SparkRApache Zeppelin - 无法使用 SparkR 从 HIVE 表中加载数据帧
【发布时间】:2018-08-20 10:24:14
【问题描述】:

我需要从 Hive 表中加载一个数据帧,为此我遵循了 Apache Spark 2.3 文档中的这个指令。(https://spark.apache.org/docs/latest/sparkr.html)。我是用 Zeppelin notebook 做的。

谁能解释一下如何使用 SparkR 创建一个数据框?或者我做错了什么?任何答案表示赞赏。

文档

查询可以用 HiveQL 表示。 results <- sql("FROM src SELECT key, value")

我的代码:

sp_df <- sql("SELECT * FROM sparkr_test")

我的代码结果:

head(sp_df) [1] “SELECT * FROM sparkr_test”

【问题讨论】:

    标签: spark-dataframe apache-zeppelin sparkr


    【解决方案1】:

    您的数据位于何处,您是否已将源数据注册为表格?你需要运行类似的东西:

    sql("CREATE TABLE IF NOT EXISTS sparkr_test (column1 INT, column2 STRING ...) USING hive")
    sql("LOAD DATA LOCAL INPATH 'path/to/data/data.txt' INTO TABLE sparkr_test")
    

    在查询表格之前

    【讨论】:

      【解决方案2】:

      我遇到了同样的问题,通过指定库解决了。

      SparkR::sql("select * from mytable")

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-06-17
        • 2016-12-31
        • 1970-01-01
        • 2016-12-13
        • 1970-01-01
        • 2018-01-31
        相关资源
        最近更新 更多