【问题标题】:Error in Spark while reading an excel : org.apache.poi.openxml4j.exceptions.InvalidFormatException读取 excel 时 Spark 出错:org.apache.poi.openxml4j.exceptions.InvalidFormatException
【发布时间】:2019-08-23 17:34:25
【问题描述】:

我正在尝试使用 Spark CLI 读取 excel 文件,但我收到“org.apache.poi.openxml4j.exceptions.InvalidFormatException:您的 InputStream 既不是 OLE2 流,也不是 OOXML 流”错误。

以下是我的 Excel 工作表中的数据:

Id  Name    City
1   Amit    Panji
2   Sharma  Mumbai
3   Kumar   Pune
4   Abhay   Delhi
5   Rohit   Gurgaon

下面是我正在使用的代码:

    import com.crealytics.spark.excel

    val df = spark.read.format("com.crealytics.spark.excel")
    .option("useHeader", "true")
    .option("startColumn", 0)
    .option("treatEmptyValuesAsNulls", "false")
    .option("inferSchema", "false")
    .option("location", "/home/Desktop/lucky/logs.xlsx")
    .option("addColorColumns", "False")
    .load()

【问题讨论】:

    标签: excel apache-spark-sql


    【解决方案1】:

    您使用的是哪个 Excel 版本?

    Apache POI 网站说:

    Apache POI is your Java Excel solution (for Excel 97-2008)
    

    Apache POI 站点:https://poi.apache.org/

    【讨论】:

    • 我在 Ubuntu 中使用 Libra Office 版本:6.0.7.3。但是当我使用 Excel(用于 Excel 97-2008)时,它开始正常工作。
    猜你喜欢
    • 2017-01-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-26
    • 2016-10-06
    • 2015-08-11
    • 1970-01-01
    相关资源
    最近更新 更多