【问题标题】:Read CSV into DataFusion DataFrame with Python使用 Python 将 CSV 读入 DataFusion DataFrame
【发布时间】:2023-01-07 03:04:28
【问题描述】:

如何使用 datafusion-python 将 CSV 读入 DataFusion DataFrame?

这是我到目前为止所拥有的:

import datafusion

ctx = datafusion.SessionContext()

我在the docs 找不到任何说明。

我正在使用 DataFusion v0.6.0。

【问题讨论】:

    标签: apache-arrow-datafusion


    【解决方案1】:

    这里有一些文档 - https://github.com/apache/arrow-datafusion/blob/master/docs/source/python/index.rst

    这是其中一个例子:

    import datafusion
    from datafusion import functions as f
    from datafusion import col
    import pyarrow
    
    # create a context
    ctx = datafusion.SessionContext()
    
    # register a CSV
    ctx.register_csv('example', 'example.csv')
    
    # create a new statement via SQL
    df = ctx.sql("SELECT a+b, a-b FROM example")
    
    # execute and collect the first (and only) batch
    result = df.collect()[0]
    
    assert result.column(0) == pyarrow.array([5, 7, 9])
    assert result.column(1) == pyarrow.array([-3, -3, -3])
    

    目前正在进行将文档移至 datafusion-python 存储库的工作(请参阅https://github.com/apache/arrow-datafusion/issues/2866

    【讨论】:

    • Andy,尝试读取“example.csv.gz”文件会导致“++++”而不是 df。这是数据融合或箭头问题吗?谢谢
    【解决方案2】:

    Andy,在 VS Code 笔记本或 Jupyter 笔记本中使用上述代码时,df.show() 命令在笔记本中不显示任何内容,而是打印到 Jupyter 控制台。这是笔记本问题还是数据融合问题?谢谢

    【讨论】:

      猜你喜欢
      • 2021-05-05
      • 2021-01-16
      • 1970-01-01
      • 2020-10-04
      • 2018-11-06
      • 1970-01-01
      • 2018-10-05
      • 2017-04-14
      • 2015-09-05
      相关资源
      最近更新 更多