【发布时间】:2023-01-07 03:04:28
【问题描述】:
如何使用 datafusion-python 将 CSV 读入 DataFusion DataFrame?
这是我到目前为止所拥有的:
import datafusion
ctx = datafusion.SessionContext()
我在the docs 找不到任何说明。
我正在使用 DataFusion v0.6.0。
【问题讨论】:
如何使用 datafusion-python 将 CSV 读入 DataFusion DataFrame?
这是我到目前为止所拥有的:
import datafusion
ctx = datafusion.SessionContext()
我在the docs 找不到任何说明。
我正在使用 DataFusion v0.6.0。
【问题讨论】:
这里有一些文档 - https://github.com/apache/arrow-datafusion/blob/master/docs/source/python/index.rst
这是其中一个例子:
import datafusion
from datafusion import functions as f
from datafusion import col
import pyarrow
# create a context
ctx = datafusion.SessionContext()
# register a CSV
ctx.register_csv('example', 'example.csv')
# create a new statement via SQL
df = ctx.sql("SELECT a+b, a-b FROM example")
# execute and collect the first (and only) batch
result = df.collect()[0]
assert result.column(0) == pyarrow.array([5, 7, 9])
assert result.column(1) == pyarrow.array([-3, -3, -3])
目前正在进行将文档移至 datafusion-python 存储库的工作(请参阅https://github.com/apache/arrow-datafusion/issues/2866)
【讨论】:
Andy,在 VS Code 笔记本或 Jupyter 笔记本中使用上述代码时,df.show() 命令在笔记本中不显示任何内容,而是打印到 Jupyter 控制台。这是笔记本问题还是数据融合问题?谢谢
【讨论】: