【发布时间】:2019-10-15 04:34:51
【问题描述】:
我有一些pyarrow Parquet 数据集编写代码。我想要一个集成测试来确保文件被正确写入。我想通过将一个小的示例数据块写入内存文件系统来做到这一点。但是,我正在努力为 Python 找到一个与pyarrow 兼容的内存文件系统接口。
您会在下面找到包含filesystem 变量的sn-p 代码。我想用内存中的文件系统替换 filesystem 变量,以后可以在集成测试中以编程方式对其进行检查。
import pyarrow.parquet as pq
pq.write_to_dataset(
score_table,
root_path=AWS_ZEBRA_OUTPUT_S3_PREFIX,
filesystem=filesystem,
partition_cols=[
EQF_SNAPSHOT_YEAR_PARTITION,
EQF_SNAPSHOT_MONTH_PARTITION,
EQF_SNAPSHOT_DAY_PARTITION,
ZEBRA_COMPUTATION_TIMESTAMP
]
)
【问题讨论】:
-
也许临时文件可以提供帮助 - 但最终仍会保存在磁盘上:docs.python.org/3/library/tempfile.html
-
谢谢@Jay。我想避免为集成测试创建临时文件,因为这会引入外部系统依赖性并增加测试不稳定的风险。
标签: python filesystems parquet pyarrow