【发布时间】:2021-05-28 03:05:04
【问题描述】:
有没有一种方法可以使用 pandas 在大型 CSV 上输出推断的架构? 此外,有什么方法可以告诉我该类型是否可以基于 CSV 为空/空白? 文件大约有 500k 行,250 列。
在我的新工作中,我经常收到带有零格式文档的 CSV 文件。
【问题讨论】:
-
IMO,您可以将
csv读入dataframe,然后执行一系列功能。df.shape告诉你存在多少行和列。df.isna().any()告诉您哪些列可以为空。需要更多信息来了解您到底在寻找什么。 -
我想输出原始列名及其 dtype(我认为)。这样,我就可以将其转换为每个列都需要更多信息的系统,例如 Microsoft SQL Server、Postgres、SQLite 或 AWS Data Pipelines (Hive/Pig)。
标签: python pandas csv data-science data-wrangling