【问题标题】:Can Pandas output inferred schema for a CSV file?Pandas 可以输出 CSV 文件的推断模式吗?
【发布时间】:2021-05-28 03:05:04
【问题描述】:

有没有一种方法可以使用 pandas 在大型 CSV 上输出推断的架构? 此外,有什么方法可以告诉我该类型是否可以基于 CSV 为空/空白? 文件大约有 500k 行,250 列。

在我的新工作中,我经常收到带有零格式文档的 CSV 文件。

【问题讨论】:

  • IMO,您可以将csv 读入dataframe,然后执行一系列功能。 df.shape 告诉你存在多少行和列。 df.isna().any() 告诉您哪些列可以为空。需要更多信息来了解您到底在寻找什么。
  • 我想输出原始列名及其 dtype(我认为)。这样,我就可以将其转换为每个列都需要更多信息的系统,例如 Microsoft SQL Server、Postgres、SQLite 或 AWS Data Pipelines (Hive/Pig)。

标签: python pandas csv data-science data-wrangling


【解决方案1】:

是否需要加载整个 csv 文件?如果您知道分隔符或对文件执行 cat 以了解分隔符,至少您可以使用 read_csv 函数。然后使用 .info():

df = pd.read_csv(path_to_file,...)
df.info()

【讨论】:

  • 在对列进行循环时,你能得到这个非空计数吗?什么是惯用的方法。使用 Python,我想根据类型和可为空的信息生成一个数据库 DDL 文件。好吧,至少有一个起点 DDL
  • 您可以使用 df.columns、df.dtypes、df['your column name'].isnull().values.any() 和 f-string 进行循环以创建 DDL基线。
  • 好主意。谢谢
猜你喜欢
  • 2013-04-25
  • 2018-04-25
  • 2023-03-19
  • 1970-01-01
  • 2021-03-28
  • 1970-01-01
  • 2017-04-15
  • 2021-10-17
  • 2021-08-29
相关资源
最近更新 更多