【问题标题】:Parsing a CSV into a database for an API using Python?使用 Python 将 CSV 解析为 API 的数据库?
【发布时间】:2019-04-14 16:03:39
【问题描述】:

我将使用 .csv 中的数据来训练一个模型,以预测用户在谷歌广告上的活动(展示次数、点击次数)与给定日期的天气相关。我有一个 .csv,其中包含 6000 多条此信息的记录,并希望使用 Python 将其解析到数据库中。

我尝试在 pandas 中创建一个 df,但由于某种原因没有显示整个表格。当我打印表格时,中间的列(我认为大约有 7 列)和行(我提到的编号超过 6000)被替换为“...”,所以我不确定是否存储了全部信息并且如果这将是可用的。

我的下一个尝试可能是 SQLite,但由于它是本地内存,如果我没有始终主动打开数据库,这会干扰其他人向我的 API 端点发出请求吗?

提前致谢。

【问题讨论】:

  • 如果您决定使用 sqlite,您可以从其命令行 shell 程序 sqlite3 将 CSV 文件导入表中,无需代码:sqlite.org/cli.html#csv_import

标签: python sql database pandas sqlite


【解决方案1】:

如果您使用pd.read_csv(),我可以向您保证所有信息都在那里,只是没有显示。

您可以通过执行print(df['Column_name_you_are_interested_in'].tolist()) 之类的操作进行检查,以确保。您还可以在 pandas 中使用各种 count 类型的方法来确保您的所有行都在那里。

Panadas 非常通用,所以 6000 行应该不会有问题

【讨论】:

  • 谢谢!我确实使用了 read.csv()。我本来会包含代码,但昨晚我把它删除了,因为我试图用某种类型的 SQL 解决方案来解决所有问题。
  • 但如果您不介意回答,当我想用​​它们训练模型时,我应该如何将用于获取天气数据的日期转换为数值?在 ML 方面,我非常耳目一新。
  • 我会使用 datetime 之类的东西来转换为 UNIX 时间并从那里开始。万一您不熟悉它,UNIX 时间是从 1970 年 1 月 1 日开始的整数秒...它应该对您有用
猜你喜欢
  • 1970-01-01
  • 2021-07-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-01-01
  • 1970-01-01
  • 2023-03-21
相关资源
最近更新 更多