【问题标题】:How to store data from web scraping poject如何存储来自网络抓取项目的数据
【发布时间】:2021-01-12 09:11:15
【问题描述】:

#背景

我目前正在玩一些网络抓取项目,因为我正在学习 python。 我有一个项目,它使用 Selenium 来抓取带有价格等信息的产品。 比我将每条记录添加到 pandas DF,进行一些额外的数据操作,然后将数据存储在 csv 中并上传到谷歌驱动器。这每天晚上运行

#问题本身

我想看价格变化,新产品等。你会推荐,如何使用日期键存储数据,所以可以选择标记新产品等? 我的想法是将每个负载存储在一个 csv 中,并添加一个带有“date_of_load”的列......但这看起来像 noob_like......也许将数据存储在 PostrgreDB 中?我想开始学习 SQL,所以我会尝试制作自己的数据库。

感谢您的想法

【问题讨论】:

  • 嗨,马丁。你的问题是基于意见的。请在 StackOverflow 上发布更准确的问题。
  • 感谢大家的意见。我会对关于整个思考逻辑的一些建议感兴趣......想象一下我有 DF 和 Date_added |产品 |价格。您如何建议寻找新产品(第一次被刮掉)或某些产品的价格发生了变化。
  • 这就是我上面评论的重点。 StackOverflow 不适用于固执己见的问题。还有另一个页面softwareengineering.stackexchange.com,这样的问题非常适合。

标签: python selenium web-scraping data-science


【解决方案1】:

【讨论】:

    【解决方案2】:

    太酷了!我建议 sqlite3 (https://docs.python.org/3/library/sqlite3.html) 只是为了感受一下 SQL。如您所见,它说“也可以使用 SQLite 对应用程序进行原型设计,然后将代码移植到更大的数据库,例如 PostgreSQL 或 Oracle”,这正是您的建议(?),所以这可能是一个不错的选择开始的地方。

    但是,CSV 可能会很好。只要没有太多数据(加载(和处理)所有必要数据需要很长时间),只要您设法按照自己的意愿应用它,您如何存储它并不重要。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-11-20
      • 1970-01-01
      • 1970-01-01
      • 2021-05-20
      • 1970-01-01
      • 1970-01-01
      • 2014-12-15
      相关资源
      最近更新 更多