如何存储来自网络抓取项目的数据答案

【问题标题】：How to store data from web scraping poject如何存储来自网络抓取项目的数据
【发布时间】：2021-01-12 09:11:15
【问题描述】：

#背景

我目前正在玩一些网络抓取项目，因为我正在学习 python。我有一个项目，它使用 Selenium 来抓取带有价格等信息的产品。比我将每条记录添加到 pandas DF，进行一些额外的数据操作，然后将数据存储在 csv 中并上传到谷歌驱动器。这每天晚上运行

#问题本身

我想看价格变化，新产品等。你会推荐，如何使用日期键存储数据，所以可以选择标记新产品等？我的想法是将每个负载存储在一个 csv 中，并添加一个带有“date_of_load”的列......但这看起来像 noob_like......也许将数据存储在 PostrgreDB 中？我想开始学习 SQL，所以我会尝试制作自己的数据库。

感谢您的想法

【问题讨论】：

嗨，马丁。你的问题是基于意见的。请在 StackOverflow 上发布更准确的问题。
感谢大家的意见。我会对关于整个思考逻辑的一些建议感兴趣......想象一下我有 DF 和 Date_added |产品 |价格。您如何建议寻找新产品（第一次被刮掉）或某些产品的价格发生了变化。
这就是我上面评论的重点。 StackOverflow 不适用于固执己见的问题。还有另一个页面softwareengineering.stackexchange.com，这样的问题非常适合。

标签： python selenium web-scraping data-science

【解决方案1】：

我最好使用NoSQL (Mongo) 来完成这项任务。您可以使用日期键创建 JSON（价格数据）。这可以帮助您：

【讨论】：

【解决方案2】：

太酷了！我建议 sqlite3 (https://docs.python.org/3/library/sqlite3.html) 只是为了感受一下 SQL。如您所见，它说“也可以使用 SQLite 对应用程序进行原型设计，然后将代码移植到更大的数据库，例如 PostgreSQL 或 Oracle”，这正是您的建议（？），所以这可能是一个不错的选择开始的地方。

但是，CSV 可能会很好。只要没有太多数据（加载（和处理）所有必要数据需要很长时间），只要您设法按照自己的意愿应用它，您如何存储它并不重要。

【讨论】：