【发布时间】:2021-01-12 09:11:15
【问题描述】:
#背景
我目前正在玩一些网络抓取项目,因为我正在学习 python。 我有一个项目,它使用 Selenium 来抓取带有价格等信息的产品。 比我将每条记录添加到 pandas DF,进行一些额外的数据操作,然后将数据存储在 csv 中并上传到谷歌驱动器。这每天晚上运行
#问题本身
我想看价格变化,新产品等。你会推荐,如何使用日期键存储数据,所以可以选择标记新产品等? 我的想法是将每个负载存储在一个 csv 中,并添加一个带有“date_of_load”的列......但这看起来像 noob_like......也许将数据存储在 PostrgreDB 中?我想开始学习 SQL,所以我会尝试制作自己的数据库。
感谢您的想法
【问题讨论】:
-
嗨,马丁。你的问题是基于意见的。请在 StackOverflow 上发布更准确的问题。
-
感谢大家的意见。我会对关于整个思考逻辑的一些建议感兴趣......想象一下我有 DF 和 Date_added |产品 |价格。您如何建议寻找新产品(第一次被刮掉)或某些产品的价格发生了变化。
-
这就是我上面评论的重点。 StackOverflow 不适用于固执己见的问题。还有另一个页面softwareengineering.stackexchange.com,这样的问题非常适合。
标签: python selenium web-scraping data-science