【问题标题】:what is the best way to import high frequency updating data in python?在 python 中导入高频更新数据的最佳方法是什么?
【发布时间】:2020-02-08 19:18:33
【问题描述】:

我正在尝试从网络导入一些数据,其中数据每 1 秒更新一次。

但是,问题是当我尝试添加这些数据时,并没有导入所有数据。当数据没有更新时,我的代码运行良好。但是当数据更新时(从上午 8 点到 12 点),其中一些没有正确导入。

这是一个有 500 行和 12 列的表,其中每一列都存储在一个单独的变量中。预计变量具有相同的长度。当数据未更新时确实如此,但是当我从上午 8 点到上午 12 点(更新数据时)运行代码时,变量的长度不同。任何意见或建议将不胜感激。

我正在使用 selenium 打开网页并执行一些命令以使用 beautiful-soup 读取数据。

【问题讨论】:

  • 您是否查看过您尝试抓取的网站是否提供了一些 API 来获取您的数据?请求整个页面只是为了获取一些数据看起来效率低下
  • 我认为问题在于,当我在页面中添加soup = BeautifulSoup(browser.page_source, 'html.parser') 时,不包括当时正在发生变化的一些数据。

标签: python python-3.x selenium-webdriver beautifulsoup


【解决方案1】:

由于没有代码,也不知道网站,这里有一些大致的想法:

  1. 正如 Maxime 建议的那样 - 有没有可以使用的 API?
  2. 你能抛弃硒吗?使用请求之类的东西可能会更快,并且会帮助您正确安排时间。
  3. 当您尝试保存时,您要抓取的内容是否已经加载?
  4. 您的互联网连接是否跟上您发送的请求数量?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2011-09-16
    • 2020-10-14
    • 2016-09-01
    • 1970-01-01
    • 1970-01-01
    • 2011-02-19
    • 1970-01-01
    相关资源
    最近更新 更多