【问题标题】:Url request does not parse every information in HTML using PythonUrl 请求不会使用 Python 解析 HTML 中的所有信息
【发布时间】:2020-12-10 19:38:52
【问题描述】:

我正在尝试使用 Python(requests 模块)和以下代码从交换网站 (chiliz.net) 中提取信息:

data = requests.get(url,time.sleep(15)).text

我使用了time.sleep,因为网站没有直接连接到交易所主页,但我不确定是否有必要。

问题是,我在 HTML 文本中找不到写在 <body style> 下的任何内容(在这种情况下是 data 变量)。如何获取完整的 HTML 代码,然后开始从该网站提取价格信息?

我知道 Python,但对网站/HTML 不太熟悉。因此,如果您像与初学者交谈一样解释网站相关信息,我将不胜感激。谢谢!

【问题讨论】:

    标签: python html parsing exchange-server stock


    【解决方案1】:

    这可能有几个原因。

    1. 据我所知,该网站运行在代理服务器后面,因此这确实会影响您的请求加载时间。这就是它不直接连接到主页的原因。

    2. 也可能是在页面加载后使用 javascript 呈现元素的情况。因此,您只能获得页面而不是 javascript 呈现的部分。您可以尝试增加您的sleep() 时间,但我认为这不会有帮助。

    您还可以使用名为Selenium 的库。它只是自动化浏览器,您可以使用page_source 属性获取HTML 源代码。

    代码(取自here

    from selenium import webdriver
    
    browser = webdriver.Firefox()
    browser.get("http://example.com")
    
    html_source = browser.page_source
    

    使用selenium,还可以设置XPATH获取-'从本网站提取价格信息'的数据;你可以看到关于那个here的教程。或者, 提取HTML 代码后,您还可以使用bs4 等解析器来提取所需的数据。

    【讨论】:

      猜你喜欢
      • 2019-01-18
      • 1970-01-01
      • 2013-04-06
      • 1970-01-01
      • 1970-01-01
      • 2020-04-18
      • 2015-07-07
      • 2018-12-16
      • 1970-01-01
      相关资源
      最近更新 更多