Url 请求不会使用 Python 解析 HTML 中的所有信息答案

【问题标题】：Url request does not parse every information in HTML using PythonUrl 请求不会使用 Python 解析 HTML 中的所有信息
【发布时间】：2020-12-10 19:38:52
【问题描述】：

我正在尝试使用 Python（requests 模块）和以下代码从交换网站 (chiliz.net) 中提取信息：

data = requests.get(url,time.sleep(15)).text

我使用了time.sleep，因为网站没有直接连接到交易所主页，但我不确定是否有必要。

问题是，我在 HTML 文本中找不到写在 <body style> 下的任何内容（在这种情况下是 data 变量）。如何获取完整的 HTML 代码，然后开始从该网站提取价格信息？

我知道 Python，但对网站/HTML 不太熟悉。因此，如果您像与初学者交谈一样解释网站相关信息，我将不胜感激。谢谢！

【问题讨论】：

标签： python html parsing exchange-server stock

【解决方案1】：

这可能有几个原因。

据我所知，该网站运行在代理服务器后面，因此这确实会影响您的请求加载时间。这就是它不直接连接到主页的原因。
也可能是在页面加载后使用 javascript 呈现元素的情况。因此，您只能获得页面而不是 javascript 呈现的部分。您可以尝试增加您的sleep() 时间，但我认为这不会有帮助。

您还可以使用名为Selenium 的库。它只是自动化浏览器，您可以使用page_source 属性获取HTML 源代码。

代码（取自here）

from selenium import webdriver

browser = webdriver.Firefox()
browser.get("http://example.com")

html_source = browser.page_source

使用selenium，还可以设置XPATH获取-'从本网站提取价格信息'的数据；你可以看到关于那个here的教程。或者，提取HTML 代码后，您还可以使用bs4 等解析器来提取所需的数据。

【讨论】：