【发布时间】:2021-06-19 00:43:15
【问题描述】:
我不想访问这个提供免费代理的网站,而是想抓取信息然后过滤它。我正在尝试使用 requests-html 来执行此操作,但到目前为止,遵循教程并阅读库并没有发生,当我运行它时它只是输出 []。这是我到目前为止的代码,我正在尝试获取具有 IP 的页面部分
import requests
from bs4 import BeautifulSoup
from requests_html import HTMLSession
# create an HTML Session object
session = HTMLSession()
# Use the object above to connect to needed webpage
resp = session.get("https://advanced.name/freeproxy")
# Run JavaScript code on webpage
resp.html.render()
port = resp.html.find("data-ip")
print(port)
【问题讨论】:
-
首先查看
print(resp.html.html)- 它使用一些 JavaScript 来检测机器人,它似乎可以工作,因为它会阻止您的代码。你可能需要更多的东西。
标签: javascript python screen-scraping python-requests-html