【发布时间】:2018-11-24 13:38:53
【问题描述】:
我正在尝试抓取一个网页,该网页需要我通过一个 URL/链接才能访问该站点(有点像登录链接),但随后我需要通过该链接循环另一个 URL 以抓取各个页面。我知道如何抓取单个页面,而我从来不需要将 URL 循环到另一个 URL 来访问网站。
我的这个想法是正确的,还是我在这里遗漏了什么?
对不起,如果这有点令人困惑。
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
import pyfpdf
import time
import random
timeDelay = random.randrange(5, 10)
my_url = 'http://shops3.directedje.com/JACK/product-listing.asp?CID=2065'
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
for a in soup.find_all('a', href=True):
print ("href")
这是我首先需要访问 thermofisher.com/DCG 的链接
【问题讨论】:
-
请向我们展示您已有的代码!
-
@KlausD。我已经更新了帖子
-
您不能先访问登录页面,发送帐户凭据,然后转到所需的页面吗?
-
是登录页面,还是thermofisher.com/DCG只需要在头部作为Referer?
-
@AfloroaieRobert 不,出于某种原因,设置此页面的人不允许人们拥有凭据,只允许他们使用提供的链接访问该站点。否则我只会将其设置为登录。
标签: python url web-scraping beautifulsoup python-requests