【发布时间】:2020-01-20 05:17:00
【问题描述】:
我正在尝试抓取 this
r = requests.get(url)
soup = BeautifulSoup(r.text , 'lxml')
details = soup.find_all('span', {'class' : 'src'})
details = soup.find_all('div', {'class' : 'product_contain'})
i=0
for d in details:
print(i,d.get_text(strip=True).strip())
i+=1
但它抓取只有一个网页。我检查了XHR,但当它更改页面时没有触发任何内容。
我还检查了 advancesearch.aspx 中的FORM DATA,但它也没有页面索引相关信息。
在页面点击事件中,我找到了ctl00$ContentPlaceHolder1$gvItem$ctl01$ctl03,但不确定如何在 URL 中使用它。
我应该使用什么 URL 来访问其他页面?
【问题讨论】:
-
什么意思?在您的代码中,您只请求 1 个网址
-
搜索结果返回超过 25 项。通过这个程序,我们只能获得第一页上的信息。
-
有向classicalnumismaticgallery.com/… 发出的 POST 请求,尽管您可以删除许多标题和所有 cookie,但帖子的其余部分非常庞大且丑陋(尽管也许可以修剪)
标签: python selenium selenium-webdriver web-scraping beautifulsoup