Python多层网页抓取[关闭]

【问题标题】：Python multi layer web scraping [closed]Python多层网页抓取[关闭]
【发布时间】：2019-11-23 17:41:54
【问题描述】：

我想遍历此列表中的每个 URL (https://express-press-release.net/Industries/Automotive-press-releases.php)，然后复制数据并返回根列表以获取下一个。我可以从单个页面抓取，但不能通过多个链接抓取。

【问题讨论】：

你好 Sohel，请提供更多细节和清晰度，否则这个问题可能会被关闭。谢谢。
Sohel，您能否发布一些代码，以展示您迄今为止所做的尝试以及为什么它没有奏效？

标签： python web-scraping beautifulsoup scrapy pycharm

【解决方案1】：

你可以找到所有带有 href 的<a> 标签并将它们拉到一个列表中。然后只需遍历该列表。您可能需要添加一些额外的过滤器，因为您可能只需要特定的链接，但这会让您继续前进：

import requests
from bs4 import BeautifulSoup

url = 'https://express-press-release.net/Industries/Automotive-press-releases.php'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

links = soup.find_all('a', href=True)

root = 'https://express-press-release.net/'

link_list = [ root + a['href'] for a in links if '..' in a['href'] ]

for link in link_list:
    do some stuff...

【讨论】：