【问题标题】:Python multi layer web scraping [closed]Python多层网页抓取[关闭]
【发布时间】:2019-11-23 17:41:54
【问题描述】:

我想遍历此列表中的每个 URL (https://express-press-release.net/Industries/Automotive-press-releases.php),然后复制数据并返回根列表以获取下一个。 我可以从单个页面抓取,但不能通过多个链接抓取。

【问题讨论】:

  • 你好 Sohel,请提供更多细节和清晰度,否则这个问题可能会被关闭。谢谢。
  • Sohel,您能否发布一些代码,以展示您迄今为止所做的尝试以及为什么它没有奏效?

标签: python web-scraping beautifulsoup scrapy pycharm


【解决方案1】:

你可以找到所有带有 href 的<a> 标签并将它们拉到一个列表中。然后只需遍历该列表。您可能需要添加一些额外的过滤器,因为您可能只需要特定的链接,但这会让您继续前进:

import requests
from bs4 import BeautifulSoup

url = 'https://express-press-release.net/Industries/Automotive-press-releases.php'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

links = soup.find_all('a', href=True)

root = 'https://express-press-release.net/'

link_list = [ root + a['href'] for a in links if '..' in a['href'] ]

for link in link_list:
    do some stuff...

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-02-21
    • 2017-09-26
    • 1970-01-01
    • 2011-01-06
    • 2015-06-11
    相关资源
    最近更新 更多