【发布时间】:2021-09-26 05:43:59
【问题描述】:
我试图创建一个函数来从一个链接到另一个维基百科页面。链接到所有其他 wiki 文章都以前缀“/wiki/”开头。我尝试了一个代码来获取一个随机链接,但我的代码正在获取所有课程。之后在网上看到如下代码。
allLinks = soup.find(id="bodyContent").find_all("a")
random.shuffle(allLinks)
linkToScrape = 0
for link in allLinks:
# We are only interested in other wiki articles
if link['href'].find("/wiki/") == -1:
continue
# Use this link to scrape
linkToScrape = link
break
此代码块似乎运行良好。但是,我无法理解一部分。
if link['href'].find("/wiki/") == -1:
我无法理解 -1 的用法。此外,有人可以解释这行代码中的条件是如何工作的,以及这里如何使用find 函数吗?
作为背景,这里是我找到代码的页面:“https://www.freecodecamp.org/news/scraping-wikipedia-articles-with-python/”
【问题讨论】:
-
您想要所有其他
/wiki/链接还是非wiki链接? -
所有维基链接。
-
您希望我们做什么?我没有正确理解您的问题!
标签: python web-scraping beautifulsoup hyperlink href