【发布时间】:2015-06-07 22:23:12
【问题描述】:
我正在尝试从 BBC 美食网站提取信息,但在缩小我收集的数据范围时遇到了一些问题。
这是我目前所拥有的:
from bs4 import BeautifulSoup
import requests
webpage = requests.get('http://www.bbcgoodfood.com/search/recipes?query=tomato')
soup = BeautifulSoup(webpage.content)
links = soup.find_all("a")
for anchor in links:
print(anchor.get('href')), anchor.text
这会返回相关页面中的所有链接以及链接的文本描述,但我想从页面上的“文章”类型对象中提取链接。这些是特定食谱的链接。
通过一些实验,我设法从文章中返回文本,但我似乎无法提取链接。
【问题讨论】:
标签: python python-2.7 web-scraping