【发布时间】:2017-04-21 00:34:06
【问题描述】:
我无法使用 BeautifulSoup 从网页中提取特定链接。具体网页为http://punchdrink.com/recipe-archives/?filter-spirit__term=Gin
当我检查源代码时,我看到了我想要抓取的链接,特别是食谱的链接(例如:http://punchdrink.com/recipes/breakfast-martini/),但是当我使用 BeautifulSoup 时,这些链接不会显示在 HTML 中全部。
这是我获取 HTML 的代码:
def drinkScraper(url, searchTerm):
res = requests.get(url)
res.raise_for_status()
soup = bs4.BeautifulSoup(res.text)
printing soup 给出的 html 没有引用该页面上任何指向食谱的链接。
我正在尝试从这个网站上抓取他们档案中所有食谱的链接,但我似乎无法弄清楚这一点。
感谢您的帮助。
【问题讨论】:
-
因为它是一个动态网站,所以你必须检查 Ajax 请求以获取 url。
-
@amigcamel 谢谢!我最终使用 selenium 来查找链接。不过,我会更多地考虑您对未来的建议。
标签: python html beautifulsoup