【发布时间】:2019-06-12 20:16:52
【问题描述】:
很抱歉这个问题,但我是 python 新手,对我来说这个问题非常困难。
我正在处理这个 csv (https://www.kaggle.com/jtrofe/beer-recipes),我需要进行抓取。
问题是在数据框的列(URL)中有一部分链接,而主要部分(https://www.brewersfriend.com)没有声明。我想从每个 url 中抓取各种啤酒的评分。
对我来说这很复杂。
我希望有人可以帮助我!非常感谢。
【问题讨论】:
-
您确定该网站允许根据其政策进行抓取吗?没检查过。所以一般来说,我知道 pandas 已经可以从 url 中提取表格,但对我来说,这个功能似乎有它的局限性,所以我想你必须实现一些抓取逻辑。也许它可以帮助您尝试漂亮的汤(由 python 中的 bs4 导入)并将抓取的内容插入数据框中。 BS4 相当强大!
-
美汤期望得到html(或xml)代码,只用于解析,功能非常强大。您需要自己检索代码。您可以为此使用“请求”库。
标签: python pandas dataframe web-scraping