【发布时间】:2016-09-02 12:26:35
【问题描述】:
我正在尝试提取有关 Google Play 上某个应用的一些信息,但 BeautifulSoup 似乎不起作用。
链接是这样的(比如说): https://play.google.com/store/apps/details?id=com.cimaxapp.weirdfacts
我的代码:
url = "https://play.google.com/store/apps/details?id=com.cimaxapp.weirdfacts"
r = requests.get(url)
html = r.content
soup = BeautifulSoup(html)
l = soup.find_all("div", { "class" : "document-subtitles"})
print len(l)
0 #How is this 0?! There is clearly a div with that class
我决定全力以赴,也没有用:
i = soup.select('html body.no-focus-outline.sidebar-visible.user-has-no-subscription div#wrapper.wrapper.wrapper-with-footer div#body-content.body-content div.outer-container div.inner-container div.main-content div div.details-wrapper.apps.square-cover.id-track-partial-impression.id-deep-link-item div.details-info div.info-container div.info-box-top')
print i
我做错了什么?
【问题讨论】:
-
您的标题显示错误,但您的问题正文没有显示错误。你得到什么错误?
-
最大的可能性之一是您要查找的内容是使用 javascript 加载的。
-
我没有得到我想要的
div元素,即使使用正确的搜索查询。注意我的 ResultSet 没有结果。什么给了? -
你检查过汤的内容吗?并非所有网站都喜欢被抓取(至少在不伪造浏览器的情况下不会)
标签: python web-scraping beautifulsoup html-parsing