【发布时间】:2017-08-03 08:00:48
【问题描述】:
我是网络爬虫新手,但遇到了问题。
我想从这个页面获取 2 个信息: https://boardgamegeek.com/boardgame/197070/massive-darkness
我想要的信息是:
- 最少玩家人数
- 最大玩家人数
我已经对“1-6名玩家”进行了严格的点击,转到“检查”,我得到:
<div class="gameplay-item-primary"> <!----><span ng-if="::geekitemctrl.geekitem.data.item.minplayers > 0 || geekitemctrl.geekitem.data.item.maxplayers > 0" min="::geekitemctrl.geekitem.data.item.minplayers" max="::geekitemctrl.geekitem.data.item.maxplayers"> <!----><span ng-if="min > 0">1</span><!----><!----><span ng-if="max>0 && min != max"><!----><span ng-if="min>0">–</span><!---->6</span><!----> </span><!----> Players </div>
我试过了:
url=requests.get('https://boardgamegeek.com/boardgame/197070/massive-darkness')
website=url.content
soup = BeautifulSoup(website, "html.parser")
tmp=soup.find("div",{"class":"gameplay-item-primary"})
但是 tmp 的类型是 None(而不是 class 'bs4.element.Tag') --> 里面没有信息,我也不知道为什么......
问题 1:如何获得我想要的 2 条信息?
问题2:“!----”是什么意思?
问题 3:当我只做
soup.find("div")时,我得到一个类 'bs4.element.Tag' 对象,但我仍然不知道从哪里获取我的信息...
【问题讨论】:
标签: python-3.x beautifulsoup web-crawler