【发布时间】:2020-08-17 11:42:49
【问题描述】:
以Using the following url 为例,代码只获取了 35 个项目,而不是页面上列出的 85 个项目。这是必须使用 selenium 加载视图源页面的情况吗? bs4 怎么会漏掉剩下的 li 项呢?
r = requests.get(url=url)
soup = bs(r.text, 'html.parser')
jobkeys = []
jobs = soup.findAll("li", {"class": "cmp-JobListItem"})
for job in jobs:
s = job.attrs.get('data-tn-entityid')
jobkey = s[s.find(',')+1:s.rfind(',')]
jobkeys.append(jobkey)
编辑:
使用 selenium,我能够“看到”页面加载时发生的情况。 URL 自动重定向到预过滤的移动站点。
有了这个新网站,我可以删除过滤器,获取新网址并获得正确的号码。
谢谢!
【问题讨论】:
标签: python beautifulsoup python-requests