JSON 数据网页抓取答案

【问题标题】：JSON data webscrapingJSON 数据网页抓取
【发布时间】：2021-08-29 20:04:52
【问题描述】：

我正在尝试从 here 中获取职位名称。

使用 Beautifulsoup，我可以从第一页抓取职位名称。我无法从剩余页面中抓取职位名称。使用 Developertool > 网络，我了解到内容类型是 JSON。

import requests
import json
import BeautifulSoup
from os import link
import pandas as pd
s = requests.Session()
headers = {
    'Connection': 'keep-alive',
    'sec-ch-ua': '^\\^',
    'Accept': '*/*',
    'X-Requested-With': 'XMLHttpRequest',
    'sec-ch-ua-mobile': '?0',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36',
    'Content-Type': 'application/json; charset=utf-8',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Dest': 'empty',
    'Referer': 'https://jobs.epicor.com/search-jobs',
    'Accept-Language': 'en-US,en;q=0.9',
}
url=’https://jobs.epicor.com/search-jobs/results?ActiveFacetID=0&CurrentPage=2&RecordsPerPage=15&Distance=50&RadiusUnitType=0&Keywords=&Location=&ShowRadius=False&IsPagination=False&CustomFacetName=&FacetTerm=&FacetType=0&SearchResultsModuleName=Search+Results&SearchFiltersModuleName=Search+Filters&SortCriteria=0&SortDirection=1&SearchType=5&PostalCode=&fc=&fl=&fcf=&afc=&afl=&afcf=’
response = s.get(url, headers=headers).json()
data=json.dumps(response)
#print(data)
d2=json.loads(data)
for x in d2.keys():
  print(x)
###from above json results how to extract “jobtiltle”

问题是上述结果的 JSON 数据包含 Html 标签。在这种情况下如何从 JSON 数据中抓取职位？

非常感谢您对此的任何帮助。

不幸的是，我目前仅限于使用请求或其他流行的 python 库。提前致谢。

【问题讨论】：

标签： python html json python-requests

【解决方案1】：

如果您的回复文本中只需要职位名称：

from bs4 import BeautifulSoup
# your code here
soup = BeautifulSoup(response["results"])
for item in soup.findAll("span", { "class" : "jobtitle" }):
    print(item.text)

要在页面上导航，如果您将鼠标光标悬停在 Prev 或 Next 按钮上，您将看到请求数据的 url。

【讨论】：