【问题标题】:JSON data webscrapingJSON 数据网页抓取
【发布时间】:2021-08-29 20:04:52
【问题描述】:

我正在尝试从 here 中获取职位名称。

使用 Beautifulsoup,我可以从第一页抓取职位名称。我无法从剩余页面中抓取职位名称。使用 Developertool > 网络,我了解到内容类型是 JSON。

import requests
import json
import BeautifulSoup
from os import link
import pandas as pd
s = requests.Session()
headers = {
    'Connection': 'keep-alive',
    'sec-ch-ua': '^\\^',
    'Accept': '*/*',
    'X-Requested-With': 'XMLHttpRequest',
    'sec-ch-ua-mobile': '?0',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36',
    'Content-Type': 'application/json; charset=utf-8',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Dest': 'empty',
    'Referer': 'https://jobs.epicor.com/search-jobs',
    'Accept-Language': 'en-US,en;q=0.9',
}
url=’https://jobs.epicor.com/search-jobs/results?ActiveFacetID=0&CurrentPage=2&RecordsPerPage=15&Distance=50&RadiusUnitType=0&Keywords=&Location=&ShowRadius=False&IsPagination=False&CustomFacetName=&FacetTerm=&FacetType=0&SearchResultsModuleName=Search+Results&SearchFiltersModuleName=Search+Filters&SortCriteria=0&SortDirection=1&SearchType=5&PostalCode=&fc=&fl=&fcf=&afc=&afl=&afcf=’
response = s.get(url, headers=headers).json()
data=json.dumps(response)
#print(data)
d2=json.loads(data)
for x in d2.keys():
  print(x)
###from above json results how to extract “jobtiltle”

问题是上述结果的 JSON 数据包含 Html 标签。在这种情况下如何从 JSON 数据中抓取职位?

非常感谢您对此的任何帮助。

不幸的是,我目前仅限于使用请求或其他流行的 python 库。 提前致谢。

【问题讨论】:

    标签: python html json python-requests


    【解决方案1】:

    如果您的回复文本中只需要职位名称:

    from bs4 import BeautifulSoup
    # your code here
    soup = BeautifulSoup(response["results"])
    for item in soup.findAll("span", { "class" : "jobtitle" }):
        print(item.text)
    

    要在页面上导航,如果您将鼠标光标悬停在 Prev 或 Next 按钮上,您将看到请求数据的 url。

    【讨论】:

      猜你喜欢
      • 2018-04-02
      • 1970-01-01
      • 2021-10-15
      • 2021-12-28
      • 1970-01-01
      • 2018-12-13
      • 2019-11-10
      • 1970-01-01
      相关资源
      最近更新 更多