使用 Python 3.6 访问隐藏标签、网页抓取答案

【问题标题】：Accessing Hidden Tabs, Web Scraping With Python 3.6使用 Python 3.6 访问隐藏标签、网页抓取
【发布时间】：2018-11-25 17:19:01
【问题描述】：

我在 python 3.6 中使用 bs4 和 urllib.request 进行网页抓取。我必须打开标签/能够在按钮标签中切换“aria-expanded”才能访问我需要的 div 标签。

标签关闭时的按钮标签如下，用代替--:

button id="0-accordion-tab-0" type="button" class="accordion-panel-title u-padding-ver-s u-text-left text-l js-accordion-panel-title " aria-controls="0-accordion-panel-0" aria-expanded="false"

打开时，aria-expanded="true" 和 div 标签出现在下方。

你知道怎么做吗？

非常感谢您的帮助。

【问题讨论】：

你能发个网址吗？

标签： python-3.x dom web-scraping beautifulsoup urlopen

【解决方案1】：

从您的另一篇文章中，我猜 URL 是 https://www.sciencedirect.com/journal/construction-and-building-materials/issues

当您单击链接时，网页会从另一个 URL 加载 JSON。您可以自己请求 JSON，而无需单击链接。您只需要知道永远不变的 ISBN (09500618) 以及您可以从某个范围传入的年份。这甚至会从已展开的选项卡中返回数据。

import requests
import json

# The website rejects requests except from user agents it has not blacklisted so set a header
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:60.0) Gecko/20100101 Firefox/60.0'
}

for i in range (1999, 2019):
    url = "https://www.sciencedirect.com/journal/09500618/year/" + str(i) + "/issues"
    r = requests.get(url, headers=headers)
    j = r.json()

    for d in j['data']:
        # Print the json object
        print (json.dumps(d, indent=4, sort_keys=True))
        # Or print specific values
        print (d['coverDateText'], d['volumeFirst'], d['uriLookup'], d['srctitle'])

输出：

{
    "cid": "271475",
    "contentFamily": "serial",
    "contentType": "JL",
    "coverDateStart": "19991201",
    "coverDateText": "1 December 1999",
    "hubStage": "H300",
    "issn": "09500618",
    "issueFirst": "8",
    "pages": [
        {
            "firstPage": "417",
            "lastPage": "470"
        }
    ],
    "pii": "S0950061800X00323",
    "sortField": "1999001300008zzzzzzz",
    "srctitle": "Construction and Building Materials",
    "uriLookup": "/vol/13/issue/8",
    "volIssueSupplementText": "Volume 13, Issue 8",
    "volumeFirst": "13"
}
1 December 1999 13 /vol/13/issue/8 Construction and Building Materials
...

【讨论】：

非常感谢！！这是令人难以置信的赞赏。

【解决方案2】：

BeautifulSoup 用于解析 HTML/XML 内容。你不能用它来点击网页。

我建议您仔细阅读文档，以确保它不仅仅是将内容从一个地方移动到另一个地方。如果在单击按钮时通过 AJAX 加载内容，则您必须使用 selenium 之类的东西来触发单击。

一个更简单的选择是在您单击按钮时检查从哪个 url 获取内容，并在可能的情况下在您的脚本中进行类似的调用。

【讨论】：

关于如何判断它是通过 AJAX 加载、获取 URL 还是应该挖掘所有 HTML 的任何建议？
它似乎并没有从 HTML 中已经存在的任何地方拉取它。
使用 Firefox 或 Chrome，右键单击页面，选择“检查元素”，选择“网络”，选择“XHR”并重新加载页面，这将显示通过 AJAX 加载的内容。