抓取 WSJ 文章并仅检索文本答案

【问题标题】：Scrape WSJ article and retrieve only text抓取 WSJ 文章并仅检索文本
【发布时间】：2022-01-18 03:20:15
【问题描述】：

我正在尝试从 WSJ 文章中抓取文本（实际上我需要不止一篇文章，但目前我只想从 WSJ 这篇文章中抓取文本）。我使用 Python 3.x，我正在使用以下代码：

import requests
from bs4 import BeautifulSoup

url = 'https://www.wsj.com/articles/SB120584797987545053'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')

tags = soup('p')
for tag in tags:
    print(tag.get_text() + '\n' + '\n')

我只从文章文本中取回前两段，然后是一些引用 WSJ 订阅的文本。我已经购买了 WSJ 会员资格，因此可能需要提供我的凭据。知道如何增强我现有的代码并检索所有可用的文本吗？

【问题讨论】：

源代码中除了sn-p之外没有文章数据，所以你必须登录才能检索全文。您可以为此使用 Selenium。以this project 为例。

标签： python web-scraping

【解决方案1】：

也许整个网站是异步加载的，内容没有完全加载？尝试使用一些时间睡眠或时间睡眠显式、隐式等。

【讨论】：

这是评论，不是答案