【问题标题】:Scrape WSJ article and retrieve only text抓取 WSJ 文章并仅检索文本
【发布时间】:2022-01-18 03:20:15
【问题描述】:

我正在尝试从 WSJ 文章中抓取文本(实际上我需要不止一篇文章,但目前我只想从 WSJ 这篇文章中抓取文本)。我使用 Python 3.x,我正在使用以下代码:

import requests
from bs4 import BeautifulSoup

url = 'https://www.wsj.com/articles/SB120584797987545053'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}

soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')

tags = soup('p')
for tag in tags:
    print(tag.get_text() + '\n' + '\n')

我只从文章文本中取回前两段,然后是一些引用 WSJ 订阅的文本。我已经购买了 WSJ 会员资格,因此可能需要提供我的凭据。知道如何增强我现有的代码并检索所有可用的文本吗?

【问题讨论】:

  • 源代码中除了sn-p之外没有文章数据,所以你必须登录才能检索全文。您可以为此使用 Selenium。以this project 为例。

标签: python web-scraping


【解决方案1】:

也许整个网站是异步加载的,内容没有完全加载?尝试使用一些时间睡眠或时间睡眠显式、隐式等。

【讨论】:

  • 这是评论,不是答案
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多