【发布时间】:2022-01-18 03:20:15
【问题描述】:
我正在尝试从 WSJ 文章中抓取文本(实际上我需要不止一篇文章,但目前我只想从 WSJ 这篇文章中抓取文本)。我使用 Python 3.x,我正在使用以下代码:
import requests
from bs4 import BeautifulSoup
url = 'https://www.wsj.com/articles/SB120584797987545053'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox/80.0'}
soup = BeautifulSoup(requests.get(url, headers=headers).content, 'html.parser')
tags = soup('p')
for tag in tags:
print(tag.get_text() + '\n' + '\n')
我只从文章文本中取回前两段,然后是一些引用 WSJ 订阅的文本。我已经购买了 WSJ 会员资格,因此可能需要提供我的凭据。知道如何增强我现有的代码并检索所有可用的文本吗?
【问题讨论】:
-
源代码中除了sn-p之外没有文章数据,所以你必须登录才能检索全文。您可以为此使用 Selenium。以this project 为例。
标签: python web-scraping