【发布时间】:2021-12-01 11:13:03
【问题描述】:
尝试解析 Coinbase 博客网站 https://blog.coinbase.com/ 的部分,即 9 篇以下的第一篇文章,从 <div class="streamItem streamItem--section js-streamItem" data-action-scope="_actionscope_6"> 开始以获取最新消息(不知道如何在托管 coinbase 博客的中型平台上以其他方式进行操作)主页上的随机日期和搜索上的随机日期)但由于某种原因无法,首先尝试使用请求并且它有效,但直到本节才有效,并尝试使用下一个代码的剧作家:
# !/usr/bin/env python
# coding: utf-8
import asyncio
from playwright.sync_api import sync_playwright
from playwright.async_api import async_playwright
import os
import time
async def parser():
page_path = "https://blog.coinbase.com/"
async with async_playwright() as p:
browser = await p.chromium.launch(headless=True)
page = await browser.new_page(user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36')
await page.goto(page_path)
page_content = await page.content()
await browser.close()
print(page_content)
asyncio.get_event_loop().run_until_complete(parser())
同样的事情 - 在本节之前它一直有效
我也尝试过像这里 https://scrapingant.com/blog/scrape-dynamic-website-with-python 这样的抓取工具,它有效,但我需要通过请求或剧作家以其他方式解决它,更好地使用请求
【问题讨论】:
-
仍然没有找到合适的解决方案
标签: python python-requests playwright-python