【发布时间】:2021-09-25 21:46:12
【问题描述】:
我目前正在学习网络抓取,我的任务之一是使用使用 Redoc:OpenAPI/Swagger 生成的 API 参考文档的 API 文档:@ 987654321@)
为了学习结构,我去了他们的github并点击了live demo。
我正在使用 Scrapy,这是我用来简单地提取网站 HTML 的代码:
import scrapy
class QuoteSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://redocly.github.io/redoc/'
]
def parse(self, response):
page = response.url.split("/")[-2]
filename = f'quotes-{page}.html'
with open(filename, 'wb') as f:
f.write(response.body)
问题是,在刮板运行后,如预期的那样创建了一个新文件,但是它缺少大部分 HTML(在容器 div 内)。
你们有没有遇到过这个问题,尤其是 redoc?如果是这样,您是如何解决的?您认为这是不允许抓取的文档生成器的配置吗?
谢谢!
【问题讨论】:
-
仅供参考,它是刮擦而不是刮擦或报废
-
“我不接受任何答案”是什么意思?正如我没有将任何标记为正确? (老实说,我认为 stackoverflow 是根据投票系统自动完成的)
标签: python html web-scraping scrapy documentation