第一步:先安装scrapy-splash sudo pip3 install scrapy-splash
第二步:打开docker
第三步:创建一个爬虫项目
创建爬虫项目的命令如下:
如爬取淘宝:scrapy startproject taobao(爬虫名)
cd taobao(爬虫名)
scrapy genspider taobao_comment(爬虫项目名) taobao.com(淘宝的网址名)
第四步:项目创建完首先是配置是进行setting的配置
第五步:在根目录下创建一个lua文件
taobao.lua中文件的内容为:
function main(splash, args)
splash:set_user_agent(“Mozilla/5.0 Chrome/69.0.3497.100 Safari/537.36”)
splash:go(args.url)
splash:wait(5)
return {html=splash:html()}
end
第六步:写一个爬虫