爬虫双色球所有的历史数据并保存到SQLite

前言 上一篇介绍了双色球走势图是怎么实现的,这一篇介绍怎么实现爬虫所有的双色球历史数据,也可以同步分享怎么同步福彩3D数据。采用的C#来实现的。 同步双色球的地址:https://datachart.500.com/ssq/history/newinc/history.php?start={0}&e ... »

webmagic源码浅析

webmagic简介 webmagic可以说是中国传播度最广的Java爬虫框架,https://github.com/code4craft/webmagic,阅读相关源码,获益良多。阅读作者博客【代码工匠】,能够领略到一个IT工作者的工匠精神,希望以后成为他这样的开源贡献者。Webmagic的文档也 ... »

网易游戏登录密码加密破解小试

最近实在太忙,更新速度也慢了,今天得空网上冲浪一会,心血来潮打开了童年游戏大话西游官网,本想看看有什么变化,发个帖抱怨一下为啥还不开怀旧服,就在登录之际又忍不住按下了F12,跟我想的一样,的确是把密码加密了,那好吧,等我把JS代码扣完再去发帖吧,觉得有帮助关注一下知识图谱与大数据公众号吧,当然不关注 ... »

PySpider框架学习

——利用Phantomjs和PySpider就可以抓取通过JavaScript渲染的网页啦 先来解释一下框架中的代码结构: 定义一个Handler类,它继承于父类BaseHandler,里面包含三个函数:on_start()进入目标网站,返回索引页html代码并传给index_page();inde ... »

这个网易云JS解密,老网抑云看了都直呼内行

最近更新频率慢了,这不是因为CK3发售了嘛,一个字就是“肝”。今天来看一下网易云音乐两个加密参数params和encSecKey,顺便抓取一波某歌单的粉丝,有入库哦,使用mysql存储,觉得有帮助的别忘了关注一下公众号啊,完整的JS代码都已整理好,请关注知识图谱与大数据公众号,找到本文点击文末阅读更 ... »

selenium学习之元素等待(四)

——为什么要设置元素等待: 目前大多数web应用程序都是使用AJAX和JavaScript开发,每次加载一个网页,包括静态网页和动态网页,也就是加载各种HTML标签和JS文件。在网页中进行元素定位时,有可能打开了网页但是元素未加载出来,这时进行元素定位可能会出现错误。所以,设置元素等待(等待元素加载 ... »

selenium学习之基本操作(一)

通过selenium的使用可以驱动浏览器来模拟加载网页,简单定位元素和获取对应的数据:# find_elements_by_id #(根据id属性值获取元素列表)# find_elements_by_class_name #(根据类名获取元素列表)# find_elements_by_tag_nam ... »

Python正则表达式 re.sub()函数:标志位flags与参数个数问题

这两天在写爬虫程序,涉及英文文本处理,需要规范化英文标点符号的写法。正常情况下,英文句号「.」后面需要保证有且只有一个空格,但也有例外情况,比如「i.e.」、「e.g.」、「P.S.」这种。由于无法预测大小写,因此在正则表达式中使用了「标志位」flags,却死活不生效。 一开始,我的函数是这样写的: ... »

每日爬虫JS小逆之5分钟旅游网MD5一锅端

来吧骚年,每天花5分钟锻炼一下自己的JS调试也是极好的,对后期调试滑块验证码还原、拖动很有帮助,坚持下去,我们能赢。建议亲自试试哦,如果对大家有帮助的话不妨关注一下知识图谱与大数据公众号,当然不关注也无所谓,有问题随时私信。完整JS代码参考 从今天开始种树-同程MD5 从今天开始种树-驴妈妈MD5 ... »

python自动保存百度网盘资源,一定要看

觉得有帮助的别忘了关注一下知识图谱与大数据公众号 开始 在上一文中,我们保存了百度云盘的地址和提取码,但是这种分享链接很容易被屏蔽,最好的做法就是保存资源到自己的网盘,不过采集的链接有上万个,人肉保存并不现实,所以本文尝试了批量保存资源,如您还没看过上文,这里可以跳转。 爬虫学习3:搭建自己的电影资 ... »

Puppeteer爬虫实战(三)

本篇文章针对大家熟知的技术站点作为目标进行技术实践。 确定需求 访问目标网站并按照筛选条件(关键词、日期、作者)进行检索并获取返回数据中的目标数据。进行技术拆分如下: 打开目标网站 找到输入框元素输入关键词,找到日期元素设置日期,找到搜索按钮触发搜索动作 解析搜索返回的html元素构造目标数据 将目 ... »

爬虫与自动化实战,帮助小姐姐刷抖音完全解放掉双手

1. 场景 你是否在为洗碗时,刷抖音需要滑动屏幕,导致屏幕沾上水而烦扰? 你是否为在吃饭时刷抖音,由于手机屏幕过大,导致手指滑动视频不方便而苦恼? 又或者是,冬天躺在被窝刷抖音,你是否为频繁伸出手去切换视频,而烦躁不安? 本篇文章将大家利用 自动化与爬虫,精准地刷抖音,完全解放自己的双手,做一回真正 ... »

49式!Python初级到高级招式都全了

导读:本文为不同阶段的 Python 学习者从不同角度量身定制了 49 个学习资源。来源:专知(ID:Quan_Zhuanzhi)原文链接:https://code-love.com/2019/06/03/49-essential-resources-to-learn-python/ 01 初学者 ... »

gerapy 爬虫web调度可视化工具(基于scrapyd)

web 基于scrapyd 提供主机管理功能 基于scrapyd管理已安装服务的主机。 进入具体主机管理页面,会自动加载所有已知爬虫任务; 可直接可以调度、运行、查看日志。 提供项目管理功能 将已知项目放到project目录下,可进行爬虫项目单台机器、多台机器部署。 提供项目代码在线编辑功能 提供任 ... »