分析了2020年3万多条的微博热搜,我看到了什么

前言 2020年是艰难的一年,但即使再难,也都过去了。 分析一下2020年的新闻热搜,可以大致了解网民都在关注什么。 微博热搜以娱乐为主,头条的热搜更偏向民生与时事。今天,我们先分析分析微博一整年的热搜。 数据抓取 由于微博平台不能查看历史热搜,本文所有的数据都是从云合数据旗下的一个热搜榜抓取的,具 ... »

关于动态页面静态化的技术探索

一、准备工作 1、使用tornado部署后端服务 架构图: 1、config.py 配置端口 2、application配置路由 3、添加Handler处理响应请求 4、启动服务 打开server.py,右击选择Run ‘server’。 2、使用nuxt开前端页面 1、使用脚手架create-nu ... »

爬虫双色球所有的历史数据并保存到SQLite

前言 上一篇介绍了双色球走势图是怎么实现的,这一篇介绍怎么实现爬虫所有的双色球历史数据,也可以同步分享怎么同步福彩3D数据。采用的C#来实现的。 同步双色球的地址:https://datachart.500.com/ssq/history/newinc/history.php?start={0}&e ... »

webmagic源码浅析

webmagic简介 webmagic可以说是中国传播度最广的Java爬虫框架,https://github.com/code4craft/webmagic,阅读相关源码,获益良多。阅读作者博客【代码工匠】,能够领略到一个IT工作者的工匠精神,希望以后成为他这样的开源贡献者。Webmagic的文档也 ... »

网易游戏登录密码加密破解小试

最近实在太忙,更新速度也慢了,今天得空网上冲浪一会,心血来潮打开了童年游戏大话西游官网,本想看看有什么变化,发个帖抱怨一下为啥还不开怀旧服,就在登录之际又忍不住按下了F12,跟我想的一样,的确是把密码加密了,那好吧,等我把JS代码扣完再去发帖吧,觉得有帮助关注一下知识图谱与大数据公众号吧,当然不关注 ... »

PySpider框架学习

——利用Phantomjs和PySpider就可以抓取通过JavaScript渲染的网页啦 先来解释一下框架中的代码结构: 定义一个Handler类,它继承于父类BaseHandler,里面包含三个函数:on_start()进入目标网站,返回索引页html代码并传给index_page();inde ... »

这个网易云JS解密,老网抑云看了都直呼内行

最近更新频率慢了,这不是因为CK3发售了嘛,一个字就是“肝”。今天来看一下网易云音乐两个加密参数params和encSecKey,顺便抓取一波某歌单的粉丝,有入库哦,使用mysql存储,觉得有帮助的别忘了关注一下公众号啊,完整的JS代码都已整理好,请关注知识图谱与大数据公众号,找到本文点击文末阅读更 ... »

selenium学习之元素等待(四)

——为什么要设置元素等待: 目前大多数web应用程序都是使用AJAX和JavaScript开发,每次加载一个网页,包括静态网页和动态网页,也就是加载各种HTML标签和JS文件。在网页中进行元素定位时,有可能打开了网页但是元素未加载出来,这时进行元素定位可能会出现错误。所以,设置元素等待(等待元素加载 ... »

selenium学习之基本操作(一)

通过selenium的使用可以驱动浏览器来模拟加载网页,简单定位元素和获取对应的数据:# find_elements_by_id #(根据id属性值获取元素列表)# find_elements_by_class_name #(根据类名获取元素列表)# find_elements_by_tag_nam ... »

Python正则表达式 re.sub()函数:标志位flags与参数个数问题

这两天在写爬虫程序,涉及英文文本处理,需要规范化英文标点符号的写法。正常情况下,英文句号「.」后面需要保证有且只有一个空格,但也有例外情况,比如「i.e.」、「e.g.」、「P.S.」这种。由于无法预测大小写,因此在正则表达式中使用了「标志位」flags,却死活不生效。 一开始,我的函数是这样写的: ... »

每日爬虫JS小逆之5分钟旅游网MD5一锅端

来吧骚年,每天花5分钟锻炼一下自己的JS调试也是极好的,对后期调试滑块验证码还原、拖动很有帮助,坚持下去,我们能赢。建议亲自试试哦,如果对大家有帮助的话不妨关注一下知识图谱与大数据公众号,当然不关注也无所谓,有问题随时私信。完整JS代码参考 从今天开始种树-同程MD5 从今天开始种树-驴妈妈MD5 ... »

python自动保存百度网盘资源,一定要看

觉得有帮助的别忘了关注一下知识图谱与大数据公众号 开始 在上一文中,我们保存了百度云盘的地址和提取码,但是这种分享链接很容易被屏蔽,最好的做法就是保存资源到自己的网盘,不过采集的链接有上万个,人肉保存并不现实,所以本文尝试了批量保存资源,如您还没看过上文,这里可以跳转。 爬虫学习3:搭建自己的电影资 ... »

Puppeteer爬虫实战(三)

本篇文章针对大家熟知的技术站点作为目标进行技术实践。 确定需求 访问目标网站并按照筛选条件(关键词、日期、作者)进行检索并获取返回数据中的目标数据。进行技术拆分如下: 打开目标网站 找到输入框元素输入关键词,找到日期元素设置日期,找到搜索按钮触发搜索动作 解析搜索返回的html元素构造目标数据 将目 ... »

爬虫与自动化实战,帮助小姐姐刷抖音完全解放掉双手

1. 场景 你是否在为洗碗时,刷抖音需要滑动屏幕,导致屏幕沾上水而烦扰? 你是否为在吃饭时刷抖音,由于手机屏幕过大,导致手指滑动视频不方便而苦恼? 又或者是,冬天躺在被窝刷抖音,你是否为频繁伸出手去切换视频,而烦躁不安? 本篇文章将大家利用 自动化与爬虫,精准地刷抖音,完全解放自己的双手,做一回真正 ... »