Python爬虫知乎文章,采集新闻60秒

前言 发现很多人需要新闻的接口,所以自己去搜索了下,发现知乎上正好有对应的用户每天发布新闻简讯,所以自己想写一个新闻的爬虫。如果想做成接口的话,可以加上flask模块即可,这里就暂时只进行爬虫部分的编写。 目标站点 网址:https://www.zhihu.com/people/mt36501 通过 ... »

爬虫入门到放弃系列07:js混淆、eval加密、字体加密三大反爬技术

前言 如果再说IP请求次数检测、验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了。当然,也有的同学写了了几天的爬虫,觉得爬虫太简单、没有啥挑战性。所以特地找了三个有一定难度的网站,希望可以有兴趣的手动实践一下。 此篇文章只作知识扩展和思路引导,其中涉及的网站反爬技术,仅做技术学习探讨。 字体 ... »

爬虫入门到放弃系列06:爬虫实战天天基金网

前言 爬虫的基本知识已经告一段落,这次就找个网站实战一波。但是为什么选择了基金?这还要从我的故事讲起。 我是一名韭零后,小白一枚,随大流入基市一载,佛系持有,盈亏持平。看到年前白酒红胜火,遂小投一笔,未曾想开市之后绿如蓝,赚的本韭菜空喜欢,一周梦回解放前。 还记得那天的天台的风很凉,低头往下看车来车 ... »

关于某 App 请求参数 sign 字段加密分析

受害者: 6ZqG5LyX5pWw5o2u 通过 Charles 抓包发现关键信息请求均携带 sign 参数,且每次请求的值都不一样: 使用 jadx 将对应的 apk 反编译并分析,全局搜素 "sign" 关键字没有相关结果。通过生成的代码文件结构大概可以判断该 apk 使用了 360 加固: 通 ... »

爬虫入门到放弃系列05:从程序模块设计到代理IP池

前言 上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的。本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结。 在我漫(liang)长(nian)的爬虫开发生涯中,我通常将爬虫程序分为四大模块。 如图,除了代理模块是根据所需引入程序,请求、解析、储存模块是必不可少的。 代 ... »

手把手教你爬取优酷电影信息-2

上一章节中我们实现了对优酷单页面的爬取,简单进行回顾一下,使用HtmlAgilityPack库,对爬虫的爬取一共分为三步 爬虫步骤 加载页面 解析数据 保存数据 继第一篇文档后的爬虫进阶,本文章主要是对上一篇的进阶。实现的功能主要为: 1、爬取电影类别列表 2、循环每个类别的电影信息,对每个类别的信 ... »

手把手教你爬取优酷电影信息 -1

爬虫的制作主要分为三个方面 1、加载网页结构 2、解析网页结构,转变为符合需求的数据实体 3、保存数据实体(数据库,文本等) 在实际的编码过程中,找到了一个好的类库“HtmlAgilityPack”。 介绍: 官网:http://html-agility-pack.net/?z=codeplex H ... »

Python爬虫全网搜索并下载音乐

现在写一篇博客总是喜欢先谈需求或者本内容的应用场景,是的,如果写出来的东西没有任何应用价值,确实也没有实际意义。今天的最早的需求是来自于如何免费[白嫖]下载全网优质音乐,我去b站上面搜索到了一个大牛做过的一个歌曲搜素神器,界面是这样的: 确实很好用的,而且涵盖了互联网上面大多数主流的音乐网站,涉及到 ... »

80行Python代码搞定全国区划代码

微信搜索:码农StayUp 主页地址:https://gozhuyinglong.github.io 源码分享:https://github.com/gozhuyinglong/blog-demos 1. 前言 在网站建设中一般会用到全国行政区域划分,以便于做区域数据分析。 下面我们用 Python ... »

Python爬虫入门教程:豆瓣Top电影爬取

基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可。 爬虫基本思路 一、明确需求 爬取豆瓣Top250排行电影信息 电影名字 导演、主演 年份、国家、类型 评分、评价人数 电影简介 ... »

scrapy-redis非多网址采集的使用

问题描述 默认RedisSpider在启动时,首先会读取redis中的spidername:start_urls,如果有值则根据url构建request对象。 现在的要求是,根据特定关键词采集。 例如:目标站点有一个接口,根据post请求参数来返回结果。 那么,在这种情况下,构建request主要的 ... »

Python爬虫:数据分析小能手:JSON库的用法

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写。 给大家推荐一个Python交流的q裙,大家在学习遇到了什么问题都可以进群一起交流,大家一起学习一起进步:610 380 249 JSON 函数 使用 JSON 函数需要导入 json 库 ... »

分析了2020年3万多条的微博热搜,我看到了什么

前言 2020年是艰难的一年,但即使再难,也都过去了。 分析一下2020年的新闻热搜,可以大致了解网民都在关注什么。 微博热搜以娱乐为主,头条的热搜更偏向民生与时事。今天,我们先分析分析微博一整年的热搜。 数据抓取 由于微博平台不能查看历史热搜,本文所有的数据都是从云合数据旗下的一个热搜榜抓取的,具 ... »

关于动态页面静态化的技术探索

一、准备工作 1、使用tornado部署后端服务 架构图: 1、config.py 配置端口 2、application配置路由 3、添加Handler处理响应请求 4、启动服务 打开server.py,右击选择Run ‘server’。 2、使用nuxt开前端页面 1、使用脚手架create-nu ... »

爬虫双色球所有的历史数据并保存到SQLite

前言 上一篇介绍了双色球走势图是怎么实现的,这一篇介绍怎么实现爬虫所有的双色球历史数据,也可以同步分享怎么同步福彩3D数据。采用的C#来实现的。 同步双色球的地址:https://datachart.500.com/ssq/history/newinc/history.php?start={0}&e ... »