最简单的数据抓取教程,人人都用得上

Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、电商网站商品信息、博客文章列表等等。 环境需求 这么简单的工具当然对环境的要求也很简单了,只需要一台能联网的电脑,一个版本不 ... »

Ajax数据的爬取(淘女郎为例)

### 判断一个页面是不是 Ajax 加载的方法: > 查看网页源代码,查找网页中加载的数据信息,如果源代码中不显示,证明是 Ajax 加载。 如果是网站源代码中就包含要爬取的信息,那么就直接只用正则拿数据出来就行了 但是如果网页源码中没有,那么就是 Ajax 了,可以进行抓包找到获取数据的相关接口... ... »

Ajax异步信息抓取方式

判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果源代码中不显示,证明是Ajax加载。 如果是网站源代码中就包含要爬取的信息,那么就直接只用正则拿数据出来就行了 但是如果网页源码中没有,那么就是Ajax了,可以进行抓包找到获取数据的相关接口,操作如下(... ... »

java判断网页的编码格式

在爬取内容时,遇到乱码问题。故需对网页内容编码格式做判断,方式大体分为三种:一、从header标签中获取Content-Type=#Charset;二、从meta标签中获取Content-Type=#Charset;三、根据页面内容分析编码格式。 其中一/二方式并不能准确指示该页面的具体编码方式,周 ... »

ASP.NET网络爬虫小研究 HtmlAgilityPack基础,爬取数据保存在数据库中再显示再自己的网页中

1、什么是网络爬虫 关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。从搜索引擎开始,爬虫应该就出现了,爬虫所做的事情 ... »

python爬取拉勾网职位数据

今天写的这篇文章是关于python爬虫简单的一个使用,选取的爬取对象是著名的招聘网站——拉钩网,由于和大家的职业息息相关,所以爬取拉钩的数据进行分析,对于职业规划和求职时的信息提供有很大的帮助。 完成的效果 爬取数据只是第一步,怎样使用和分析数据也是一大重点,当然这不是本次博客的目的,由于本次只是一 ... »

把玩爬虫框架Gecco

如果你现在接到一个任务,获取某某行业下的分类。 作为一个非该领域专家,没有深厚的运营经验功底,要提供一套摆的上台面且让人信服的行业分类,恐怕不那么简单。 找不到专家没有关系,我们可以爬虫。把那些专家的心血抽丝剥茧爬出来再统计即可。 确定好思路,我和即将要说的爬虫框架Gecco打了一天的交道。 Gec ... »

记录一下自己爬虎牙LOL主播的爬虫思路

1.明确爬虫目的 爬虫目的需要我们明确的,没有目的的爬虫都是耍流氓!像我这次爬虫目的能不能从网页上爬下来。 2.怎么来爬? a. 先要找到具有唯一性的标签 b. 尽量选取匹配的信息 c. 尽量选取他们的父级标签 3. 简单点的爬虫思路 a. 模拟HTTP请求,向服务器发送这个请求,获取到服务器返回给 ... »

python 爬取腾讯微博并生成词云

本文以延参法师的腾讯微博为例进行爬取并分析 ,话不多说 直接附上源代码。其中有比较详细的注释。 需要用到的包有 以下是保存的部分文本内容: 心之所向,何问西东。生命铿锵,无问西东。生命中所有遭遇的跌宕起伏、山水阻隔,正是历练生命的根基,真诚与方圆。山高水远,世事艰难,生命所往,何忧何患。生活需要提高 ... »

python爬虫下载文件

python爬虫下载文件 下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例 地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 # coding: UTF-8 import requests url="http://hjwach ... »

scrapy使用PhantomJS爬取数据

环境:python2.7+scrapy+selenium+PhantomJS 内容:测试scrapy+PhantomJS 爬去内容:涉及到js加载更多的页面 原理:配置文件打开中间件+修改process_request函数(在里面增加PhantomJS操作) 第一步: settings.py 项目不 ... »

Python图片爬虫

1.今天给大家介绍自己写的一个图片爬虫,说白了就是从网页自动上下载需要的图片 2.首先选取目标为:http://www.zhangzishi.cc/涨姿势这个网站如下图,我们的目标就是爬取该网站福利社的所有美图 3.福利社地址为http://www.zhangzishi.cc/category/we ... »

网络爬虫基础一

爬虫的分类 按使用场景: 1. 通用爬虫:指搜索引擎的爬虫 2. 聚焦爬虫:指针对特定网站的爬虫 聚焦爬虫又可以分为大致3种: 1. 累积式爬虫: 从开始到结束,一直不断爬取,过程中会进行去重操作; 2. 增量式爬虫: 对已经下载的网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫; 3. ... »

爬虫新手学习1-爬虫基础

一、 为什么要做爬虫?首先:都说现在是"大数据时代",那数据从何而来?企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数据管理咨 ... »

Python 学习(1) 简单的小爬虫

最近抽空学了两天的Python,基础知识都看完了,正好想申请个联通日租卡,就花了2小时写了个小爬虫,爬一下联通日租卡的申请页面,看有没有好记一点的手机号~ 人工挑眼都挑花了。 用的IDE是PyCharm,首先下载一些需要用到的包和模块: requests 和 beautifulsoup4。 不过发现 ... »

为什么看博客的时候里面的链接总是 404

为什么看博客的时候里面的链接总是 404 作为一个野路子程序员,看大牛的博客是学习,进步的很重要的一个信息来源。 作为一个信息的汇聚点,博客中总会引用些其他的经典文章,或是某开源项官方文档中的重要部分。 然而由于更新博客是很低频率的事件,所以随着时间推移,很可能发生的情况是:大牛引用的另一篇文章 已 ... »

爬虫学习阶段性总结

爬虫学习阶段性总结 爬虫的基础知识我打算就先学到这里了,以后需要用起来的时候再去看看相关文档和谷歌,做一个小量级的爬虫程序问题不大,对于分布式的和增量更新去重等需求就直接上框架,用别人的轮子还是蛮爽的。 简单小量级:requests+pyquery JS渲染太多的:selenium+Phantomj ... »