很早前入手了一本网络爬虫的书籍,叫《用Python写网络爬虫》,作者是 Richard Lawson, 李斌翻译,人民邮电出版社出版的书籍(封面如图)。
刚才大概翻了下,个人感觉不太适合纯新手,比较适合有一些Python基础并且对爬虫感兴趣的同学。下面是针对刚才看第一章的两个Python小模块进行的一个尝试,都是书中的内容,仅仅做个笔记。
机器环境:
python版本号:2.7.13 + mac
Builtwith——识别网站所用技术
这是一个用来检查网络构建的技术类别的模块,将URL做为参数,下载该URL并进行分析,然后返回该网站所使用的技术。
安装: pip install builtwith
使用:builtwith.parse('URL')
通过上图,可以看出这个示例网站使用了Python的 Web2py 框架,另外还使用了一些通用的JavaScript库。
whois——寻找网站的所有者
可以使用WHOIS协议查询域名的注册者,whois的文档地址:https://pypi.python.org/pypi/python-whois
安装: pip install python-whois
使用:whois.whois('URL')
从结果中可以看到该网站属于Google。