昂昂昂我错辽
前两天就学了一点点 去吃吃喝喝 也忘记发微博了
今天补一波 前两天学的零零碎碎
【再次声明】代码大量来自bilibili网课:零基础入门python3爬虫 少量来自百度百科
DAY3
获取cookies
import requests
response = requests.get(‘http://www.baidu.com’)
print(response.cookies)
for key,value in response.cookies.items():
print (key+’=’+value)
如何消除警报信息
【如下】
一开始 12306网站其实是有证书验证的问题的,爬取一哈试试看
import requests
response = requests.get('http://www.12306.cn',verify=False)
print(response.status_code)
这个红色的证书就是表明 你是没有认证证书的
下面老师就给出了一个方法,叫你消除这个警报
import requests
from requests.packages import urllib3
urllib3.disable_warnings()
response = requests.get('http://www.12306.cn',verify=False)
print(response.status_code)
你们看 现在舒服了吧 不过这个只是个障眼法 叫做眼不见为净
【正则表达式那一节我看着有点烦 就想到后来实践的时候再学,就跳过了】
那我们来到了【beautifulsoup】库的详解
它是一个网页解析库,就是不用编写正则表达式就可以方便地实现网页信息的提取。
这个就是beautifulsoup的解析库
beautifulsoup解析库的总结:
- 推荐使用lxml解析库
- 建议使用find(),find_all()查询匹配单个结果或者多个结果
- 如果对CSS选择器熟悉建议使用select()
selenium库
主要是为了解决JavaScript渲染的问题
from selenium import webdriver
import time
browser = webdriver.Chrome() /*声明浏览器对象*/
browser.get('http://www.taobao.com') /*访问页面*/
input = browser.find_element_by_id('q') /*查找元素*/
input.send_keys('iPhone') /*输入关键字*/
time.sleep(1) /*延时1s*/
input.clear() /*清除关键字*/
input.send_keys('iPad')
button = browser.find_element_by_class_name('btn-search')
button.click()