#方法一:直接使用coookies登陆,此方法需要提前在浏览器中使用账号密码登陆后,获取浏览器中的cookies,在构造的请求中携带这个cookies(缺点是有时效性)。
#方法二:通过账号密码(From data)登陆,在登陆后获得其中的cookies,之后的对需要登陆的页面操作,只需要携带这个cookies即可
1 #以下代码是利用方法1 2 # -*- coding: utf-8 -*- 3 import requests; 4 import sys; 5 import io; 6 #重点:标准解析库 7 from bs4 import BeautifulSoup; 8 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=\'utf8\'); #改变标准输出的默认编码 9 #根据cookies访问后台 10 url = \'http://域名/other/other.comment.wall.php?ac=l&id=&fid=&uid=&title=&source=0&status=0&b_time=&e_time=\'; 11 12 #浏览器登录后得到的cookie,也就是刚才复制的字符串 13 cookie_str = r\'PHPSESSID=9f20c6bb676841f38aee8589aceb5c7f; username=zhonghuihong; password=XXX\'; 14 #把cookie字符串处理成字典,以便接下来使用 15 cookies = {}; 16 for line in cookie_str.split(\';\'): 17 key, value = line.split(\'=\', 1); 18 cookies[key] = value; 19 #设置请求头,直接复制即可 20 headers = {\'User-agent\':\'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36\'}; 21 疑问:请求头header是不是必须要加 22 搜罗网上的答复: 23 ①、不加,直接裸着请求url,似乎也没有报错,自己尝试也是这样 24 ②、防止封ip,加上准没错 25 ③、禁止反扒机制,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取(headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据) 26 ④、作为一个良好的习惯,最好都要加上 27 28 疑问二:请求头里面已经含有cookies,请求时是否还要重复添加一个cookies=cookies参数 29 根据自己的实践:不需要重复添加 30 31 32 疑问三:为什么访问android端的接口基本不用提前设置header 33 header里面是手机端信息,通过手机端页面去爬不会那么容易被封(这个是询问网友来着,至今不知道原因),根据目前实践确实不需要 34 35 36 #在发送get请求时带上请求头和cookies() 37 resp = requests.get(url, headers = headers, cookies = cookies); 38 html_resp=resp.content.decode(\'UTF-8\'); 39 #print(resp.content.decode(\'utf-8\')); 40 soup_string = BeautifulSoup(html_resp, \'html.parser\'); 41 soup_table=soup_string.find(attrs={\'class\':\'table table-striped table-bordered table-hover\'}); 42 #print(soup_table); 43 soup_str=soup_table.findAll(attrs={\'style\':\'text-align:center;vertical-align:middle;word-break:break-all; word-wrap:break-all;\'}); 44 print(soup_str); 45 #for soup in soup_str: 46 #print(soup.string); 47 #book_div = soup_string.find(attrs={"id":"book"}) 48 #book_a = book_div.findAll(attrs={"class":"title"}) 49 #for book in book_a: 50 #print book.string 51 #print(soup_string);