第一次编写python脚本,爬取了一些数据,供公司内部使用,
抓取到json格式数据之后,导入到Excel中进行排序筛选并图表化,得到了一些分析结果,虽然简单,但很有意义。
也可以算是对爬虫有了一个入门,接下来会学习一些数据挖掘,数据清洗相关的内容,数据的清洗分析也是很有意思的
下边是经过简化后的代码:
1 import time 2 import requests 3 import json 4 5 ##################################################################### 6 ################# 请登录浏览器获取sessionID ####################### 7 ##################################################################### 8 sess_ID = \'\' #请填写sessionID 9 s = requests.Session() ###创建requests对象 10 11 ######################### cook params ############################### 12 startTime=\'2019-04-23+00:00:00\' #起始时间 2019-04-24+00:00:00 13 endTime =\'2019-04-23+23:59:59\' #结束时间 14 header_refer_url = \'http://www.baidu,com\' 15 file_name_prefix=\'百度-\' 16 17 ############### cook filename ############ 18 file_name_list = startTime.split(\'+\') 19 date_str = file_name_list[0]; 20 file_name = file_name_prefix + str(data_Source) + \'-\' + date_str +\'.txt\' 21 22 ############### cook header and url ############ 23 header = { 24 \'Referer\': \'{refer}\'.format(refer=header_refer_url), 25 \'Session-Id\': \'{sessID}\'.format(sessID=sess_ID), 26 \'Connection\':\'close\' 27 } 28 plateurl = (\'http://www.baidu,com?\' 29 \'recordTimeStart={startTime}\' 30 \'&recordTimeEnd={endTime}\').format( 31 endTime=endTime,startTime=startTime) 32 33 ############### cook page_range ############ 34 total_num = 10 35 print("totalnum:",total_num) 36 37 print(file_name) 38 fout=open(file_name,\'w+\',encoding=\'UTF-8\') ###open file 39 ############### pull data from server ############ 40 for num in range(total_num): 41 page_num=num+1 42 plateurl = (\'http://www.baidu,com?\' 43 \'recordTimeStart={startTime}\' 44 \'&recordTimeEnd={endTime}\').format( 45 endTime=endTime,startTime=startTime) 46 try: 47 resp = s.get(plateurl,headers=header) 48 resp.encoding = \'utf-8\' 49 print("totalnum:",total_num,\'curr_page:\',page_num,\' status_code = {0}\'.format(resp.status_code)) 50 fout.write(resp.text) ### 将网页内容存入文件 51 fout.write(\'\n\') 52 except: 53 print(\'refused by server!sleep 2 sec\') 54 time.sleep(2) 55 continue 56 fout.close()