ayuepang

第一次编写python脚本,爬取了一些数据,供公司内部使用,

抓取到json格式数据之后,导入到Excel中进行排序筛选并图表化,得到了一些分析结果,虽然简单,但很有意义。

也可以算是对爬虫有了一个入门,接下来会学习一些数据挖掘,数据清洗相关的内容,数据的清洗分析也是很有意思的

下边是经过简化后的代码:

 1 import time
 2 import requests
 3 import json
 4 
 5 #####################################################################
 6 #################  请登录浏览器获取sessionID  #######################
 7 #####################################################################
 8 sess_ID = \'\'    #请填写sessionID
 9 s = requests.Session()        ###创建requests对象
10 
11 ######################### cook params ###############################
12 startTime=\'2019-04-23+00:00:00\'    #起始时间 2019-04-24+00:00:00
13 endTime  =\'2019-04-23+23:59:59\'    #结束时间
14 header_refer_url = \'http://www.baidu,com\'
15 file_name_prefix=\'百度-\'
16 
17 ############### cook filename  ############
18 file_name_list = startTime.split(\'+\')
19 date_str = file_name_list[0];
20 file_name = file_name_prefix + str(data_Source) + \'-\' + date_str +\'.txt\'
21 
22 ############### cook header and url  ############
23 header = {
24 \'Referer\': \'{refer}\'.format(refer=header_refer_url),
25 \'Session-Id\': \'{sessID}\'.format(sessID=sess_ID),
26 \'Connection\':\'close\'
27 }
28 plateurl = (\'http://www.baidu,com?\'
29     \'recordTimeStart={startTime}\'
30     \'&recordTimeEnd={endTime}\').format(
31     endTime=endTime,startTime=startTime)
32     
33 ############### cook page_range  ############
34 total_num = 10
35 print("totalnum:",total_num)
36 
37 print(file_name)
38 fout=open(file_name,\'w+\',encoding=\'UTF-8\')    ###open file
39 ############### pull data from server ############
40 for num in range(total_num):
41     page_num=num+1
42     plateurl = (\'http://www.baidu,com?\'
43         \'recordTimeStart={startTime}\'
44         \'&recordTimeEnd={endTime}\').format(
45         endTime=endTime,startTime=startTime)
46     try:
47         resp = s.get(plateurl,headers=header)
48         resp.encoding = \'utf-8\'
49         print("totalnum:",total_num,\'curr_page:\',page_num,\' status_code = {0}\'.format(resp.status_code))
50         fout.write(resp.text)    ### 将网页内容存入文件
51         fout.write(\'\n\')
52     except:
53         print(\'refused by server!sleep 2 sec\')
54         time.sleep(2)
55         continue
56 fout.close()

 

分类:

技术点:

相关文章: