通过豆瓣API爬取北美票房榜





import urllib.request as request




import json                                                 #完整代码




url = 'https://api.douban.com/v2/movie/us_box'              #开放的api接口地址  




crawl_content=request.urlopen(url).read()



top20 = json.loads(crawl_content.decode('utf-8'))['subjects']#json解析我们想要获取的内容




 



# print(top20)




for movie in top20:



#     print(movie['subject']['id'])                         #相对应电影的id在嵌套的json里面



#     print()



    



    url='https://api.douban.com/v2/movie/'+movie['subject']['id']  #相对应电影的地址




    print(url)



    mobieContent = request.urlopen(url).read()



    print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])



# 获取对应电影的名称和分数

查看豆瓣开放的API：

豆瓣开发者文档：https://developers.douban.com/wiki/?title=movie_v2#simple-subject

我们可以看到：如下图我们需要的信息。
通过豆瓣API爬取北美票房榜

通过运行以下代码段我们可以看到JSON的结构，





import urllib.request as request




import json



url = 'https://api.douban.com/v2/movie/top250 '




crawl_content = request.urlopen(url).read()



top20 = json.loads(crawl_content.decode('utF-8'))['subjects']



print(top20)

如下图：json有个嵌套结构，我们需要获取的id在嵌套的subect下面。因此我们用如下代码获取到指定的页面：

通过豆瓣API爬取北美票房榜





import urllib.request as request




import json



url = 'https://api.douban.com/v2/movie/us_box'




crawl_content=request.urlopen(url).read()



top20 = json.loads(crawl_content.decode('utf-8'))['subjects']



 



print(top20)




for movie in top20:



#     print(movie['subject']['id']) 这里可以测试一下输出电影的id



#     print()



    



    url='https://api.douban.com/v2/movie/'+movie['subject']['id']   #在这里指定url的地址




    print(url)                        #测试一下

上面代码获取的网址直接输入网页可以得到类似下图：

通过豆瓣API爬取北美票房榜

得到我们想获得的电影名城和得分

 print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])