1. import urllib.request as request
  2. import json #完整代码
  3. url = 'https://api.douban.com/v2/movie/us_box' #开放的api接口地址
  4. crawl_content=request.urlopen(url).read()
  5. top20 = json.loads(crawl_content.decode('utf-8'))['subjects']#json解析我们想要获取的内容
  6. # print(top20)
  7. for movie in top20:
  8. # print(movie['subject']['id']) #相对应电影的id在嵌套的json里面
  9. # print()
  10. url='https://api.douban.com/v2/movie/'+movie['subject']['id'] #相对应电影的地址
  11. print(url)
  12. mobieContent = request.urlopen(url).read()
  13. print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])
  14. # 获取对应电影的名称和分数

查看豆瓣开放的API:

豆瓣开发者文档:https://developers.douban.com/wiki/?title=movie_v2#simple-subject

我们可以看到:如下图我们需要的信息。
通过豆瓣API爬取北美票房榜

通过运行以下代码段我们可以看到JSON的结构,

  1. import urllib.request as request
  2. import json
  3. url = 'https://api.douban.com/v2/movie/top250 '
  4. crawl_content = request.urlopen(url).read()
  5. top20 = json.loads(crawl_content.decode('utF-8'))['subjects']
  6. print(top20)

如下图:json有个嵌套结构,我们需要获取的id在嵌套的subect下面。因此我们用如下代码获取到指定的页面:

通过豆瓣API爬取北美票房榜

  1. import urllib.request as request
  2. import json
  3. url = 'https://api.douban.com/v2/movie/us_box'
  4. crawl_content=request.urlopen(url).read()
  5. top20 = json.loads(crawl_content.decode('utf-8'))['subjects']
  6. print(top20)
  7. for movie in top20:
  8. # print(movie['subject']['id']) 这里可以测试一下输出电影的id
  9. # print()
  10. url='https://api.douban.com/v2/movie/'+movie['subject']['id'] #在这里指定url的地址
  11. print(url) #测试一下

上面代码获取的网址直接输入网页可以得到类似下图:

通过豆瓣API爬取北美票房榜

得到我们想获得的电影名城和得分

 print(json.loads(mobieContent.decode('utf-8'))['title']+':'+json.loads(mobieContent.decode('utf-8'))['rating']['average'])

 

 

 

相关文章: