正常的url是有前缀 https://note.youdao.com 的,而有些a标签的url只有path路径,要实现自动拼接有两种办法:
1、需要先提取a标签中的部分url以后才能使用urljoin()
爬虫 : url的自动补全
2、不需要提取a标签中的部分,LinkExtractor会自动提取并且补全url
from scrapy.linkextractors import LinkExtractor
获取某个a标签的url的时候正则到上一标签就可以了,不仅获取到url并且拼接好,还能获取到a标签text的内容。
爬虫 : url的自动补全

相关文章:

  • 2021-09-10
  • 2021-11-06
  • 2021-09-09
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-11-29
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-03-10
  • 2022-02-08
  • 2022-12-23
  • 2021-10-26
  • 2021-05-22
  • 2022-02-09
相关资源
相似解决方案