在做大型的爬虫时,re表达式往往效率不高,scrapy框架为爬虫提供了很好的爬虫方法

scrapy提取数据时有一套自己的机制,即selectors,一般通过特定的XPath,或者特定

的CSS表达式来进行提取HTML中的部分。

Xpath使用在XML文档中,用来对文档中的元素和属性历遍,此时XML时被当作节点树

来对待,它包括元素、属性、文本、命名空间、处理指令、注释、根节点(文档节点)

xpath使用表达路径在xml文档中选取节点

nodename:选取此节点的所有子节点

/:从根节点选取

//:从匹配选择的当前节点选择文档中的节点,不考虑位置

.:选取当前节点

..:选取

相关文章:

  • 2021-12-14
  • 2021-11-18
  • 2021-05-16
  • 2021-11-14
  • 2021-11-09
  • 2022-02-02
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-09-01
  • 2021-12-03
  • 2021-11-24
  • 2021-11-18
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案