【问题标题】:How can I determine the name of the website by scraping the webpage?如何通过抓取网页来确定网站的名称?
【发布时间】:2019-01-14 13:38:27
【问题描述】:

假设在我的浏览器中打开了某个网页,我使用 scrapy 抓取了源代码。如何识别网站名称?我的意思是它可以在任何标签中。如何唯一标识它?

【问题讨论】:

  • 你的问题不清楚,试着改进一下:)
  • 你可以用response.url识别它,用urlparse解析的域,用页面标题,任何东西。你能解释一下,你的意思是什么?
  • 定义“网站名称”。领域 ?页面<title> ?

标签: scrapy web-crawler


【解决方案1】:

您可以在 .

中查找标记

例如,可以使用类似:response.xpath('//title')

【讨论】:

  • 如果要提取网页的url怎么办??
  • 不客气,您可以从对象响应中执行以下操作:response.request.url 以获取 URL。希望对您有所帮助。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2019-09-30
  • 1970-01-01
  • 2023-03-17
  • 2013-07-15
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多