如何通过抓取网页来确定网站的名称？

【问题标题】：How can I determine the name of the website by scraping the webpage?如何通过抓取网页来确定网站的名称？
【发布时间】：2019-01-14 13:38:27
【问题描述】：

假设在我的浏览器中打开了某个网页，我使用 scrapy 抓取了源代码。如何识别网站名称？我的意思是它可以在任何标签中。如何唯一标识它？

【问题讨论】：

你的问题不清楚，试着改进一下：)
你可以用response.url识别它，用urlparse解析的域，用页面标题，任何东西。你能解释一下，你的意思是什么？
定义“网站名称”。领域？页面<title> ?

标签： scrapy web-crawler

【解决方案1】：

您可以在 .

中查找标记

例如，可以使用类似：response.xpath('//title')

【讨论】：

如果要提取网页的url怎么办？？
不客气，您可以从对象响应中执行以下操作：response.request.url 以获取 URL。希望对您有所帮助。

猜你喜欢

1970-01-01
1970-01-01
2019-09-30
1970-01-01
2023-03-17
2013-07-15
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-06
下载 2022-12-31
下载 2023-01-28

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode