【发布时间】:2019-01-14 13:38:27
【问题描述】:
假设在我的浏览器中打开了某个网页,我使用 scrapy 抓取了源代码。如何识别网站名称?我的意思是它可以在任何标签中。如何唯一标识它?
【问题讨论】:
-
你的问题不清楚,试着改进一下:)
-
你可以用
response.url识别它,用urlparse解析的域,用页面标题,任何东西。你能解释一下,你的意思是什么? -
定义“网站名称”。领域 ?页面
<title>?
标签: scrapy web-crawler