【发布时间】:2011-09-30 02:05:27
【问题描述】:
我正在使用 Scrapy 进行报废项目。
我意识到 Scrapy 将 URL 从井号标签剥离到末尾。
这是 shell 的输出:
[s] request <GET http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C#/ref=sr_nr_p_8_0?rh=n%3A165796011%2Cn%3A%212334086011%2Cn%3A%212334148011%2Cn%3A3006339011%2Cp_8%3A2229010011&bbn=3006339011&ie=UTF8&qid=1309631658&rnid=598357011>
[s] response <200 http://www.domain.com/b?ie=UTF8&node=3006339011&ref_=pe_112320_20310580%5C>
这确实影响了我的报废,因为经过几个小时试图找出为什么某些项目没有被选中后,我意识到长 URL 提供的 HTML 与短 URL 提供的 HTML 不同。此外,经过观察,一些关键部分的内容发生了变化。
有没有办法修改这种行为,让 Scrapy 保留整个 URL?
感谢您的反馈和建议。
【问题讨论】:
-
感谢您的回答,我能够在 URL 中了解此井号标签背后的概念。基本上,正如@also 所述,JAX 请求会生成一个响应,在我的情况下是 JSON,我必须解析。下面的 Scrapy 示例在该主题上提出了一些明确的观点。这些是一些有帮助的文档,供进一步参考:blog.scrapy.org/scraping-ajax-sites-with-scrapycode.google.com/web/ajaxcrawling/docs/getting-started.html
-
您找到解决方案了吗?
标签: python url web-scraping scrapy