【发布时间】:2014-02-05 07:12:30
【问题描述】:
我在日志中收到此消息一次:
2014-01-16 12:41:45+0100 [mybot] DEBUG: Filtered duplicate request: <GET https://mydomain/someurl> - no more duplicates will be shown (see DUPEFILTER_CLASS)
该 url 是使用 Request() 请求的,它在第一次请求时说它是重复的。我不知道这是什么原因造成的。我能做些什么来调试这个?如何让它打印它过滤的所有重复 url?
【问题讨论】:
-
页面是否被重定向到同一页面或其他页面?
-
不,这不是重定向。我创建了 Request() 但它甚至不发送请求而是跳过它说它是重复的。
-
我有过一次,在这种情况下,您可以在创建
Request时添加dont_filter=True -
添加 dont_filter=True 将导致它试图解决的更多问题。我确实想过滤重复项,但前提是它确实是重复项。
-
好吧,Scrapy 不会无缘无故地过滤,所以希望你能在控制台日志中找到一些解释(你可以在这里分享,如果需要,删除域信息),也许还有我在下面建议的 DupeFilter。页面中是否有元刷新?