【发布时间】:2013-06-11 22:50:19
【问题描述】:
我正在使用过滤器生成对网络爬虫可见的动态内容 (https://developers.google.com/webmasters/ajax-crawling/docs/specification)。如果传入的 url 包含路径 (http://www.unclestock.com/app.jsp#!s=GOOG),则此过滤器工作正常。如果传入的 url 只包含我的域(和一个片段),比如 http://www.unclestock.com#!s=GOOG,则返回欢迎文件 (app.jsp),但不支持过滤器。
我的 web.xml 包含以下过滤器映射:
<filter-mapping>
<filter-name>crawler</filter-name>
<url-pattern>/app.jsp</url-pattern>
</filter-mapping>
<welcome-file-list>
<welcome-file>app.jsp</welcome-file>
</welcome-file-list>
我尝试改用 index.html 欢迎文件,该文件重定向到 app.jsp。然后执行过滤器。但是,这并不能解决我的问题:爬虫不遵循客户端重定向(这是想法),并且使用服务器端重定向,我会丢失我的 url 片段(我也需要)。
您有什么替代解决方案吗?
我正在使用 Google Appengine。
【问题讨论】:
标签: google-app-engine redirect web-crawler servlet-filters web.xml