【发布时间】:2013-06-04 23:23:55
【问题描述】:
我的网站根据以下规范提供动态创建的内容以供爬虫查看: https://developers.google.com/webmasters/ajax-crawling/docs/specification。 这样,谷歌爬虫索引了大约 5000 个 URL,语法如下: http://www.unclestock.com//app.jsp?_escaped_fragment_=s=AAPL http://www.unclestock.com//app.jsp?_escaped_fragment_=s=GOOG
使用 Google 的网站管理员工具查看我的抓取报告,我确信这些页面已成功抓取。但是,在通过 Google 搜索时,它们不会显示为结果。 请注意,我确实找到了我的一般网站,在“更多结果”下,我找到了大约 40 个动态生成的页面,但显然这不是我想要的。我想根据内容(AAPL,GOOG,...)找到返回的页面 也许,爬虫认为我的页面或多或少相同.. 但事实并非如此。
【问题讨论】:
-
我错了,我的页面没有成功爬取。 [这篇文章][1] 解决了它。 [1]:stackoverflow.com/questions/17122865/….
标签: ajax web-crawler