【发布时间】:2011-03-05 19:12:24
【问题描述】:
看看谷歌目前是如何看待我们的网站的,并且做得很短...... 基本上,我们使用 URL 重写的沼泽标准结构来使它们看起来对 SEO 友好。
例如,产品 URL 的形式为 any string_([0-9]).html 等等。当然,这允许我们在产品 ID 之前链接到我们想要的任何东西......我们已经完成了。过去,产品页面是Product_Name_79.html,然后变成Brand_Name_Product_Name_79.html。 apache 并不真正关心,并且 id 79 在任何一种情况下都会被传递。然而,谷歌现在在不同的 URL 下缓存了这个产品的 2 个版本——这不是一件好事,因为它会继续到达第一个 URL 并爬取它。
同样的事情也适用于我们对品牌和类别的重写规则,其中一些已被删除,其中一些已被修改。
site:domain 中有超过 11k 的 url,而我们的站点地图只有 5.8k。您将如何防止蜘蛛获取您不再链接的旧版本的网址(考虑到这不是手动过程,而且这些网址通常是非常动态的)。
例如,Mens_Merrell_Trail_Running_Shoes__50-100__10____024/ 是merrell 品牌的动态网址,按trail running shoes 中的项目缩小范围,成本在50 and 100 和size 10 之间,性别设置为men's。
如果我们决定nofollow 任何大小和金钱的过滤器网址,谷歌仍然能够通过其旧缓存访问它们......
禁止特定类型的网址的最佳做法是什么?由于上述组合几乎是无限的,我无法列出清单,而且它当然不能回溯到谷歌历史上可能为我们持有的品牌和类别。
应用此类过滤器时,我们是否应该添加 noindex?我们应该将它们导出到 robots.txt 吗?什么都不做,希望谷歌停止返回?
从长远来看,我们有 2600 个产品页面 url 现在是冗余/禁用的,您会如何处理它们?重定向到主页,品牌页面,404,什么都不做?
感谢您的建议
【问题讨论】:
标签: mod-rewrite seo