用于特定区域内容的 NodeJS Web Scraper答案

【问题标题】：NodeJS Web Scraper for region-specific content用于特定区域内容的 NodeJS Web Scraper
【发布时间】：2013-07-23 08:15:05
【问题描述】：

我正在nodeJS 中构建一个爬虫，但遇到了一个我无法解决的问题。

某些网站使用特定位置的内容，我想找到一种方法来触发/操纵它。

顺便说一句，我知道这可能是一个复杂的问题。一些网站可能使用不同的方法来确定用户的位置。有没有通用的方法来实现这一点？我目前正在使用 Node 的 request 模块，并且我的标头设置如下：

    'headers': {
         'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)'
    }

有没有办法操纵我的标题来欺骗网站的位置？

【问题讨论】：

【解决方案1】：

公司使用多种方法来确定为您服务的内容类型。

大型媒体组织（例如 BBC）使用数据库将 IP 范围映射到由私人公司维护的地理位置。击败他们的访问保护的唯一方法是在您希望访问的国家/地区使用虚拟服务器作为代理。

其他公司（许多欧洲公司）可能只是想知道以何种语言提供内容。为此，他们可能会查看网络请求中的一些标头。

【讨论】：