【问题标题】:NodeJS Web Scraper for region-specific content用于特定区域内容的 NodeJS Web Scraper
【发布时间】:2013-07-23 08:15:05
【问题描述】:

我正在nodeJS 中构建一个爬虫,但遇到了一个我无法解决的问题。

某些网站使用特定位置的内容,我想找到一种方法来触发/操纵它。

顺便说一句,我知道这可能是一个复杂的问题。一些网站可能使用不同的方法来确定用户的位置。有没有通用的方法来实现这一点?我目前正在使用 Node 的 request 模块,并且我的标头设置如下:

    'headers': {
         'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)'
    }

有没有办法操纵我的标题来欺骗网站的位置?

【问题讨论】:

    标签: node.js location web-scraping screen-scraping


    【解决方案1】:

    公司使用多种方法来确定为您服务的内容类型。

    大型媒体组织(例如 BBC)使用数据库将 IP 范围映射到由私人公司维护的地理位置。击败他们的访问保护的唯一方法是在您希望访问的国家/地区使用虚拟服务器作为代理。

    其他公司(许多欧洲公司)可能只是想知道以何种语言提供内容。为此,他们可能会查看网络请求中的一些标头。

    【讨论】:

      猜你喜欢
      • 2023-04-03
      • 2021-04-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多