【问题标题】:Easiest way to scrape Google for URLs via my browser?通过我的浏览器从 Google 获取 URL 的最简单方法是什么?
【发布时间】:2011-01-23 15:17:39
【问题描述】:

我想在通过 Google 搜索内容时抓取我的搜索返回的所有 URL。我试过制作一个脚本,但谷歌不喜欢它,添加 cookie 支持和验证码太乏味了。我正在寻找一些东西——当我浏览谷歌搜索页面时——将简单地获取页面上的所有 URL 并将它们放入 .txt 文件中或以某种方式存储它们。 你们中有人知道会这样做吗?也许是一个greasemonkey 脚本或firefox 插件?将不胜感激。谢谢!

【问题讨论】:

    标签: search screen-scraping web-scraping scrape


    【解决方案1】:

    【讨论】:

      【解决方案2】:

      我为没有可用 API 的 Google Scholar 做了类似的事情。我的方法基本上是创建一个代理 Web 服务器(Tomcat 上的一个 Java Web 应用程序),它会获取页面,用它做一些事情,然后显示给用户。这是 100% 功能性解决方案,但需要相当多的编码。如果您有兴趣,我可以了解更多细节并提供一些代码。

      【讨论】:

        【解决方案3】:

        Google 搜索结果非常容易抓取。这是php中的一个例子。

        <?
        # a trivial example of how to scrape google
        $html = file_get_contents("http://www.google.com/search?q=pokemon");
        
        $dom = new DOMDocument();
        @$dom->loadHTML($html);
        $x = new DOMXPath($dom);
        foreach($x->query("//div[@id='ires']//h3//a") as $node)
        {
            echo $node->getAttribute("href")."\n";
        }
        ?>
        

        【讨论】:

          【解决方案4】:

          您可以在http://irobotsoft.com/bookmark/index.html 尝试 IRobotSoft 书签插件

          【讨论】:

            猜你喜欢
            • 1970-01-01
            • 2013-11-26
            • 1970-01-01
            • 2020-10-16
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 2011-09-30
            • 1970-01-01
            相关资源
            最近更新 更多