rapidminer 可以从 URL 列表中提取 xpath，而不是先保存 HTML 页面吗？答案

【问题标题】：Can rapidminer extract xpaths from a list of URLS, instead of first saving the HTML pages?rapidminer 可以从 URL 列表中提取 xpath，而不是先保存 HTML 页面吗？
【发布时间】：2012-02-21 03:13:50
【问题描述】：

我最近发现了 RapidMiner，我对它的功能感到非常兴奋。但是，我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望程序从我用另一个程序生成的 URL 列表中抓取 xpath 匹配项。（它比 RapidMiner 中的 'crawl web' 运算符有更多选项）

我看过 Neil Mcguigan 的以下教程：http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。但是我尝试抓取的网站有数千页，我不想将它们全部存储在我的电脑上。而且网络爬虫只是缺少关键功能，所以我无法将它用于我的目的。有没有办法让它读取 URL，并从每个 URL 中抓取 xpath？

我还研究了从页面中提取 html 的其他工具，但由于我不是程序员，所以我无法弄清楚它们是如何工作（甚至是安装）的。另一方面，Rapidminer 易于安装，操作员的描述很有意义，但我无法以正确的顺序连接它们。

我需要一些输入来保持动力。我想知道我可以使用什么运算符来代替“从文件中处理文档”。我查看了“从网络处理文档”，但它没有输入，它仍然需要爬网。非常感谢任何帮助。

期待您的回复。

【问题讨论】：

标签： xpath screen-scraping web-scraping data-mining rapidminer

【解决方案1】：

使用 RapidMiner 在内部不保存 html 页面的网页抓取是一个两步过程：

第 1 步关注 Neil McGuigan 的 http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html 视频，区别如下：

使用 Process Documents from Web 代替 Crawl Web 运算符操作员。将没有指定输出的选项目录，因为结果将被加载到 ExampleSet 中。

ExampleSet 将包含与爬取规则匹配的链接。

第 2 步关注http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html 的视频，但仅从 7:40 开始，但有以下区别：

将Extract Information子流程放入之前创建的Process Documents from Web中。

ExampleSet 将包含与 XPath 查询匹配的链接和属性。

【讨论】：

因为没有证据支持从社区 Wiki 取回此答案的请求的人，没有必要对其进行投票。答案的作者不会因此获得声誉。

【解决方案2】：

我和你有同样的问题，也许 RapidMiner 论坛上的这些帖子会对你有所帮助： http://rapid-i.com/rapidforum/index.php/topic,2753.0.html 和 http://rapid-i.com/rapidforum/index.php?topic=3851.0.html

再见；）

【讨论】：

请在此答案中包含您发布的链接的相关部分。答案应该是自读的:)（链接腐烂等）