【发布时间】:2011-05-26 17:16:53
【问题描述】:
所以我正在尝试构建一个网络爬虫,我可以打开任何评论网站并让它相当可靠地从文本中抓取用户评论。也就是说,我不想为 Amazon 和 Overstocked 构建一个刮板,我只想要一个刮板,即使要牺牲准确性,它也可以从两者中刮掉产品的评论。我与我的一位教授进行了简短的交谈,他提到我基本上可以实现一些启发式并从中收集数据(作为一个基本示例,只需获取 p 标签中的所有文本)。目前,我真的只是在寻找一些关于前进方向的建议。
(如果有任何问题,目前我正在使用 mechanize 和 lxml (Python) 来抓取各个站点。)
谢谢!
【问题讨论】:
-
“基本上只是实现一些启发式”是描述复杂任务的简单语句。虽然这可能是一个有趣的学术练习,但我建议编写模块化爬虫并为每个站点实现自定义爬虫会更容易、更简单和更准确。
-
-1 提出更有针对性的问题。
-
如果你想尝试,坚持使用 mechanize、lxml 并查看nltk.org 进行文本处理
-
在任何特定的产品页面上,亚马逊列出了您可能也感兴趣的多种产品。您如何知道评论与页面上显示的所有产品相关?您不能为此制作通用刮板。
-
谢谢罗伯。我刚刚读到一些声称拥有数百万资源的公司,我的猜测是他们必须有一些非常通用的抓取工具来完成他们的大量工作。并向史蒂夫道歉,但老实说,我什至不知道从哪里开始。谷歌没有发现任何有用的东西。
标签: python web-crawler