【发布时间】:2011-04-08 04:15:22
【问题描述】:
我最近被指控一项令我大吃一惊的任务。我的俱乐部想要浏览网站并找到正在做我们工作的人。
目前使用的方法是去维基百科,获取每个城市的列表(例如:List of cities in alabama),去每个站点(例如:meetup、facebook、craigslist 等),然后执行搜索每个关键字,每个城市,每个站点。 (如:功夫、武术等)
所以 460 个城市 X 5 个网站 X 5 个关键字 =11500 次不同的搜索 = 单调麻木。
我真的希望有更简单的方法。在寻找答案时,我遇到了这个网站 (building a web spider ),并认为这可能就是这样。
问题是:我可以修改一些网络蜘蛛(在该站点或任何其他站点上)以执行该搜索并仅返回对关键字返回 true 的结果吗?我不在乎它是 bash 脚本、python、ruby 还是任何其他语言。
如果有任何不清楚的地方,请告诉我,如果有点冗长,请见谅。
【问题讨论】:
-
我不熟悉你所说的这个“谷歌”......大声笑,谷歌搜索并没有找到我需要的所有东西,即使它执行了相同的搜索过程 11500 次到达我的目的地。而且我也想为这种磨难学习一些东西,这就是为什么我希望找到某种代码。
-
也许scrapy可能有用? scrapy.org
标签: python parsing wget web-crawler