【发布时间】:2014-10-06 04:37:23
【问题描述】:
我正在编写一个网络爬虫,但是递归调用链接的函数有问题。
假设我有一个页面:http://en.wikipedia.org/wiki/Stirling_numbers_of_the_second_kind。
我正在寻找所有链接,然后递归打开每个链接,再次下载所有链接等。
问题是,一些链接虽然有不同的urls,但会驱动到同一页面,例如:
http://en.wikipedia.org/wiki/Stirling_numbers_of_the_second_kind#mw-navigation
给出与上一个链接相同的页面。
我有一个无限循环。
是否有可能在不比较该页面的所有内容的情况下检查两个链接是否驱动到同一页面?
【问题讨论】:
-
http://somepage和http://somepage#something是同一页。井号之后的所有内容都是指向该页面锚点的链接。 en.wikipedia.org/wiki/Fragment_identifier
标签: python url web-crawler urllib2