【问题标题】:pseudo-random URL generation伪随机 URL 生成
【发布时间】:2012-02-12 06:24:58
【问题描述】:

我正在编写 python 代码来解析来自http://www.istockphoto.com/ 的数据,看起来从搜索生成的 URL 似乎是伪随机的;例如,如果您对“喵”进行“照片”搜索,则会得到 URL:http://www.istockphoto.com/search/text/meow/filetype/photos/source/basic#e2430b3

我已经仔细查看了源代码,但是由于我对 PHP/javascript 了解不多(我假设这就是生成 URL 的方式),所以我无法准确确定生成了哪些代码行这个网址。有人可以指点我正确的方向并告诉我哪些代码行负责 URL 吗?

【问题讨论】:

  • 它可能只是一个内部标识符,它保留了一段时间以引用该搜索。不必是伪随机的,也可以是顺序的。
  • # 之后的部分可能是用于 AJAX 分页。每次点击页码时它都会改变。
  • 据我所知,# 后面的部分是每个特定搜索的相同标识符

标签: php javascript python url random


【解决方案1】:

这不是(伪)随机网址,因为第一部分对于您的搜索而言显然是独一无二的:http://www.istockphoto.com/search/text/meow/filetype/photos/source/basic

最后一部分,#e2430b3 只是页面某处的锚点,或被某些脚本使用。 查询不使用它,因为您可以在没有这部分的情况下键入 url 并且它的工作原理相同。

这部分也许可以被服务器用作缓存标识符,以加速重复请求。

【讨论】:

  • 我确实看到我不需要 # 之后的最后一部分来获得结果;但是,如果我想访问结果的其他页面,那么我确实需要这部分。这就是我最终所追求的,能够访问所有搜索结果的所有 URL,无论有多少。为此,我怀疑我确实需要 # 之后的部分。有什么想法吗?
  • 其实这个网站使用了大量的javascript来显示好的页面,没有它完全不能工作!做你想做的事很难,即使你能做到,网站上的一个小改动也会破坏你的程序。试试看网站是否有某种API来访问照片,这将是更简单的方法。
猜你喜欢
  • 2015-08-07
  • 1970-01-01
  • 2010-10-05
  • 2014-05-18
  • 1970-01-01
  • 1970-01-01
  • 2023-01-03
  • 2018-03-20
  • 2012-02-09
相关资源
最近更新 更多