【问题标题】:Is there a script or other method for obtaining the correct variation of a URL for a web page?是否有用于获取网页 URL 的正确变体的脚本或其他方法?
【发布时间】:2010-08-27 06:49:21
【问题描述】:

我假设每个页面都有一个正确的 URL 变体。如果我错了,请纠正我。

给定一个等效 URL 的输入,我需要得到一个 URL 的更正。例如,大多数浏览器接受与确切 URL 的细微变化,但随后更正它以将您带到正确的页面? (或者也许这是在 DNS 级别完成的?)

我正在处理的任务是获取 URL 的正确 MD5 哈希值,该哈希值将被返回有关 URL 信息的 API 服务识别。例如,如果我散列“http://stackoverflow.com”,我会得到一个空响应。为了获得有效的响应,我需要散列“https://stackoverflow.com/”(带有斜杠)。

编辑:我使用的 API 服务是 Delicious API。如果这与任何人的经验产生共鸣。

【问题讨论】:

  • 看来您的问题不在于网址是否采用“正确”形式,而在于它如何存储在第三方数据库中。您可以先解析 url,然后再对其进行 MD5,但这仍然不能保证它会匹配 API 服务的内容。

标签: url delicious-api


【解决方案1】:

我假设每个页面都有一个正确的 URL 变体。如果我错了,请纠正我。

如果作者认为应该只有一个“正确”,那么他们可能会使用canonical 和 HTTP 重定向的组合来推动人们朝那个方向发展。

例如,大多数浏览器接受与确切 URL 的细微变化,但随后对其进行修正以将您带到正确的页面?

主机名不区分大小写,根不需要斜杠(因此http://example.comhttp://EXAMPLE.cOM/ 相同)。

除此之外,URL 的其余部分(如果有片段标识符,则除外)完全由 HTTP 服务器处理。它可能会区分大小写,也可能不会。它可能需要按特定顺序处理,也可能不需要。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-09
    • 1970-01-01
    • 2018-10-04
    • 2017-03-12
    • 2021-02-27
    • 2011-04-08
    相关资源
    最近更新 更多