【问题标题】:Get FQDN from domain从域中获取 FQDN
【发布时间】:2019-02-19 20:33:28
【问题描述】:

这是我在这里的第一个问题,所以我会尽力而为。

我正在尝试从一堆域中获取协议和 FQDN(完全限定域名),即从 aliexpress.com 获取 https://es.aliexpress.com。 我已经尝试过 Selenium webdriver,但是计算所有域需要很长时间(即使有很短的超时和阻塞图像)。

我在问是否有人知道在不加载内容的情况下执行此操作的方法,例如 wget 但仅适用于 URL。

感谢您的阅读。

【问题讨论】:

  • 你一定是指aliexpress.com 来自https://es.aliexpress.com ???
  • 不,就像浏览器一样,你在导航栏输入aliexpress.com,当你发出get请求时,导航栏中会出现https://es.aliexpress.com
  • 这可能仍然不是适合这项工作的工具...但是您可以尝试使用 selenium 的无头浏览器,这样您就不必通过 UI。它的速度相当快
  • 等等,你到底想做什么?因为您要的不是 FQDN?

标签: selenium url selenium-webdriver web-scraping wget


【解决方案1】:

不是真的……

首先,httphttps 与域名无关。这些是传输协议。

忽略那部分,您所称的 FQDN 通常是在您访问它们时生成的。

例如,许多网站会根据您的用户代理字符串将浏览器从桌面站点重定向到移动版本(典型的 m.something.com)。这意味着www.something.comm.something.com 都是有效答案

在您给出的示例 aliexpress.com 中,前面添加了 es.,这意味着服务器上很可能有一些代码读取您的位置(基于 IP 地址)或浏览器中的区域设置来引导您到网站的es 版本,而不是endk 版本。

这些更改可以通过网站根文件夹中的.htaccess 文件或通过后端代码来完成。

如果您在所有内容栏中输入了 URL,Google Chrome 本身会自动尝试添加 www.

URL 也有可能是一个巨大的重定向。一些网站购买了额外的域名,这些域名都重定向到他们的核心网站。所以即使你输入xyz.com,你最终也会得到abcd.com

没有算法方法可以从基本 URL 转到您所称的 FQDN。


附注Here is an article 关于 FQDN 的含义。

【讨论】:

  • 好吧!非常感谢您的回答,我会阅读的!
猜你喜欢
  • 1970-01-01
  • 2023-03-20
  • 2023-01-19
  • 1970-01-01
  • 2011-06-05
  • 2011-06-21
  • 1970-01-01
  • 2021-04-20
  • 1970-01-01
相关资源
最近更新 更多