搜索引擎如何获取未链接的页面？答案

【问题标题】：How do search engines obtain unlinked pages?搜索引擎如何获取未链接的页面？
【发布时间】：2017-05-14 17:01:04
【问题描述】：

我注意到很多 Dropbox 页面都被 Google、Bing 等编入索引，我想知道这些搜索引擎是如何获取这些链接的：

https://dl.dropboxusercontent.com/s/85cdji4d5pl5qym/37-71.pdf

https://dl.dropboxusercontent.com/u/11421929/larin2014.pdf

鉴于 dl.dropboxusercontent.com 上没有可追踪的链接，而且路径结构也不容易猜到，搜索引擎怎么可能获得这样的链接？

一个解决方案可能是它发布在论坛上并被搜索引擎选中，但我查找了很多链接并检查了反向链接但没有成功。我还注意到，必应和雅虎显示出比谷歌更多的结果，这意味着必应在获取这些链接方面做得更好，这对我来说似乎不太可能。

【问题讨论】：

【解决方案1】：

即使文档确实没有链接（他们的站点上没有链接，其他人的站点上没有链接，没有sitemap，没有来自文档中链接的站点的Referer日志等），它仍然是搜索引擎可以找到链接。

两种方式是：

有人可以将 URL 提交给搜索引擎（无论是通过公共工具，还是通过网站的网站管理员帐户）。
搜索引擎可以获取某些用户在其浏览器中访问的所有 URL。例如，当用户从该搜索引擎安装工具栏时，可能会发生这种情况。必应就是这种情况，见我的related answer on Webmasters SE：

Microsoft 已确认，他们确实发现并索引了通过安装了 Bing 工具栏的用户在 Internet 上冲浪时找到的 URL。

当然，可能还有更多方法。

【讨论】：