从互联网上搜索数据副本答案

【问题标题】：search copies of data from all over internet从互联网上搜索数据副本
【发布时间】：2010-12-15 00:35:39
【问题描述】：

我需要您的帮助，并希望从开发人员的角度获得建议，即人们如何像 copyscape.com 这样的网站运行，基本上他们在整个互联网上搜索数据副本我想知道他们如何搜索和制作所有网站的目录互联网与谷歌一样，因为谷歌从互联网上制作网站索引

请指导我他们如何从互联网上搜索数据如何跟踪互联网上的每个网站谷歌如何知道互联网上有新网站爬虫从那里知道新网站已启动所以在简而言之，我想知道如何开发一个网站，我可以在其中搜索整个互联网上的数据副本，而不依赖于任何第三方 api plzzz 建议我，我希望你能帮助我

谢谢

【问题讨论】：

我会从大约 450,000 多台服务器开始供您使用...datacenterknowledge.com/archives/2009/05/14/…
这个问题太模棱两可/野心勃勃——“请帮我成为谷歌”不是一个好的编程问题。要求更具体的东西——你有什么资源？你有什么具体的任务？为什么谷歌？另外，不要标记“复制保护”。

标签： search

【解决方案1】：

Google 的抓取工具不知道新网站何时启动。通常，开发人员必须将他们的网站提交给 Google 或从已编入索引的网站获取传入链接。

而且没有人拥有整个互联网的副本。有些网站没有链接，也不会被任何爬虫访问。这称为深层网络，爬虫通常无法访问。

他们是如何做到的？我不知道。也许他们会索引可能复制文本的流行网站，例如 Blogger、ezinearticles 等。如果他们在这些网站上找不到文本，他们只会说它的原始内容。只是一个理论，我可能错了。

我？我可能会使用谷歌。只需从您正在检查的网站中复制大量文本，然后过滤掉来自原始网站的结果。还有中提琴，你的网站上有那个确切的短语，大概是复制的。

【讨论】：