【发布时间】:2010-12-15 00:35:39
【问题描述】:
我需要您的帮助,并希望从开发人员的角度获得建议,即人们如何像 copyscape.com 这样的网站运行,基本上他们在整个互联网上搜索数据副本我想知道他们如何搜索和制作所有网站的目录互联网与谷歌一样,因为谷歌从互联网上制作网站索引
请指导我他们如何从互联网上搜索数据如何跟踪互联网上的每个网站谷歌如何知道互联网上有新网站爬虫从那里知道新网站已启动所以在简而言之,我想知道如何开发一个网站,我可以在其中搜索整个互联网上的数据副本,而不依赖于任何第三方 api plzzz 建议我,我希望你能帮助我
谢谢
【问题讨论】:
-
我会从大约 450,000 多台服务器开始供您使用...datacenterknowledge.com/archives/2009/05/14/…
-
这个问题太模棱两可/野心勃勃——“请帮我成为谷歌”不是一个好的编程问题。要求更具体的东西——你有什么资源?你有什么具体的任务?为什么谷歌?另外,不要标记“复制保护”。
标签: search