【发布时间】:2019-12-08 06:22:44
【问题描述】:
我有一个用于测试网站/页面的爬虫。下面是我用 RDBMS 做的模型:
class Site{
Uri Uri {set;get;}
Collection<Test> Test{set;get;}
}
class Test{
Collection<Page> Pages {set;get;}
}
class Page{
// Page info
}
我的查询会是每个站点和整体有多少页面加载失败、多少返回 404 等。
所以我对 couchbase 的关注是文档大小,20 MB,我抓取的一些网站有 10K 页。如果我爬了几次让我们说 10 次,Site 对象将超过这个限制,它最终会。
在这里进行建模的正确方法是什么?
【问题讨论】:
标签: database-design web-crawler couchbase couchbase-view