【发布时间】:2013-09-27 11:23:57
【问题描述】:
我目前正在开发一个带有内置网络爬虫的自定义搜索引擎。出于某种原因,我不喜欢多线程,到目前为止,我的索引器是以单线程方式编码的。现在我对正在构建的爬虫有一个小困境。任何人都可以建议哪个更好,抓取 1 页然后对其进行索引,或者抓取 1000 多个页面并缓存,然后索引?
【问题讨论】:
-
你的“小困境”究竟是什么?
-
你为什么不进入线程?懒得弄清楚是一个蹩脚的借口,所以我希望不是这样。
-
不是懒惰,我阅读了一篇关于从 sqlite 链接的线程缺点的文章,但是我已经给出了一个要点,所以我现在进入多线程,单线程索引器 + 多线程爬虫。感谢您的回复
-
我自己正在考虑用 D 编写一个网络爬虫,所以我很想知道你的代码是否是开源的(因为我也可以帮助改进现有的,如果它适合的话我的需求)? :)
标签: c++ c search-engine