【发布时间】:2012-03-24 15:17:03
【问题描述】:
我目前正在从事一个大学项目,我们正在为万维网构建一个内容提取器。为此,到目前为止,我们有 2 个模块:一个 Web 爬虫和一个 Indexer,它将在 2 台不同的机器上运行。随着工作的进展,我们计划添加更多模块,但现在,我们需要在两者之间建立某种通信方式,某种形式的消息传递。
我们不确定的是:
(i) 我们觉得我们的应用程序不需要同步消息传递。基本上,爬虫模块会爬取网页并在访问特定页面时调用索引器模块。那么我们应该继续选择一些异步协议(如 JMS)还是使用同步协议有一些优势?
(ii) 我们目前正在考虑使用 JMS,可能使用 google 协议缓冲区在两台机器之间传递必要的数据(URL)。这是合适的,还是有更好的选择?
我们对合适协议的主要标准是可扩展性,其次是速度。
这是我们中的任何人第一次致力于任何类型的分布式应用程序。所以任何帮助将不胜感激:)
谢谢你:)
【问题讨论】:
标签: java protocols message distributed