【发布时间】:2012-03-24 11:43:10
【问题描述】:
我们正在为客户重新设计一个现有系统,该系统主要处理大量文件。
文件(超过 500 万个)当前存储在服务器文件系统中。客户端希望新系统将文件存储在 S3 中。 这些文件还具有关联的元数据(名称、作者姓名、价格、描述等)。
搜索功能也要重新设计。以下是基本要求
- 文件描述应该可以进行全文搜索。
- 应该可以对文件的其他属性进行过滤。
另外,根据文件描述,系统也应该能够推荐相似的文件。
我之前没有创建此类解决方案的经验,因此寻求帮助和建议。 我正在考虑以下解决方案:
- 将文件元数据存储在 MongoDB 中,并使用搜索功能 (http://www.mongodb.org/display/DOCS/Full+Text+Search+in+Mongo)
- 使用 Amazon DynamoDB。它提供 api 来扫描/查询数据集。
- 使用 Lucene/Solr(我还没有使用过这些,我还需要深入研究)
我发现了这个项目,与我需要的非常相似 http://www.thriftdb.com - 在主页上说它是一个内置搜索的数据存储。
如果这个问题应该是社区 wiki,请告诉我。
提前致谢。
【问题讨论】:
标签: search nosql amazon-web-services