【发布时间】:2011-06-17 02:42:28
【问题描述】:
我正在存储大量 Twitter 数据,并且希望一次检索大约 50 万条记录以进行数据处理。我有一个包含基本推文数据的 TwitterTweet mongo 文档,并尝试按如下方式检索它:
weekly_tweets = TwitterTweet.all(:created_at.gt => 1.week.ago, :fields => [:created_at, :text, :from_user])
问题是,这会占用大量时间和内存 - 有什么方法可以使其更具可扩展性和效率。我曾想过使用 map reduce,但对于我想做的事情来说,它看起来非常复杂 - 推文上的文本处理和正则表达式。
【问题讨论】:
-
为什么不做更多、更小的电话?使用跳过和限制,一次取 1000 个。
标签: regex mongodb mongomapper large-data-volumes