【发布时间】:2014-12-05 10:08:09
【问题描述】:
我想使用 apachestorm 根据 twitter 提要找到热门的地理流行词。我看到很多工作正常的例子。
http://www.zdatainc.com/2014/07/real-time-streaming-apache-storm-apache-kafka/ https://github.com/davidkiss/storm-twitter-word-count
但我想根据地理位置来增强上述解决方案。许多推特状态(推文)都带有地理位置。我想将字数示例拆分为 m x n 矩阵,其中 m 和 n 表示相对地理坐标,例如 (3x4 = 30.x40.) 纬度和经度。
我想根据 Apache Storm 拓扑将输入流拆分为多个计数器。为单个坐标单元(比如 x,y)唯一运行的地理字计数器螺栓
我得到的一个解决方案是,为每个组合注册 mxn 个螺栓。但这几乎是蛮力。 第二种解决方案:使用 fieldsGrouping(x,y fields) 无法正常工作。我可以看到相同的螺栓针对 x 和 y 的相同组合运行。我在本地集群中运行。
请提出一些想法。
【问题讨论】:
标签: twitter apache-storm