【问题标题】:Live stream - multi-level word count using Apache Storm直播 - 使用 Apache Storm 进行多级字数统计
【发布时间】:2014-12-05 10:08:09
【问题描述】:

我想使用 apachestorm 根据 twitter 提要找到热门的地理流行词。我看到很多工作正常的例子。

http://www.zdatainc.com/2014/07/real-time-streaming-apache-storm-apache-kafka/ https://github.com/davidkiss/storm-twitter-word-count

但我想根据地理位置来增强上述解决方案。许多推特状态(推文)都带有地理位置。我想将字数示例拆分为 m x n 矩阵,其中 m 和 n 表示相对地理坐标,例如 (3x4 = 30.x40.) 纬度和经度。

我想根据 Apache Storm 拓扑将输入流拆分为多个计数器。为单个坐标单元(比如 x,y)唯一运行的地理字计数器螺栓

我得到的一个解决方案是,为每个组合注册 mxn 个螺栓。但这几乎是蛮力。 第二种解决方案:使用 fieldsGrouping(x,y fields) 无法正常工作。我可以看到相同的螺栓针对 x 和 y 的相同组合运行。我在本地集群中运行。

请提出一些想法。

【问题讨论】:

    标签: twitter apache-storm


    【解决方案1】:

    您的方法应该有效,但如果无效,请尝试将纬度和经度转换为字符串,然后将它们连接成单个字段并使用 that 字段作为 fieldsGrouping。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-05-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多