【发布时间】:2015-07-27 21:27:50
【问题描述】:
我正在通过风暴螺栓使用 twiiter4j.properties 处理 twitter 推文。我的拓扑结构如下:
TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("KafkaSpout", new KafkaSpout(kafkaConfig), 2).setNumTasks(4);
builder.setBolt("Preprocesing", new preprocessBolt2(), 2)
.setNumTasks(4).shuffleGrouping("KafkaSpout");
builder.setBolt("AvgScoreAnalysis",
new AvgScoringBolt(), 4).setNumTasks(8)
.fieldsGrouping("Preprocesing",new Fields("tweetId"));
builder.setBolt("PrinterBolt", new LocalFile(), 6).setNumTasks(4)
.shuffleGrouping("AvgScoreAnalysis");
我从 KafkaSpout 获取推文并将其发送到 Bolt 进行预处理,我的问题是在我调用 S3 的 avgScoring 中,因为我有每个用户的 csv 并计算每个用户的每个单个用户的得分鸣叫。我有 100 个用户意味着我的平均得分必须为 s3 中所有用户数量的每条推文计算平均得分。速度很慢,如何提高这个螺栓的性能,文件中有这么多重复项,如何删除重复项?
【问题讨论】:
标签: twitter apache-storm