【发布时间】:2018-06-01 02:58:40
【问题描述】:
一行数据格式:
id: 123456
Topiclist: ABCDE:1_8;5_10#BCDEF:1_3;7_11
一个id可以有很多行:
id: 123456
Topiclist:ABCDE:1_1;7_2;#BCDEF:1_2;7_11#
目标:(123456, (ABCDE,9,2),(BCDEF,5,2))
主题列表中的记录被#分割,所以ABCDE:1_8;5_10是一条记录。
记录的格式为<topicid>:<topictype>_<topicvalue>
例如ABCDE:1_8 有
topicid = ABCDE
主题类型 = 1
主题值 = 8
目标:求和TopicType1的总和,和TopicType1的计数频率
所以应该是(id, (topicid, value,frequency)),例如:(123456, (ABCDE,9,2),(BCDEF,5,2))
【问题讨论】:
-
你有任何代码示例来说明你到目前为止所做的事情吗?
-
一行是什么意思?那是一条线还是三条线?而 reduceBykey 是 spark 的 api。
-
我更好奇主题类型的来源。