【发布时间】:2015-04-21 22:18:15
【问题描述】:
我是 PIG 的新手,因此绝对是初学者。
我有一个 .txt 文件,其条目如下所示:
Name Matriculation Number Grade Name of Subject
John William 078932832 2.7 Research
John William 078932832 2.3 International Management
John William 078932832 1.7 Math
如您所见,在文本文件中,有许多关于同一个人但不同科目(当然)成绩不同的条目。 我想计算每个学生的平均成绩。对于样本数据,我必须将 2.7、2.3 和 1.7 相加,然后除以计数(三)。结果将是 2.23。应该为列表中的每个学生进行此程序。最后,我想要一个包含以下内容的独立 .txt 文件:
Name Matriculation Number Overall Average Grade Number of Subjects
John William 078932832 2.23 3
如何使用 PIG 做到这一点?由于我是初学者,请提供获得结果所需的所有步骤。
谢谢!
【问题讨论】:
-
对于对这个问题投了反对票的会员 - 请评论问题有什么问题,让新手了解如何在 SO 社区提出好的问题。
标签: hadoop apache-pig