【发布时间】:2015-11-28 18:28:02
【问题描述】:
我有一个需求,即解析 CSV 文件,识别特定日期之间的记录,并查找该期间内每个 ProductCategory 的每个销售人员的总销售额和平均销售额。下面是 CSV 文件结构:
SalesPersonId、SalesPersonName、SaleDate、SaleAmount、ProductCategory
请帮助解决这个问题。在 Scala 中寻找解决方案
我尝试了什么:
使用了如下所述的 SimpleDateFormat: val 格式 = new java.text.SimpleDateFormat("MM/dd/yyyy") 并使用以下代码创建了一个 RDD: val onlyHouseLoan = readFile.map(line => (line.split(",")(0), line.split(",")(2), line.split(",")(3).toLong, format.parse(line.split(",")(4).toString())))
但是,我尝试在突出显示的表达式之上使用日历,但出现 NumberformatExpression 错误。
【问题讨论】:
-
你有没有尝试写任何东西?
-
如果您希望有人回答,您应该在提问时更加努力。
-
显然我试过了,但只有我问过。归根结底,应该由我来完成和交付。我不想发布我进入论坛并享受现场直播的作品。此外,我还是 Microsoft 技术的社区贡献者。无论我有什么经验,我都会帮助解决问题。希望这可以帮助您理解。请注意,如果这足够合乎逻辑,可以在这里发布,我会分享我尝试过的内容。
标签: date apache-spark filtering rdd