【发布时间】:2017-05-25 22:42:10
【问题描述】:
我的 csv 文件包含近 30 万条记录。看起来是这样的
Id, Name, City
1 Alex New York
2 Alex Florida
3 John New York
...
300k Alex New York
好吧,我需要解析它并创建 2 个单独的文件,其中包含 500 个最常见的列(名称和城市)。例如,在 300k 条记录中,我有 20k Alex(name)、1k John(name)、25k Fred(name),并按降序制作了 500 个最常见的名字的单独 csv 文件
Id, Name
1. Fred
2. Alex
3. John
城市也一样 如何做到最好?
【问题讨论】:
-
您必须使用值映射并使用出现次数不断更新映射,然后使用比较器根据值对映射进行排序