【发布时间】:2012-02-24 07:05:41
【问题描述】:
我需要将几个 XML 解析为 TSV,XML 文件的大小约为 50 GB,我基本上怀疑我应该选择解析这个的实现我有两个选项
- 使用 SAXParser
- 使用 Hadoop
我对 SAXParser 实现有一定的了解,但我认为可以访问 Hadoop 集群,我应该使用 Hadoop,因为这就是 hadoop 的用途,即大数据
如果有人可以提供一个提示/文档,说明如何在 Hadoop 中执行此操作,或者为如此大的文件提供高效的 SAXParser 实现,或者我应该为 Hadoop 或 SAXparser 做什么,那就太好了?
【问题讨论】:
标签: hadoop xml-parsing saxparser bigdata