【发布时间】:2013-09-07 20:35:23
【问题描述】:
我有一系列包含邮政编码及其相应纬度和经度的 XML,就像这样;
<?xml version="1.0"?>
<postcodes>
<entry postcode='AB1 0AA' latitude='7.101478' longitude='2.242852' />
<entry postcode='AB1 0AB' latitude='7.201458' longitude='2.122952' />
</postcodes>
XML 被拆分为以某个字母开头的邮政编码,因此字母表中的每个字母都有一个 XML。它们之间有英国的每个邮政编码,这意味着这些 XML 文件中最大的有 300,000 个entry 元素。
我正在遍历 Entity 对象的列表,以通过 SAX 放置它们的邮政编码,以针对每个邮政编码检索 longitude 和 latitude 值。所以,如果我有 2000 个实体对象,我会让 SAX 处理程序运行 2000 次来检索这些值。下面的循环代码;
em = emf.createEntityManager();
for (Integer id : siteID){
site = em.find(SiteTable.class, id);
if(site != null && site.getPostcode() != null && !site.getPostcode().equals("")){
XMLPositionRetriever.runXMLQuery(site.getPostcode());
}
else{
System.out.println("The site and/or postcode against this Instruction does not exist.");
}
}
em.close();
site.getPostcode() 在处理程序中变为postcodeToFind。下面使用的唯一 SAX 处理程序方法的代码;
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
if (postcodeToFind.equals(attributes.getValue("postcode"))){
System.out.println("The postcode '"+postcodeToFind+"', has a latitude of "+attributes.getValue("latitude")+" and a longitude of "+attributes.getValue("longitude"));
throw new SAXException();
}
}
目前这很耗时(2000 次搜索只需要不到 4 分钟),但我需要加快加载时间。最好在 30 秒以下。到目前为止,我已经设法将加载时间减少了一半以下;
- 将 Handler 必须运行的次数减少到必要的次数(通过减少需要检查的实体数量)。
- 一旦找到我需要的数据,让 startElement() 方法抛出异常,这样它就不会不必要地继续搜索。
- 将 XML 文件分成更小的文件(每个字母对应一个),以便处理程序检查每个文件的元素更少。
问:是否有人对更有效的 SAX 处理有任何其他建议?
【问题讨论】:
-
如果内存不是这里的关键要求,那么该文件的 dom 树(可能使用 JAXB 或 XStream 等现代技术)可以通过读取文件一次然后访问内存中的所有内容来加快速度。这可以大大提高性能(以更高的内存消耗为代价)
-
您可以使用 Apache Tika 并使用正则表达式来获取该值
-
使用数据库而不是 XML 文件?
-
我想我可以使用一个嵌入式数据库,但我正在拉出实体实例的当前 SQL 数据库不是我要搞砸的。至于 DOM,这个软件最终将不得不在只有 2gb 内存的标准桌面上运行,因此可能要避免在内存中存储 260 万个元素。
-
在另一个想法中,如果您可以对要查找邮政编码的实体进行预排序并且对 xml 数据进行排序,则可以在 sax 解析器中一次性提取所有相关的地理位置。这也应该比为每个实体重新解析整个结构要快很多。
标签: java xml performance xml-parsing sax