【问题标题】:Java SAX parsing. Getting access to file lines in the currently parsing xml fileJava SAX 解析。访问当前解析的 xml 文件中的文件行
【发布时间】:2011-12-13 08:23:40
【问题描述】:

在解析 XML 文档时,您可以设置一个定位器,当不同的事件触发时,定位器会告诉您当前所在的行号和列号。

我想知道,如何获取该行的内容,我是否必须传递文件,自己将其读入数组,这不是由 sax 处理程序完成的,因为它让我可以访问定位器,必须离开才能访问处理程序当前正在使用的文件。

谢谢!

::::::::::::::::::::::::::::::::::::::::::::

我正在尝试回显一个 xml 文件并希望包含 doctype 声明:

<!DOCTYPE employee [<!ELEMENT employee (Name, Dept, Title)>
<!ELEMENT Name (#PCDATA)> 
<!ELEMENT Dept (#PCDATA)>
<!ELEMENT Title (#PCDATA)> ]>

有一个

public void startDTD(String name, String publicId, String systemId);

还有一个

public void endDTD();

您可以在哪里使用定位器获取当前行和列,并从文件中读取。

SAX 解析器不会触发事件或提供有关读取的 XML 文件中内容的足够信息的一些事情。

【问题讨论】:

  • 你找到解决这个问题的方法了吗?
  • @Kakawait 哇,那是很久以前的事了!但是,我相信我的 EDIT 包含答案。我记得第一行并不总是可用的。

标签: java xml parsing sax


【解决方案1】:

首先,您确定解析器没有通过更专业的处理程序之一提供您需要的信息,例如词法处理程序?

如果您确实需要访问原始数据,请编写一个位于 SAX 解析器和“真实”Reader 或 InputStream 之间的 Reader 或 InputStream 实现,将所有 read() 请求传递给底层读取器,但要跟踪从文件中读取的最后几行。然后,此过滤器可以响应提供第 N 行内容的请求,因为它保留了数据。但是,我不确定如何使这项工作满足您的实际需求,因为您要查找的信息可以分布在任意数量的行中。

【讨论】:

  • 不,我正在扩展实现 LexicalHandler 的 DefaultHandler2,并且我已将所有可能的方法添加到我的处理程序中,并为所有方法命名,并且没有任何有用信息被调用。当涉及到 InputStream 实现时,我喜欢您的思维方式:) 这很聪明,但无法真正找到实际读取内容的位置。我可以扩展 inputstream 并重新实现 read(),但是它被读取为字节,还必须将字节正确转换为字符和换行符,但可行.. 应该有一个类将字节转换为字符,我希望!
  • Hmm... FileInputStream 扩展 InputStream,所以我必须创建一个 FileInputStream 类以及扩展我的类,这可能是一个完整的实现,因为我不能扩展原始 FileInputStream 然后扩展我的输入流。也许委托模式可能会简单化,但仍然感觉不太性感..
【解决方案2】:

没有办法进入“文件”。甚至可能没有文件,因为输出可以动态生成或通过网络获取。解析器所做的是跟踪在解析内容时它通过的换行符(\r\n、\n 或 \r)的数量。使用 SAX 时,并非所有当前行都必须可用(想象一个大文档,全部在一行上)。

您可以将您的输入包装在一个为您跟踪“当前行”的类中,但同样要注意单行中的大型文档。

编辑:承诺的简单包装器

public class LastLineInputStreamWrapper extends InputStream {

    private final byte[] buffer = new byte[10*1024];
    private final InputStream wrapped;
    private int previous;
    private int length;

    public LastLineInputStreamWrapper(InputStream wrapped) {
        this.wrapped = wrapped;
    }

    @Override
    public int read() throws IOException {
        int current = wrapped.read();
        if ('\r' == current) {
            newLine();
        } else if ('\n' == current) {
            if ('\r' != previous) {
                newLine();
            }
        } else {
            add(current);
        }
        previous = current;
        return current;
    }

    private void newLine() {
        length = 0;
    }

    private void add(int current) {
        if (length < buffer.length && current != -1) {
            buffer[length++] = (byte) current;
        }
    }

    public byte[] getLine() {
        byte[] line = new byte[length];
        System.arraycopy(buffer, 0, line, 0, length);
        return line;
    }
}

一个简单的方法,只是为了告诉你如何开始。如果你想沿着这条路线走,你可能想要覆盖 read(byte[]) 方法以避免为每个字节调用 read。

如果你有一个阅读器,那么你可以直接使用字符而不是字节。

【讨论】:

  • 好的,谢谢。我需要这个的原因是我正在尝试输出 请参阅我编辑的问题...如果无法访问该文件,我找不到执行此操作的方法。
  • @Hamidam 您的解析器如何访问该文件?通过文件名、输入流或其他方式?我将更新如何包装输入流以“记住”最后一行的答案。
  • 一个@Roger Hej förresten! :) ... se min kommentar for Michael :)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-07-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-04-20
  • 1970-01-01
相关资源
最近更新 更多