【问题标题】:Using Perl XML::SAX to modify XML documents使用 Perl XML::SAX 修改 XML 文档
【发布时间】:2012-05-01 16:00:00
【问题描述】:

我正在尝试使用 XML::SAX 修改 XHTML 文档的某些部分,但是我的所有尝试都失败了。

这是我想要做的:

#!/usr/bin/perl 
package MyHandler;
use strict;
use warnings;

use base qw(XML::SAX::Base);
use Data::Dumper;

sub start_element {
    my $self = shift;
    my $data = shift;

    if( $data->{LocalName} eq 'span') {
        $data->{LocalName} = 'naps';
    }

    $self->SUPER::start_element($data); # GOOD (and easy) !
    #print Dumper($data); 
}

1;

#============================
#Main programm
#============================
use strict;
use warnings;

use XML::SAX::ParserFactory;
use XML::SAX::Writer;

my $out;

my $o = XML::SAX::Writer->new( Output => \$out );
my $h = MyHandler->new( Handler => $o );
my $p = XML::SAX::ParserFactory->parser(Handler => $h);

my $data;
{ local undef $/ }; $data = <DATA>;
$p->parse_string( $data );
print $out;


__DATA__
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
<body>
<wicket:panel>
    <form wicket:id="mvpForm">
        <span>Edit Information: </span>
        <input type="checkbox" wicket:id="editForm"/>

        <span>Name: </span>
        <span wicket:id="name"></span>
        <input type="text" wicket:id="nameEdit"/>

        <span>Last Name: </span>
        <span wicket:id="lastName"></span>
        <input type="text" wicket:id="lastNameEdit"/>

        <span>DOB: </span>
        <span wicket:id="dob"></span>
        <input type="text" wicket:id="dobEdit"/>


        <span>Occupation: </span>
        <span wicket:id="occupation"></span>
        <input type="text" wicket:id="occupationEdit"/>


        <span>Gender: </span>
        <span wicket:id="gender"></span>
        <span wicket:id="genderEdit"/>

        <input type="submit" wicket:id="submit"/>

    </form>
</wicket:panel>
</body>
</html> 

基本思想是将每个“span”更改为“naps”,并将生成的修改后的 XML 写入 STDOUT。

另外,很高兴看看是否可以使用 SAX 合并 xml 块,换句话说,如果我发现一个特定元素被扩展为其他东西,我如何将它与输出到 STDOUT 合并?

例如 来自:

<xmltag>
    <expandable/>
</xmltag>

收件人:

<xmltag>
    <expanded>
        This is an expanded element
    </expanded>
</xmltag>

谢谢。

【问题讨论】:

    标签: xml perl sax


    【解决方案1】:

    SAX 并不是处理此类琐碎更改的最佳工具。考虑一个 DOM 实现。

    use strictures;
    use XML::LibXML qw();
    my $dom = XML::LibXML->load_xml(…);
    
    for my $e ($dom->findnodes('//*')) {
        $e->setNodeName('naps') if 'span' eq $e->nodeName;
        if ('expandable' eq $e->nodeName) {
            $e->setNodeName('expanded');
            $e->appendText('This is an expanded element');
        }
    }
    print $dom->toString; # ->toFile
    

    【讨论】:

    • 谢谢,这也可以,唯一的问题是这会占用内存。
    【解决方案2】:

    这是一个基于XML::Twig 的解决方案,我发现它比 SAX 更易于使用(但我可能有点偏颇 ;--)。它非常节省内存,因为内存中只保留了 1 个span(或expandable)元素。

    #!/usr/bin/perl
    
    use strict;
    use warnings;
    
    use XML::Twig;
    
    XML::Twig->new( twig_roots => { span       => sub { $_->set_tag( 'naps')->flush; },
                                    expandable => sub { XML::Twig::Elt->new( expanded => 'this is an expanded element')->print; },
                                  },
                    twig_print_outside_roots => 1,
                  )
              ->parsefile( \*DATA);
    __DATA__
    <?xml version="1.0" encoding="UTF-8"?>
    <html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
    <body>
    <wicket:panel>
        <form wicket:id="mvpForm">
            <span>Edit Information: </span>
            <input type="checkbox" wicket:id="editForm"/>
    
            <span>Name: </span>
            <span wicket:id="name"></span>
            <input type="text" wicket:id="nameEdit"/>
    
            <span>Last Name: </span>
            <span wicket:id="lastName"></span>
            <input type="text" wicket:id="lastNameEdit"/>
    
            <span>DOB: </span>
            <span wicket:id="dob"></span>
            <input type="text" wicket:id="dobEdit"/>
    
    
            <span>Occupation: </span>
            <span wicket:id="occupation"></span>
            <input type="text" wicket:id="occupationEdit"/>
    
    
            <span>Gender: </span>
            <span wicket:id="gender"></span>
            <span wicket:id="genderEdit"/>
    
            <input type="submit" wicket:id="submit"/>
    
        </form>
    
    <xmltag>
        <expandable/>
    </xmltag>
    
    </wicket:panel>
    </body>
    </html> 
    

    【讨论】:

    • 至少对于模块的用户来说;--)
    • 看起来相当简单方便。我试图远离基于 dom/tree 的解决方案,因为它们通常更占用内存,但 twig 在 dom 的便利性和 sax 的轻量级之间取得了很好的平衡。谢谢!
    【解决方案3】:

    似乎 Writer 从 Key Name 而不是 LocalName 中选择元素名称。因此,不要修改 LocalName,而是修改 Name 以获得所需的结果。

    if( $data->{LocalName} eq 'span') {
        $data->{LocalName} = 'naps';
    }
    

    改成

    if( $data->{LocalName} eq 'span') {
        $data->{Name} = 'naps';
    }
    

    【讨论】:

    • 添加那个文本节点怎么样?
    • 我不认为 SAX 支持添加节点。可能使用肮脏的方式!
    • 谢谢,这有点出乎意料:)。是的,看起来最好的方法是在找到可扩展节点后创建另一个 sax 解析器,但是如何将它与主处理管道合并回来?我再试验一下,说不定还是有办法的。
    【解决方案4】:

    要回答我自己关于合并/扩展元素的问题,这里有一个关于如何使用 sax 进行操作的 sn-p:

    #!/usr/bin/perl 
    package MyHandler;
    use strict;
    use warnings;
    
    use base qw(XML::SAX::Base);
    use Data::Dumper;
    
    use XML::SAX::ParserFactory;
    use XML::SAX::Writer;
    
    sub start_element {
        my $self = shift;
        my $data = shift;
    
        if( $data->{LocalName} eq 'expand') {
            $self->{in_include}++;
            my $p = XML::SAX::ParserFactory->parser( Handler => $self );
            $p->parse_string( "<expanded>This is my expanded tag</expanded>" );
            return;
        }
    
        #$data->{Attributes} = undef;
        $self->SUPER::start_element($data);
        #print Dumper($data); 
    }
    
    sub characters {
        my $self = shift;
        my $data = shift;
    
        #print "Data is $data->{Data}" if defined $data->{Data}; 
        $self->SUPER::characters($data);
    }
    
    sub end_element {
        my ($self, $element) = @_;
        if ($element->{LocalName} eq "expand") {
            $self->{in_include}--;
        } else {
            $self->SUPER::end_element($element);
        }
    }
    
    sub start_document { # same for end_document
        my($self, $data) = @_;
        return if($self->{in_include});
        $self->SUPER::start_document($data);
    }
    
    sub end_document { # same for end_document
        my($self, $data) = @_;
        return if($self->{in_include});
        $self->SUPER::end_document($data);
    }
    
    1;
    
    #============================
    #Main programm
    #============================
    use strict;
    use warnings;
    
    use XML::SAX::ParserFactory;
    use XML::SAX::Writer;
    
    my $out;
    
    my $o = XML::SAX::Writer->new( Output => \$out );
    my $h = MyHandler->new( Handler => $o );
    my $p = XML::SAX::ParserFactory->parser(Handler => $h);
    
    my $data;
    { local undef $/ }; $data = <DATA>;
    $p->parse_string( $data );
    print $out;
    
    
    __DATA__
    <?xml version="1.0" encoding="UTF-8"?>
    <html xmlns="http://www.w3.org/1999/xhtml" xmlns:wicket="http://wicket.apache.org/dtds.data/wicket-xhtml1.4-strict.dtd">
    <body>
    <wicket:panel>
        <form wicket:id="mvpForm">
            <span>Edit Information: </span>
            <input type="checkbox" wicket:id="editForm"/>
    
            <span>Name: </span>
            <span wicket:id="name"></span>
            <input type="text" wicket:id="nameEdit"/>
    
            <span>Last Name: </span>
            <span wicket:id="lastName"></span>
            <input type="text" wicket:id="lastNameEdit"/>
    
            <span>DOB: </span>
            <span wicket:id="dob"></span>
            <input type="text" wicket:id="dobEdit"/>
    
            <span>Occupation: </span>
            <span wicket:id="occupation"></span>
            <input type="text" wicket:id="occupationEdit"/>
    
            <span>Gender: </span>
            <span wicket:id="gender"></span>
            <span wicket:id="genderEdit"/>
    
            <input type="submit" wicket:id="submit"/>
    
            <expand/>
    
        </form>
    </wicket:panel>
    </body>
    </html> 
    

    &lt;expand/&gt; 标签将替换为&lt;expanded&gt;This is my expanded tag&lt;/expanded&gt;

    基本上只需要创建一个新的解析器并将一个文件/字符串交给它进行解析。但是,请注意有几个问题。第一个是停止传播您截获要扩展的标签的事件。换句话说,不要在扩展/嵌套标签时调用 $self->SUPER::start/end_element,这将防止被替换的标签最终出现在输出中。其次,需要拦截 start_document/end_document 并跳过调用父文档,否则会产生以下错误:

    尝试在 /usr/share/perl5/XML/NamespaceSupport.pm 第 79 行,块 1 处弹出上下文而不推送上下文。

    换句话说,有些清理失败了:

    此消息被触发是因为 XML::NamespaceSupport 对 start_document 事件进行了一些初始化,并对 end_document 事件进行了一些清理。问题在于,在您的代码中,主文档会有一对这样的事件,而每个包含的文档都会有一对嵌套事件。当第二个 end_document 事件发生时,没有什么要清理的——因此是消息。 Taken from here

    【讨论】:

      猜你喜欢
      • 2014-06-26
      • 1970-01-01
      • 1970-01-01
      • 2013-08-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多