用 xmlpullparser 解析类似 html 的文档？答案

【问题标题】：Parsing html-like document with xmlpullparser?用 xmlpullparser 解析类似 html 的文档？
【发布时间】：2009-12-04 02:54:01
【问题描述】：

所以我必须解析包含嵌套标签的丑陋文件，例如

<p>blah<strong>lah</strong>blah</p>

嵌套标签已定义，我不关心它们。但他们让 XmlPullParser 失败：

XmlPullParser parser = XmlPullParserFactory.newInstance().newPullParser();
parser.setInput(some_reader);
while (parser.next() != XmlPullParser.END_DOCUMENT) {
    if (XmlPullParser.START_TAG == event) {
        String tag = parser.getName();
        if (tag != null) {
            tag = tag.toLowerCase();
        } else {
            continue;
        }
       if ("p".equals(tag)) {
           String text = parser.nextText();
           // and here we go
           // org.xmlpull.v1.XmlPullParserException: expected: /p read: strong
        }
    }
}

问题：如果不对文件进行预处理，去除所有不必要的标签或使用第三方库，我是否有机会逃脱？

编辑：更新了 sn-p 以使其真正有意义。

【问题讨论】：

那次失败有些问题。这绝对是一个格式良好的 XML sn-p。我会质疑 XmlPullParser 工具的功能。
你确定你的问题 sn-p 不是
blahlah
blah？
你需要一个像 here 解释的通用解析器

标签： android xmlpullparser

【解决方案1】：

所以我摆脱了 XMLPullParser 并切换到 SAXParser。另外，it performs better.

【讨论】：

据我所知，大多数 SAX-Parsers 都是建立在 Pull-Parser 之上的。拉解析器读取一个节点，而不是另一个，等等。它从不一次读取整个字符串/流，这使得它与可用内存很少的设备兼容。我认为 XMLPullParser 应该适合你，你只需要正确设置它就可以解析 html。

【解决方案2】：

package com.xml;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
import android.util.Log;

public class FeedHandler extends DefaultHandler {

    StringBuilder sb = null;
    String ret = "";
    boolean bStore = false;
    int howMany = 0;

    FeedHandler() {   }

    String getResults()
    {
        return "XML parsed data.\nThere are [" + howMany + "] status updates\n\n" + ret;
    }
    @Override
    public void startDocument() throws SAXException 
    {
        // initialize "list"
    }

    @Override
    public void endDocument() throws SAXException
    {

    }

    @Override
    public void startElement(String namespaceURI, String localName, String qName, Attributes atts) throws SAXException {

        try {
            if (localName.equals("status"))
            {
                this.sb = new StringBuilder("");
                bStore = true;
            }
            if (localName.equals("user")) 
            {
                bStore = false;
            }
            if (localName.equals("text")) 
            {
                this.sb = new StringBuilder("");
            }
            if (localName.equals("created_at")) 
            {
                this.sb = new StringBuilder("");
            }
        } catch (Exception e) 
        {

            Log.d("error in startElement", e.getStackTrace().toString());
        }
    }
    @Override

    public void endElement(String namespaceURI, String localName, String qName) throws SAXException 
    {

        if (bStore) 
        {
            if (localName.equals("created_at"))
            {
                ret += "Date: " + sb.toString() + "\n"; 
                sb = new StringBuilder("");
                return;

            }

            if (localName.equals("user"))
            {
                bStore = true;
            }

            if (localName.equals("text")) 
            {

                ret += "Post: " + sb.toString() + "\n\n";
                sb = new StringBuilder("");
                return;

            }


        }
        if (localName.equals("status"))
        {
            howMany++;
            bStore = false;
        }
    }
    @Override

    public void characters(char ch[], int start, int length)
    {

        if (bStore) 
        {
            String theString = new String(ch, start, length);

            this.sb.append(theString);
        }
    }

}

这是我扩展 Activity 的 xmlActivity 类

            InputSource is = new InputSource(getResources().openRawResource(R.raw.my));
            System.out.println("running xml file..... ");
        // create the factory
        SAXParserFactory factory = SAXParserFactory.newInstance();

        // create a parser
        SAXParser parser = factory.newSAXParser();

        // create the reader (scanner)
        XMLReader xmlreader = parser.getXMLReader();

        // instantiate our handler
        FeedHandler fh = new FeedHandler();

        // assign our handler
        xmlreader.setContentHandler(fh);

        // perform the synchronous parse
        xmlreader.parse(is);

        // should be done... let's display our results
        tvData.setText(fh.getResults());

【讨论】：