【发布时间】:2012-10-22 14:47:09
【问题描述】:
我正在从事这个项目,该项目需要我对从网页获得的文本进行一些文本处理。 现在,这样做的第一步是让我找到一个解析器,它可以提取所需的正文文本而忽略冗余信息。我不确定我会怎么做,因为我对编程非常陌生。我真的很感激我能得到的任何帮助。 提前致谢
【问题讨论】:
标签: java html html-parsing
我正在从事这个项目,该项目需要我对从网页获得的文本进行一些文本处理。 现在,这样做的第一步是让我找到一个解析器,它可以提取所需的正文文本而忽略冗余信息。我不确定我会怎么做,因为我对编程非常陌生。我真的很感激我能得到的任何帮助。 提前致谢
【问题讨论】:
标签: java html html-parsing
我发现这个 html 解析器非常有用。它还提供了一个示例示例。 http://jericho.htmlparser.net/docs/index.html
【讨论】:
我现在正在使用 HTMLParser 进行此操作,可在 Sourceforge 获得: http://sourceforge.net/projects/htmlparser/
看起来非常简单明了,但是由于您声称自己是新手,因此这里有一个带有源代码的示例: http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm
【讨论】: