【问题标题】:HTML Parser to extract text out of the body (in java)HTML Parser 从正文中提取文本(在 java 中)
【发布时间】:2012-10-22 14:47:09
【问题描述】:

我正在从事这个项目,该项目需要我对从网页获得的文本进行一些文本处理。 现在,这样做的第一步是让我找到一个解析器,它可以提取所需的正文文本而忽略冗余信息。我不确定我会怎么做,因为我对编程非常陌生。我真的很感激我能得到的任何帮助。 提前致谢

【问题讨论】:

标签: java html html-parsing


【解决方案1】:

我发现这个 html 解析器非常有用。它还提供了一个示例示例。 http://jericho.htmlparser.net/docs/index.html

【讨论】:

    【解决方案2】:

    我现在正在使用 HTMLParser 进行此操作,可在 Sourceforge 获得: http://sourceforge.net/projects/htmlparser/

    看起来非常简单明了,但是由于您声称自己是新手,因此这里有一个带有源代码的示例: http://kickjava.com/src/org/htmlparser/parserapplications/StringExtractor.java.htm

    【讨论】:

      猜你喜欢
      • 2010-11-26
      • 2010-11-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-04-11
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多