【问题标题】:Retrieve text from html file in java从java中的html文件中检索文本
【发布时间】:2012-03-26 18:02:21
【问题描述】:

我想从java中的html文件中获取文本

我的html 文件是:

<body>

<p>vishal</p>
<strong>patel</strong>
<bold >vishal patel

我想这样输出

vishal 

patel

vishal patel

请帮帮我怎么做

【问题讨论】:

标签: java


【解决方案1】:

最好使用html Parser....我更喜欢使用JSoup parser(opensource package)....

import org.jsoup.Jsoup;
public class HTMLUtils {

    public static String extractText(Reader reader) throws IOException {
        StringBuilder sb = new StringBuilder();
        BufferedReader br = new BufferedReader(reader);
        String line;
        while ((line = br.readLine()) != null) {
            sb.append(line);
        }
        String textOnly = Jsoup.parse(sb.toString()).text();
        return textOnly;
    }

    public final static void main(String[] args) throws Exception {
        FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html");
        System.out.println(HTMLUtils.extractText(reader));
    }
}

【讨论】:

    【解决方案2】:

    我使用了一个名为 JSoup 的库。
    从 HTML 文件中检索纯文本部分非常简单。
    很简单:

    Jsoup.parse(html).text();
    

    为您提供 HTML 文件中的文本

    【讨论】:

    • 我想要三个不同的文本,以便我存储在字符串数组中但是 jsoup 只给我一个文本...
    • @user1206635 哥们,你得自己试试。
    • @user1206635 JSoup 为您提供文本,您必须完成其余的工作。 Nishant,为你 +1!
    • @Vishal Android 开发人员 JSoup 有许多选择器来处理标签。您可以参考页面jsoup.org/cookbook/extracting-data/selector-syntax 来检查最适合您的。
    猜你喜欢
    • 1970-01-01
    • 2015-02-19
    • 1970-01-01
    • 1970-01-01
    • 2023-03-25
    • 2021-02-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多