【问题标题】:Removing HTML tags from a column in an excel file using java使用java从e​​xcel文件中的列中删除HTML标签
【发布时间】:2017-04-19 17:11:25
【问题描述】:

我正在使用 java 代码从文本文件中删除 HTML 标记。但我的要求是,我想使用 java 访问一个 excel 文件,并从特定列的每一行中删除 HTML 标签。如何使用 javascript 访问 excel 文件以及如何将我的 java 代码(删除 HTML 标记)集成到该文件中......

import java.io.*;
import java.util.logging.Logger;
public class Html2TextWithRegExp {

    private Html2TextWithRegExp() {}

    public static void main (String[] args) throws Exception{
        StringBuilder sb = new StringBuilder();
        BufferedReader br = new BufferedReader(new FileReader("java-new.txt"));
        String line;
        while ( (line=br.readLine()) != null) {
            sb.append(line);
        }
        String nohtml = sb.toString().replaceAll("\\<.*?>","");
        System.out.println(nohtml);
        try(  PrintWriter out = new PrintWriter( "nohtml.txt" )){
            out.println( nohtml );
        }
    }
}

【问题讨论】:

    标签: java html excel loops tableau-api


    【解决方案1】:

    您可以使用jsoup。然后你可以这样做:

    String noHTML = Jsoup.parse(sb.toString()).text();
    

    不要使用正则表达式; HTML 不是一种常规语言,您不太可能处理所有必然会出现的特殊情况。

    我最近使用这种方法清理了一堆我用于机器学习任务的论坛帖子,并且效果很好。

    【讨论】:

    • 感谢您的回复@vivin。没关系。但我的要求是遍历 excel 表中特定列的每个单元格。有人可以帮我吗...
    • @ManinderDornala 抱歉;我误解了你的问题。你可以看看Apache POI
    猜你喜欢
    • 1970-01-01
    • 2013-11-21
    • 1970-01-01
    • 1970-01-01
    • 2017-07-23
    • 1970-01-01
    • 2011-05-24
    • 1970-01-01
    • 2020-12-27
    相关资源
    最近更新 更多