【问题标题】:Regex to remove stop-words between two words正则表达式删除两个单词之间的停用词
【发布时间】:2013-12-02 21:43:42
【问题描述】:

我有一组名为“停用词”的词。现在我需要匹配两个单词,但在这些单词之间可以出现一个空格或一组“停用词”中的单词,例如“动力能源”、“能源的动力”、“能源的动力”、“能源的动力”。 在停用词集中还有“for, of, the, ...”

我想获得没有停用词的“能量能量”。有可能吗?

【问题讨论】:

  • 不清楚,但我猜你想在 to words 之间搜索一个单词 ..???
  • 不是很清楚,你能举个例子告诉哪些是i/p,哪些是o/p?
  • 您想从文本中删除停用词吗?
  • 是的,我想删除停用词
  • 我更新了答案以删除第一个和最后一个单词之间的所有单词

标签: java regex stop-words


【解决方案1】:

java 的简单 replaceAll() 可以解决问题:)

public class Replace {
public static void main(String[] args) {
String s="power of the world";
s=s.replaceAll("of|the|", "");
s=s.replaceAll("( )+", " ");
System.out.println(s);
}
}

【讨论】:

    【解决方案2】:

    查找子字符串将起作用。这将以

    形式格式化任何短语

    Word(停用词)+ EndwordWord Endword

     String power = "power of energy";
     String[] toks = power.split("[\\s]+"); // in case of extra space between words.
    
     String removed = 
            power.substring(power.indexOf(toks[0]), power.indexOf(toks[0])
                                                        + toks[0].length())
            + " " + power.substring(power.indexOf(toks[toks.length - 1]), power.indexOf(toks[toks.length - 1 ]) 
                                                        + toks[toks.length - 1].length());
    
    System.out.println(removed);
    

    输出:电能

    方法

    public static String removeStopWord(String phrase){
        String[] toks = phrase.split("[\\s]+");
    
        String removed = 
            phrase.substring(phrase.indexOf(toks[0]), phrase.indexOf(toks[0])
                                                        + toks[0].length())
            + " " + phrase.substring(phrase.indexOf(toks[toks.length - 1]), phrase.indexOf(toks[toks.length - 1]) 
                                                        + toks[toks.length - 1].length());
        return removed;
    }
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-06-09
      • 2020-09-03
      • 1970-01-01
      • 1970-01-01
      • 2021-01-06
      • 1970-01-01
      • 1970-01-01
      • 2021-08-07
      相关资源
      最近更新 更多