【发布时间】:2016-01-13 01:08:13
【问题描述】:
import java.io.*;
import java.util.ArrayList;
import java.util.List;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;
public class TagText {
public static void main(String[] args) throws IOException, ClassNotFoundException {
// Initializing the tagger
MaxentTagger tagger = new MaxentTagger("taggers/english-left3words-distsim.tagger");
List<String> lines = new ArrayList<>();
lines = new ReadCSV().readColumn("Tt2.csv", 4);
for (String line : lines) {
String tagged = tagger.tagString(line);
System.out.println(tagged);
}
}
}
我正在尝试解析 CSV 文件,并且我有一个字符 (BIN 10010111, —) 值,我希望文本解析器忽略该字符。我该怎么做?
【问题讨论】:
-
10010111bis0x97is decimal151-- Em dash 的“扩展”ASCII 码,但在 Java 使用的 Unicode 中,0x97 在C1 control char range 和正确的 unicode char 是 U+2014 - 如果您不删除普通破折号,则无需删除 em-dash,但您必须使用正确的编码(可能是 iso -8859-1) 或阅读后翻译 (0x97 -> 0x2014)。我有一种方法可以将 C0 + C1 范围转换为正确的 unicode。见stackoverflow.com/questions/631406
标签: java csv pos-tagger