【发布时间】:2017-06-14 16:28:37
【问题描述】:
我正在尝试使用 OpenNLP 对发票进行分类。根据它的描述,我将它分为两类。我已经建立了一个包含 20K 描述的训练文件,并将每个描述标记到正确的类中。
训练数据看起来像(第一列是代码,我用作类,第二列是发票说明):
85171231 IPHONE 5S CINZA ESPACIAL 16GB (ME432BZA)
85171231 Galaxy S6 SM-G920I
85171231 motorola - MOTO G5 XT1672
00000000 MOTONETA ITALIKA AT110
00000000 CJ BOX UNIBOX MOLA 138X57X188 VINHO
使用来自 OpenNLP 的 DocumentCategorizer,我获得了 98.5% 的正确率。但是,为了提高效率,我拿错了分类的文档,并用它来扩展训练数据。
例如,当我第一次运行它时,“MOTONETA ITALIKA AT110”被归类为“85171231”。没关系,因为在第一次运行时“MOTONETA ITALIKA AT110”没有被分类。所以,我教分类器明确地将“MOTONETA ITALIKA AT110”标记为“00000000”。
但是,再次运行它,OpenNLP 坚持将其分类为“85171231”,即使训练数据包含到“000000”的显式映射。
所以我的问题是:我是在教 OpenNLP wright 吗?如何提高效率?
我使用的代码是:
MarkableFileInputStreamFactory dataIn = new MarkableFileInputStreamFactory("data.train");
ObjectStream<String> lineStream = new PlainTextByLineStream(dataIn, StandardCharsets.UTF_8);
ObjectStream<DocumentSample> sampleStream = new DocumentSampleStream(lineStream);
TrainingParameters params = new TrainingParameters();
params.put(TrainingParameters.ITERATIONS_PARAM, "100");
params.put(TrainingParameters.CUTOFF_PARAM, "0");
DoccatModel model = DocumentCategorizerME.train("pt", sampleStream, params, new DoccatFactory());
DocumentCategorizer doccat = new DocumentCategorizerME(model);
double[] aProbs = doccat.categorize("MOTONETA ITALIKA AT110".replaceAll("[^A-Za-z0-9 ]", " ").split(" "));
doccat.getBestCategory(aProbs);
【问题讨论】: