【发布时间】:2016-07-12 20:39:04
【问题描述】:
我正在使用 OpenNLP java 将字符串转换为标记。但是,我发现无法正确识别圆括号。
我正在使用的代码: `
InputStream is = new FileInputStream("en-token.bin");
TokenizerModel model = new TokenizerModel(is);
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize("the string");`
例如,字符串是“像我这样的人(正在)关闭新闻”。
输出是:
people
like
me
(are
)
turning
off
the
news
“are”的左圆括号未识别。此外,例如,“401(k)”被转换为“401(k”和“)”。
我也试过“SimpleTokenizer”类。它可以分隔括号,但也可以将“首页”与“前”和“页面”分开,这不是我想要的。
请问有什么解决办法吗?
谢谢。
【问题讨论】: