【发布时间】:2015-09-15 14:14:48
【问题描述】:
我正在使用 stanfordCoreNLP 库的标记器作为我项目的一部分。对于以下字符串
abc def *ghi
它提供以下令牌abc,def,*ghi
但是,我希望在abc,def,*ghi 中包含星号。如何自定义 PBTTokenizer 来实现这一点?
【问题讨论】:
-
您能说明一下您得到了什么输出以及您希望达到什么输出吗?
-
'abc def ghi' -> present output: 'abc',def','','ghi' 我希望 * 与 'ghi' 即'abc ','def','*ghi'
标签: tokenize stanford-nlp