【问题标题】:How to customize stanfordNLP tokenizer to ignore asterisk character?如何自定义 stanfordNLP 标记器以忽略星号字符?
【发布时间】:2015-09-15 14:14:48
【问题描述】:

我正在使用 stanfordCoreNLP 库的标记器作为我项目的一部分。对于以下字符串 abc def *ghi 它提供以下令牌abc,def,*ghi 但是,我希望在abc,def,*ghi 中包含星号。如何自定义 PBTTokenizer 来实现这一点?

【问题讨论】:

  • 您能说明一下您得到了什么输出以及您希望达到什么输出吗?
  • 'abc def ghi' -> present output: 'abc',def','','ghi' 我希望 * 与 'ghi' 即'abc ','def','*ghi'

标签: tokenize stanford-nlp


【解决方案1】:

请看我对这个问题的回答:

How to set delimiters for PTB tokenizer?

您可以将标记器设置为仅在空白处标记:

(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-02-27
    • 2016-01-10
    • 1970-01-01
    • 1970-01-01
    • 2019-01-14
    • 2022-01-08
    • 1970-01-01
    相关资源
    最近更新 更多