【问题标题】:Keep digits in Mallet topic modeling在 Mallet 主题建模中保留数字
【发布时间】:2015-06-05 17:35:59
【问题描述】:

我正在使用 Mallet 进行主题建模。我的输入文本中的大量单词包括字母和数字;例如,A54、D892。我刚刚注意到 Mallet 会自动删除数字,只保留单词中的字母。导入文本文件时,我什至不使用 --remove-stopwords 选项。有谁知道我该如何解决这个问题。

【问题讨论】:

    标签: nlp topic-modeling mallet


    【解决方案1】:

    bin/mallet import-dir 有一个选项--token-regex,它决定接受什么作为单词的一部分。以下两种选择之一可能适合您的需要:[\p{L}\p{D}]+ 接受任何字母和数字的组合; \p{L}[\p{L}\p{D}]* 接受以字母开头的字母数字字符串。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多