【发布时间】:2021-01-30 18:42:21
【问题描述】:
我正在尝试为一个单词获取 1,2,3 克后缀并将它们用作我的模型中的特征。
例子,
word = "Apple"
1 gram suffix = 'e'
2 gram suffix = 'le'
3 gram suffix = 'ple'
我在 sklearn 中使用了 CountVectorizer 和 ngram_range=(1,3),但这给出了所有 n 克。我只需要 n gram 后缀。
我该怎么做?
另外,我是 NLP 新手,不知道如何在我的 ML 模型中使用这些 n 克作为特征。如何将这些“字符串”n-gram 特征转换为某种数字表示,以便在我的模型中使用它们。
有人可以帮帮我吗?
【问题讨论】:
标签: python machine-learning scikit-learn nlp n-gram