使用 sklearn 计数向量器获取 n gram 后缀答案

【问题标题】：Getting n gram suffix using sklearn count vectorizer使用 sklearn 计数向量器获取 n gram 后缀
【发布时间】：2021-01-30 18:42:21
【问题描述】：

我正在尝试为一个单词获取 1,2,3 克后缀并将它们用作我的模型中的特征。

例子，

word = "Apple"
 1 gram suffix = 'e'
 2 gram suffix = 'le'
 3 gram suffix = 'ple'

我在 sklearn 中使用了 CountVectorizer 和 ngram_range=(1,3)，但这给出了所有 n 克。我只需要 n gram 后缀。

我该怎么做？

另外，我是 NLP 新手，不知道如何在我的 ML 模型中使用这些 n 克作为特征。如何将这些“字符串”n-gram 特征转换为某种数字表示，以便在我的模型中使用它们。

有人可以帮帮我吗？

【问题讨论】：

标签： python machine-learning scikit-learn nlp n-gram

【解决方案1】：

你可以定义一个自定义的analyzer 来定义如何从输入中获取特征。对于您的情况，从单词中获取后缀的简单 lambda 函数就足够了：

from sklearn.feature_extraction.text import CountVectorizer

word = ["Orange","Apple", "I"]
n=3
vect = CountVectorizer(analyzer=lambda x: (x[-i-1:] for i in range(0,min(n,len(x)))))
mat = vect.fit_transform(word).todense()

现在，如果我们从生成的矢量化矩阵构造一个数据框：

pd.DataFrame(mat, columns=vect.get_feature_names())

   I  e  ge  le  nge  ple
0  0  1   1   0    1    0
1  0  1   0   1    0    1
2  1  0   0   0    0    0

【讨论】：

好点 @SergeyBushmanov 已更新，现在应该适用于少于 3 个字符的单词
@yatu 除了 1、2、3 克之外，我还有另外两个特征，即单词的长度以及单词的最后一个字母是否为元音。我有一个目标变量，它是一个二进制目标。我习惯了常规的 ML，但 NLP 对我来说还是很新的，我无法将这些功能映射到我的目标列并训练它们。你能把我引向正确的方向吗？非常感谢！