【发布时间】:2019-02-12 22:23:24
【问题描述】:
我有一个数据框,其中第一行的列标题包含以下文本:
Use of hydrocolloids as cryoprotectant for frozen foods
使用此代码:
vocabulary_size = 1000
tokenizer = Tokenizer(num_words=vocabulary_size)
tokenizer.fit_on_texts(df['Title'])
sequences = tokenizer.texts_to_sequences(df['Title'])
print(sequences[0])
我得到这个序列:
[57, 1, 21, 7]
使用这个:
index_word = {v: k for k, v in tokenizer.word_index.items()}
print(index_word[57])
print(index_word[1])
print(index_word[21])
print(index_word[7])
我得到:
use
of
as
for
这是有道理的,因为这些是更常见的词。是否也可以使用标记器将标记化基于tf–idf?
增加词汇量大小也会标记不太常见的单词,例如:
hydrocolloids
我打算在下游使用 glove 进行分类任务。保持频繁使用从而可能减少歧视性的词语是否有意义,例如:
use
在吗?也许是的,因为 glove 也会查看上下文,这与我过去使用的词袋方法形成对比。这里 tf–idf 有意义。
【问题讨论】:
标签: python python-3.x keras nlp