【发布时间】:2020-08-28 07:59:47
【问题描述】:
谁能举例说明tf.keras.datasets.imdb.load_data()如何将评论转化为索引。
num_words, index_start 参数有什么作用? 我已阅读文档,无法理解。
【问题讨论】:
标签: tensorflow keras deep-learning nlp
谁能举例说明tf.keras.datasets.imdb.load_data()如何将评论转化为索引。
num_words, index_start 参数有什么作用? 我已阅读文档,无法理解。
【问题讨论】:
标签: tensorflow keras deep-learning nlp
文档位于此处
https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb/load_data
它声明“num_words 整数或无。单词按它们出现的频率排列(在训练集中),并且只保留 num_words 最频繁的单词。任何不太频繁的单词将在序列数据中显示为 oov_char 值。如果无,保留所有单词。默认为无,因此保留所有单词。"
我刚刚花了很长时间想出一些类似但不相关的东西。
有时在您试图找出的部分旁边搜索 cmets 的代码会有所帮助。此外,您可以找到关键字 = other-keyword 之类的内容,然后查看其他关键字就是答案。
我快速查看了 Keras IMDb 代码,并且在该示例上使用了相同的方法,不确定它是否与您看到的相同 IMDb Keras 示例,因为许多人以多种方式使用数据集。
num_words 通常根据排名靠前的单词数给出 10,000 个您正在训练的单词。
#num_words would be equal to top 10000 words
top_words = 10000
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
num_words=top_words
# INDEX_START as first element in sequence (keras convention)
INDEX_START=1
def preprocess_imdb(review):
# clean and tokenize
words_list = text_to_word_sequence(review)
# init array
words_index_list = []
# INDEX_START as first element in sequence (keras convention)
words_index_list.append(INDEX_START)
#words_index_list[0] = INDEX_START
【讨论】: