Keras IMDB 数据集 load_data 函数答案

【问题标题】：Keras IMDB dataset load_data functionKeras IMDB 数据集 load_data 函数
【发布时间】：2020-08-28 07:59:47
【问题描述】：

谁能举例说明tf.keras.datasets.imdb.load_data()如何将评论转化为索引。

num_words, index_start 参数有什么作用？我已阅读文档，无法理解。

【问题讨论】：

标签： tensorflow keras deep-learning nlp

【解决方案1】：

文档位于此处

https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb/load_data

它声明“num_words 整数或无。单词按它们出现的频率排列（在训练集中），并且只保留 num_words 最频繁的单词。任何不太频繁的单词将在序列数据中显示为 oov_char 值。如果无，保留所有单词。默认为无，因此保留所有单词。"

我刚刚花了很长时间想出一些类似但不相关的东西。

有时在您试图找出的部分旁边搜索 cmets 的代码会有所帮助。此外，您可以找到关键字 = other-keyword 之类的内容，然后查看其他关键字就是答案。

我快速查看了 Keras IMDb 代码，并且在该示例上使用了相同的方法，不确定它是否与您看到的相同 IMDb Keras 示例，因为许多人以多种方式使用数据集。

num_words 通常根据排名靠前的单词数给出 10,000 个您正在训练的单词。

#num_words would be equal to top 10000 words

top_words = 10000
(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=top_words

# INDEX_START as first element in sequence (keras convention)


INDEX_START=1

def preprocess_imdb(review):
    # clean and tokenize
    words_list = text_to_word_sequence(review)
    # init array
    words_index_list = []
    # INDEX_START as first element in sequence (keras convention)
    words_index_list.append(INDEX_START)
    #words_index_list[0] = INDEX_START

【讨论】：