【问题标题】:Keras IMDB dataset load_data functionKeras IMDB 数据集 load_data 函数
【发布时间】:2020-08-28 07:59:47
【问题描述】:

谁能举例说明tf.keras.datasets.imdb.load_data()如何将评论转化为索引。

num_words, index_start 参数有什么作用? 我已阅读文档,无法理解。

【问题讨论】:

    标签: tensorflow keras deep-learning nlp


    【解决方案1】:

    文档位于此处

    https://www.tensorflow.org/api_docs/python/tf/keras/datasets/imdb/load_data

    它声明“num_words 整数或无。单词按它们出现的频率排列(在训练集中),并且只保留 num_words 最频繁的单词。任何不太频繁的单词将在序列数据中显示为 oov_char 值。如果无,保留所有单词。默认为无,因此保留所有单词。"

    我刚刚花了很长时间想出一些类似但不相关的东西。

    有时在您试图找出的部分旁边搜索 cmets 的代码会有所帮助。此外,您可以找到关键字 = other-keyword 之类的内容,然后查看其他关键字就是答案。

    我快速查看了 Keras IMDb 代码,并且在该示例上使用了相同的方法,不确定它是否与您看到的相同 IMDb Keras 示例,因为许多人以多种方式使用数据集。

    num_words 通常根据排名靠前的单词数给出 10,000 个您正在训练的单词。

    #num_words would be equal to top 10000 words
    
    top_words = 10000
    (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                          num_words=top_words
    
    # INDEX_START as first element in sequence (keras convention)
    
    
    INDEX_START=1
    
    def preprocess_imdb(review):
        # clean and tokenize
        words_list = text_to_word_sequence(review)
        # init array
        words_index_list = []
        # INDEX_START as first element in sequence (keras convention)
        words_index_list.append(INDEX_START)
        #words_index_list[0] = INDEX_START
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-05-30
      • 2019-12-19
      • 1970-01-01
      • 2021-04-12
      • 2017-08-06
      • 2020-01-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多