【发布时间】:2018-05-26 11:31:03
【问题描述】:
在《TensorFlow Machine Learning Cookbook》这本书的第七章中,作者在预处理数据时使用了 scikit-learn 的fit_transform 函数来获取文本的tfidf 特征进行训练。作者将所有文本数据提供给函数,然后将其分为训练和测试。这是一个真正的动作还是我们必须先分离数据,然后在火车上执行fit_transform,在测试上执行transform?
【问题讨论】:
-
在这种情况下,总是想在现实世界的问题中应该做什么。在那里,您将所有可用数据视为训练,将新的看不见的数据视为测试。现在,由于在这种情况下将无法获得测试数据,您会怎么做。将可用数据拆分为训练和测试的过程是复制相同的。
-
@Vivek Kumar 是的,实际上你的意思是 fit_transform 对所有数据的方法是不正确的,因为我们没有在实际问题中测试数据。
-
是的。所以只对训练数据执行 fit() 或 fit_transform()。
标签: python machine-learning scikit-learn nlp tf-idf