【发布时间】:2020-11-19 21:55:32
【问题描述】:
https://www.tensorflow.org/tutorials/estimator/linear
我正在按照 Tensorflow 文档来实现线性分类器,但我喜欢使用自己的数据而不是教程集。我只是有几个一般性问题。
我的数据集如下。这不是时间序列。
row[0] - 浮点数(更改为二进制,0 = 负数,1 = 正数)估计值
row[1] - 字符串(分类,改为词汇表,整数 1,2,3,4,5,6,7,8,9)
row[2-19] - 浮点数(正负)
row[20-60] - 整数(百分位数,整数 10,20,30,40,50,60,70,80,90)
row[61-95] - 整数(二进制 1, 0)
我首先使用 50k(45k 训练)行数据和 num_epochs=100,batch_size=256。
{'accuracy': 0.8912, 'accuracy_baseline': 0.8932, 'auc': 0.7101819, 'auc_precision_recall': 0.2830853, 'average_loss': 0.30982444, 'label/mean': 0.1068, 'loss': 0.31013006, 'precision': 0.4537037, 'prediction/mean': 0.11840516, 'recall': 0.0917603, 'global_step': 17600}
-
我要估计的列是否需要是此模型的二进制列?
-
像这样混合数据类型是个坏主意吗?是否有必要使用
preprocessing.Normalization ?之类的东西来规范化数据 -
如果我想使用更多数据,是否应该更改 epochs/batch?
-
准确率似乎很高,但损失也似乎很高,这是为什么呢?
-
还有其他建议吗?
感谢您的任何帮助或建议。
【问题讨论】:
-
尽量少问一些问题,并改写它们以提出客观的问题,而不是偏离主题的主观问题。
标签: python tensorflow