【发布时间】:2017-07-17 18:01:24
【问题描述】:
这个问题部分被问到here 和here 没有后续行动,所以也许这不是问这个问题的地方,但我想出了更多的信息,我希望可能得到这些问题的答案。
我一直在尝试在我自己的大约 1k 张照片库上训练 object_detection。我一直在使用提供的管道配置文件“ssd_inception_v2_pets.config”。 我相信我已经正确设置了训练数据。该程序似乎开始训练就好了。当它无法读取数据时,它会发出错误警报,我修复了它。
我的 train_config 设置如下,但我更改了一些数字以尝试让它以更少的资源运行。
train_config: {
batch_size: 1000 #also tried 1, 10, and 100
optimizer {
rms_prop_optimizer: {
learning_rate: {
exponential_decay_learning_rate {
initial_learning_rate: 0.04 # also tried .004
decay_steps: 800 # also tried 800720. 80072
decay_factor: 0.95
}
}
momentum_optimizer_value: 0.9
decay: 0.9
epsilon: 1.0
}
}
fine_tune_checkpoint: "~/Downloads/ssd_inception_v2_coco_11_06_2017/model.ckpt" #using inception checkpoint
from_detection_checkpoint: true
data_augmentation_options {
random_horizontal_flip {
}
}
data_augmentation_options {
ssd_random_crop {
}
}
}
基本上,我认为正在发生的事情是计算机很快就会资源匮乏,我想知道是否有人进行了优化,需要更多时间来构建但使用更少的资源?
或者我错了为什么进程被杀死,有没有办法让我从内核中获取更多信息?
这是我在进程被杀死后得到的Dmesg信息。
[711708.975215] Out of memory: Kill process 22087 (python) score 517 or sacrifice child
[711708.975221] Killed process 22087 (python) total-vm:9086536kB, anon-rss:6114136kB, file-rss:24kB, shmem-rss:0kB
【问题讨论】:
标签: tensorflow linux-kernel protocol-buffers object-detection training-data