即使使用训练数据，LIBSVM 也无法准确预测答案

【问题标题】：LIBSVM not predicting accurately even using training data即使使用训练数据，LIBSVM 也无法准确预测
【发布时间】：2014-06-12 09:49:48
【问题描述】：

我有以下代码获取一组图像，每个训练集中大约 50 个图像，然后创建一个线性模型并尝试对数据进行分类。我也有一个测试集，但它甚至不能以任何准确度对训练数据进行分类。我加载图像的方式有什么错误吗？如果有帮助，我很乐意提供更多代码或我的输出。

def create_image_list(file_path):
    image_list = []
    for filename in glob.glob(file_path):
        img = Image.open(filename)
        img_resized = img.resize((32, 32), Image.ANTIALIAS)
        pix = img.load()
        pixlist = []
        for x in range(0, 32):
            for y in range(0,32):
                pixlist.append(pix[x,y][0])
                pixlist.append(pix[x,y][1])
                pixlist.append(pix[x,y][2])
        image_list.append(pixlist)
    return image_list

dalmation_training = create_image_list('/images/dalmatian/training/*')
dollabill_training = create_image_list('/images/dollar_bill/training/*')
pizza_training = create_image_list('/images/pizza/training/*')
soccer_ball_training = create_image_list('/images/soccer_ball/training/*')
sunflower_training = create_image_list('/images/sunflower/training/*')

c = '1e2'
testing_set = dalmation_training + dollabill_training + pizza_training + soccer_ball_training + sunflower_training

dalmation_y = [1]*len(dalmation_training ) + [-1]*len(dollabill_training) + [-1]*len(pizza_training) + [-1]*len(soccer_ball_training) + [-1]*len(sunflower_training)
dalmation_model_linear = svm_train(dalmation_y, testing_set, '-t 0 -c %s -b 1 -q' % c)

dollabill_y = [-1]*len(dalmation_training ) + [1]*len(dollabill_training) + [-1]*len(pizza_training) + [-1]*len(soccer_ball_training) + [-1]*len(sunflower_training)
dollabill_model_linear = svm_train(dollabill_y, testing_set, "-t 0 -c %s -b 1 -q" % c)

pizza_y = [-1]*len(dalmation_training ) + [-1]*len(dollabill_training) + [1]*len(pizza_training) + [-1]*len(soccer_ball_training) + [-1]*len(sunflower_training)
pizza_model_linear = svm_train(pizza_y, testing_set, "-t 0 -c %s -b 1 -q" % c)

soccer_ball_y = [-1]*len(dalmation_training ) + [-1]*len(dollabill_training) + [-1]*len(pizza_training) + [1]*len(soccer_ball_training) + [-1]*len(sunflower_training)
soccer_ball_model_linear = svm_train(soccer_ball_y, testing_set, "-t 0 -c %s -b 1 -q" % c)

sunflower_y = [-1]*len(dalmation_training) + [-1]*len(dollabill_training) + [-1]*len(pizza_training) + [-1]*len(soccer_ball_training) + [1]*len(sunflower_training)
sunflower_model_linear = svm_train(sunflower_y, testing_set, "-t 0 -c %s -b 1 -q" % c)

print 'dalmation linear'
result1, something, p1 = svm_predict([1]*len(testing_set), testing_set, dalmation_model_linear, "-b 1")
print 'dollabill linear'
result2, something, p2 = svm_predict([1]*len(testing_set), testing_set, dollabill_model_linear, "-b 1")
print 'pizza linear'
result3, something, p3 = svm_predict([1]*len(testing_set), testing_set, pizza_model_linear, "-b 1")
print 'soccer linear'
result4, something, p4 = svm_predict([1]*len(testing_set), testing_set, soccer_ball_model_linear, "-b 1")
print 'sunflower linear'
result5, something, p5 = svm_predict([1]*len(testing_set), testing_set, sunflower_model_linear, "-b 1")

当我运行此程序并运行一些准确度测量时，每次使用最后一个数据集的准确度都在 20% 左右，向日葵的准确度接近 100%，其他的接近 5%。我相信我将它放在 libsvm 的正确格式中，但我找不到任何线索。我已经尝试过从 1e-8 到 1e8 的 c 值可能不同，并且每个值的准确度都略有不同，不超过 5%。

任何意见将不胜感激，我很乐意提供更多信息！

【问题讨论】：

我得到的一个奇怪的输出是警告：只要我的 c 大于 1e-1，就会达到最大迭代次数

标签： python machine-learning svm libsvm

【解决方案1】：

您在设计中做了一个很大的假设，即“多个类的每个样本中所有像素的 RGB 像素值创建了线性可区分的独特模式”。根据我的经验，这是不正确的。大多数使用 SVM 处理图像分类问题的人在图像中寻找比纯 RGB 或强度值更高级别的特征（例如边缘、角等），并且已经有几种已知技术在提取有用特征方面效果相对较好（例如HOG 用于行人检测）。 这是迄今为止您的代码最大的问题，尽管您可能认为接下来的三个部分更好地回答了您关于准确性问题的问题。
您的负训练集大约是正训练集的 4 倍。默认情况下，Libsvm 在训练中不能很好地处理这种偏差，从而导致超平面严重倾斜。无论如何，您当前的所有 SVM 模型很可能对所有测试样本都返回 -1。每当准备训练集时，通过随机选择一些负样本来调整负样本的数量以几乎匹配正样本的数量。
您的测试设计不正确。您将整个testing_set 列表传递给svm_predict，对于真正的标签，您传递[1]*len(testing_set)，这是不正确的。对于dalmation模型，真实的类值应该是之前计算的dalmation_y。
请记住，您在这里所做的是“测试训练样本的准确度”，这不是一种完全可以接受的准确度测量方法。相反，您需要将整个样本集分成训练和测试——甚至更好地分成训练、验证、测试三个部分——其中训练大约是测试集的 3-4 倍，然后使用训练来训练模型在测试集上设置和测试。

【讨论】：