【发布时间】:2011-01-18 01:11:49
【问题描述】:
我正在尝试构建一个应用程序来检测来自网页的广告图像。一旦我检测到这些,我将不允许它们显示在客户端。
根据我在 this Stackoverflow question 上获得的帮助,我认为 SVM 是实现目标的最佳方法。
所以,我自己编写了 SVM 和 SMO。我从 UCI 数据存储库获得的数据集有 3280 个实例 (Link to Dataset),其中大约 400 个来自代表广告图像的类,其余代表非广告图像。
现在我正在获取前 2800 个输入集并训练 SVM。但在查看准确率后,我意识到这 2800 个输入集中的大多数来自非广告图像类。因此,我在该课程中获得了非常好的准确性。
那么我可以在这里做什么?我应该给 SVM 多少个输入集来训练,每个类有多少个?
谢谢。干杯。 (基本上提出了一个新问题,因为上下文与我之前的问题不同。Optimization of Neural Network input data)
感谢您的回复。 我想检查我是否正确地导出了广告和非广告类的 C 值。 请给我反馈。
或者您可以查看文档版本here。
您可以在此处查看 y1 eqaul 到 y2 的图表
这里 y1 不等于 y2
【问题讨论】:
标签: machine-learning classification svm training-data