【问题标题】:Machine learning to understand website structure in Python机器学习以理解 Python 中的网站结构
【发布时间】:2011-10-22 18:15:23
【问题描述】:

我一直致力于抓取网页并提取网站的元素。 前任: 给定一个网站 - 爬虫应返回以下部分:页眉、菜单、页脚、内容等。

我在想,如果我可以使用机器学习来训练代码来学习如何对网站进行分类,那就太好了。

我尝试查看 Python 机器学习库(例如:PyBrain),但示例非常复杂。 谁能给我推荐一个库和一些关于如何开始使用 Python 机器学习和一些简单示例的教程?

谢谢!

【问题讨论】:

    标签: machine-learning web-crawler pybrain


    【解决方案1】:

    MLPy 对您来说可能是一个更简单的开始。 这是documentation on classification 的链接。顺便说一句,如果你不知道类应该是什么样子,也许你需要cluster你的页面,而不是对它们进行分类。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-05-06
      • 2017-02-01
      • 2015-10-23
      • 2017-03-03
      • 2019-05-14
      • 2017-04-06
      • 2021-05-09
      • 1970-01-01
      相关资源
      最近更新 更多