【发布时间】:2011-12-01 01:51:26
【问题描述】:
我想构建一个 web 应用程序来帮助我大学的其他学生创建他们的日程安排。为此,我需要将主课程表(一个巨大的 html 页面)以及指向每门课程的详细描述的链接抓取到数据库中,最好是在 python 中。另外,我需要登录才能访问数据。
- 这将如何运作?
- 我可以/应该使用哪些工具/库?
- 有这方面的好教程吗?
- 如何最好地处理二进制数据(例如漂亮的 pdf)?
- 是否已经有很好的解决方案?
【问题讨论】:
标签: python web-crawler