【发布时间】:2012-10-23 19:44:27
【问题描述】:
我希望使用 Python 从我大学的 Intranet 中抓取一些数据并下载所有研究论文。我以前看过 Python 抓取,但我自己并没有真正做过任何事情我确定我在某处读到过 Python 抓取框架,我应该使用它吗?
所以本质上这就是我需要抓取的内容:
- 作者
- 说明
- 字段
- 然后下载文件并用论文名称重命名。
然后我会将所有这些都放在 xml 或数据库中,很可能是 xml,然后在以后开发接口等。
这可行吗?关于我应该从哪里开始的任何想法?
提前致谢, 卢克詹克斯
编辑:框架是 Scrapy
编辑:原来我今天差点杀死服务器,所以一位讲师正在为我从网络团队获取副本...谢谢!
【问题讨论】:
-
当然,这是可行的。我会使用urllib2 之类的东西来下载页面,然后使用python 的regular expression module re 来提取您需要的字段。 (您也可以使用一些 XML 解析器,但我发现当 html 不是正确的 XML 时使用正则表达式更容易)。对于数据库,除非我需要提供“外部”访问权限,否则我可能只是 pickle 数据结构并保存到文件中。
-
页面是否使用javascript生成您感兴趣的数据?
-
我相信这些页面都在 php 中,并且所有数据都是从数据库中检索的。我现在无法访问该网站(我在家),所以我无法确认。
标签: python xml web download screen-scraping