我需要学习什么 python 库来抓取这个网站？ [关闭]答案

【问题标题】：What python library do I need to learn to scrape this website? [closed]我需要学习什么 python 库来抓取这个网站？ [关闭]
【发布时间】：2013-08-31 13:55:53
【问题描述】：

我想从以下网站下载所有周日填字游戏。

http://epaper.timesofindia.com/Default/Client.asp?skin=pastissues2&enter=LowLevel

我可以手动搜索“星期日填字游戏”并获得所需的所有结果。但结果都在 javascript 弹出窗口中打开。

http://epaper.timesofindia.com/Default/Scripting/SearchView.asp?skin=pastissues2&AppName=2&sPublication=TOIM&y=11&Content=ALL&sQuery=SUNDAY+CROSSWORD&sScope=P&x=13&ContentType=on&sSorting=IssueDateID%2Casc&sLanguage=en&Offset=1

我需要学习/使用什么 Python 库来处理此类问题？

我知道 urllib 的基本知识。可以用于此特定目的吗？

我是一个相对较新的程序员，不太了解网络技术。因此，任何有关阅读哪些资源的建议都会有所帮助。

【问题讨论】：

网站上打不开JS弹窗，可能是需要认证？
我很想看看你在这个问题上得到了什么答案。对于一个适用于 html 内容的简单网络爬虫/爬虫，我在这里有一些代码：pastebin.com/q1NEdLJ6。但是，我认为这不适用于 javascript 弹出窗口。
@alecxe 不需要身份验证。这是一家名为《印度时报》的印度日报的电子报纸的档案页面。因此，我假设我有权利刮掉它。但是，访问内容不需要身份验证。
Selenium 不处理 javascript 吗？不久前这里有一个与 javascript web crawling 类似的问题。

标签： python web-scraping

【解决方案1】：

Selenium 将是一个很好的工具。由于它驱动一个真正的浏览器，它可以处理 JavaScript 弹出窗口。

这里是文档的链接：https://selenium-python.readthedocs.org/en/latest/getting-started.html

还有一些视频教程：

http://pyvideo.org/search?models=videos.video&q=selenium

【讨论】：