【发布时间】:2013-08-31 13:55:53
【问题描述】:
我想从以下网站下载所有周日填字游戏。
http://epaper.timesofindia.com/Default/Client.asp?skin=pastissues2&enter=LowLevel
我可以手动搜索“星期日填字游戏”并获得所需的所有结果。但结果都在 javascript 弹出窗口中打开。
我需要学习/使用什么 Python 库来处理此类问题?
我知道 urllib 的基本知识。可以用于此特定目的吗?
我是一个相对较新的程序员,不太了解网络技术。因此,任何有关阅读哪些资源的建议都会有所帮助。
【问题讨论】:
-
网站上打不开JS弹窗,可能是需要认证?
-
我很想看看你在这个问题上得到了什么答案。对于一个适用于 html 内容的简单网络爬虫/爬虫,我在这里有一些代码:pastebin.com/q1NEdLJ6。但是,我认为这不适用于 javascript 弹出窗口。
-
@alecxe 不需要身份验证。这是一家名为《印度时报》的印度日报的电子报纸的档案页面。因此,我假设我有权利刮掉它。但是,访问内容不需要身份验证。
-
Selenium 不处理 javascript 吗?不久前这里有一个与 javascript web crawling 类似的问题。
标签: python web-scraping