【问题标题】:What python library do I need to learn to scrape this website? [closed]我需要学习什么 python 库来抓取这个网站? [关闭]
【发布时间】:2013-08-31 13:55:53
【问题描述】:

我想从以下网站下载所有周日填字游戏。

http://epaper.timesofindia.com/Default/Client.asp?skin=pastissues2&enter=LowLevel

我可以手动搜索“星期日填字游戏”并获得所需的所有结果。但结果都在 javascript 弹出窗口中打开。

http://epaper.timesofindia.com/Default/Scripting/SearchView.asp?skin=pastissues2&AppName=2&sPublication=TOIM&y=11&Content=ALL&sQuery=SUNDAY+CROSSWORD&sScope=P&x=13&ContentType=on&sSorting=IssueDateID%2Casc&sLanguage=en&Offset=1

我需要学习/使用什么 Python 库来处理此类问题?

我知道 urllib 的基本知识。可以用于此特定目的吗?

我是一个相对较新的程序员,不太了解网络技术。因此,任何有关阅读哪些资源的建议都会有所帮助。

【问题讨论】:

  • 网站上打不开JS弹窗,可能是需要认证?
  • 我很想看看你在这个问题上得到了什么答案。对于一个适用于 html 内容的简单网络爬虫/爬虫,我在这里有一些代码:pastebin.com/q1NEdLJ6。但是,我认为这不适用于 javascript 弹出窗口。
  • @alecxe 不需要身份验证。这是一家名为《印度时报》的印度日报的电子报纸的档案页面。因此,我假设我有权利刮掉它。但是,访问内容不需要身份验证。
  • Selenium 不处理 javascript 吗?不久前这里有一个与 javascript web crawling 类似的问题。

标签: python web-scraping


【解决方案1】:

Selenium 将是一个很好的工具。由于它驱动一个真正的浏览器,它可以处理 JavaScript 弹出窗口。

这里是文档的链接:https://selenium-python.readthedocs.org/en/latest/getting-started.html

还有一些视频教程:

http://pyvideo.org/search?models=videos.video&q=selenium

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-01-08
    • 2011-04-01
    • 1970-01-01
    • 2012-08-26
    • 1970-01-01
    • 1970-01-01
    • 2014-09-26
    相关资源
    最近更新 更多