用 Python 抓取网站的 about 页面 [关闭]

【问题标题】：scrape the about page of websites with Python [closed]用 Python 抓取网站的 about 页面 [关闭]
【发布时间】：2012-07-27 07:22:04
【问题描述】：

我希望从一些网站上抓取一些内容进行研究，我希望使用 python 和网络抓取可以加快我的进程。我之前在一个小项目中使用过 python 和 beautiful soup 将 xml 从一种格式转换为另一种格式。

【问题讨论】：

我在这里没有看到问题。如果你只是在寻找一个刮刀，scrapy 相当不错。
我不同意解决问题的唯一方法是直接介入并开始胡闹。尤其是编码，因为它很容易迷失在技术上。你建议的那个网站的缺陷，虽然我完全同意通过实践学习非常重要，但研究和理论也很重要。必须有一个平衡。我不是要您为我提供解决方案，只是像下面回答的人一样给我一些指示。不过有趣的链接。
全部正确，但这确实使您的问题不适合 Stack Overflow，请参阅 FAQ。该网站最适合解决实际问题，即您在完成研究并选择方法后遇到的问题。
好的，谢谢。将来会牢记这一点。

标签： python

【解决方案1】：

根据您要提取的数据结构的冗余程度，您可以使用多种工具。

如果您要提取始终存储在相同 DOM 结构中的数据，Scrapy 可以胜任。
如果数据稀疏并且存储在不同的地方，也许BeautfulSoup4 或lxml 可以帮助你。
如果数据是一些JS代码生成的，请看Selenium

以下是一些您可能会觉得有用的资源：

PyCon 2012 网页抓取教程：http://pyvideo.org/video/609/web-scraping-reliably-and-efficiently-pull-data/
http://isbullsh.it/2012/04/Web-crawling-with-scrapy/（完全披露，我写的）
http://www.packtpub.com/article/web-scraping-with-python
http://wwwsearch.sourceforge.net/mechanize/

【讨论】：

谢谢，这些很有用

猜你喜欢

1970-01-01
1970-01-01
2016-07-16
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2017-09-26
1970-01-01

相关资源

下载 2023-03-12
下载 2023-01-28
下载 2021-06-06
下载 2023-01-01

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode