【问题标题】:scrape the about page of websites with Python [closed]用 Python 抓取网站的 about 页面 [关闭]
【发布时间】:2012-07-27 07:22:04
【问题描述】:

我希望从一些网站上抓取一些内容进行研究,我希望使用 python 和网络抓取可以加快我的进程。我之前在一个小项目中使用过 python 和 beautiful soup 将 xml 从一种格式转换为另一种格式。

【问题讨论】:

  • 我在这里没有看到问题。如果你只是在寻找一个刮刀,scrapy 相当不错。
  • 我不同意解决问题的唯一方法是直接介入并开始胡闹。尤其是编码,因为它很容易迷失在技术上。你建议的那个网站的缺陷,虽然我完全同意通过实践学习非常重要,但研究和理论也很重要。必须有一个平衡。我不是要您为我提供解决方案,只是像下面回答的人一样给我一些指示。不过有趣的链接。
  • 全部正确,但这确实使您的问题不适合 Stack Overflow,请参阅 FAQ。该网站最适合解决实际问题,即您在完成研究并选择方法后遇到的问题。
  • 好的,谢谢。将来会牢记这一点。

标签: python


【解决方案1】:

根据您要提取的数据结构的冗余程度,您可以使用多种工具。

  • 如果您要提取始终存储在相同 DOM 结构中的数据,Scrapy 可以胜任。
  • 如果数据稀疏并且存储在不同的地方,也许BeautfulSoup4lxml 可以帮助你。
  • 如果数据是一些JS代码生成的,请看Selenium

以下是一些您可能会觉得有用的资源:

【讨论】:

  • 谢谢,这些很有用
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2016-07-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-09-26
  • 1970-01-01
相关资源
最近更新 更多