【问题标题】:How to search internet with Python?如何使用 Python 搜索互联网?
【发布时间】:2013-04-03 21:54:23
【问题描述】:

我想编写一个程序来搜索一个相当大的网站并提取某些内容。我有几个在线 Python 课程,但都没有提到如何使用 Python 访问互联网。我不知道我应该从哪里开始。

【问题讨论】:

  • 您需要阅读有关 HTTP、HTML 和可能的 JS/PHP/等的内容,可能在列表中深入了解 DOM,然后了解文本解析/处理。查看 urllib/urllib2/httplib/requests/etc,以及 BeautifulSoup 甚至 Selenium 之类的东西,具体取决于您需要的复杂性和交互性。
  • 你看过the Python documentation吗?顺便说一下,Google 上“Python Internet”的第一个结果...

标签: python search


【解决方案1】:

你必须先阅读标准python库urllib2

一旦您对这个库背后的基本想法感到满意,您可以尝试requests,它更容易与网络交互,尤其是与 API 交互。我建议将它与httpie 并行使用,以从命令行快速和肮脏地测试查询。

如果您进一步构建一个库或引擎来抓取网络,您将需要某种异步编程,我建议您从Gevent开始

最后,如果你想创建一个爬虫/机器人,你可以看看Scrapy。但是,在深入研究这个库之前,您应该从基本库开始,因为它可能会变得非常复杂

【讨论】:

    【解决方案2】:

    听起来您想要一个网络爬虫/抓取工具。你想拉什么样的东西?图片?链接?只是网络爬虫/抓取工具的工作。

    从那里开始,Stackoverflow 上应该有很多文章可以帮助您实现连接到互联网(获取网络响应)等细节。

    参见this 文章。

    【讨论】:

      【解决方案3】:

      互联网上的内容远不止网站,但我假设您只想抓取一些 html 页面并从中提取数据。你有很多选择来解决这个问题。只是一些起点:

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-04-03
        • 1970-01-01
        • 1970-01-01
        • 2017-04-03
        • 1970-01-01
        • 2018-04-21
        相关资源
        最近更新 更多