【问题标题】:Writing a web crawler using python twisted使用 python twisted 编写网络爬虫
【发布时间】:2015-06-19 06:04:09
【问题描述】:

我正在使用Twisted 编写一个由Selenium 驱动的网络爬虫。这个想法是我为一个扭曲的客户端和一个扭曲的服务器生成扭曲的线程,它将代理 HTTP 请求到服务器。看起来像这样的东西:

    +--------+       +--------+
    |        +------>+        |
 -->| Client |       | Server |---> WWW
    |        +<------+        |
    +--------+       +--------+

不过,所有这些都在同一个进程中运行。问题是,twisted 是否允许这种应用程序,或者只是被认为将 ClientServer 作为不同的进程运行(因为这是我在任何地方都看到的典型案例)。

【问题讨论】:

  • 你会分享你的代码吗?
  • 是的,我会的。我计划很快发布它。

标签: python selenium web-crawler twisted


【解决方案1】:

您不能在线程中使用 Twisted。但是,您可以创建一个 Twisted 线程,它可以愉快地创建多个客户端和服务器。

您可能需要更详细地描述您的问题以获得更好的答案。

【讨论】:

  • 对。我没有很好地解释自己。因此,主反应器将用于运行客户端和服务器。通常,每个反应器都有不同的反应器,因为它们实际上作为不同的进程运行。那我还需要reactor.callInThread来驱动浏览器获取网页,否则我会阻塞客户端和服务器之间的通信,对吧?
  • 您的原始问题甚至不包含“浏览器”一词。请对其进行编辑以澄清。
  • @Glyph:我编辑了问题以提供更多详细信息。修改内容在经过同行评审后应该是可见的。
猜你喜欢
  • 1970-01-01
  • 2011-06-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-05-12
  • 1970-01-01
  • 2013-04-10
  • 1970-01-01
相关资源
最近更新 更多