【发布时间】:2021-05-14 04:15:32
【问题描述】:
我正在从主页抓取博客网址,然后我遍历所有网址以检索其上的文本。
如果我将循环移动到 blogscraper 并制作 yield some_text ,生成器会更快吗?我猜应用程序仍然是一个线程,并且在从 html 计算文本时不会请求下一页。
我应该使用异步吗?或者有一些更好的模块可以让它parrel? Create generator that yields coroutine results as the coroutines finish
我也想以后做个小rest app来显示结果
def readmainpage(self):
blogurls = []
while(nextPage):
r = requests.get(url)
...
blogurls += [new_url]
return blogurls
def blogscraper(self, url):
r = request.get(url)
...
return sometext
def run(self):
blog_list = self.readmainpage()
for blog in blog_list:
data = self.blogscraper(blog['url'])
【问题讨论】:
-
为了让它变得非常快,你可以尝试使用scrapy,它就是为此而构建的,快速的网络抓取......
-
仅供参考,它是 scraping 和 scraper 不是报废或 scrapper