【发布时间】:2018-10-10 20:24:56
【问题描述】:
我必须从网页中提取一些属性(在我的示例中只有一个:应用程序的文本描述)。问题是时间! 确实,使用以下代码进入一个页面,提取 HTML 的一部分并保存它,每页大约需要 1.2-1.8 秒。很多时间。有没有办法让它更快?我有很多页,x 也可能是 200000。 我正在使用木星。
Description=[]
for x in range(len(M)):
response = http.request('GET',M[x] )
soup = BeautifulSoup(response.data,"lxml")
t=str(soup.find("div",attrs={"class":"section__description"}))
Description.append(t)
谢谢
【问题讨论】:
-
你可以看看多处理。
-
M是网址列表吗? -
Matt Cremeens,是的,是的
-
使用scrapy进行更快的抓取!
标签: python-3.x web-scraping beautifulsoup jupyter webpage