【发布时间】:2018-06-29 05:38:57
【问题描述】:
我正在根据单词列表对在线词典进行网络抓取。以下是 .txt 文件中的单词列表的一部分:...泄露、无意、Panegyric、Draconian、Hodgepodge...
我开发了一个运行良好的代码,但是当单词列表变长时运行速度会很慢。在我的例子中,单词列表大约有 3000 个单词,代码将对每个单词进行抓取。我的代码如下:
file = open('word_list.txt', 'r')
search_list = file.read().split(',')
file.close()
for x in tqdm(range(int(len(search_list)))):
search = search_list[x]
# (BeautifulSoup web scraping...)
# (pandas organizes dataframe into .csv)
print ('Done!')
似乎第一步需要很多时间。有什么办法可以加快整个过程?
【问题讨论】:
-
看看Transforming Code into Beautiful, Idiomatic Python。您是否衡量了您大部分时间都在哪里度过?
-
尝试通过分析器运行您的代码,以查看哪一行占用的时间最多。我个人将rkern's line_profiler 用于python。另请查看 strippenzieher 提供的链接 - 我打算提出相同的建议。
标签: python-3.x performance list file optimization