【发布时间】:2016-08-26 01:15:32
【问题描述】:
我正在使用 python 3.5 并且正在编写一个处理大型电子表格文件的脚本。电子表格的每一行都包含一个短语和几个其他相关值。我将文件解析为矩阵,但对于示例文件,它有超过 3000 行(甚至更大的文件应该在预期范围内)。我也有一个100字的清单。我需要搜索每个单词,矩阵的哪一行在其字符串中包含它,并基于此打印一些平均值。
目前我正在遍历矩阵的每一行,然后检查字符串是否包含任何提到的单词,但这个过程需要 3000 次迭代,每次检查 100 次。有没有更好的方法来完成这项任务?
【问题讨论】:
-
您是否尝试过并行化任务?
-
您能否提供一个最小的示例代码、与真实矩阵格式相同的小矩阵、要搜索的单词的简短列表和预期输出?
-
根据您问题的规模,是否可以使用其他解决方案,例如MySQL之类的数据库?然后,您可以在您关心的查询字符串上简单地
SELECT,然后对关联的值执行操作。
标签: python matrix large-data