【发布时间】:2019-08-23 22:08:07
【问题描述】:
我有很多文件,其中包含多页文本。在遍历每个文件时,我想提取我特别感兴趣的术语的计数。
例如,我有类似下面的内容(简化示例 - 实际是 2-5 页文本):
to_process = 'soccer football soccer asdlkj assdasda asdsasad football soccer'
print(to_process)
我想统计一下“soccer”和“football”在文本中出现的次数:
dict_of_counts = {'soccer':0,'football':0}
print(dict_of_counts)
预期输出为:
expected_output = {'soccer':3,'football':2}
谁能提供一些线索,告诉我如何以最有效的方式解决这个问题(我有数千篇论文和数百个我要寻找的术语)。
【问题讨论】:
标签: python-3.x pandas numpy nlp