NLTK 标记优化答案

【问题标题】：NLTK Tokeninizing OptimizationNLTK 标记优化
【发布时间】：2019-10-09 00:51:02
【问题描述】：

我有一个 NLTK 解析函数，用于解析 TREC 数据集的 ~2GB 文本文件。该数据集的目标是对整个集合进行标记，执行一些计算（例如计算 TF-IDF 权重等），然后针对我们的集合运行一些查询以使用余弦相似度并返回最佳结果。

就目前而言，我的程序可以运行，但运行需要一个多小时（通常在 44-61 分钟之间）。时间细分如下：

TOTAL TIME TO COMPLETE: 4487.930628299713
TIME TO GRAB SORTED COSINE SIMS: 35.24157094955444
TIME TO CREATE TFIDF BY DOC: 57.06743311882019
TIME TO CREATE IDF LOOKUP: 0.5097501277923584
TIME TO CREATE INVERTED INDEX: 2.5217013359069824
TIME TO TOKENIZE: 4392.5711488723755

很明显，代币化占了约 98% 的时间。我正在寻找一种方法来加快速度。

标记化代码如下：

def remove_nums(arr): 
    pattern = '[0-9]'  
    arr = [re.sub(pattern, '', i) for i in arr]    
    return arr


def get_words(para):   
    stop_words = list(stopwords.words('english'))    
    words = RegexpTokenizer(r'\w+')
    lower = [word.lower() for word in words.tokenize(para)]
    nopunctuation = [nopunc.translate(str.maketrans('', '', string.punctuation)) for nopunc in lower]
    no_integers = remove_nums(nopunctuation)
    dirty_tokens = [data for data in no_integers if data not in stop_words]
    tokens = [data for data in dirty_tokens if data.strip()]

def driver(file):
   myfile = get_input(file)
    p = r'<P ID=\d+>.*?</P>'       
    paras = RegexpTokenizer(p)   
    document_frequency = collections.Counter()   
    collection_frequency = collections.Counter()   
    all_lists = []    
    currWordCount = 0   
    currList = [] 
    currDocList = []
    all_doc_lists = []
    num_paragraphs = len(paras.tokenize(myfile))  


    print()
    print(" NOW BEGINNING TOKENIZATION ")
    print()
    for para in paras.tokenize(myfile):             
        group_para_id = re.match("<P ID=(\d+)>", para)
        para_id = group_para_id.group(1)       
        tokens = get_words(para)
        tokens = list(set(tokens))     
        collection_frequency.update(tokens)      
        document_frequency.update(set(tokens))       
        para = para.translate(str.maketrans('', '', string.punctuation))     
        currPara = para.lower().split()      
        for token in tokens:          
            currWordCount = currPara.count(token)          
            currList = [token, tuple([para_id, currWordCount])]          
            all_lists.append(currList)

            currDocList = [para_id, tuple([token, currWordCount])]
            all_doc_lists.append(currDocList)

    d = {}
    termfreq_by_doc = {}    
    for key, new_value in all_lists:       
        values = d.setdefault(key, [])       
        values.append(new_value)

    for key, new_value in all_doc_lists:
        values = termfreq_by_doc.setdefault(key, [])
        values.append(new_value)

我对优化很陌生，正在寻找一些反馈。我确实看到this post 谴责我的许多列表理解为“邪恶”，但我想不出办法绕过我正在做的事情。

代码没有注释很好，所以如果由于某种原因无法理解，那也没关系。我在这个论坛上看到了其他问题：在没有很多反馈的情况下加速 NLTK 标记化，所以我希望有一个关于标记化优化编程实践的积极线程。

【问题讨论】：

我投票决定将此问题作为离题结束，因为应该在 codereview stackexchange 中代替。
强制“不要使用正则表达式解析 XML”：stackoverflow.com/a/1732454/1319284
不是 XML，但是谢谢

标签： python python-3.x optimization nltk tokenize

【解决方案1】：

作者： https://codereview.stackexchange.com/users/25834/reinderien

开启：https://codereview.stackexchange.com/questions/230393/tokenizing-sgml-text-for-nltk-analysis

正则表达式编译

如果性能是一个问题，那么：

arr = [re.sub(pattern, '', i) for i in arr]

是个问题。您在每个函数调用和每个循环迭代中都重新编译您的正则表达式！相反，将正则表达式移动到函数外部的 re.compile()d 符号。

这同样适用于re.match("<P ID=(\d+)>", para)。换句话说，你应该发出类似

group_para_re = re.compile(r"<P ID=(\d+)>")

在循环之外，然后

group_para_id = group_para_re.match(para)

在循环内部。

过早的生成器实现

同一行还有另一个问题 - 您将返回值强制为列表。查看您的 no_integers 使用情况，您只需再次对其进行迭代，因此将整个结果保存在内存中没有任何价值。相反，将其保留为生成器 - 用括号替换括号。

同样的事情也适用于nopunctuation。

设置成员资格

stop_words 不应该是 list - 它应该是 set。了解其性能here。查找是平均 O(1)，而不是列表的 O(n)。

变量名

nopunctuation 应该是no_punctuation。

【讨论】：