【问题标题】:Tokenize list of strings without comma separation标记字符串列表而不用逗号分隔
【发布时间】:2021-03-02 15:09:11
【问题描述】:

我还是 Python 新手,想知道如何在不使用逗号分隔每个单词的情况下对字符串列表进行标记。

例如,从 ['I have to get groceries.','I need some bananas.','Anything else?'] 这样的列表开始,我想获得这样的列表:['I have to买杂货。','我需要一些香蕉。','还有什么吗?']。因此,重点不是必须创建一个带有单独标记的列表,而是创建一个包含所有单词和标点符号的句子的列表。

有什么想法吗?我只设法使用以下代码创建了一个逗号分隔的标记列表:

nltk.download('punkt')
from nltk import word_tokenize 
tokenized = []
for line in unique:
      tokenized.append(word_tokenize(line))```
 

【问题讨论】:

  • NLTK 有一堆分块器和分词器(很多是正则表达式)。这应该是一个很好的起点

标签: python nlp tokenize


【解决方案1】:

您可以用空格连接标记化的行,只需使用

from nltk import word_tokenize
unique = ['I have to get groceries.','I need some bananas.','Anything else?']
tokenized = [" ".join(word_tokenize(line)) for line in unique]
print(tokenized)
# => ['I have to get groceries .', 'I need some bananas .', 'Anything else ?']

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-04-16
    • 2015-03-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多