【发布时间】:2017-09-21 04:59:20
【问题描述】:
给定一个像“很棒的饮料,牛肉哈希,咖啡,墨西哥卷饼。”这样的文本,我知道我可以使用 NLTK 的 Tweet Tokenizer 对其进行标记,例如生成:
['Great',
'drinks',
',',
'beef',
'hash',
',',
'coffee',
',',
'burritos',
'.']
我想分别处理逗号和句号之前的每个部分,以生成像[Great drinks, beef hash, coffee, burritos] 这样的列表。我该怎么做?
【问题讨论】: