【发布时间】:2014-11-06 15:35:55
【问题描述】:
此函数接受一个字符串文本,并返回一个包含字符串列表的列表,字符串文本中的每个句子对应一个列表。
句子由字符串 "."、"?" 或 "!" 之一分隔。 我们忽略了其他标点符号分隔句子的可能性。所以'Mr.X'会变成2个句子,'don't'会变成两个词。
比如文字是
Hello, Jack. How is it going? Not bad; pretty good, actually... Very very
good, in fact.
然后函数返回:
['hello', 'jack'], ['how', 'is', 'it', 'going'], ['not', 'bad', 'pretty', 'good', 'actually'], ['very', 'very', 'good', 'in', 'fact']]
最令人困惑的部分是如何让函数检测字符 , . ! ?以及如何使它成为一个列表列表,其中包含每个句子中的单词。 谢谢。
【问题讨论】:
-
re.split("[.?!]",all_text)应该为您提供第一部分,re.findall("[a-zA-Z]+",some_text)将为您提供一段文本中的所有字母词(仅限字母)