【发布时间】:2012-05-02 20:51:22
【问题描述】:
我正在使用 python 2.7 学习正则表达式
给定一个句子(假设小写和ascii),例如:
input = 'i like: a, b, 007 and c!!'
我如何将输入字符串标记为
['i', 'like', ':', 'a', ',', 'b', ',', '007', 'and', 'c', '!!']
我可以用 C++ 编写自动机和转换矩阵,但我想用 python 来做
我无法想出一个能够一次性匹配这些不同类别的字母、数字和标点符号的正则表达式。
我看过一些 stackoverflow 帖子 here 和 here,但不太遵循他们的方法。
我已经尝试了一段时间,非常感谢您的帮助。
P.S:这不是作业题
【问题讨论】:
-
我使用了 're' 模块,可以将 [az]+ 、 [0-9]+ 、 [^a-z0-9\s]+ 分别分组,但无法将它们分组进入一个产生所需输出的正则表达式