【发布时间】:2013-07-14 08:33:42
【问题描述】:
我需要计算 UTF-8 字符串中的单词数。即我需要编写一个python函数,它以“एक बार,एक कौआ, बहुत प्यासा, था”作为输入并返回7(字数)。
我尝试了如下所示的正则表达式“\b”。但结果不一致。
wordCntExp=re.compile(ur'\b',re.UNICODE);
sen='एक बार,एक कौआ, बहुत प्यासा, था';
print len(wordCntExp.findall(sen.decode('utf-8'))) >> 1;
12
感谢对上述答案的任何解释或解决上述问题的任何其他方法。
【问题讨论】: