【发布时间】:2013-04-16 23:17:00
【问题描述】:
我想计算文本中的唯一字词,但我想确保后跟特殊字符的字词不会被区别对待,并且评估不区分大小写。
举个例子
text = "There is one handsome boy. The boy has now grown up. He is no longer a boy now."
print len(set(w.lower() for w in text.split()))
结果是 16,但我希望它返回 14。问题是那个“男孩”。和 'boy' 的评价不同,因为标点符号。
【问题讨论】:
-
请记住,实际数字是 14。因为你有三个词
boy,两个词is和now。