【发布时间】:2015-10-09 22:07:29
【问题描述】:
我有一个网络爬虫,它可以收集论坛问题,将它们分成单个单词并将其写入文本文件。单词存储在元组列表中。每个元组包含单词及其频率。就这样……
[(u'move', 3), (u'exploration', 4), (u'prediction', 21),
(u'find', 5), (u'user', 2), (u'interface', 2), (u'pleasant', 2),
(u'am', 11), (u'puzzled', 2), (u'find', 5), (u'way', 5),
(u'prediction', 21), (u'mode', 2), (u'have', 21),
(u'explored', 2), (u'file', 9), (u'Can', 7), (u'help', 6),
(u'Possible', 1), (u'bug', 2), (u'data', 31), (u'is', 17)
但是,论坛上的某些人使用了字符 \u200b,它破坏了我的所有代码,因为该字符不再是 Unicode 空格。
(u'used\u200b', 1)
打印出来不会产生错误,但写入文本文件会产生错误。我发现string.strip() 和string.replace() 没有帮助,所以我想知道如何使用正则表达式库来摆脱那个字符。我计划解析整个元组列表以找到它。
【问题讨论】:
-
为什么说它不是 Unicode 空白字符?这就是字面意思。 U+200B