【发布时间】:2020-06-20 07:17:13
【问题描述】:
在 Python 中过滤文本的最佳方法是什么,以便我只包含数字、大写/小写字母、所有标点符号和换行符、制表符等字符。
比如我可能有下面的文字,想去掉图片,但是链接、标点、字母、数字都可以:
????第 19 集现已上映!???? ????Pasta Go Go Food Review????车内烛光晚餐! PASTA LA VISTA 点击链接 B…
我查看了正则表达式,但不确定它是如何工作的。我正在尝试重新匹配。
看起来翻译表可能是要走的路,但它们似乎不能通过排除来工作。我想定义我想要的字符集并删除其他任何内容。
【问题讨论】:
-
你可以像stackoverflow.com/a/62401725/642070一样使用
unicodedata模块来做。
标签: python python-3.x string