【发布时间】:2019-11-14 08:24:55
【问题描述】:
我正在读取一个用于应用 NLP 的 csv 文件,并且我正在尝试对数据进行预处理。我收到了来自在线论坛的数据,因此,上面有引用。如何删除它们?举个例子;
a='[b]Re:[/b]
[quote="xxx"] How can I do that blah blah xxx [/quote]
Hello xxx, I will tell you how you can do it blah blah blah.'
我想要下面的表格;
a='你好 xxx,我会告诉你如何做到的等等等等。'
我想要检测 [quote=" 并开始删除直到看到 [/quote] 的正则表达式。这可能吗?
我试过了,但是没用。
def quotes(text):
return re.sub('\[([^\]=]+)(?:=[^\]]+)?\].*?\[\/\\1\]', '', text)
data['message'] = data['message'].apply(quotes)
【问题讨论】:
-
re.sub() 用其他东西替换它找到的模式 - 您的模式与给定的文本不匹配 - 这就是它不起作用的原因。使用regex101.com切换到python开发匹配模式。
标签: python-3.x