【发布时间】:2021-12-27 14:18:10
【问题描述】:
作为预处理我的数据的一部分,我希望能够替换任何带有斜杠的内容,直到出现空字符串的空格。例如,\fs24 需要替换为空或 \qc23424 需要替换为空。可能会出现多次带有斜杠的标签,我想删除这些标签。我创建了一个“要根除的标签”列表,我的目标是在正则表达式中使用它来清理提取的文本。
输入字符串:This is a string \fs24 and it contains some texts and tags \qc23424. which I want to remove from my string.
预期输出:This is a string and it contains some texts and tags. which I want to remove from my string.
我在 Python 中使用基于正则表达式的替换函数:
udpated = re.sub(r'/\fs\d+', '')
但是,这并没有获取所需的结果。或者,我已经建立了一个根除列表,并将其从一个循环中替换为从上到下的数字,但这是一个性能杀手。
【问题讨论】:
-
喜欢这个
\\[a-z]+\d+你的意思是? -
re.sub接受三个参数;您没有传递要执行替换的字符串。另外,您认为/在正则表达式中的作用是什么?