【发布时间】:2023-01-06 23:18:03
【问题描述】:
我需要一个函数来删除 pandas DataFrame 中我的 oldText 列(超过 1000 行)中的链接。
我使用正则表达式创建了它,但它不起作用。这是我的代码:
def remove_links(text):
text = re.sub(r'http\S+', '', text)
text = text.strip('[link]')
return text
df['newText'] = df['oldText'].apply(remove_links)
我没有错误,代码什么也没做
【问题讨论】:
-
知道包含该列的内容会很有趣。
-
oldText列的实际格式是什么?链接是如何表示的?您可以使用urlparse来解析文本并提取/丢弃 URL 组件。 -
我认为文本中无法识别正则表达式。我会检查并确保它在函数本身的级别上工作。