【发布时间】:2020-08-28 15:37:45
【问题描述】:
我正在尝试从推文中提取以“https:...”开头的 URL 之前的所有文本。
示例推文:
“由于冠状病毒,这种传统发型重新流行起来,肯尼亚人正在使用它来提高认识 https://...(视频来自 @QuickTake)”
在此示例中,我想删除“https://...(视频来自 @QuickTake)”并从头开始获取文本。 但它也适用于推文中没有任何 URL 链接的推文。
我已经尝试过这个表达式,并在它带有 URL 时得到了两个匹配项:
/(.*)(?=\shttps.*)|(.*)
我怎样才能让它只从推文中检索文本。
提前致谢!
【问题讨论】:
-
您可能希望删除 http、
tweet = re.sub(r'\s*https.*', '', tweet)之后的所有内容 -
完美,解决了!
标签: python regex tweepy tweets