【问题标题】:Clean up scraped tweets with note++ and regular expression使用 note++ 和正则表达式清理抓取的推文
【发布时间】:2012-07-14 15:53:17
【问题描述】:

我想知道如何从 twitter 的抓取推文列表中删除所有 @提及、#hashtags 和 URL http....。

我尝试过(但失败了):

find all [@].* and replace with blank
find all [#].* and replace with blank
find all [http].* and replace with blank

等等等等......这刚刚完成,几乎从我的抓取结果中删除了所有内容。

我是记事本新手,正在尝试整理所有信息。

提前致谢

【问题讨论】:

  • 我假设你的意思是 Notepad++?

标签: twitter tweets


【解决方案1】:

你的表达太宽泛了。试试这个:

(@|#|http)\S+

或者,根据您的正则表达式风格,您可能需要将\S(非空白)写成

(@|#|http)[^ ]+

当然,使用正则表达式,一切都是为了准确地知道你想要什么,而这通常是你在此过程中弄明白的。

【讨论】:

  • 非常接近,但对推文的破坏性仍然太大...我完全尝试了您提供的代码,但他们没有做任何事情,所以我将 ( 替换为 [ 和 ) 替换为 ]。这两个示例都删除了我想要删除的所有内容,但也删除了推文中单词中的很多字母。例如“酒精”这个词变成了“酒精”是记事本++
猜你喜欢
  • 2019-11-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-12-31
  • 2010-10-31
  • 1970-01-01
相关资源
最近更新 更多