【发布时间】:2017-01-15 06:58:00
【问题描述】:
我正在收集 twitter 的标签。每条推文都可以包含主题标签。
tests <- c("xxxxxx #SaveTheDate xxxxxx #Histoire] xxxxxx #Femmes xxxxxxx #ports",
"xxxxxxxxxxxx",
"xxxx #rock xxxxxx #Nantes" ,
"xxxxxx #lvan xxxxxxx #nantes xxxxx #ilsepassetoujoursuntruc")
library (stringr)
hashtags <- str_extract_all(tests, "#\\S+")
str (hashtags)
马结果:
str(hashtags)
list of 4
$ : chr [1:4] "#SaveTheDate" "#Histoire]" "#Femmes" "#ports"
$ : chr(0)
$ : chr [1:2] "#rock" "#Nantes"
$ : chr [1:3] "#lvan" "#nantes" "#ilsepassetoujoursuntruc"
我的期望:一个带有一行标签的 data.frame
"#SaveTheDate"
"#Histoire"
"#Femmes"
"#ports"
NA
....
我尝试了什么:
hashtags_df <-as.data.frame(hashtags)
【问题讨论】:
-
as.data.frame()究竟应该如何预测您的意图? This 可能有助于标签识别和提取。我很好奇你将如何处理标签垃圾邮件、标签污染和标签滥用。你的 20-30% 的语料库中都会有这些。 -
我正在努力。