【发布时间】:2015-05-11 16:02:09
【问题描述】:
假设我有一个由我使用 twitteR 收集的推文组成的数据框。我想提取一个子字符串,它是每个推文中包含的另一个数据集的唯一 ID。所有 ID 的格式相同,3-4 个大写字母,后跟一个连字符,后跟一个 6 位数字。例如:YLD-000123、YLSL-000323、YLP-000135。我只需要 ID,并且可以在每条推文上删除其他所有内容。
以下是我正在使用的推文的两个示例:
st1="Elijo ENTERTIMER, YLC-000354, como ganador para http://t.co/jclDk8d796 #YoungLionsCo #FantasyLions"
st2="Elijo #AEseTrenNoMeLeSubo, YLSL-000169, como ganador para http://t.co/wPpM7X5ecN #YoungLionsCo #FantasyLions"
tweets=c(st1,st2)
我需要的结果是“YLC-000354”“YLSL-000169”。 ID 并不总是在逗号之间。
【问题讨论】:
标签: r string twitter substring