【发布时间】:2013-05-07 06:03:46
【问题描述】:
我想收集一些来自 Twitter 的主题标签。 阅读我需要获取实体的文档 https://dev.twitter.com/docs/platform-objects/tweets
"entities":
{
"hashtags":[],
"urls":[],
"user_mentions":[]
}
我目前能够访问实体字典和主题标签列表
for line in iter(my_tweet_file)
tweetionary = json.loads(line)
print tweetionary["entities"]
print tweetionary["entities"]["hashtags"]
但我无法正确解析主题标签列表中的项目,我对文本值感兴趣(以下示例中为 lin 和 Scot)
[{u'indices': [41, 45], u'text': u'lin'}, {u'indices': [55, 60], u'text': u'Scot'}]
我想填充从主题标签列表中提取的文本字典。
谢谢,丹尼
【问题讨论】:
-
准确,需要什么。 从主题标签列表中提取的文本字典 - 这不清楚。字典意味着,它有键:值。需要什么键和值?也许您只需要一个标签列表?
-
您希望您的最终字典看起来如何?你能给出一些示例键和值吗?目前您只有主题标签,可以存储在列表中
-
第一步,我想提取每个主题标签,但是因为我需要计算它们的频率,所以我想像这样的字典:
codefreq_hash = {'lin' :1, 'Scot':1, 'Win':3}code
标签: python list dictionary hashtag