【发布时间】:2011-10-09 15:58:45
【问题描述】:
我想在包含特定主题标签的推文中创建一个简单的热门关键字或短语列表。
例如,对于所有带有“#justinbieber”标签的推文,我想获得这些推文中使用的前十个最流行的单词和/或短语的有序列表,忽略通常不相关的内容,例如“和” , 'the' 等。它不必是完美的,只要有意义就行。
有哪些 Ruby 工具可用于执行文本分析?当然,分析部分不必专门针对 Twitter。
我很可能会定期请求和存储带有给定主题标签的推文,然后在给定的时间范围内对推文进行分析。
这项工作将在 Heroku 上的 Rails 或 Sinatra 应用程序中完成,但分析将在 rake 任务或某种计划的工作中完成。我还没有决定如何存储推文。
【问题讨论】:
标签: ruby twitter text-analysis