【问题标题】:BigQuery Reddit Dataset: Collecting Comments from Subreddits?BigQuery Reddit 数据集:从 Subreddit 收集评论?
【发布时间】:2016-09-08 18:12:51
【问题描述】:

对 BigQuery 和 SQL 来说总体上是新手!我在网上找到了这个惊人的 Reddit cmets 数据集 (https://bigquery.cloud.google.com/table/fh-bigquery:reddit_comments.2015_05),并想对 cme​​ts 做一些定性分析。

问题:如何将搜索范围缩小到仅检索 r/cancer subreddit 和 r/diabetes subreddit 中的 cmets 和时间戳?我应该使用的确切查询是什么?

我知道这可能真的很容易,但我花了过去 4-5 个小时在这上面,仍然无法弄清楚......

【问题讨论】:

    标签: google-bigquery reddit


    【解决方案1】:
    SELECT subreddit, COUNT(*) c
    FROM [fh-bigquery:reddit_comments.2015_05] 
    WHERE subreddit IN ('cancer', 'diabetes')
    GROUP BY 1
    LIMIT 1000
    
    Query complete (1.6s elapsed, 595 MB processed)
    
    Row subreddit   c    
    1   diabetes    6508     
    2   cancer      1923     
    

    对于原始 cmets 和时间戳:

    SELECT subreddit, created_utc, body
    FROM [fh-bigquery:reddit_comments.2015_05] 
    WHERE subreddit IN ('cancer', 'diabetes')
    LIMIT 10
    

    【讨论】:

    • 它有效,费利佩!非常感谢您在这方面的帮助!我真的很感激!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多