【问题标题】:randomly sample a database using sample_n() with dbplyr使用带有 dbplyr 的 sample_n() 随机抽样数据库
【发布时间】:2018-09-23 00:20:39
【问题描述】:

是否可以使用 dplyr::sample_n() 之类的函数从数据库中选择随机(或伪随机)子集,但在 dbplyr 或另一个运行 SQL 查询的 R 包中?

目的是在从数据库运行耗时的数据提取之前测试小批量的查询。

【问题讨论】:

标签: sql r dbplyr


【解决方案1】:

这似乎适用于我们的 MySQL 服务器:

dbGetQuery(con, 
"SELECT * 
FROM data_table_name 
ORDER BY RAND() 
LIMIT 500;")

【讨论】:

    【解决方案2】:

    对于 SQLite,你可以试试这个:

    DBI::dbGetQuery(con, "SELECT * FROM table ORDER BY RANDOM() LIMIT 1;")
    

    【讨论】:

      猜你喜欢
      • 2015-06-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-01
      • 2015-08-16
      • 1970-01-01
      相关资源
      最近更新 更多