使用带有 dbplyr 的 sample_n() 随机抽样数据库答案

【问题标题】：randomly sample a database using sample_n() with dbplyr使用带有 dbplyr 的 sample_n() 随机抽样数据库
【发布时间】：2018-09-23 00:20:39
【问题描述】：

是否可以使用 dplyr::sample_n() 之类的函数从数据库中选择随机（或伪随机）子集，但在 dbplyr 或另一个运行 SQL 查询的 R 包中？

目的是在从数据库运行耗时的数据提取之前测试小批量的查询。

【问题讨论】：

标签： sql r dbplyr

【解决方案1】：

这似乎适用于我们的 MySQL 服务器：

dbGetQuery(con, 
"SELECT * 
FROM data_table_name 
ORDER BY RAND() 
LIMIT 500;")

【讨论】：

【解决方案2】：

对于 SQLite，你可以试试这个：

DBI::dbGetQuery(con, "SELECT * FROM table ORDER BY RANDOM() LIMIT 1;")

【讨论】：