【发布时间】:2017-01-13 15:52:10
【问题描述】:
我有一个包含数千条记录的数据框,我想随机选择 1000 行到另一个数据框中进行演示。我怎样才能在 Java 中做到这一点?
谢谢!
【问题讨论】:
-
您是否已经尝试使用 Spark SQL 使用 HiveQL 查询?
-
是的,但我没有看到相关性。
-
@Umberto 请记住,问题是关于获取 n 个随机行,而不是 n 个前行。这个问题的作者可以实现自己的采样或使用 Spark 中实现的一种可能性
-
@T.Gawęda 我知道,但是使用 HiveQL(Spark SQL 旨在与 Hive 兼容)您可以创建一个选择语句,以有效的方式随机选择 n 行,并且您可以使用那。为什么不?这是另一种方式
-
@Umberto 你能发布这样的代码吗?这听起来不错!但请记住,LIMIT 不会返回随机结果,请参阅stackoverflow.com/questions/23802115/…
标签: java apache-spark dataframe