【问题标题】:Sample data set in KoalasKoalas 中的样本数据集
【发布时间】:2021-07-30 22:43:35
【问题描述】:

我有以下使用熊猫数据框的代码。但是,当我将 Pandas 数据框转换为 Koalas 并运行以下代码时,出现错误“函数示例当前不支持指定要返回的确切项目数。请改用 frac”

df.loc[df.sample(int(len(df) * .05)).index, 'distance'] = None

我尝试使用下面的代码给我随机记录。但是它如何获取数据框中的所有记录并用空值替换 5 % 记录的距离

df.sample(frac=0.05, random_state=1)

【问题讨论】:

    标签: python pandas apache-spark pyspark spark-koalas


    【解决方案1】:

    如果您只想在距离列中保留 5% 的记录,可以使用 whenrand 随机数:

    import pyspark.sql.functions as F
    
    df2 = df.withColumn('distance', F.when(F.rand(0) < 0.05, F.col('distance')))
    

    如果你想坚持使用考拉而不是 Spark,你可以这样做:

    import numpy as np
    
    df.loc[np.random.choice(df.shape[0], int(df.shape[0]*0.05)).tolist(), 'distance'] = None
    

    【讨论】:

    • 我正在寻找所有数据,对于 5% 的记录,我试图传递空值。以下代码适用于 pandas 数据框,但不适用于考拉。我正在为考拉数据框寻找类似的东西。 df.loc[df.sample(int(len(df) * .05)).index, 'distance'] = None
    猜你喜欢
    • 1970-01-01
    • 2015-12-07
    • 2016-07-04
    • 2014-09-15
    • 1970-01-01
    • 1970-01-01
    • 2021-12-10
    • 2016-10-31
    • 1970-01-01
    相关资源
    最近更新 更多