【问题标题】:Apache Spark: How to create a matrix from a DataFrame?Apache Spark:如何从 DataFrame 创建矩阵?
【发布时间】:2015-10-12 14:45:52
【问题描述】:

我在 Apache Spark 中有一个带有整数数组的 DataFrame,源是一组图像。我最终想对其进行 PCA,但我无法从我的数组中创建一个矩阵。如何从 RDD 创建矩阵?

> imagerdd = traindf.map(lambda row: map(float, row.image))
> mat = DenseMatrix(numRows=206456, numCols=10, values=imagerdd)
Traceback (most recent call last):

  File "<ipython-input-21-6fdaa8cde069>", line 2, in <module>
mat = DenseMatrix(numRows=206456, numCols=10, values=imagerdd)

  File "/usr/local/spark/current/python/lib/pyspark.zip/pyspark/mllib/linalg.py", line 815, in __init__
values = self._convert_to_array(values, np.float64)

  File     "/usr/local/spark/current/python/lib/pyspark.zip/pyspark/mllib/linalg.py", line 806, in _convert_to_array
    return np.asarray(array_like, dtype=dtype)

  File "/usr/local/python/conda/lib/python2.7/site-        packages/numpy/core/numeric.py", line 462, in asarray
    return array(a, dtype, copy=False, order=order)

TypeError: float() argument must be a string or a number

从我能想到的每一种可能的安排中,我都遇到了同样的错误:

imagerdd = traindf.map(lambda row: Vectors.dense(row.image))
imagerdd = traindf.map(lambda row: row.image)
imagerdd = traindf.map(lambda row: np.array(row.image))

如果我尝试

> imagedf = traindf.select("image")
> mat = DenseMatrix(numRows=206456, numCols=10, values=imagedf)

Traceback(最近一次调用最后一次):

  File "<ipython-input-26-a8cbdad10291>", line 2, in <module>
mat = DenseMatrix(numRows=206456, numCols=10, values=imagedf)

  File "/usr/local/spark/current/python/lib/pyspark.zip/pyspark/mllib/linalg.py", line 815, in __init__
    values = self._convert_to_array(values, np.float64)

  File "/usr/local/spark/current/python/lib/pyspark.zip/pyspark/mllib/linalg.py", line 806, in _convert_to_array
    return np.asarray(array_like, dtype=dtype)

  File "/usr/local/python/conda/lib/python2.7/site-packages/numpy/core/numeric.py", line 462, in asarray
    return array(a, dtype, copy=False, order=order)

ValueError: setting an array element with a sequence.

【问题讨论】:

    标签: python matrix apache-spark pyspark apache-spark-mllib


    【解决方案1】:

    由于您没有提供示例输入,我假设它看起来或多或少像这样,其中id 是行号,image 包含值。

    traindf = sqlContext.createDataFrame([
        (1, [1, 2, 3]),
        (2, [4, 5, 6]),
        (3, (7, 8, 9))
    ], ("id", "image"))
    

    您首先要了解的是DenseMatrix 是一个本地 数据结构。准确地说,它是numpy.ndarray 的包装。目前(Spark 1.4.1)在 PySpark MLlib 中没有分布式等效项。

    密集矩阵采用三个强制参数numRowsnumColsvalues,其中values 是本地数据结构。在您的情况下,您必须先收集:

    values = (traindf.
        rdd.
        map(lambda r: (r.id, r.image)). # Extract row id and data
        sortByKey(). # Sort by row id
        flatMap(lambda (id, image): image).
        collect())
    
    
    ncol = len(traindf.rdd.map(lambda r: r.image).first())
    nrow = traindf.count()
    
    dm = DenseMatrix(nrow, ncol, values)
    

    最后:

    > print dm.toArray()
    [[ 1.  4.  7.]
     [ 2.  5.  8.]
     [ 3.  6.  9.]]
    

    编辑

    在 Spark 1.5+ 中,您可以使用 mllib.linalg.distributed,如下所示:

    from pyspark.mllib.linalg.distributed import IndexedRow, IndexedRowMatrix
    
    mat = IndexedRowMatrix(traindf.map(lambda row: IndexedRow(*row)))
    mat.numRows()
    ## 4
    mat.numCols()
    ## 3
    

    虽然就目前而言,API 仍然仅限于在实践中有用。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-12-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-17
    • 2019-07-08
    • 1970-01-01
    • 2015-11-30
    相关资源
    最近更新 更多