【发布时间】:2019-10-18 19:51:08
【问题描述】:
我在 elephas 下使用带有 keras 的 pyspark sql。
我想尝试使用 mongoDB GridFS 进行某种分布式图像处理
我在 Scala 上的 Java 世界中找到了相关问题 Loading a Spark 2.x DataFrame from MongoDB GridFS
但仅此而已,我找不到任何其他文档如何从 pySpark 使用 GridFS。
我的 pyspark - mongo 代码如下所示:
sparkConf = SparkConf().setMaster("local[4]").setAppName("MongoSparkConnectorTour")\
.set("spark.app.id", "MongoSparkConnectorTour")\
.set("spark.mongodb.input.database", config.MONGO_DB)
# If executed via pyspark, sc is already instantiated
sc = SparkContext(conf=sparkConf)
sqlContext = SQLContext(sc)
dk = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource")\
.option("spark.mongodb.input.uri", config.MONGO_MED_EVENTS)\
.load()
if (dk.count() > 0):
# print data frame schema
dk.printSchema()
# Preview Dataframe (Pandas Preview is Cleaner)
print( dk.limit(5).toPandas() )
是否可以以这种方式处理 GridFS 数据?我想看看最小的例子。
【问题讨论】:
标签: python mongodb apache-spark pyspark gridfs