【发布时间】:2016-08-10 08:14:19
【问题描述】:
我得到了一个 API url 和一个 getUserPost() 方法,它返回我的数据处理函数所需的数据。我可以使用来自 suds.client 的客户端获取数据,如下所示:
from suds.client import Client
from suds.xsd.doctor import ImportDoctor, Import
url = 'url'
imp = Import('http://schemas.xmlsoap.org/soap/encoding/')
imp.filter.add('filter')
d = ImportDoctor(imp)
client = Client(url, doctor=d)
tempResult = client.service.getUserPosts(user_ids = '',date_from='2016-07-01 03:19:57', date_to='2016-08-01 03:19:57', limit=100, offset=0)
现在,每个 tempResult 将包含 100 条记录。我想将数据从给定的 API url 流式传输到 RDD 以进行并行处理。但是,在阅读了 pySpark.Streaming documentation 之后,我找不到自定义数据源的流式处理方法。谁能给我一个理想的方法?
谢谢。
【问题讨论】:
-
spark.apache.org/docs/latest/streaming-custom-receivers.html(不能直接在 Python 中使用)但鉴于描述,它看起来不像 Spark 流式传输的工作。
-
我对此也有同样的感觉。不知道我是否错过了火花流的概念。仍在四处寻找答案
标签: api streaming pyspark suds