Spark 和 Python 尝试使用 gensim 解析维基百科答案

【问题标题】：Spark and Python trying to parse wikipedia using gensimSpark 和 Python 尝试使用 gensim 解析维基百科
【发布时间】：2015-04-07 02:51:43
【问题描述】：

基于我之前的问题Spark and Python use custom file format/generator as input for RDD，我认为我应该能够解析 sc.textFile() 的任何输入，然后使用我的或来自某些库自定义函数。

现在我特别尝试使用 gensim 框架解析维基百科转储。我已经在我的主节点和所有工作节点上安装了 gensim，现在我想使用 gensim 内置函数来解析受此问题 List (or iterator) of tuples returned by MAP (PySpark) 启发的维基百科页面。

我的代码如下：

import sys
import gensim
from pyspark import SparkContext


if __name__ == "__main__":
    if len(sys.argv) != 2:
        print >> sys.stderr, "Usage: wordcount <file>"
        exit(-1)

    sc = SparkContext(appName="Process wiki - distributed RDD")

    distData = sc.textFile(sys.argv[1])
    #take 10 only to see how the output would look like
    processed_data = distData.flatMap(gensim.corpora.wikicorpus.extract_pages).take(10)

    print processed_data
    sc.stop()

extract_pages 的源代码可以在https://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.py 找到，根据我的经历，它似乎应该与 Spark 一起使用。

但不幸的是，当我运行代码时，我收到以下错误日志：

14/10/05 13:21:11 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, <ip address>.ec2.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/root/spark/python/pyspark/worker.py", line 79, in main
serializer.dump_stream(func(split_index, iterator), outfile)
File "/root/spark/python/pyspark/serializers.py", line 196, in dump_stream
self.serializer.dump_stream(self._batched(iterator), stream)
File "/root/spark/python/pyspark/serializers.py", line 127, in dump_stream
for obj in iterator:
File "/root/spark/python/pyspark/serializers.py", line 185, in _batched
for item in iterator:
File "/root/spark/python/pyspark/rdd.py", line 1148, in takeUpToNumLeft
yield next(iterator)
File "/usr/lib64/python2.6/site-packages/gensim/corpora/wikicorpus.py", line 190, in extract_pages
elems = (elem for _, elem in iterparse(f, events=("end",)))
File "<string>", line 52, in __init__
IOError: [Errno 2] No such file or directory: u'<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.9/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.9/ http://www.mediawiki.org/xml/export-0.9.xsd" version="0.9" xml:lang="en">'
    org.apache.spark.api.python.PythonRDD$$anon$1.read(PythonRDD.scala:124)
    org.apache.spark.api.python.PythonRDD$$anon$1.<init>(PythonRDD.scala:154)
    org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:87)
    org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:262)
    org.apache.spark.rdd.RDD.iterator(RDD.scala:229)
    org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:62)
    org.apache.spark.scheduler.Task.run(Task.scala:54)
    org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:177)
    java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    java.lang.Thread.run(Thread.java:745)

然后是一些可能的 Spark 日志：

14/10/05 13:21:12 ERROR scheduler.TaskSetManager: Task 0 in stage 0.0 failed 4 times; aborting job
14/10/05 13:21:12 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
14/10/05 13:21:12 INFO scheduler.TaskSchedulerImpl: Cancelling stage 0
14/10/05 13:21:12 INFO scheduler.DAGScheduler: Failed to run runJob at PythonRDD.scala:296

和

at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1185)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1174)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1173)
at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1173)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:688)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:688)
at scala.Option.foreach(Option.scala:236)
at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:688)
at org.apache.spark.scheduler.DAGSchedulerEventProcessActor$$anonfun$receive$2.applyOrElse(DAGScheduler.scala:1391)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)
at akka.actor.ActorCell.invoke(ActorCell.scala:456)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)
at akka.dispatch.Mailbox.run(Mailbox.scala:219)
at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)
at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

我已经在没有 Spark 的情况下成功尝试过，所以问题应该出在 Spark 和 gensim 的组合中，但我不太了解我遇到的错误。我在 gensim wikicorpus.py 的第 190 行没有看到任何文件读取。

编辑：

添加了更多来自 Spark 的日志：

EDIT2：

gensim 使用来自xml.etree.cElementTree import iterparse，文档here，这可能会导致问题。它实际上需要包含 xml 数据的文件名或文件。是否可以将RDD视为包含xml数据的文件？

【问题讨论】：

"IOError: [Errno 2] No such file or directory" -- 您是否能够追踪此错误的来源？你能在常规 Python 中得到一个更简单的版本吗（即没有 PySpark）？
我能够在没有 PySpark 的情况下在常规 Python 中运行更简单的版本。不幸的是，唯一可能出现问题的进一步想法是在 Edit2 中。
flatMap 将期望 extact_pages 返回一个列表。我不知道它是否适用于发电机。您是否尝试将 extract_data 的输出与 list() 包装在 lambda 函数中？
是的，我试过这个，但不幸的是它也没有工作。现在在我看来，问题出在extract_data 的输入中，它是字符串，它应该是一个类似对象的文件，我正试图以某种方式将此字符串包装到StringIO，但不幸的是RDD从文件中逐行提供地图字符串，这对我不起作用。第二种选择是在 Python 中找到其他 .xml 解析函数，它更像 json 解析器（接受字符串）。

标签： python apache-spark gensim wikimedia-dumps

【解决方案1】：

我通常在 Scala 中使用 Spark。尽管如此，这是我的想法：

当您通过 sc.textFile 加载文件时，它是某种行迭代器，分布在您的 sparkWorkers 中。我认为鉴于维基百科的 xml 格式，一行不一定对应于可解析的 xml 项，因此您遇到了这个问题。

即：

 Line 1 :  <item>
 Line 2 :  <title> blabla </title> <subitem>
 Line 3 : </subItem>
 Line 4 : </item>

如果您尝试单独解析每一行，它会吐出与您遇到的一样的异常。

我通常不得不搞乱维基百科转储，所以我要做的第一件事就是将其转换为易于被 Spark 消化的“可读版本”。即：每个文章条目一行。一旦你有了它，你就可以很容易地将它输入到 spark 中，并进行各种处理。改造它不需要太多资源

看看 ReadableWiki： https://github.com/idio/wiki2vec

【讨论】：