【发布时间】:2010-05-17 23:51:04
【问题描述】:
你知道任何 python mapreduce 就绪的集群库吗?
我在 Java (http://lucene.apache.org/mahout/) 中找到了一些不错的库,不过我更喜欢使用 python。
https://github.com/klbostee/dumbo/wiki (Python mapreduce API)
编辑 --- 我正在寻找准备好的 mapreduce:Canopy、K-means、Means-shift 等。
【问题讨论】:
-
看来我可以通过 dumbo 在 hadoop 中使用 NLTK 模块...谁能确认可以做到这一点?
-
您可以使用 Jython 或 JPype 将 Mahout 与您的 Python 代码集成。请参阅我的类似问题:stackoverflow.com/questions/7491953/…
标签: python mapreduce libraries