【问题标题】:How to use Mahout in a Windows environment?如何在 Windows 环境中使用 Mahout?
【发布时间】:2011-02-13 17:04:47
【问题描述】:

我正在尝试在 Windows 上运行的应用程序中使用 Mahout。我想使用 k-means 从 lucene 索引构建集群。

一旦我必须创建序列文件(从 lucene 索引创建向量),我就会收到 Hadoop 异常,因为 Hadoop 对 Windows 环境中未知的程序(例如 chmod)进行命令行调用。在 Cygwin 中运行不是一个选项,因为我希望能够从 eclipse 运行应用程序。

所以我的问题是

  • 有没有办法避免必须创建序列文件来从 lucene 索引中检索我的向量?
  • 或者有没有办法在 Windows 环境中创建序列文件?
  • 【问题讨论】:

      标签: windows cygwin hadoop mahout


      【解决方案1】:

      在 Windows 环境中运行 Hadoop 的唯一方法是安装 Cygwin。有关详细信息,请参阅此博客文章:

      http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/

      Cygwin 将提供 Hadoop 所依赖的所有命令行实用程序(如 chmod)。如果需要,您仍然可以在 Eclipse 中运行 Hadoop 作业。

      【讨论】:

      • 其次,这更多是关于Hadoop的问题,不,你不能在Windows上运行Hadoop。
      • HDInsight 是适用于 Windows Azure 的 Hadoop 实现。如果您想在本地机器上而不是在云中使用它,请尝试使用 HDInsight 模拟器,您可以使用 Web 平台安装程序进行安装。
      • 您可能想要更新您的答案,因为现在可以在 Windows 上使用 Hadoop (wiki.apache.org/hadoop/Hadoop2OnWindows)。我很乐意回答,但我仍在寻找使用 Mahout 的方法:)
      【解决方案2】:

      你知道SequenceFile API 吗?看看这里:http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html 您可以尝试自己写/读数据。

      我认为您可以在 Windowns 中以独立模式从 eclipse 运行 Mahout。但是你会出现几个缺点和障碍。你应该试试你能走多远。

      在我看来,您不应该坚持从 Eclipse 运行 mahout。 ;-)

      【讨论】:

        【解决方案3】:

        您可以使用虚拟机来运行您的 Hadoop 环境。 至于我,最好的解决方案是使用http://hortonworks.com/ 项目。 一切都很顺利。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2019-04-30
          • 2019-09-18
          • 1970-01-01
          • 1970-01-01
          • 2018-01-24
          相关资源
          最近更新 更多