【发布时间】:2016-02-03 11:00:39
【问题描述】:
问题:
我正在用 C# 为 HDInsight 创建一个 MapReduce 应用程序。我需要处理整个输入文件。
我了解,Hadoop 中有两个选项可以实现此目的:
- 派生自 InputFormat 类,并始终让 isSplitable 返回错误
- 将 min_splitsize 设置为足够大的值
我不知道如何在 HDInsight 上使用 C# 实现这些选项。
详情:
我也是
使用 Microsoft.Hadoop.MapReduce,并通过
hadoop.MapReduceJob.ExecuteJob<MyJob>();启动作业-
或者通过简单地创建一个控制台应用程序并通过 azure powershell 启动它
$mrJobDef = New-AzureHDInsightStreamingMapReduceJobDefinition -JobName MyJob -StatusFolder $mrStatusOutput -Mapper $mrMapper -Reducer $mrReducer -InputPath $mrInput -OutputPath $mrOutput$mrJobDef.Files.Add($mrMapperFile)$mrJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $mrJobDef
任何一种方式的解决方案都会有很大帮助。
【问题讨论】:
标签: c# mapreduce hadoop-streaming azure-hdinsight