【问题标题】:nutch jobs failing after second round that is in fetch stage?处于获取阶段的第二轮后,nutch 工作失败了吗?
【发布时间】:2020-10-09 13:31:41
【问题描述】:

Nutch 作业在第二轮处于 fetch 阶段后失败我正在使用 emr 集群,它没有抛出任何错误。我知道原因吗。我知道它停止第二次的原因可能是什么圆。

【问题讨论】:

  • 如果没有任何上下文(堆栈跟踪、日志 sn-ps、Nutch 版本、启动它的命令等),就不可能猜测出什么问题。在 Hadoop 上运行时,不要忘记查看任务日志,请参阅docs.aws.amazon.com/emr/latest/ManagementGuide/…。 Hadoop 集群 Web 界面也应该指出错误。
  • 最可能的原因可能是 CPU 和 RAM 使用率过高导致故障。但是,正如@SebastianNagel 提到的没有日志,很难判断发生了什么......我在这里分享我的经验-> 它通常发生在重负载时,您可以尝试减少 fetcher.treads 并尝试再次运行。并确保监控 CPU 和 RAM..
  • bin/crawl --num-fetchers 3 --num-threads 150 $CRAWL_PATH 5 上面的参数我已经设置好了,是emr中运行的两节点集群。 @kavetiraviteja
  • 我是否需要减少线程数。
  • 这不是尝试各种选择。相反,请查看日志文件以找出问题所在。当然,您可以尝试只使用 2 个 fetcher 和较少数量的线程。但从长远来看,您需要学习如何阅读 EMR 上的日志文件并使用监控工具。

标签: nutch


【解决方案1】:

原因是因为我没有运行我之前运行的 nohup 命令 sh filename.sh 它在一些爬网后停止现在我正在使用 nohup sh filename.sh & 运行。 谢谢@Sebastian Nagel

【讨论】:

    【解决方案2】:

    这是我最近 100 行的日志文件内容

    020-10-07 17:25:39,353 INFO [main] com.amazon.ws.emr.hadoop.fs.s3n.MultipartUploadOutputStream: close closed:false s3://pt-test-1/nutch/99930k-crawls/segments/20201007165453/content/part-r-00001/data
    

    2020-10-07 17:25:39,647 INFO [s3n-worker-4] com.amazon.ws.emr.hadoop.fs.s3n.MultipartUploadOutputStream: uploadPart: partNum 3 of 's3://pt-test -1/nutch/99930k-crawls/segments/20201007165453/content/part-r-00001/data' 来自本地文件 '/mnt1/s3/emrfs-51822051222537493780/0000000002', 13187820 bytes in 294 ms, md5: wYPoxIwg=294 ms md5hex: c1836fda4d3b4aeada1e0f32a0fa3123 2020-10-07 17:25:40,476 INFO [main] com.amazon.ws.emr.hadoop.fs.s3.upload.dispatch.DefaultMultipartUploadDispatcher:已完成 3 个部分的分段上传 281623276 字节 2020-10-07 17:25:40,477 信息 [main] com.amazon.ws.emr.hadoop.fs.s3n.MultipartUploadOutputStream:关闭关闭:false s3://pt-test-1/nutch/99930k-crawls/段/20201007165453/content/part-r-00001/index 2020-10-07 17:25:40,526 INFO [main] org.apache.hadoop.mapred.Task: Task:attempt_1601725692999_0072_r_000001_0 已完成。并且正在提交中 2020-10-07 17:25:40,540 INFO [main] org.apache.hadoop.mapred.Task:任务“attempt_1601725692999_0072_r_000001_0”已完成。 2020-10-07 17:25:40,546 INFO [main] org.apache.hadoop.mapred.Task:attempt_1601725692999_0072_r_000001_0 的最终计数器:计数器:37 文件系统计数器

    020-10-07 17:25:40,556 INFO [main] org.apache.hadoop.metrics2.impl.MetricsSystemImpl:停止 ReduceTask 指标系统... 2020-10-07 17:25:40,557 信息 [cloudwatch] org.apache.hadoop.metrics2.impl.MetricsSinkAdapter:cloudwatch 线程中断。 2020-10-07 17:25:40,557 INFO [main] org.apache.hadoop.metrics2.impl.MetricsSystemImpl:ReduceTask 指标系统已停止。 2020-10-07 17:25:40,557 INFO [main] org.apache.hadoop.metrics2.impl.MetricsSystemImpl:ReduceTask 指标系统关闭完成。

    日志类型结束:系统日志


    LogType:syslog.shuffle LogLastModifiedTime:2020 年 10 月 7 日星期三 17:25:50 +0000 日志长度:2318 日志内容: 2020-10-07 17:24:58,847 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl:MergerManager:memoryLimit=3207593984,maxSingleShuffleLimit=801898496,mergeThreshold=2117012096,ioSortFactor=48,memToMemMergeOutput=48 2020-10-07 17:24:58,849 INFO [EventFetcher for fetching Map Completion Events] org.apache.hadoop.mapreduce.task.reduce.EventFetcher:attempt_1601725692999_0072_r_000001_0 线程已启动:EventFetcher for fetching Map Completion Events 2020-10-07 17:24:58,855 INFO [EventFetcher for fetching Map Completion Events] org.apache.hadoop.mapreduce.task.reduce.EventFetcher:attempt_1601725692999_0072_r_000001_0:得到 1 个新的地图输出 2020-10-07 17:24:58,867 INFO [fetcher#1] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl:attempt_1601725692999_0072_m_000000_0:从 1506408373 开始洗牌到磁盘大于 maxSingleShuffleLimit (801898496) 2020-10-07 17:24:58,869 INFO [fetcher#1] org.apache.hadoop.mapreduce.task.reduce.Fetcher: fetcher#1 即将随机输出地图尝试_1601725692999_0072_m_000000_0 decomp: 1506408373 len: 450132846 to DIS 2020-10-07 17:24:59,216 INFO [fetcher#1] org.apache.hadoop.mapreduce.task.reduce.OnDiskMapOutput:从 map-output 中读取 450132846 个字节,用于尝试_1601725692999_0072_m_000000_0 2020-10-07 17:24:59,217 INFO [EventFetcher for fetching Map Completion Events] org.apache.hadoop.mapreduce.task.reduce.EventFetcher:EventFetcher 被中断.. 返回 2020-10-07 17:24:59,217 INFO [fetcher#1] org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl: ip-172-31-67-60.ec2.internal:13562 由 fetcher#1 释放在 361 毫秒内 2020-10-07 17:24:59,222 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl:使用 0 个内存映射输出和 1 个磁盘映射输出调用 finalMerge 2020-10-07 17:24:59,244 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl:从磁盘合并 1 个文件,450132846 字节 2020-10-07 17:24:59,244 INFO [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl:将 0 个段、0 个字节从内存合并到 reduce 2020-10-07 17:24:59,247 INFO [main] org.apache.hadoop.mapred.Merger:合并 1 个排序段 2020-10-07 17:24:59,254 INFO [main] org.apache.hadoop.mapred.Merger:直到最后一个合并通道,总大小还剩下 1 个段:1506408349 字节

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-01-25
      • 1970-01-01
      • 2016-02-11
      相关资源
      最近更新 更多