【问题标题】:nutch fetch is failing with java.lang.NumberFormatExceptionnutch fetch 因 java.lang.NumberFormatException 而失败
【发布时间】:2021-03-16 15:34:35
【问题描述】:

我在带有 Java openjdk 版本“1.8.0_275”的 Red Hat Enterprise Linux 版本 8.3 (Ootpa) 上运行 Nutch 1.18

我正在遵循这些指示:https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial#NutchTutorial-Step-by-Step:Concepts

当我到达bin/nutch fetch $s1 的步骤时,每次获取都失败了。请参阅下面的 hadoop 日志中的示例错误。它们都因 java.lang.NumberFormatException 而失败。我可以使用 curl 来检查 url 是否可以访问。

任何建议将不胜感激。

    at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
    at java.lang.Integer.parseInt(Integer.java:583)
    at java.lang.Integer.parseInt(Integer.java:615)
    at org.apache.hadoop.conf.Configuration.getInt(Configuration.java:1486)
    at org.apache.nutch.protocol.http.api.HttpBase.setConf(HttpBase.java:212)
    at org.apache.nutch.protocol.http.Http.setConf(Http.java:52)
    at org.apache.nutch.plugin.Extension.getExtensionInstance(Extension.java:169)
    at org.apache.nutch.protocol.ProtocolFactory.getProtocolInstanceByExtension(ProtocolFactory.java:177)
    at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:155)
    at org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:308)```

【问题讨论】:

    标签: nutch


    【解决方案1】:

    堆栈(关键字:协议、http、配置、parseInt)已经告诉配置属性的某些整数值无法读取。查看源代码(HttpBase.java,第 212 行)时,很明显它与配置属性“http.timeout”有关:

    <property>
      <name>http.timeout</name>
      <value>10000</value>
      <description>The default network timeout, in milliseconds.</description>
    </property>
    

    请验证它是否配置正确 - 一个整数值和一个合理的时间跨度。

    【讨论】:

    • 谢谢!就是这样!我将其设置为更大的值。当我将其设置回 10000 时,不再出现错误。再次感谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-02-16
    • 1970-01-01
    • 2012-10-03
    • 2014-07-16
    • 2021-11-23
    • 2018-10-04
    • 2020-03-23
    相关资源
    最近更新 更多