【问题标题】:Running parallel job in a linux cluster - mpich error在 linux 集群中运行并行作业 - mpich 错误
【发布时间】:2013-01-31 17:13:27
【问题描述】:

首先我想说我不确定这是问这个问题的正确地方,我猜是我们,但是......如果它更适合另一个 stackexchange 网站,请告诉我。

三个月前,我负责一个由六台计算机 (Suse Linux 9.2) 组成的集群,该集群在预报模式下运行气象模型。最近,由于电源中断,其中一个节点崩溃了。安装 Lubuntu 12.04 后(Suse 9.2 磁盘不可用,只有 10.2)我尝试将此计算机重新连接到集群:

  • 已安装 openssh 服务器
  • 无需密码即可运行 ssh-keygen 到 ssh
  • 已安装 NFS 支持
  • 已编辑 /etc/fstab
  • 已编辑 /etc/hosts

然后我尝试运行met模型但收到以下错误消息:

rm_1993: p4_error: Could not gethostbyname for host thalassa; may be invalid name : 61
p0_12316: p4_error: Child process exited while making connection to remote process on thalassa3: 0

在谷歌搜索后,我发现了一些关于 /etc/resolv.conf 的问题,然后编辑了这个文件:

域名ceam.es dns-nameservers 192.168.1.1 域名服务器127.0.0.1

但错误信息仍然出现。我想我遗漏了一些东西,我不是专业的系统管理员,但我必须处理。

您可以在此处找到error loghostsresolv.conf

任何帮助或想法将不胜感激,我将继续在网上搜索解决方案。

提前致谢

【问题讨论】:

    标签: cluster-computing ubuntu-12.04 mpich


    【解决方案1】:

    这些消息表明您正在运行原始 MPICH 软件(通常称为 MPICH1)。尽管您可以将其重新组合在一起以使您的系统正常工作,但您确实不应该运行这种长期以来不受支持的软件。

    我建议升级到现代 MPICH(以前称为 MPICH2)v3.0.1 或更高版本。安装和配置应该相当容易,尽管您正在运行的任何旧应用程序代码都有可能不欣赏现代 MPICH 包含的额外错误检查。

    http://www.mpich.org/

    【讨论】:

    • 嗨@Dave,感谢您的回答。是的,我应该升级,希望有一天。但现在这是一个无法停止升级的工作环境,所以我需要让这个其他节点以“旧”设置运行。在另一个集群中,我们使用 mpich2 和更新版本的 met 模型。我想尽快升级旧集群,但几个月后实验活动结束。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-06-27
    • 1970-01-01
    • 1970-01-01
    • 2019-05-30
    • 2018-09-19
    • 1970-01-01
    相关资源
    最近更新 更多