【问题标题】:Failure on local socket bind when wifi dropswifi 掉线时本地套接字绑定失败
【发布时间】:2019-09-19 10:29:39
【问题描述】:

我们在树莓派上遇到了这个奇怪的问题。

我们在套接字上运行一个服务,该服务应该通过 wifi 为本地和远程客户端工作。 问题是停止远程网络也会停止来自本地客户端的连接。

我们的 python 服务器设置一个这样的套接字:

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
s.setsockopt(socket.SOL_SOCKET, socket.SO_DONTROUTE, 1)
s.settimeout(2)
s.bind(("", 8888))

while True:

    try:
        conn, addr = s.accept()
    except socket.timeout:
        print("Socket timeout on s.accept(), continuing")
        continue

    #do stuff

我们有一个本地节点客户端每秒左右运行一个这样的循环(并实际发送数据):

// every second
socket.connect("localhost", "8888" );
socket.on('connect', function() { /* do stuff */ });
socket.on('error', function(ex) { });

在我们切断 wifi 之前一切正常。 我们在 s.accept 上的服务器端超时,我们在日志中看到错误消息。

我认为套接字一定会在 0.0.0.0 上侦听,但不知何故不会故障转移到 127.0.0.1 或发生某种奇怪的路由情况。

netstat -an | grep 8888给了

tcp        0      0 0.0.0.0:8888            0.0.0.0:*               LISTEN
tcp        0      0 127.0.0.1:8888          127.0.0.1:52794         TIME_WAIT
tcp        0      0 127.0.0.1:8888          127.0.0.1:52724         TIME_WAIT
tcp        0      0 127.0.0.1:8888          127.0.0.1:52740         TIME_WAIT
tcp        0      0 127.0.0.1:8888          127.0.0.1:52778         TIME_WAIT

netstart -rn给了

Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
default         192.168.1.1     0.0.0.0         UG    304    0        0 wlan0
192.168.1.0     0.0.0.0         255.255.255.0   U     304    0        0 wlan0

我猜我们只需要一个 localhost 路由?

当 wifi 恢复时,本地连接再次建立。所以我没有在 python 套接字中永久删除绑定。

/etc/nsswitch.conf 中的 hosts 行给出了

hosts:          files mdns4_minimal [NOTFOUND=return] dns

我们在测试期间监控了对 localhost 的 ping,它继续正常运行。 我们还监视了 netstat 以查看该端口在 0.0.0.0 上保持侦听也许这是问题所在?

【问题讨论】:

  • 在黑暗中射击:让两个服务器进程分别在 localhost 和 wlan0 接口上进行绑定应该会有所帮助。
  • @bigdataolddriver 做不到,下游共享资源会是个问题。
  • 可能是尝试在命名中查找本地主机,尝试将其替换为 127.0.0.1 或仅使用 "" 以使用任何地址..
  • @lossleader :早期测试表明客户端的 127.0.0.1 正在工作。如果您想在上面发布答案,那么我们可能会在一两个小时内接受它。 ......会很高兴获得一些关于确切原因的信息。是“localhost”解析到 192 地址吗? /etc/hosts 说 127.0.0.1 localhost。节点可以使用不同的方法吗?
  • 你的 etc/nsswitch.conf 是什么样的?

标签: node.js python-3.x sockets routing raspberry-pi


【解决方案1】:

最简单的解决方案

您似乎应该避免使用我们评论讨论中所述的“127.0.0.1”来命名。

更详细:

根据源代码和docs(在nodejs first tests for an ip 之后),它会检查您是否提供了查找功能作为连接选项,如果没有,它会默认调用自己的"dns.lookup"。尽管有名字,但这个函数实际上是在尝试使用系统命名,但可能有细微的不同,例如它可能会尝试更喜欢 ipv6。

要进一步调试,您可以尝试使用 dns.lookup 制作更直接的测试用例,并将 getent ahosts|ahostsv4|ahostsv6 localhost 的输出与您的不同系统和 wifi 关闭时进行比较,以及比较其他配置(如 gai) .conf 尝试确定该系统上的系统命名是否有点不同,或者给出的请求是否略有不同。

【讨论】:

    猜你喜欢
    • 2015-08-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-01-01
    • 2015-03-05
    • 1970-01-01
    • 2021-10-17
    • 2022-09-24
    相关资源
    最近更新 更多