【问题标题】:Windows TCP socket has SO_KEEPALIVE enabled by default?Windows TCP 套接字默认启用了 SO_KEEPALIVE?
【发布时间】:2011-06-22 20:31:36
【问题描述】:

我遇到了一个关于 TCP 套接字的奇怪错误。看来SO_KEEPALIVE默认是在所有socket上启用的。

我写了一个简短的测试用例来创建一个套接字并连接到一个服务器。连接后立即检查SO_KEEPALIVEgetsockopt。该值非零,根据 MSDN,这意味着启用了保持活动。可能我理解错了。

我最近遇到了一个奇怪的错误,即服务器连续两次断开连接。一些客户端处于已发送登录信息并等待响应的状态。即使有一个重叠的WSARecv 发布到连接到服务器的套接字,也没有发布完成以通知客户端服务器崩溃,所以我假设套接字没有完全关闭。

大约 2 小时后(实际上是大约 1 小时 59 分 19 秒),发送完成数据包以供读取,通知客户端连接不再打开。这就是我开始怀疑SO_KEEPALIVE的地方。

我试图了解为什么会发生这种情况。它引起了一些问题,因为出于任何原因失去连接的客户端应该自动重新连接到服务器;在这种情况下,由于没有通知断开连接,客户端直到 2 小时后才重新连接。

一个明显的解决方法是设置一个超时,但我想知道这种情况是如何发生的。

SO_KEEPALIVE 没有被我的应用服务器或客户端设置在套接字上。

// Error checking is removed for this snippet, but all winsock calls succeed.
int main() {
    WORD wVersionRequested;
    WSADATA wsaData;
    int err;

    wVersionRequested = MAKEWORD(2, 2);
    err = WSAStartup(wVersionRequested, &wsaData);

    SOCKET foo = WSASocket(AF_INET, SOCK_STREAM, IPPROTO_TCP, 0, 0, 0);

    DWORD optval;
    int optlen = sizeof(optval);
    int test = 0;
    test = getsockopt(foo, SOL_SOCKET, SO_KEEPALIVE, (char*)&optval, &optlen);
    std::cout << "Returned " << optval << std::endl;

    sockaddr_in clientService; 
    clientService.sin_family = AF_INET;
    clientService.sin_addr.s_addr = inet_addr("127.0.0.1");
    clientService.sin_port = htons(446);

    connect(foo, (SOCKADDR*) &clientService, sizeof(clientService));

    test = getsockopt(foo, SOL_SOCKET, SO_KEEPALIVE, (char*)&optval, &optlen);
    std::cout << "Returned " << optval << std::endl;

    std::cin.get();
    return 0;
}

// Example output:
// Returned 2883584
// Returned 2883584

【问题讨论】:

  • 在 WSAIoctl()/SIO_KEEPALIVE_VALS 下得到相同的结果吗?我还会输出“test”的值,在 Unix 中,隐藏在 optval 中的值往往是 0 和 1,而不是 0 和“看起来很随机的结果”。
  • 我删除了 test 的输出以保持 sn-p 简洁,该值始终为 0。快速谷歌搜索,我不知道如何使用 WSAIoctl 检索设置,只有如何设置它们。这是一个垃圾值,因为它经常更改,但 MSDN 文档说任何非零都表示启用。
  • 可能是覆盖默认值的注册表设置?在我的机器 (XP) 上,您的示例代码输出“返回 0”。
  • 经历过这种情况并且我可以访问的机器都在运行 Windows 7。也许它是相关的。我查看了注册表,但唯一奇怪的是我的 KeepAliveInterval 和 KeepAliveTime 都是 0xFFFFFFFF 而不是默认值。
  • 您是否安装了 Oracle DB 客户端? (我认为是 Oracle,我可能错了)我记得以前在 Windows 2000 Server 上遇到过这个问题,并且是一个数据库客户端。

标签: c windows tcp winsock keep-alive


【解决方案1】:

首先在虚拟机上全新安装操作系统上运行测试。我怀疑您安装的其他东西可能会影响保持活动设置。

其次,我怀疑启用保持活动是导致问题的原因。如果未启用保持活动状态,那么您将永远不会从该挂起的读取中获得连接关闭通知。 TCP 应该是这样工作的,它允许中间路由器离开然后回来,而你既不知道也不关心。唯一一次您会被告知失败是如果您尝试发送并且连接断开(或者,在这种情况下,如果您尝试发送并且服务器已经反弹)。启用保持活动的事实意味着在 1 小时 59 分钟标记 TCP 堆栈传输保持活动并注意到连接已关闭。如果没有启用保持活动,那么您将不得不等到您传输了一些东西。

如果您的客户需要知道连接是否断开,那么最好完全忽略保持活动(如您所见,它会影响整个机器,即使您不是启用它的人,对我来说也是如此一个糟糕的解决方案)。如果可以,请在您的协议中添加应用程序级别的 ping 和/或超时。因此,也许,每个命令都希望在 30 秒内得到响应,并且您每分钟从服务器发送一个响应……然后您会尽快发现死连接,然后您可以断开连接并重新连接。

我已经很好地使用了 my server framework;事实上,我有一个标准的'async read timeout' connection filter 和一个'connection re-establishment' filter,这使得确保连接始终处于活动状态变得微不足道。读取超时所做的只是中止现有连接,并启动连接重建代码以重新创建连接,就像连接因任何其他原因关闭时一样。

【讨论】:

  • 感谢您的回答。我最初认为数据是在 2 小时内发送到服务器的,但由于边缘情况,它实际上是在不同的连接上发送的。这种情况现在更有意义了。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-02-10
  • 2013-03-13
  • 1970-01-01
  • 2017-12-22
  • 2014-05-18
  • 1970-01-01
相关资源
最近更新 更多