【发布时间】:2011-08-20 06:37:08
【问题描述】:
我有一个接收有序 UDP 数据包的 Linux C++ 应用程序。由于排序,我可以很容易地确定数据包何时丢失或重新排序,即何时遇到“间隙”。系统具有处理间隙的恢复机制,但是,最好首先避免间隙。使用一个简单的基于 libpcap 的数据包嗅探器,我确定硬件级别的数据没有间隙。但是,我在我的申请中看到了很多空白。这表明内核正在丢弃数据包;通过查看 /proc/net/snmp 文件可以确认。当我的应用程序遇到间隙时,Udp InErrors 计数器会增加。
在系统层面,我们增加了最大接收缓冲区:
# sysctl net.core.rmem_max
net.core.rmem_max = 33554432
在应用程序级别,我们增加了接收缓冲区大小:
int sockbufsize = 33554432
int ret = setsockopt(my_socket_fd, SOL_SOCKET, SO_RCVBUF,
(char *)&sockbufsize, (int)sizeof(sockbufsize));
// check return code
sockbufsize = 0;
ret = getsockopt(my_socket_fd, SOL_SOCKET, SO_RCVBUF,
(char*)&sockbufsize, &size);
// print sockbufsize
在调用 getsockopt() 之后,打印的值始终是设置值的 2 倍(上例中为 67108864),但我相信这是意料之中的。
我知道未能足够快地使用数据会导致数据包丢失。然而,这个应用程序所做的只是检查排序,然后将数据推送到队列中;实际处理在另一个线程中完成。此外,这台机器很现代(双 Xeon X5560,8 GB RAM)并且负载非常轻。我们实际上有几十个相同的应用程序以更高的速率接收数据,它们没有遇到这个问题。
除了消耗太慢的应用程序之外,还有其他原因会导致 Linux 内核丢弃 UDP 数据包吗?
FWIW,这是在 CentOS 4 上,内核为 2.6.9-89.0.25.ELlargesmp。
【问题讨论】:
-
检查您的电缆,会发生位错误,尤其是当您将电缆缠绕在电噪声源上时。可能是一个有问题的驱动程序/网卡,看看你是否可以关闭/打开校验和卸载。请记住,交换机等网络元素可能会丢弃数据包。用wireshark监控你的流量并寻找可疑的东西。您可能需要对您的应用进行测试,以验证您在任何地方都没有出现过多的延迟(例如,在互斥体上等待的时间过长),因此您确定自己的阅读速度足够快。
-
pcap 应用程序确认 NIC 正在接收所有数据包,因此这不是接线或交换机问题。至于程序本身,我使用的代码与许多其他应用程序共享的完全相同。此连接是唯一有问题的连接。
-
入站校验和是否不正确?
标签: c++ c linux networking udp