微信小程序中使用特殊字体-CFANZ编程社区

1 前言

在『网络编程专栏』中，有两篇文章都涉及到了使用 select() 处理多个 socket 连接：
- 《使用select实现的UDP/TCP组合服务器》
- 《TCP服务器如何使用select处理多客户连接》
Linux 上的另一个系统调用 poll()，可以和 select() 完成相同的工作，而且通常认为 poll() 的效率要高于 select()；
似乎 select() 要比 poll() 更普及一些，这可能是因为在 Linux 内核 2.0 版以前是不支持 poll() 的，只有 select()，直到 2.1.13 版后才开始既支持 select() 也支持 poll()；
另一个导致 select() 更加普及的原因可能是大多数的应用程序需要同时处理的 I/O 数量并不是很多，使得对性能的要求不高，其实在大量的 I/O 处理上，poll() 和 select() 在性能上的差别还是挺大的；
本文假定读者已经对 socket 编程和 select() 函数有基本的理解，有关这方面的知识请自行参考前面提到的两篇文章，本文不再讨论；
select() 和 poll() 并不适用于普通文件(指文件系统上的文件)，一个普通文件将永远处于可读或者可写的状态，不管是使用 select() 还是 poll()，都会一直返回；
通常情况下，select() 和 poll() 用于 socket、管道等，尽管我们在 D-Bus 的文章中也使用了 select()，但实际上 D-Bus 使用的是 socket 或者管道，D-Bus 只是将其抽象化了；
select() 和 poll() 实际上完成的功能非常近似，使用上的差异也不大；
本文讨论的重点是使用 poll() 替代以前使用 select() 的程序，会介绍 poll() 的使用方法，以及 poll() 和 select() 在编程上的区别，并最终实现一个使用 poll() 的 TCP 服务器；
尽管普遍认为 epoll() 在处理多连接方面表现更加优异，但 epoll() 的编程方式与 select() 和 poll() 有较大区别，所以本文不会讨论 epoll() 相关的编程方法；

2 poll() 的基本使用方法

poll() 函数的输入参数中有一个结构数组，结构中包含有一个描述符字段，poll() 函数等待在这些描述符上，当结构数组中的任何一个或多个描述符上有事件发生时，该函数将返回；

poll() 函数的定义如下：

#include <poll.h>

int poll(struct pollfd *fds, nfds_t nfds, int timeout);

struct pollfd 的定义

struct pollfd
{
    int fd;                 /* File descriptor to poll.  */
    short int events;       /* Types of events poller cares about.  */
    short int revents;      /* Types of events that actually occurred.  */
};

在调用 poll() 之前，要先初始化 fds；
- fds 中的 fd 是要监视的文件描述符，可以是文件、socket、管道、设备等，比较常用的是在一个 TCP 服务器上监视侦听的 socket 以及与多个客户端之间的连接 socket；
- fds 中的 events 是要在这个描述符上监视哪些事件，可监视的事件主要有：
  - POLLIN - 当 socket 上有数据可读时，触发该事件；
  - POLLOUT - 当向 socket 上写入数据不会产生阻塞时，触发该事件；
  - POLLPRI - 当 socket 上有紧急的数据需要读取时，触发该事件；
  - POLLERR - 当 socket 上产生一个异步错误时，触发该事件；
  - POLLHUP - 当 socket 连接已经断开时，触发该事件，该事件仅在输出时有效；
  - POLLNVAL - 无效的请求，通常表示描述符没有打开，触发该事件；
  - 可以使用 “或” 操作在一个描述符上同时监视多个事件，最常用的监视事件为 PULLIN 和 POLLOUT，同时监视这两个事件时可以表达为 POLLIN | POLLOUT；
- revents 是实际发生的事件，当 poll() 返回时会填充该字段，程序通过这个字段可以判断在这个描述符上发生了什么事件；
poll() 函数的第二个参数 nfds 是 fds 数组中有效的条目的数量，比如结构数组的 fds 可以容纳的条目最大为 100 个，但只有前 10 个是我们准备监视的描述符，则 nfds 应该为 10；
poll() 函数的第三个参数 timeout 是超时时间，调用 poll() 会进入阻塞，等待被监视的描述符产生事件，如果设置了 timeout 参数，则阻塞 timeout 时间后，即便没有产生事件，poll() 函数也会返回；
timeout 的时间单位为毫秒；
- 将 timeout 设为 -1 表示永久等待，直至有事件产生；
- 将 timeout 设为 0，poll() 将立即返回，不管是否有事件产生；
poll() 的返回值有三种情况：
- 当有事件产生时，poll() 返回一个大于 0 的正整数，表示有多少个文件描述符上有事件产生，程序需要遍历 fds 数组，查看结构中的 revent 字段来判断那个文件描述符上产生了哪些事件；
- 当没有事件产生，poll() 仅仅是因为超时返回时，poll() 返回 0；
- 当出现错误时，poll() 返回 -1，此时，errno 中存放有错误代码，详情可以查看在线手册 man 2 poll；
poll() 检测到 socket 有数据可读时，如果读出的数据长度为 0 时，认为该 socket 连接已经断开；
poll() 的返回值有四种可能：
- 0：表示调用超时；
- -1：表示调用失败，errno 中为错误代码；
- 1：表示在被监听的描述符中，只有一个描述符上有事件产生，等待处理；
- 1+：表示在被监听的描述符中，有多个描述符上有等待处理的事件，返回值为等待处理的描述符的数量；

3 poll() 和 select() 在编程上的区别

通常情况下，poll() 的代码会比 select() 简单一些；

先看一下 select() 编程的代码：

fd_set fds;
FD_ZERO(fd_set);
FD_SET(500, &fds);
struct timeval tv;
tv.tv_sec = 5;
tv.tv_usec = 0;
if (select(501, &fds, NULL, NULL, &tv)) {
    if (FD_ISSET(500, &fds)) {
        ... 
    }
}

再看一下完成同样工作的 poll() 编程的代码：

struct pollfd pfd[10];
pfd[0].fd = 500;
pfd[0].events = POLLIN;
if (poll(&pfd, 1, 5000)) {
    if (pfd.revents & POLLIN) {
        ... 
    }
}

看上去显然使用 poll() 编程要简单一些；
select() 在标识文件描述符时使用的位掩码，bit 0 表示描述符为 0，bit 1 表示描述符为 1，以此类推，当表示某个描述符的 bit 为 1 时，表示这个描述符需要被监视，如果我们仅需要监视数值为 500 的文件描述符，此时，bit 0~499 为 0，bit 500 为 1；
所以，在使用 select() 时，即便我们只需要监视描述符为 500 的 socket，实际上，仍要检查描述符 0~499 的位掩码，当所要监视的描述符值比较大时，运行效率肯定会受到影响；
在使用 select() 时，使用三个描述符集来监视读、写和意外事件，当一个描述符既需要监视读又需要监视写时，是需要在两个描述符集中设置相应的描述符的；
另外，使用 select() 监视描述符时，对描述符的最大值是有限制的，在 Linux 下允许的描述符的最大值为 1024，这一点显然也是 select() 的麻烦之处，当要监视的描述符的值大于 1024 时，将无法使用 select()；
使用 poll() 则不需要设置描述符集，而是需要为每一个需要监视的描述符建立一个结构：struct pollfd，这个结构中的 fd 字段指定要监视的描述符，events 字段可以设置多个要监视的事件，如果对一个描述符既要监视其"读"事件，也要监视其"写"事件，只需在这个 events 字段上设置两个事件即可，像下面这段代码
```
......
struct pollfd *fds;
...
fds[i].fd = fd;
fds[i].events = POLLIN | POLLOUT;
......
```
由此可见，使用 poll() 监视描述符不会有最大值不能超过 1024 的限制，在监视效率上也会比 select() 要高一些；

在 select() 编程中，通常每次调用 select() 之前需要重新设置描述符集，像下面代码，这段代码中 client_socket 数组中存放着连接到服务器的客户端的 socket，listen_socket 为服务器上正在侦听的 socket：

while (1) {
    FD_ZERO(&readfds);
    FD_SET(listening_socket, &readfds);
    max_fd = listening_socket;

    for (i = 0 ; i < MAX_CLIENTS; i++) {
        if (client_socket[i] > 0) {
            FD_SET(client_socket[i], &readfds);
        }
        if (client_socket[i] > max_fd) max_fd = client_socket[i];
    }
    rc = select(max_fd + 1, &readfds, NULL, NULL, NULL);
    ......
}

但其实 poll() 编程中也有类似的困扰，poll() 使用一个结构数组 struct pollfd * 来标识需要监视的描述符及其事件，但当一个客户连接中止时，尽管可以将结构数组中的 fd 字段置为 0，但 poll() 并不会自动地跳过 fd 字段为 0 的数组项，所以我们在启动 poll() 之前仍然有必要重新整理整个结构数组，以保证其中没有已经不再使用的描述符，像下面代码段，fds_size 为结构数组 fds 中的有效元素数，从中删除所有的 fd 字段为 0 的元素：
```
......
struct pollfd *fds;
...
while ((fds_size > 0) && (fds[fds_size - 1].fd == 0)) fds_size--;
if (fds_size > 1) {
    int i = fds_size - 1;
    while (i > 0) {
        if (fds[i - 1].fd == 0) {
            fds[i - 1].fd = fds[fds_size - 1].fd;
            fds[i - 1].events = fds[fds_size - 1].events;
            fds[i - 1].revents = 0;
            fds[fds_size - 1].fd = 0;
            while ((fds_size > 0) && (fds[fds_size - 1].fd == 0)) fds_size--;
            if (fds_size < 2) break;
        }
        i--;
    }
}
......
```
在 poll() 编程中，当有事件产生时，需要遍历整个结构数组，检查每个数组结构中的 revents 字段，找到需要处理的描述符及其事件，这一点和 select() 编程类似，select() 返回后，需要检查所有被监控的描述符，以找到哪个描述符需要处理；

4 poll() 编程的基本步骤

使用 socket() 建立需要侦听的 socket；
使用 setsockopt() 设置 socket 为可重复使用；
使用 ioctl() 设置 socket 为非阻塞；
使用 bind() 绑定服务器的地址和端口；
使用 listen() 开始侦听端口；

以上步骤和使用 select() 编程时一致的；

初始化结构数组 struct pollfd *，将服务器侦听 socket 加入到数组中；
启动 poll()；
- 返回 0 表示调用超时，可以重新启动 poll()；
- 返回 <0 表示 poll() 出错，errno 中为错误代码；
- 返回 >0 表示有需要处理的 socket，进行处理；
整理结构数组 struct pollfd *，然后再次启动 poll()；

5 实例：一个使用 poll() 的 TCP 服务器

源程序：poll-server.c(点击文件名下载源程序，建议使用UTF-8字符集)演示了使用 poll() 完成的一个 TCP 服务器；
编译：gcc -Wall -g poll-server.c -o poll-server
运行：./poll-server
该程序是一个多进程程序，程序会建立一个服务端进程和若干个(默认为 3 个，由宏 MAX_CONNECTIONS 控制)客户端进程；
服务端进程侦听在端口 8888 上，等待客户端进程的连接；
启动 poll() 监视 socket；
服务端在接受客户端请求后，将新连接的 socket 加入到结构数组中，并向客户端发送一条欢迎信息；
客户端在连接建立以后向服务端发送一条信息，服务端在收到客户端信息后会将该信息原封不动地发送回客户端；
客户端判断收到的信息与自己发出的信息一样后，主动关闭连接，然后退出进程；
服务端发现连接中断后，将从结构数组中删除该失效 socket，然后继续启动 poll() 监视 socket；
服务进程中拦截了 SIGINT 信号，这个信号可以使用 ctrl + c 产生，服务进程在收到这个信号后将退出进程；
主进程监视客户端进程的退出，当所有客户端进程都已退出后，向服务端进程发送 SIGINT 信号，使服务端进程退出，整个程序运行结束。
运行截图：

6 结论

poll() 和 select() 编程有很多相似的地方，除了 select() 使用描述符集而 poll() 使用结构数组外，其它方面非常相似，对熟悉 select() 编程的程序员而言，使用 poll() 替换 select() 编写服务端程序并不困难；
在调用 select() 之前，需要初始化描述符集，在调用 poll() 之前，需要初始化结构数组；
在 select() 返回后，需要使用 FD_ISSET() 遍历描述符集以判断哪个描述符有事件产生，在 poll() 返回后，需要遍历结构数组中的 revents 字段，以判断哪个描述符有事件产生；
在接受连接请求、接收、发送数据，判断错误以及连接是否中断方面，使用 select() 和 poll() 是一样的；
在处理完 select() 的返回后，需要重新初始化描述符集才可以再次调用 select()，在处理完 poll() 的返回后，需要重新整理结构数组后才可以再次调用 poll()。