到底一台服务器上最多能创建多少个TCP连接经常听到有同学说一台机器最多能创建65535个TCP连接,这其实是错误的理解,为什么会有这个错误的理解呢? port range我们都知道linux下本地随机端口范围由参数控制,也就是listen、connect时候如果没有指定本地端口,那么就从下面的port range中随机取一个可用的 1
* U4 J c8 [% g' N4 ?4 @3 y( u2& @; y7 T" L: Z' }
| # cat /proc/sys/net/ipv4/ip_local_port_range 7 j- `- d& Q8 {( m9 i% I
2000 65535. L' X: Z7 f. Z, c- ?
|
port range的上限是65535,所以也经常看到这个误解:一台机器上最多能创建65535个TCP连接 到底一台机器上最多能创建多少个TCP连接先说结论:在内存、文件句柄足够的话可以创建的连接是没有限制的(每个TCP连接至少要消耗一个文件句柄)。 那么/proc/sys/net/ipv4/ip_local_port_range指定的端口范围到底是什么意思呢? 核心规则:一个TCP连接只要保证四元组(src-ip src-port dest-ip dest-port)唯一就可以了,而不是要求src port唯一 后面所讲都遵循这个规则,所以在心里反复默念:四元组唯一 五个大字,就能分析出来到底能创建多少TCP连接了。 比如如下这个机器上的TCP连接实际状态: 1
" E' k+ J2 E% K2
6 U; o: N# y; {+ i' g3
) O* D9 W& ]- I4 T2 S4
3 z; _2 V' |3 Y. d& M$ T) r5
) ~9 l! ^9 y y4 d- A+ `! w6
" |* b. L/ |" @8 L2 J! g | # netstat -ant |grep 18089
' L: p0 B! R: c6 jtcp 0 0 192.168.1.79:18089 192.168.1.79:22 ESTABLISHED
5 K7 V" X& e/ o. w! ^ Ftcp 0 0 192.168.1.79:18089 192.168.1.79:18080 ESTABLISHED
H3 y+ H( b+ f' Gtcp 0 0 192.168.0.79:18089 192.168.0.79:22 TIME_WAIT 5 I4 K: o0 y# ^
tcp 0 0 192.168.1.79:22 192.168.1.79:18089 ESTABLISHED" A+ K, J$ f& f; c9 J# f# a3 Y
tcp 0 0 192.168.1.79:18080 192.168.1.79:18089 ESTABLISHED
" G- m0 {9 M; B9 n. Z" f: v |
从前三行可以清楚地看到18089被用了三次,第一第二行src-ip、dest-ip也是重复的,但是dest port不一样,第三行的src-port还是18089,但是src-ip变了。他们的四元组均不相同。 所以一台机器能创建的TCP连接是没有限制的,而ip_local_port_range是指没有bind的时候OS随机分配端口的范围,但是分配到的端口要同时满足五元组唯一,这样 ip_local_port_range 限制的是连同一个目标(dest-ip和dest-port一样)的port的数量(请忽略本地多网卡的情况,因为dest-ip为以后route只会选用一个本地ip)。 那么为什么大家有这样的误解呢?我总结了下,大概是以下两个原因让大家误解了: - 如果是listen服务,那么肯定端口不能重复使用,这样就跟我们的误解对应上了,一个服务器上最多能监听65535个端口。比如nginx监听了80端口,那么tomcat就没法再监听80端口了,这里的80端口只能监听一次(如果有个连接用了80连别人,这里80还是不能被listen……想想)。
- 另外如果我们要连的server只有一个,比如:1.1.1.1:80 ,同时本机只有一个ip的话,那么这个时候即使直接调connect 也只能创建出65535个连接,因为四元组中的三个是固定的了。5 A9 [9 x: J' \( V4 x% I- @
我们在创建连接前,经常会先调bind,bind后可以调listen当做服务端监听,也可以直接调connect当做client来连服务端。 bind(ip,port=0) 的时候是让系统绑定到某个网卡和自动分配的端口,此时系统没有办法确定接下来这个socket是要去connect还是listen. 如果是listen的话,那么肯定是不能出现端口冲突的,如果是connect的话,只要满足4元组唯一即可。在这种情况下,系统只能尽可能满足更强的要求,就是先要求端口不能冲突,即使之后去connect的时候四元组是唯一的。 但如果我只是个client端,只需要连接server建立连接,也就不需要bind,直接调connect就可以了,这个时候只要保证四元组唯一就行。 bind()的时候内核是还不知道四元组的,只知道src_ip、src_port,所以这个时候单网卡下src_port是没法重复的,但是connect()的时候已经知道了四元组的全部信息,所以只要保证四元组唯一就可以了,那么这里的src_port完全是可以重复使用的。 是不是加上了 SO_REUSEADDR、SO_REUSEPORT 就能重用端口了呢? TCP SO_REUSEADDR文档描述: SO_REUSEADDR Indicates that the rules used in validating addresses supplied in a bind(2) call should allow reuse of local addresses. For AF_INET sockets this means that a socket may bind, except when there is an active listening socket bound to the address. When the listening socket is bound to INADDR_ANY with a specific port then it is not possible to bind to this port for any local address. Argument is an integer boolean flag.
从这段文档中我们可以知道三个事: - 使用这个参数后,bind操作是可以重复使用local address的,注意,这里说的是local address,即ip加端口组成的本地地址,也就是两个本地地址,如果有任意ip或端口部分不一样,它们本身就是可以共存的,不需要使用这个参数。
- 当local address被一个处于listen状态的socket使用时,加上该参数也不能重用这个地址。
- 当处于listen状态的socket监听的本地地址的ip部分是INADDR_ANY,即表示监听本地的所有ip,即使使用这个参数,也不能再bind包含这个端口的任意本地地址,这个和 2 中描述的其实是一样的。
5 g$ K" n) r% B. w* D+ y
==SO_REUSEADDR 可以用本地相同的(sip, sport) 去连connect 远程的不同的(dip、dport)//而 SO_REUSEPORT主要是解决Server端的port重用== What exactly does SO_REUSEADDR do? This socket option tells the kernel that even if this port is busy (in the TIME_WAIT state), go ahead and reuse it anyway. If it is busy, but with another state, you will still get an address already in use error. It is useful if your server has been shut down, and then restarted right away while sockets are still active on its port. You should be aware that if any unexpected data comes in, it may confuse your server, but while this is possible, it is not likely. It has been pointed out that “A socket is a 5 tuple (proto, local addr, local port, remote addr, remote port). SO_REUSEADDR just says that you can reuse local addresses. The 5 tuple still must be unique!” This is true, and this is why it is very unlikely that unexpected data will ever be seen by your server. The danger is that such a 5 tuple is still floating around on the net, and while it is bouncing around, a new connection from the same client, on the same system, happens to get the same remote port.
By setting SO_REUSEADDR user informs the kernel of an intention to share the bound port with anyone else, but only if it doesn’t cause a conflict on the protocol layer. There are at least three situations when this flag is useful: - Normally after binding to a port and stopping a server it’s neccesary to wait for a socket to time out before another server can bind to the same port. With SO_REUSEADDR set it’s possible to rebind immediately, even if the socket is in a TIME_WAIT state.
- When one server binds to INADDR_ANY, say 0.0.0.0:1234, it’s impossible to have another server binding to a specific address like 192.168.1.21:1234. With SO_REUSEADDR flag this behaviour is allowed.
- When using the bind before connect trick only a single connection can use a single outgoing source port. With this flag, it’s possible for many connections to reuse the same source port, given that they connect to different destination addresses.
' Z( G$ r" }; a4 K3 p1 P6 o TCP SO_REUSEPORTSO_REUSEPORT主要用来解决惊群、性能等问题。通过多个进程、线程来监听同一端口,进来的连接通过内核来hash分发做到负载均衡,避免惊群。 SO_REUSEPORT is also useful for eliminating the try-10-times-to-bind hack in ftpd’s data connection setup routine. Without SO_REUSEPORT, only one ftpd thread can bind to TCP (lhost, lport, INADDR_ANY, 0) in preparation for connecting back to the client. Under conditions of heavy load, there are more threads colliding here than the try-10-times hack can accomodate. With SO_REUSEPORT, things work nicely and the hack becomes unnecessary.
SO_REUSEPORT使用场景:linux kernel 3.9 引入了最新的SO_REUSEPORT选项,使得多进程或者多线程创建多个绑定同一个ip:port的监听socket,提高服务器的接收链接的并发能力,程序的扩展性更好;此时需要设置SO_REUSEPORT(注意所有进程都要设置才生效)。 setsockopt(listenfd, SOL_SOCKET, SO_REUSEPORT,(const void *)&reuse , sizeof(int)); 目的:每一个进程有一个独立的监听socket,并且bind相同的ip:port,独立的listen()和accept();提高接收连接的能力。(例如nginx多进程同时监听同一个ip:port) (a) on Linux SO_REUSEPORT is meant to be used purely for load balancing multiple incoming UDP packets or incoming TCP connection requests across multiple sockets belonging to the same app. ie. it’s a work around for machines with a lot of cpus, handling heavy load, where a single listening socket becomes a bottleneck because of cross-thread contention on the in-kernel socket lock (and state). (b) set IP_BIND_ADDRESS_NO_PORT socket option for tcp sockets before binding to a specific source ip7 i* u# I9 P" @+ d0 u& a0 o/ O
with port 0 if you’re going to use the socket for connect() rather then listen() this allows the kernel0 C- ~& y4 d* K
to delay allocating the source port until connect() time at which point it is much cheaper The Ephemeral Port RangeEphemeral Port Range就是我们前面所说的Port Range(/proc/sys/net/ipv4/ip_local_port_range) A TCP/IPv4 connection consists of two endpoints, and each endpoint consists of an IP address and a port number. Therefore, when a client user connects to a server computer, an established connection can be thought of as the 4-tuple of (server IP, server port, client IP, client port). Usually three of the four are readily known – client machine uses its own IP address and when connecting to a remote service, the server machine’s IP address and service port number are required. What is not immediately evident is that when a connection is established that the client side of the connection uses a port number. Unless a client program explicitly requests a specific port number, the port number used is an ephemeral port number. Ephemeral ports are temporary ports assigned by a machine’s IP stack, and are assigned from a designated range of ports for this purpose. When the connection terminates, the ephemeral port is available for reuse, although most IP stacks won’t reuse that port number until the entire pool of ephemeral ports have been used. So, if the client program reconnects, it will be assigned a different ephemeral port number for its side of the new connection. linux 如何选择Ephemeral Port有资料说是随机从Port Range选择port,有的说是顺序选择,那么实际验证一下。 如下测试代码: 13 j+ C" p8 w, w1 L# U- Q: ]2 B! {* ?
21 k/ j7 t5 ?0 J8 a- [' `6 |7 y D2 t
3
" y0 i/ @% M# g$ m4 n4$ j: v" {: c4 _
5
" g. Y+ i5 o n6 v, W4 @) x8 Q6
. Z+ b# Q* U- Q7 F4 \8 o9 x7$ H2 L- H# ?8 ]
8
7 z, D1 ]6 I8 V! Z; i94 ~! m/ Q3 a z' N4 T
10; o6 v8 z1 A S! ^. G. H2 O, Y. `! _
11+ j' F: \3 q7 _8 V" u1 W* S" t: [
12; b: `, R1 r; x/ A
13& n2 ?$ r9 S- T7 P! l
14% U2 S$ A4 u5 P
15" u) W) n- ?3 H/ S
16! Q: p( ?2 d: u2 g
17
1 O7 c, u/ O* L. D184 r e. O" ] r" e7 ]
19
" c) {# i' |- d4 M9 g' I20' s i8 |" d6 r* _$ a
21( G: l/ V2 R, H8 b& c2 L/ |/ h: C
22! s& P" a+ x& X+ `( T
23# i' R. A- n( Z7 N: O1 G- S
24
: `9 @: r+ v% b4 B* }7 R25' |/ ~1 ^. ]: {: h% o: l0 l
26
' A$ A A& c; R& B1 i- h3 B27
/ ?& r4 u8 a# d( z* w' j28
- s7 P$ Q# S$ Q9 F1 y% s293 t. E9 Z6 y; q6 m6 I3 [
30
: M# ], v; ~9 [8 I$ [31: y* g: U7 L7 k8 z
32 y j' s1 S0 `- e2 q+ n
33
0 a2 l3 E0 p1 V; p/ I34
/ M, [) p: e% l9 R+ I- n1 O) X( L35
& k H+ B* `$ Y4 Z* B' ]36
0 t: R3 I. P: j: Q( j# \370 d" d$ n1 }* M' z( Y) E7 `9 z
38
. A3 _7 s# y; V3 `39& A% M( x! ]1 r( k( {) R/ C
40 y- S, \' [* r$ j: o
414 H8 T( {5 Y m; L% }8 k+ Q
42
7 ]' v9 j2 E0 T( q& d& K | #include <stdio.h> // printf
# s$ ]5 ?# |! ~/ l, z) M#include <stdlib.h> // atoi/ o$ x2 f0 G% @5 M. q: g ]% i
#include <unistd.h> // close) [2 T e; N- h B8 ?. @
#include <arpa/inet.h> // ntohs
2 t1 n9 ^! F) X, u; M& l1 j#include <sys/socket.h> // connect, socket
2 f' F% x# V% M# i9 U
0 Q5 U1 G: H2 s. P3 }( Qvoid sample() {
( G. f% T- J8 o // Create socket& e( @1 h$ W9 g& W! w; c
int sockfd;
" l8 O$ S3 H6 F if (sockfd = socket(AF_INET, SOCK_STREAM, 0), -1 == sockfd) {
( ^/ `/ V! p& y1 c) C/ \. } perror("socket");
3 T3 e% t! ]' O; ? }
* @1 `6 W+ U2 F+ F I: P4 g. ?& w% G$ f, R" \* _$ n. Q3 f
// Connect to remote. This does NOT actually send a packet.! T- Z; n- b" H( d
const struct sockaddr_in raddr = {
4 F: ?3 \/ T, q* b# X .sin_family = AF_INET,2 s7 S1 t3 k: }; k [! j
.sin_port = htons(8080), // arbitrary remote port- t1 Y6 _3 l5 E# d' I
.sin_addr = htonl(INADDR_ANY) // arbitrary remote host6 {) z3 g% Y( f2 w4 I
};/ a7 a. v3 @$ V1 ~6 b
if (-1 == connect(sockfd, (const struct sockaddr *)&raddr, sizeof(raddr))) {5 A. ^7 j& w! }9 t, R1 f4 @
perror("connect");
% z j8 p; x7 _1 e4 { }
3 @3 t( ~0 O% F9 q5 f9 o; v, p# A& t2 p1 G) }+ f6 l, [
// Display selected ephemeral port% A4 s' F; W" I6 n9 T7 }; r
const struct sockaddr_in laddr;- s# _4 j2 o, P& B4 q
socklen_t laddr_len = sizeof(laddr);- j% b& E6 ?% ?$ s) N& e. l
if (-1 == getsockname(sockfd, (struct sockaddr *)&laddr, &laddr_len)) {1 @ M5 R8 `7 m
perror("getsockname");/ o3 x$ j: `$ @6 c* R- c; ~& K, k
}9 ~) j/ E; i( ^% [+ p8 M
printf("local port: %i\n", ntohs(laddr.sin_port));
$ m- X. F2 }( a6 u' A/ d4 n% I; ^: n, N) q( S" I l
// Close socket
; S$ w/ [7 |) j1 g close(sockfd);1 o& u8 a6 @6 c' p. l3 p! d
}
+ ^1 M. U$ G6 n& [! ^- A- O" K/ {1 `& b& k h
int main() {
; Y" D6 N j4 L% ^+ }1 b" h for (int i = 0; i < 5; i++) {
- f, e; D" Z3 C: p3 J4 u% c sample();$ D2 Y1 P9 b, v' E0 o) U9 s
}
x w8 C8 G7 ~8 J$ w: U$ d4 d4 w! W- ~0 {! ?. Y$ {
return 0;. W, D. F! ~7 O
}( n9 m$ p4 ~; q
|
bind逻辑测试代码 18 ]. c1 K9 R, I3 P
2
" D( R/ p4 D- |/ e/ q39 x+ ]; U- K* {# ?3 e& Y
4
+ z9 J/ ^1 Y1 L* `# Q2 T2 @5 p50 W: M2 Q$ c0 k# o W' I
6- A4 C, I8 H* ~- B' \! n4 `
7
3 F' l" T7 g& z8
\: P( |7 ~" A6 E+ h" w9
( @! U( r: G+ h G) @107 b5 j, c( W* t; m
111 q) x5 F) q$ x' [, a/ b
12
9 X) L7 \$ A# a- X13
1 n( j) h) H. U2 p( u: @. q5 u3 u1 d148 d0 I( {' f( h( R7 t9 `. o
15, n- \. q5 M# A! o
16
6 r6 ]: ]& ^6 S0 x$ T' Q17! u9 ]+ k* d1 s" S6 s
18
- e O* o# f( F% [8 S198 y: S" w0 _8 X2 I1 S E3 e+ T# D
20
, m8 f' F' k! b/ e4 ^& g21" w4 F7 a2 l: e5 k: A" ?$ C# [2 w
22
# C* Q5 r4 [" w; Z5 ^3 c, N4 L& P23' Q- c' X" L3 \& `
24) S9 X, H0 {" m7 p) B/ y# c% n
258 R+ V* f% Y. a! w% y
26
& r: Y, X; U) F( O5 i27) Z% ]6 p' s& B
28' b2 }. m* D+ b0 Z, u' x; O! V3 o6 E1 y
29! \9 C2 h* i6 {4 R0 h( ]3 s
30
4 D$ V0 p! a- Z; e31
! F0 ~9 E/ E2 o- j: F6 T32
+ U; T o4 m J$ @! ]) D( t33- q0 }. r, c& Y# P$ `% S8 Q0 A
34% o! P8 B* R: y( P3 D$ W
35
- ?) n$ L) W: K: U: e, D& p5 w36
/ N1 ^$ X% W( `! \37$ ^- a5 b( \8 D- U, s# @7 y
38
g# Z* x3 Z+ G2 g% G39- X4 i8 p! j/ ~* p
401 `' ?& C) \& i' e9 P: m
41
$ `8 G( s- r& L# M& S422 o3 C5 J X4 ~& x' \. Z
| #include <netinet/in.h>
. L7 c1 U6 O0 n#include <arpa/inet.h>
( G8 I4 d5 v; X#include <stdio.h># ~6 m7 |3 k! \0 n
#include <stdlib.h>
3 A4 _5 G8 {- L" K- v+ D1 ?#include <unistd.h># Y2 V& E; o; k7 g7 b& i& G
#include <errno.h>
0 E, n- H: }/ U2 G; l#include <string.h>1 s0 Q3 f; [, O8 [
#include <sys/types.h>
$ ]* O. h9 w8 {7 L#include <time.h>* `, `+ D6 j, M0 q, A# m
# p0 h' r4 W- _" H2 p
void test_bind(){; W' M$ G: ^ P8 W$ l F8 E
int listenfd = 0, connfd = 0;* A6 Y7 G. I' F; ?, e
struct sockaddr_in serv_addr;2 U0 c' d* _6 z& X3 A
char sendBuff[1025];% d) d) L8 o9 J, i( K/ r
time_t ticks;$ Q; Y b( U' |4 \& f& ~: L! G
socklen_t len;0 o: W+ F0 }! ?& O0 k1 `# b
- p; T7 K5 V' Q8 P: ]. ]6 Y n listenfd = socket(AF_INET, SOCK_STREAM, 0);
4 E4 L% a+ [) Z5 I0 @5 u memset(&serv_addr, '0', sizeof(serv_addr));" e" \3 d/ N' a& n8 @0 k
memset(sendBuff, '0', sizeof(sendBuff));
7 T2 i& y5 @8 K+ |% U) i% M3 T7 p; W% k9 @5 H/ F& A- I- X: {
serv_addr.sin_family = AF_INET;
1 D" \. N8 h% `9 o) d* u. N serv_addr.sin_addr.s_addr = htonl(INADDR_ANY);
5 H+ G. }: \: F* ]/ l2 K3 y serv_addr.sin_port = htons(0);9 Y, k# C+ i5 J6 w0 R" D5 | Q
" v- E& a8 O* o K# j bind(listenfd, (struct sockaddr*)&serv_addr, sizeof(serv_addr));# g4 ?$ S$ ^2 H ]
/ l& ~6 N( C& x
len = sizeof(serv_addr);
- n$ @" d U2 M5 R if (getsockname(listenfd, (struct sockaddr *)&serv_addr, &len) == -1) {
) q9 n o% @) Z3 [8 {+ Q perror("getsockname");4 U8 @8 V" A8 i) O
return;2 ?% D2 T- Z8 t# G. O: E- k
}8 `' l7 ]* @9 o( n- R
printf("port number %d\n", ntohs(serv_addr.sin_port)); //只是挑选到了port,在系统层面保留,tcp连接还没有,netstat是看不到的
6 s8 z" {. O( f! W/ J8 E}
+ {% Z2 {; [" D8 f
7 N& i+ E3 u6 p; p2 Zint main(int argc, char *argv[])
" y6 V5 A" A, M& ?0 N{
2 P) ]2 o, y: |5 X for (int i = 0; i < 5; i++) {
( d8 a+ C# \' `4 R test_bind();
6 n1 y9 P6 V. M }" [& z& b+ W5 q; u$ s
return 0;. y, k, D& ?5 y* N% |9 h
}+ E: W/ Z% b7 H
| 3.10.0-327.ali2017.alios7.x86_64编译后,执行(3.10.0-327.ali2017.alios7.x86_64): 1; i- a, j" S" e, }
2& y( n& J* I( }' G; g
3
& @! M3 i9 t; z3 E: _) Z8 S; R% B4& l; R4 p7 M& ^
5% Z3 X& b4 K1 }" s, X$ {. s9 m
6
# `6 }& ^+ n9 L/ I7
# ?# W2 R6 x9 l' I, L0 |7 @86 q6 E: N% ?7 \3 p3 p& V6 X
9
) `. _, ]3 I+ _10
8 Z& V- D) [; ?9 E3 Q( ]) `$ M11
$ f: ?( q- C- | v# ]; y12) a: g4 W8 G, Q4 C6 Y
13
- w, A% }: e+ e5 X; ~14
- w+ d/ i! c! X; K& r N6 f15
; t9 I2 f$ Z8 }- R16& ^! ~8 l( J( W4 Q5 l, s. J
17! ]0 H. `2 x- L F1 l
18
- r! Y) }3 _5 m5 n+ _3 a: o% V0 r2 b194 n' k0 L+ f8 C+ J" A: X9 h
20
6 U4 k+ X4 @2 H% \214 K( J$ q0 Z5 Z3 @0 a& j% u/ ?6 @
22
0 f& W2 r' w2 s o# w) Y- u23
3 g8 p7 [4 u L1 j- J/ |4 L24" t& \ ]- U1 z' C6 U1 s
255 w+ F$ p5 d9 l- @
26
8 l. K& L9 ], i6 u$ X277 {0 c7 y4 Z/ H6 O5 b
28
" {, ^" Y- o8 q4 _29* H7 H6 E: q8 e3 l
30
# Y" |$ ?- V+ }! z* z* e9 ]31
2 v- ~4 ?+ N3 l3 A8 ^32
" _7 k% p- J# ]5 I) t7 ^8 N3 M338 X7 \! n- p0 y# s1 D
34& T! l- n; z7 s1 c$ k6 m3 n) y# ?
35
( U; [0 X; U6 ?- n36* f, ^1 V. E1 D5 [9 ?) n) D
37
& S. m l" K' [% { | #date; ./client && echo "+++++++" ; ./client && sleep 0.1 ; echo "-------" && ./client && sleep 10; date; ./client && echo "+++++++" ; ./client && sleep 0.1 && echo "******"; ./client;
6 W+ o' a* z; C! O/ eFri Nov 27 10:52:52 CST 20209 L. c2 V$ n2 [: g2 y9 V& f0 b
local port: 17448
- c! q+ Y$ y: |: e1 Slocal port: 174493 w1 e9 s, `9 E0 D
local port: 17451
Z, M0 x; _7 U# R. i* C* }local port: 17452. Y- B% j3 ] {8 p0 }
local port: 17453 A; I2 z# r M0 o- u
+++++++' {- e% E7 m' P$ E
local port: 17455
; k3 [, ^. }& w* X# G: w. Q2 plocal port: 174561 x$ J7 e2 i" e) d5 ]; ?9 S
local port: 17457
6 k& t7 \# A' c7 E8 ^8 d, Zlocal port: 17458
- y. O$ L) L/ f0 X6 olocal port: 17460
6 u5 S. }# d' G" {6 n, N-------
" b8 \& l& F. W, D; Z2 _8 ^local port: 17475( R* D, K! A" T9 n, n8 s
local port: 174763 p! D4 \& f: X8 D; R
local port: 174773 x1 h' B& f( j1 c/ G4 K* u
local port: 17478
- C. h4 P. m5 Tlocal port: 17479
3 @6 f0 _- w9 i9 D9 zFri Nov 27 10:53:02 CST 2020
8 O- L& B, [7 C# |local port: 179973 M4 J q9 E$ H, y7 V0 N
local port: 17998" }. e' y! O8 W+ ?+ g5 [( d
local port: 17999 r5 G! [7 v) k/ ]/ h0 ^
local port: 180009 i, F" E& W j' Z* b
local port: 18001$ A) H/ m$ e5 @! _, G1 h, @
+++++++
/ L! R: H# t) v3 A% h" q1 C; N" y$ ulocal port: 18002
0 m- N: h5 P6 k: K* E# Ulocal port: 18003
+ H7 U* f- {& M* Q) R& }9 slocal port: 18004
: u0 e+ `6 p0 I3 d6 klocal port: 180054 }$ k2 d2 H: V# z
local port: 18006
+ G& m0 h* e) p& s******
% M$ M% Q' T e- ylocal port: 18010
, W' i7 @6 S, x1 w5 W$ _: llocal port: 180119 e5 j& T2 I# o+ K) t( e8 B0 P$ k
local port: 18012! C7 k4 X; Y7 ^' s" O! T
local port: 18013, L7 c+ Q( K$ k. J+ ]% C q
local port: 18014
6 Q& _0 S3 I: { |
从测试看起来linux下端口选择跟时间有关系,起始端口肯定是顺序增加,起始端口应该是在Ephemeral Port范围内并且和时间戳绑定的某个值(也是递增的),即使没有使用任何端口,起始端口也会随时间增加而增加。 4.19.91-19.1.al7.x86_64换个内核版本编译后,执行(4.19.91-19.1.al7.x86_64): 1- G/ `( n# ?- W: M5 h7 X7 G0 [
2
: R% P, g1 {; k" B! E3
# p# j% {* t9 u# J, e' V" K( Z4! {5 B+ s! q: L" ]3 i
5) ~( D0 ^1 z! q' O
63 ^3 M/ R* {5 Z* ~+ b
71 [5 Z1 b4 J6 H8 a5 g8 D/ L
8! }# b3 i; |& b" k! k
91 h7 D t$ Q& T
10( ~" {( n, c. } Y
11' K# o4 U3 E- I% N# Y2 l7 \! D. g
12
0 m' a! m* N1 V Y13/ `5 b! G4 y8 `: J7 L
14) F& k8 ?6 g1 R' a3 y7 G
15
6 [# t5 r/ G$ g' O( G# G; M o8 e% }16
5 S" G* U- B P. F+ t' x17
; R3 [6 I# {1 p, _* d; q, y. g; P8 Y9 t18
- P ^; Q3 \' b. S0 K# @191 _ ^* D* f) |4 c+ S4 T
205 P2 I4 f! W1 ?2 s
21
. L$ O/ ?" K/ I22/ R( q; M- G( x; F- E/ d
238 `; |' W: ?* {) q: O
24; t+ E: _) k3 A+ v0 w
25
5 s' V* v9 Q2 C c0 Y! |26
: T/ \: Q( Z+ S8 P8 F27& j, ?. n! X/ ]1 l( Z; z
28( W6 o* l2 Y- ~* Q6 o+ L8 I7 l
29
; w# |: w: a! t, X$ `, F) x30
( K/ ^/ ?7 i: c. t: k. W, I31
" D$ w8 ?+ N6 f! t9 i' a |5 L: i323 f1 F* t6 U( K' V- r0 T) h
33
+ P- j. ?6 R" z34
0 j* q, ]# w s' q35+ o9 n# x% @5 a& S, c$ G% o' r# l
36
, j9 j2 q) i# \& k7 q! l37: {9 F) Q+ z8 Z8 i
| $date; ./client && echo "+++++++" ; ./client && sleep 0.1 ; echo "-------" && ./client && sleep 10; date; ./client && echo "+++++++" ; ./client && sleep 0.1 && echo "******"; ./client;
3 f* |4 m7 K% H- f7 |! V4 uFri Nov 27 14:10:47 CST 2020
: u3 R! f: ?" q0 ?% ylocal port: 78902 `$ M1 b9 T4 u- f+ \( V+ o, c1 y
local port: 7892& A% |0 \# E5 R& V, X$ F
local port: 7894$ C5 {7 ?+ f: x- t' i. q m; s
local port: 7896+ P/ Q$ f( t$ ~* u. g/ o2 a( Y
local port: 7898
: l- _5 l$ `) t' _& d( o& V+++++++6 t7 h3 V. O [* {: g
local port: 7900# q! } p% R0 Z: O" H
local port: 79027 U( h1 V/ X% A, Q& k
local port: 79047 K2 V; B) `# }5 A5 M, r: k
local port: 79067 |0 G& f& A& x2 a1 g
local port: 7908! y& ]' K9 E+ m+ X/ |$ _0 D; j- [
-------
2 Q$ _0 Y1 y4 alocal port: 7910- u( D2 c% I: v& E9 G7 q
local port: 79129 X7 Q u* G5 X
local port: 7914, H3 c6 T c; \) M" _- W
local port: 7916* E# s# y* V% _
local port: 79186 M. {: w2 W0 X! b
Fri Nov 27 14:10:57 CST 2020
% o- z! D7 q: Glocal port: 7966
# X5 Z6 z4 C0 d! |local port: 7968
5 e# I- i: O3 [% g8 k( E, I8 Y7 vlocal port: 7970
& J% x; v' B, m$ M1 K9 r# h2 hlocal port: 7972
# R/ S5 _$ Y& I$ C) U! y2 `local port: 7974
! b8 y- n7 M, z/ Y( p+++++++
7 ]) |/ {" S! X2 u4 Blocal port: 7976
+ F) q/ s/ | l& `* @- klocal port: 7978
5 J0 i8 l; ]. R% t9 ilocal port: 7980
; H- a! D! D) J+ M: U2 dlocal port: 7982
2 ?8 f6 t7 W( R+ Glocal port: 7984- u' [# S" f5 B c6 n g' a- m
******
. \1 o0 p( N/ ^6 E1 S' elocal port: 7988
. a' L4 [9 H" r* {2 Mlocal port: 7990
; c9 w% u- j( {4 Clocal port: 79922 w$ ^$ h8 F* c& e
local port: 7994
) P6 s2 ^2 m2 S* |7 Y2 plocal port: 7996
4 ?+ E& g$ D. u( P/ T |
以上测试时的参数 1/ R* p5 v. _- j5 |5 I( u6 q: w
2
$ q5 V$ T0 r( i | $cat /proc/sys/net/ipv4/ip_local_port_range$ U: X" n. p* I r
1024 65535/ w. \ _3 v0 r/ x5 J; H7 g
|
将1024改成1025后,分配出来的都是奇数端口了: 1
2 \1 r" v* ]9 d/ A2
) |' Q" W* e1 E% G. d# ]8 [( p3: N' l1 y( S6 x- i R2 q
4
) }+ [( I, |' L, ~% p5
) N2 Y* S8 O- g9 B& D" i$ w6- \' m0 u: ~/ o D( U2 W) d( X, B& L
7
6 ?( s1 T9 J8 ~8
$ r- |. R9 i# Q9 g0 r2 \, a7 r. p9
4 K, P6 z3 b9 c" B3 [10
# v4 K7 c1 w. r0 b# S6 a0 }113 v& i o5 b' {
120 I6 }6 l5 r. e+ P4 a5 e2 C
13/ c4 j) @2 S) `: U' C9 r; n" h
14
! ^7 m& E1 |( n5 ^) ^' X15( j* C* r ^7 J' U; m9 @
162 Z! a4 F& [2 E j4 A0 k
17
7 T1 A: w. A2 q1 `0 i18
+ Y3 @4 [& H$ w5 i19
2 Y& P2 x$ ~+ l0 R: w( m | $cat /proc/sys/net/ipv4/ip_local_port_range" o# k, Z8 [5 d
1025 1034
% ?8 J0 b# O8 I3 ?% ^. \- n+ ^. n. |7 X- w2 G
$./client
# F: v' ]/ z% F3 P6 qlocal port: 1033
" [4 z4 d/ c# N4 wlocal port: 1025; i3 n/ F$ a" r" o! v
local port: 1027( l3 l! W$ }3 y
local port: 1029
: Z/ x4 D5 |+ flocal port: 1031) e! n7 I# a1 k
local port: 1033
, N' J; U- g2 M$ F" H: O# jlocal port: 1025
6 M& b5 U( [% j8 L" e) P4 D6 x+ alocal port: 10274 G, B) Z ?+ }2 k; D( j
local port: 1029
0 g9 Q) m: a. w* V- nlocal port: 1031
1 O; V+ m3 l' A# v5 ]7 i9 \local port: 10331 T5 D+ x3 U" p
local port: 1025( d0 w% B) F. J# M4 `
local port: 10279 M* i. u' }3 a8 \* W5 q5 {3 u$ c0 T
local port: 10291 Y* o0 J6 C3 m2 g7 J5 I) M _" d
local port: 1031/ H% E% G5 V# K4 _ u# y
|
之所以都是偶数端口,是因为port_range 从偶数开始, 每次从++变到+2的 原因,connect挑选随机端口时都是在起始端口的基础上+2,而bind挑选随机端口的起始端口是系统port_range起始端口+1(这样和connect错开),然后每次仍然尝试+2,这样connect和bind基本一个用偶数另外一个就用奇数,一旦不够了再尝试使用另外一组 17 ~* \- F) B6 s& F0 Y$ I
2
4 A: A+ q5 ]6 w$ `& ~" p' p33 H* l4 W+ W6 x0 ~: t$ B5 B
4' a+ t: f0 Y: S. d0 Y
5* x w& H: V# l% F" X
6
7 \1 ^+ M9 Y/ }+ h p; e# }7
' R# D9 ]0 O H7 d6 f& w8 O; |8
9 K1 p" m/ k! N8 X. H0 j97 f0 N4 W! A4 g( X/ U. W
10
5 G3 L r5 g, v: _5 U11$ a$ M. _ i# ~5 ?6 A5 H
129 J7 L9 T1 I* i, k, h |& q
13
3 C* U' i. Z2 g9 S2 G _$ }14( T+ G. g) S4 p4 R6 G8 ~
15' M* |- F! ?* u% m* D* N' C- u
16- Z) \; s3 ^2 m8 R
17! [3 M: r+ d7 f) l- w
| $cat /proc/sys/net/ipv4/ip_local_port_range0 u# U7 s6 r$ G2 }! \
1024 1047
L. v5 o1 a& z! A
1 y. s+ E; @1 A, O+ O/ w1 @$ [" Y$./bind & ---bind程序随机挑选5个端口
}0 C- X# X: F' p" B+ jport number 10395 A0 {) H2 \8 q6 T$ e) {% b
port number 1043
, v0 w$ c+ C! Q4 W' U4 oport number 1045! m; K& C$ k6 D1 [& i: c& v/ r- o
port number 10412 b: N. f- Z: X& R2 Z. a& G# f
port number 1047 --用完所有奇数端口
3 d' H* ^- u. r$ Y/ A
D% U2 M; [+ |, D2 N$ H$./bind & --继续挑选偶数端口9 R" \ M7 y I o3 W1 O5 e
[8] 4170
9 W% ^' e6 Q! E4 P U$ jport number 10445 o3 d$ @& [$ c' m2 v8 e
port number 1042; K' w/ J+ L/ I- {4 D( `$ ?1 g
port number 1046- n0 u! B' j8 v/ X) q. ~# p
port number 0 --实在没有了8 H5 R4 q* M% o1 E+ x# Y2 L1 }/ i
port number 0
3 B# A, H* ]; J8 C; @& X, I |
可见4.19内核下每次port是+2,在3.10内核版本中是+1. 并且都是递增的,同时即使port不使用,也会随着时间的变化这个起始port增大。 Port Range有点像雷达转盘数字,时间就像是雷达上的扫描指针,这个指针不停地旋转,如果这个时候刚好有应用要申请Port,那么就从指针正好指向的Port开始向后搜索可用port tcp_max_tw_bucketstcp_max_tw_buckets: 在 TIME_WAIT 数量等于 tcp_max_tw_buckets 时,新的连接断开不再进入TIME_WAIT阶段,而是直接断开,并打印warnning. 实际测试发现 在 TIME_WAIT 数量等于 tcp_max_tw_buckets 时 新的连接仍然可以不断地创建和断开,这个参数大小不会影响性能,只是影响TIME_WAIT 数量的展示(当然 TIME_WAIT 太多导致local port不够除外), 这个值设置小一点会避免出现端口不够的情况 tcp_max_tw_buckets - INTEGER. O. ^2 t& O# \7 t9 k6 a5 X. V
Maximal number of timewait sockets held by system simultaneously.If this number is exceeded time-wait socket is immediately destroyed and warning is printed. This limit exists only to prevent simple DoS attacks, you must not lower the limit artificially, but rather increase it (probably, after increasing installed memory), if network conditions require more than default value. SO_LINGERSO_LINGER选项用来设置延迟关闭的时间,等待套接字发送缓冲区中的数据发送完成。 没有设置该选项时,在调用close() 后,在发送完FIN后会立即进行一些清理工作并返回。 如果设置了SO_LINGER选项,并且等待时间为正值,则在清理之前会等待一段时间。 如果把延时设置为 0 时,Socket就丢弃数据,并向对方发送一个 RST 来终止连接,因为走的是 RST 包,所以就不会有 TIME_WAIT 了。 This option specifies how the close function operates for a connection-oriented protocol (for TCP, but not for UDP). By default, close returns immediately, but ==if there is any data still remaining in the socket send buffer, the system will try to deliver the data to the peer==.
SO_LINGER 有三种情况 - l_onoff 为false(0), 那么 l_linger 的值没有意义,socket主动调用close时会立即返回,操作系统会将残留在缓冲区中的数据发送到对端,并按照正常流程关闭(交换FIN-ACK),最后连接进入TIME_WAIT状态。这是默认情况
- l_onoff 为true(非0), l_linger 为0,主动调用close的一方也是立刻返回,但是这时TCP会丢弃发送缓冲中的数据,而且不是按照正常流程关闭连接(不发送FIN包),直接发送RST,连接不会进入 time_wait 状态,对端会收到 java.net.SocketException: Connection reset异常
- l_onoff 为true(非0), l_linger 也为非 0,这表示 SO_LINGER选项生效,并且超时时间大于零,这时调用close的线程被阻塞,TCP会发送缓冲区中的残留数据,这时有两种可能的情况:2 B7 Q6 [0 `, E
- 数据发送完毕,收到对方的ACK,然后进行连接的正常关闭(交换FIN-ACK)
- 超时,未发送完成的数据被丢弃,连接发送RST进行非正常关闭
/ V1 l6 Y3 m& ~5 Y( \
1, p3 K) { w( m# R9 _
2
; e$ J6 C7 k4 [% r% F& e' H G0 `& _& c3& j; h; U. r: X0 S
4
) f! A! G; u- r! B n- V | struct linger {
; K" K1 ^7 }9 u m b/ d: z int l_onoff; /* 0=off, nonzero=on */
/ U( y! F. u; S+ N" v' J8 e# n int l_linger; /* linger time, POSIX specifies units as seconds */
# O4 z6 e: u% G# P- t7 @& d};/ k5 _& R! U$ t1 z5 @3 \9 H2 L
| NIO下设置 SO_LINGER 的错误案例在使用NIO时,最好不设置SO_LINGER。比如Tomcat服务端接收到请求创建新连接时,做了这样的设置: 1
+ U+ X) c; d" C# M& J3 v4 ? | SocketChannel.setOption(SocketOption.SO_LINGER, 1000)2 V% g8 O7 @) K3 u6 J' X2 d
|
SO_LINGER的单位为秒!在网络环境比较好的时候,例如客户端、服务器都部署在同一个机房,close虽然会被阻塞,但时间极短可以忽略。但当网络环境不那么好时,例如存在丢包、较长的网络延迟,buffer中的数据一直无法发送成功,那么问题就出现了:close会被阻塞较长的时间,从而直接或间接引起NIO的IO线程被阻塞,服务器会不响应,不能处理accept、read、write等任何IO事件。也就是应用频繁出现挂起现象。解决方法就是删掉这个设置,close时立即返回,由操作系统接手后面的工作。 这时会看到如下连接状态 以及对应的堆栈 查看其中一个IO线程等待的锁,发现锁是被HTTP线程持有。这个线程正在执行preClose0,就是在这里等待连接的关闭 每次HTTP线程在关闭连接被阻塞时,同时持有了SocketChannelImpl的对象锁,而IO线程在把这个连接移除出它的selector管理队列时,也要获得同一个SocketChannelImpl的对象锁。IO线程就这么一次次的被阻塞,悲剧的无以复加。有些NIO框架会让IO线程去做close,这时候就更加悲剧了。 总之这里的错误原因有两点:1)网络状态不好;2)错误理解了l_linger 的单位,是秒,不是毫秒。 在这两个原因的共同作用下导致了数据迟迟不能发送完毕,l_linger 超时又需要很久,所以服务会出现一直阻塞的状态。 为什么要有 time_wait 状态TIME-WAIT - represents waiting for enough time to pass to be sure the remote TCP received the acknowledgment of its connection termination request. 短连接的开销用ab通过短连接走 lo 网卡压本机 nginx,CPU0是 ab 进程,CPU3/4 是 Nginx 服务,可以看到 si 非常高,QPS 2.2万 再将 ab 改用长连接来压,可以看到si、sy都有下降,并且 si 下降到短连接的20%,QPS 还能提升到 5.2万 一条连接的开销主要是内存开销(如图,来源见水印),另外就是每个连接都会占用一个文件句柄,可以通过参数来设置:fs.nr_open、nofile(其实 nofile 还分 soft 和 hard) 和 fs.file-max 从上图可以看到: 没有收发数据的时候收发buffer不用提前分配,3K多点的内存是指一个连接的元信息数据空间,不包含传输数据的内存buffer 客户端发送数据后,会根据数据大小分配send buffer(一般不超过wmem,默认kernel会根据系统内存压力来调整send buffer大小) server端kernel收到数据后存放在rmem中,应用读走后就会释放对应的rmem rmem和wmem都不会重用,用时分配用完释放
+ q6 T- T3 d& k$ X) }! V
可见,内核在 socket 内存开销优化上采取了不少方法: - 内核会尽量及时回收发送缓存区、接收缓存区,但高版本做的更好
- 发送接收缓存区最小并一定不是 rmem 内核参数里的最小值,实际大部分时间都是0
- 其它状态下,例如对于TIME_WAIT还会回收非必要的 socket_alloc 等对象, }; [2 x. ^: q. f5 V
可用 local port 不够导致对端time_wait 连接重用进而卡顿案例A进程选择某个端口,并设置了 reuseaddr opt(表示其它进程还能继续用这个端口),这时B进程选了这个端口,并且bind了,如果 A 进程一直不释放这个端口对应的连接,那么这个端口会一直在内核中记录被bind用掉了(能bind的端口 是65535个,四元组不重复的连接你理解可以无限多),这样的端口越来越多后,剩下可供 A 进程发起连接的本地随机端口就越来越少了,这时会造成新建连接的时候这个四元组高概率重复,一般这个时候对端大概率还在 time_wait 状态,会忽略掉握手 syn 包并回复 ack ,进而造成建连接卡顿的现象 结论- 在内存、文件句柄足够的话一台服务器上可以创建的TCP连接数量是没有限制的
- SO_REUSEADDR 主要用于快速重用 TIME_WAIT状态的TCP端口,避免服务重启就会抛出Address Already in use的错误
- SO_REUSEPORT主要用来解决惊群、性能等问题
- 全局范围可以用 net.ipv4.tcp_max_tw_buckets = 50000 来限制总 time_wait 数量,但是会掩盖问题
- local port的选择是递增搜索的,搜索起始port随时间增加也变大
' A1 C1 b3 c( u9 H' N 参考资料
" j$ K3 z- M9 P9 n" x
" L- x9 I) n z1 p4 _/ ~3 B/ Y" O' H! m; j$ e+ N7 `/ q( [, s
5 W1 v( @" K0 c7 e7 Q+ f/ T# Linux # TCP # SO_REUSEADDR # ip_local_port_range
: {- V; x8 M2 Q4 T
$ w4 |' G$ X6 |& j( C |