]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - share/man/man4/tcp.4
Update hostapd/wpa_supplicant to version 2.5.
[FreeBSD/FreeBSD.git] / share / man / man4 / tcp.4
1 .\" Copyright (c) 1983, 1991, 1993
2 .\"     The Regents of the University of California.
3 .\" Copyright (c) 2010-2011 The FreeBSD Foundation
4 .\" All rights reserved.
5 .\"
6 .\" Portions of this documentation were written at the Centre for Advanced
7 .\" Internet Architectures, Swinburne University of Technology, Melbourne,
8 .\" Australia by David Hayes under sponsorship from the FreeBSD Foundation.
9 .\"
10 .\" Redistribution and use in source and binary forms, with or without
11 .\" modification, are permitted provided that the following conditions
12 .\" are met:
13 .\" 1. Redistributions of source code must retain the above copyright
14 .\"    notice, this list of conditions and the following disclaimer.
15 .\" 2. Redistributions in binary form must reproduce the above copyright
16 .\"    notice, this list of conditions and the following disclaimer in the
17 .\"    documentation and/or other materials provided with the distribution.
18 .\" 3. Neither the name of the University nor the names of its contributors
19 .\"    may be used to endorse or promote products derived from this software
20 .\"    without specific prior written permission.
21 .\"
22 .\" THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
23 .\" ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
24 .\" IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
25 .\" ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
26 .\" FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
27 .\" DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
28 .\" OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
29 .\" HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
30 .\" LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
31 .\" OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
32 .\" SUCH DAMAGE.
33 .\"
34 .\"     From: @(#)tcp.4 8.1 (Berkeley) 6/5/93
35 .\" $FreeBSD$
36 .\"
37 .Dd October 13, 2014
38 .Dt TCP 4
39 .Os
40 .Sh NAME
41 .Nm tcp
42 .Nd Internet Transmission Control Protocol
43 .Sh SYNOPSIS
44 .In sys/types.h
45 .In sys/socket.h
46 .In netinet/in.h
47 .In netinet/tcp.h
48 .Ft int
49 .Fn socket AF_INET SOCK_STREAM 0
50 .Sh DESCRIPTION
51 The
52 .Tn TCP
53 protocol provides reliable, flow-controlled, two-way
54 transmission of data.
55 It is a byte-stream protocol used to
56 support the
57 .Dv SOCK_STREAM
58 abstraction.
59 .Tn TCP
60 uses the standard
61 Internet address format and, in addition, provides a per-host
62 collection of
63 .Dq "port addresses" .
64 Thus, each address is composed
65 of an Internet address specifying the host and network,
66 with a specific
67 .Tn TCP
68 port on the host identifying the peer entity.
69 .Pp
70 Sockets utilizing the
71 .Tn TCP
72 protocol are either
73 .Dq active
74 or
75 .Dq passive .
76 Active sockets initiate connections to passive
77 sockets.
78 By default,
79 .Tn TCP
80 sockets are created active; to create a
81 passive socket, the
82 .Xr listen 2
83 system call must be used
84 after binding the socket with the
85 .Xr bind 2
86 system call.
87 Only passive sockets may use the
88 .Xr accept 2
89 call to accept incoming connections.
90 Only active sockets may use the
91 .Xr connect 2
92 call to initiate connections.
93 .Pp
94 Passive sockets may
95 .Dq underspecify
96 their location to match
97 incoming connection requests from multiple networks.
98 This technique, termed
99 .Dq "wildcard addressing" ,
100 allows a single
101 server to provide service to clients on multiple networks.
102 To create a socket which listens on all networks, the Internet
103 address
104 .Dv INADDR_ANY
105 must be bound.
106 The
107 .Tn TCP
108 port may still be specified
109 at this time; if the port is not specified, the system will assign one.
110 Once a connection has been established, the socket's address is
111 fixed by the peer entity's location.
112 The address assigned to the
113 socket is the address associated with the network interface
114 through which packets are being transmitted and received.
115 Normally, this address corresponds to the peer entity's network.
116 .Pp
117 .Tn TCP
118 supports a number of socket options which can be set with
119 .Xr setsockopt 2
120 and tested with
121 .Xr getsockopt 2 :
122 .Bl -tag -width ".Dv TCP_CONGESTION"
123 .It Dv TCP_INFO
124 Information about a socket's underlying TCP session may be retrieved
125 by passing the read-only option
126 .Dv TCP_INFO
127 to
128 .Xr getsockopt 2 .
129 It accepts a single argument: a pointer to an instance of
130 .Vt "struct tcp_info" .
131 .Pp
132 This API is subject to change; consult the source to determine
133 which fields are currently filled out by this option.
134 .Fx
135 specific additions include
136 send window size,
137 receive window size,
138 and
139 bandwidth-controlled window space.
140 .It Dv TCP_CONGESTION
141 Select or query the congestion control algorithm that TCP will use for the
142 connection.
143 See
144 .Xr mod_cc 4
145 for details.
146 .It Dv TCP_KEEPINIT
147 This
148 .Xr setsockopt 2
149 option accepts a per-socket timeout argument of
150 .Vt "u_int"
151 in seconds, for new, non-established
152 .Tn TCP
153 connections.
154 For the global default in milliseconds see
155 .Va keepinit
156 in the
157 .Sx MIB Variables
158 section further down.
159 .It Dv TCP_KEEPIDLE
160 This
161 .Xr setsockopt 2
162 option accepts an argument of
163 .Vt "u_int"
164 for the amount of time, in seconds, that the connection must be idle
165 before keepalive probes (if enabled) are sent for the connection of this
166 socket.
167 If set on a listening socket, the value is inherited by the newly created
168 socket upon
169 .Xr accept 2 .
170 For the global default in milliseconds see
171 .Va keepidle
172 in the
173 .Sx MIB Variables
174 section further down.
175 .It Dv TCP_KEEPINTVL
176 This
177 .Xr setsockopt 2
178 option accepts an argument of
179 .Vt "u_int"
180 to set the per-socket interval, in seconds, between keepalive probes sent
181 to a peer.
182 If set on a listening socket, the value is inherited by the newly created
183 socket upon
184 .Xr accept 2 .
185 For the global default in milliseconds see
186 .Va keepintvl
187 in the
188 .Sx MIB Variables
189 section further down.
190 .It Dv TCP_KEEPCNT
191 This
192 .Xr setsockopt 2
193 option accepts an argument of
194 .Vt "u_int"
195 and allows a per-socket tuning of the number of probes sent, with no response,
196 before the connection will be dropped.
197 If set on a listening socket, the value is inherited by the newly created
198 socket upon
199 .Xr accept 2 .
200 For the global default see the
201 .Va keepcnt
202 in the
203 .Sx MIB Variables
204 section further down.
205 .It Dv TCP_NODELAY
206 Under most circumstances,
207 .Tn TCP
208 sends data when it is presented;
209 when outstanding data has not yet been acknowledged, it gathers
210 small amounts of output to be sent in a single packet once
211 an acknowledgement is received.
212 For a small number of clients, such as window systems
213 that send a stream of mouse events which receive no replies,
214 this packetization may cause significant delays.
215 The boolean option
216 .Dv TCP_NODELAY
217 defeats this algorithm.
218 .It Dv TCP_MAXSEG
219 By default, a sender- and
220 .No receiver- Ns Tn TCP
221 will negotiate among themselves to determine the maximum segment size
222 to be used for each connection.
223 The
224 .Dv TCP_MAXSEG
225 option allows the user to determine the result of this negotiation,
226 and to reduce it if desired.
227 .It Dv TCP_NOOPT
228 .Tn TCP
229 usually sends a number of options in each packet, corresponding to
230 various
231 .Tn TCP
232 extensions which are provided in this implementation.
233 The boolean option
234 .Dv TCP_NOOPT
235 is provided to disable
236 .Tn TCP
237 option use on a per-connection basis.
238 .It Dv TCP_NOPUSH
239 By convention, the
240 .No sender- Ns Tn TCP
241 will set the
242 .Dq push
243 bit, and begin transmission immediately (if permitted) at the end of
244 every user call to
245 .Xr write 2
246 or
247 .Xr writev 2 .
248 When this option is set to a non-zero value,
249 .Tn TCP
250 will delay sending any data at all until either the socket is closed,
251 or the internal send buffer is filled.
252 .It Dv TCP_MD5SIG
253 This option enables the use of MD5 digests (also known as TCP-MD5)
254 on writes to the specified socket.
255 Outgoing traffic is digested;
256 digests on incoming traffic are verified if the
257 .Va net.inet.tcp.signature_verify_input
258 sysctl is nonzero.
259 The current default behavior for the system is to respond to a system
260 advertising this option with TCP-MD5; this may change.
261 .Pp
262 One common use for this in a
263 .Fx
264 router deployment is to enable
265 based routers to interwork with Cisco equipment at peering points.
266 Support for this feature conforms to RFC 2385.
267 Only IPv4
268 .Pq Dv AF_INET
269 sessions are supported.
270 .Pp
271 In order for this option to function correctly, it is necessary for the
272 administrator to add a tcp-md5 key entry to the system's security
273 associations database (SADB) using the
274 .Xr setkey 8
275 utility.
276 This entry must have an SPI of 0x1000 and can therefore only be specified
277 on a per-host basis at this time.
278 .Pp
279 If an SADB entry cannot be found for the destination, the outgoing traffic
280 will have an invalid digest option prepended, and the following error message
281 will be visible on the system console:
282 .Em "tcp_signature_compute: SADB lookup failed for %d.%d.%d.%d" .
283 .El
284 .Pp
285 The option level for the
286 .Xr setsockopt 2
287 call is the protocol number for
288 .Tn TCP ,
289 available from
290 .Xr getprotobyname 3 ,
291 or
292 .Dv IPPROTO_TCP .
293 All options are declared in
294 .In netinet/tcp.h .
295 .Pp
296 Options at the
297 .Tn IP
298 transport level may be used with
299 .Tn TCP ;
300 see
301 .Xr ip 4 .
302 Incoming connection requests that are source-routed are noted,
303 and the reverse source route is used in responding.
304 .Pp
305 The default congestion control algorithm for
306 .Tn TCP
307 is
308 .Xr cc_newreno 4 .
309 Other congestion control algorithms can be made available using the
310 .Xr mod_cc 4
311 framework.
312 .Ss MIB Variables
313 The
314 .Tn TCP
315 protocol implements a number of variables in the
316 .Va net.inet.tcp
317 branch of the
318 .Xr sysctl 3
319 MIB.
320 .Bl -tag -width ".Va TCPCTL_DO_RFC1323"
321 .It Dv TCPCTL_DO_RFC1323
322 .Pq Va rfc1323
323 Implement the window scaling and timestamp options of RFC 1323
324 (default is true).
325 .It Dv TCPCTL_MSSDFLT
326 .Pq Va mssdflt
327 The default value used for the maximum segment size
328 .Pq Dq MSS
329 when no advice to the contrary is received from MSS negotiation.
330 .It Dv TCPCTL_SENDSPACE
331 .Pq Va sendspace
332 Maximum
333 .Tn TCP
334 send window.
335 .It Dv TCPCTL_RECVSPACE
336 .Pq Va recvspace
337 Maximum
338 .Tn TCP
339 receive window.
340 .It Va log_in_vain
341 Log any connection attempts to ports where there is not a socket
342 accepting connections.
343 The value of 1 limits the logging to
344 .Tn SYN
345 (connection establishment) packets only.
346 That of 2 results in any
347 .Tn TCP
348 packets to closed ports being logged.
349 Any value unlisted above disables the logging
350 (default is 0, i.e., the logging is disabled).
351 .It Va msl
352 The Maximum Segment Lifetime, in milliseconds, for a packet.
353 .It Va keepinit
354 Timeout, in milliseconds, for new, non-established
355 .Tn TCP
356 connections.
357 The default is 75000 msec.
358 .It Va keepidle
359 Amount of time, in milliseconds, that the connection must be idle
360 before keepalive probes (if enabled) are sent.
361 The default is 7200000 msec (2 hours).
362 .It Va keepintvl
363 The interval, in milliseconds, between keepalive probes sent to remote
364 machines, when no response is received on a
365 .Va keepidle
366 probe.
367 The default is 75000 msec.
368 .It Va keepcnt
369 Number of probes sent, with no response, before a connection
370 is dropped.
371 The default is 8 packets.
372 .It Va always_keepalive
373 Assume that
374 .Dv SO_KEEPALIVE
375 is set on all
376 .Tn TCP
377 connections, the kernel will
378 periodically send a packet to the remote host to verify the connection
379 is still up.
380 .It Va icmp_may_rst
381 Certain
382 .Tn ICMP
383 unreachable messages may abort connections in
384 .Tn SYN-SENT
385 state.
386 .It Va do_tcpdrain
387 Flush packets in the
388 .Tn TCP
389 reassembly queue if the system is low on mbufs.
390 .It Va blackhole
391 If enabled, disable sending of RST when a connection is attempted
392 to a port where there is not a socket accepting connections.
393 See
394 .Xr blackhole 4 .
395 .It Va delayed_ack
396 Delay ACK to try and piggyback it onto a data packet.
397 .It Va delacktime
398 Maximum amount of time, in milliseconds, before a delayed ACK is sent.
399 .It Va path_mtu_discovery
400 Enable Path MTU Discovery.
401 .It Va tcbhashsize
402 Size of the
403 .Tn TCP
404 control-block hash table
405 (read-only).
406 This may be tuned using the kernel option
407 .Dv TCBHASHSIZE
408 or by setting
409 .Va net.inet.tcp.tcbhashsize
410 in the
411 .Xr loader 8 .
412 .It Va pcbcount
413 Number of active process control blocks
414 (read-only).
415 .It Va syncookies
416 Determines whether or not
417 .Tn SYN
418 cookies should be generated for outbound
419 .Tn SYN-ACK
420 packets.
421 .Tn SYN
422 cookies are a great help during
423 .Tn SYN
424 flood attacks, and are enabled by default.
425 (See
426 .Xr syncookies 4 . )
427 .It Va isn_reseed_interval
428 The interval (in seconds) specifying how often the secret data used in
429 RFC 1948 initial sequence number calculations should be reseeded.
430 By default, this variable is set to zero, indicating that
431 no reseeding will occur.
432 Reseeding should not be necessary, and will break
433 .Dv TIME_WAIT
434 recycling for a few minutes.
435 .It Va rexmit_min , rexmit_slop
436 Adjust the retransmit timer calculation for
437 .Tn TCP .
438 The slop is
439 typically added to the raw calculation to take into account
440 occasional variances that the
441 .Tn SRTT
442 (smoothed round-trip time)
443 is unable to accommodate, while the minimum specifies an
444 absolute minimum.
445 While a number of
446 .Tn TCP
447 RFCs suggest a 1
448 second minimum, these RFCs tend to focus on streaming behavior,
449 and fail to deal with the fact that a 1 second minimum has severe
450 detrimental effects over lossy interactive connections, such
451 as a 802.11b wireless link, and over very fast but lossy
452 connections for those cases not covered by the fast retransmit
453 code.
454 For this reason, we use 200ms of slop and a near-0
455 minimum, which gives us an effective minimum of 200ms (similar to
456 .Tn Linux ) .
457 .It Va rfc3042
458 Enable the Limited Transmit algorithm as described in RFC 3042.
459 It helps avoid timeouts on lossy links and also when the congestion window
460 is small, as happens on short transfers.
461 .It Va rfc3390
462 Enable support for RFC 3390, which allows for a variable-sized
463 starting congestion window on new connections, depending on the
464 maximum segment size.
465 This helps throughput in general, but
466 particularly affects short transfers and high-bandwidth large
467 propagation-delay connections.
468 .It Va sack.enable
469 Enable support for RFC 2018, TCP Selective Acknowledgment option,
470 which allows the receiver to inform the sender about all successfully
471 arrived segments, allowing the sender to retransmit the missing segments
472 only.
473 .It Va sack.maxholes
474 Maximum number of SACK holes per connection.
475 Defaults to 128.
476 .It Va sack.globalmaxholes
477 Maximum number of SACK holes per system, across all connections.
478 Defaults to 65536.
479 .It Va maxtcptw
480 When a TCP connection enters the
481 .Dv TIME_WAIT
482 state, its associated socket structure is freed, since it is of
483 negligible size and use, and a new structure is allocated to contain a
484 minimal amount of information necessary for sustaining a connection in
485 this state, called the compressed TCP TIME_WAIT state.
486 Since this structure is smaller than a socket structure, it can save
487 a significant amount of system memory.
488 The
489 .Va net.inet.tcp.maxtcptw
490 MIB variable controls the maximum number of these structures allocated.
491 By default, it is initialized to
492 .Va kern.ipc.maxsockets
493 / 5.
494 .It Va nolocaltimewait
495 Suppress creating of compressed TCP TIME_WAIT states for connections in
496 which both endpoints are local.
497 .It Va fast_finwait2_recycle
498 Recycle
499 .Tn TCP
500 .Dv FIN_WAIT_2
501 connections faster when the socket is marked as
502 .Dv SBS_CANTRCVMORE
503 (no user process has the socket open, data received on
504 the socket cannot be read).
505 The timeout used here is
506 .Va finwait2_timeout .
507 .It Va finwait2_timeout
508 Timeout to use for fast recycling of
509 .Tn TCP
510 .Dv FIN_WAIT_2
511 connections.
512 Defaults to 60 seconds.
513 .It Va ecn.enable
514 Enable support for TCP Explicit Congestion Notification (ECN).
515 ECN allows a TCP sender to reduce the transmission rate in order to
516 avoid packet drops.
517 .It Va ecn.maxretries
518 Number of retries (SYN or SYN/ACK retransmits) before disabling ECN on a
519 specific connection.
520 This is needed to help with connection establishment
521 when a broken firewall is in the network path.
522 .It Va pmtud_blackhole_detection
523 Turn on automatic path MTU blackhole detection.
524 In case of retransmits OS will
525 lower the MSS to check if it's MTU problem.
526 If current MSS is greater than
527 configured value to try, it will be set to configured value, otherwise,
528 MSS will be set to default values
529 .Po Va net.inet.tcp.mssdflt
530 and
531 .Va net.inet.tcp.v6mssdflt
532 .Pc .
533 .It Va pmtud_blackhole_mss
534 MSS to try for IPv4 if PMTU blackhole detection is turned on.
535 .It Va v6pmtud_blackhole_mss
536 MSS to try for IPv6 if PMTU blackhole detection is turned on.
537 .It Va pmtud_blackhole_activated
538 Number of times configured values were used in an attempt to downshift.
539 .It Va pmtud_blackhole_activated_min_mss
540 Number of times default MSS was used in an attempt to downshift.
541 .It Va pmtud_blackhole_failed
542 Number of connections for which retransmits continued even after MSS
543 downshift.
544 .El
545 .Sh ERRORS
546 A socket operation may fail with one of the following errors returned:
547 .Bl -tag -width Er
548 .It Bq Er EISCONN
549 when trying to establish a connection on a socket which
550 already has one;
551 .It Bq Er ENOBUFS
552 when the system runs out of memory for
553 an internal data structure;
554 .It Bq Er ETIMEDOUT
555 when a connection was dropped
556 due to excessive retransmissions;
557 .It Bq Er ECONNRESET
558 when the remote peer
559 forces the connection to be closed;
560 .It Bq Er ECONNREFUSED
561 when the remote
562 peer actively refuses connection establishment (usually because
563 no process is listening to the port);
564 .It Bq Er EADDRINUSE
565 when an attempt
566 is made to create a socket with a port which has already been
567 allocated;
568 .It Bq Er EADDRNOTAVAIL
569 when an attempt is made to create a
570 socket with a network address for which no network interface
571 exists;
572 .It Bq Er EAFNOSUPPORT
573 when an attempt is made to bind or connect a socket to a multicast
574 address.
575 .El
576 .Sh SEE ALSO
577 .Xr getsockopt 2 ,
578 .Xr socket 2 ,
579 .Xr sysctl 3 ,
580 .Xr blackhole 4 ,
581 .Xr inet 4 ,
582 .Xr intro 4 ,
583 .Xr ip 4 ,
584 .Xr mod_cc 4 ,
585 .Xr siftr 4 ,
586 .Xr syncache 4 ,
587 .Xr setkey 8
588 .Rs
589 .%A "V. Jacobson"
590 .%A "R. Braden"
591 .%A "D. Borman"
592 .%T "TCP Extensions for High Performance"
593 .%O "RFC 1323"
594 .Re
595 .Rs
596 .%A "A. Heffernan"
597 .%T "Protection of BGP Sessions via the TCP MD5 Signature Option"
598 .%O "RFC 2385"
599 .Re
600 .Rs
601 .%A "K. Ramakrishnan"
602 .%A "S. Floyd"
603 .%A "D. Black"
604 .%T "The Addition of Explicit Congestion Notification (ECN) to IP"
605 .%O "RFC 3168"
606 .Re
607 .Sh HISTORY
608 The
609 .Tn TCP
610 protocol appeared in
611 .Bx 4.2 .
612 The RFC 1323 extensions for window scaling and timestamps were added
613 in
614 .Bx 4.4 .
615 The
616 .Dv TCP_INFO
617 option was introduced in
618 .Tn Linux 2.6
619 and is
620 .Em subject to change .