]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - sys/net/radix_mpath.c
ZFS: MFV 2.0-rc1-gfd20a8
[FreeBSD/FreeBSD.git] / sys / net / radix_mpath.c
1 /*      $KAME: radix_mpath.c,v 1.17 2004/11/08 10:29:39 itojun Exp $    */
2
3 /*
4  * SPDX-License-Identifier: BSD-3-Clause
5  *
6  * Copyright (C) 2001 WIDE Project.
7  * All rights reserved.
8  *
9  * Redistribution and use in source and binary forms, with or without
10  * modification, are permitted provided that the following conditions
11  * are met:
12  * 1. Redistributions of source code must retain the above copyright
13  *    notice, this list of conditions and the following disclaimer.
14  * 2. Redistributions in binary form must reproduce the above copyright
15  *    notice, this list of conditions and the following disclaimer in the
16  *    documentation and/or other materials provided with the distribution.
17  * 3. Neither the name of the project nor the names of its contributors
18  *    may be used to endorse or promote products derived from this software
19  *    without specific prior written permission.
20  *
21  * THIS SOFTWARE IS PROVIDED BY THE PROJECT AND CONTRIBUTORS ``AS IS'' AND
22  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
23  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
24  * ARE DISCLAIMED.  IN NO EVENT SHALL THE PROJECT OR CONTRIBUTORS BE LIABLE
25  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
26  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
27  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
28  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
29  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
30  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
31  * SUCH DAMAGE.
32  * THE AUTHORS DO NOT GUARANTEE THAT THIS SOFTWARE DOES NOT INFRINGE
33  * ANY OTHERS' INTELLECTUAL PROPERTIES. IN NO EVENT SHALL THE AUTHORS
34  * BE LIABLE FOR ANY INFRINGEMENT OF ANY OTHERS' INTELLECTUAL
35  * PROPERTIES.
36  */
37
38 #include <sys/cdefs.h>
39 __FBSDID("$FreeBSD$");
40
41 #include "opt_inet.h"
42 #include "opt_inet6.h"
43 #include "opt_mpath.h"
44
45 #include <sys/param.h>
46 #include <sys/systm.h>
47 #include <sys/lock.h>
48 #include <sys/malloc.h>
49 #include <sys/mutex.h>
50 #include <sys/socket.h>
51 #include <sys/domain.h>
52 #include <sys/kernel.h>
53 #include <sys/syslog.h>
54 #include <net/radix.h>
55 #include <net/radix_mpath.h>
56 #include <sys/rmlock.h>
57 #include <net/route.h>
58 #include <net/route/nhop.h>
59 #include <net/route/route_var.h>
60 #include <net/route/nhop.h>
61 #include <net/if.h>
62 #include <net/if_var.h>
63
64 /*
65  * give some jitter to hash, to avoid synchronization between routers
66  */
67 static uint32_t hashjitter;
68
69 int
70 rt_mpath_capable(struct rib_head *rnh)
71 {
72
73         return rnh->rnh_multipath;
74 }
75
76 int
77 rn_mpath_capable(struct radix_head *rh)
78 {
79
80         return (rt_mpath_capable((struct rib_head *)rh));
81 }
82
83 struct radix_node *
84 rn_mpath_next(struct radix_node *rn)
85 {
86         struct radix_node *next;
87
88         if (!rn->rn_dupedkey)
89                 return NULL;
90         next = rn->rn_dupedkey;
91         if (rn->rn_mask == next->rn_mask)
92                 return next;
93         else
94                 return NULL;
95 }
96
97 uint32_t
98 rn_mpath_count(struct radix_node *rn)
99 {
100         uint32_t i = 0;
101         struct rtentry *rt;
102
103         while (rn != NULL) {
104                 rt = (struct rtentry *)rn;
105                 i += rt->rt_weight;
106                 rn = rn_mpath_next(rn);
107         }
108         return (i);
109 }
110
111 struct rtentry *
112 rt_mpath_matchgate(struct rtentry *rt, struct sockaddr *gate)
113 {
114         struct radix_node *rn;
115         struct nhop_object *nh;
116
117         if (gate == NULL)
118                 return (NULL);
119
120         /* beyond here, we use rn as the master copy */
121         rn = (struct radix_node *)rt;
122         do {
123                 rt = (struct rtentry *)rn;
124                 nh = rt->rt_nhop;
125                 /*
126                  * we are removing an address alias that has
127                  * the same prefix as another address
128                  * we need to compare the interface address because
129                  * gateway is a special sockaddr_dl structure
130                  */
131                 if (nh->gw_sa.sa_family == AF_LINK) {
132                         if (!memcmp(nh->nh_ifa->ifa_addr, gate, gate->sa_len))
133                                 break;
134                 }
135
136                 /*
137                  * Check for other options:
138                  * 1) Routes with 'real' IPv4/IPv6 gateway
139                  * 2) Loopback host routes (another AF_LINK/sockadd_dl check)
140                  * */
141                 if (nh->gw_sa.sa_len == gate->sa_len &&
142                     !memcmp(&nh->gw_sa, gate, gate->sa_len))
143                         break;
144         } while ((rn = rn_mpath_next(rn)) != NULL);
145
146         return (struct rtentry *)rn;
147 }
148
149 /* 
150  * go through the chain and unlink "rt" from the list
151  * the caller will free "rt"
152  */
153 int
154 rt_mpath_deldup(struct rtentry *headrt, struct rtentry *rt)
155 {
156         struct radix_node *t, *tt;
157
158         if (!headrt || !rt)
159             return (0);
160         t = (struct radix_node *)headrt;
161         tt = rn_mpath_next(t);
162         while (tt) {
163             if (tt == (struct radix_node *)rt) {
164                 t->rn_dupedkey = tt->rn_dupedkey;
165                 tt->rn_dupedkey = NULL;
166                 tt->rn_flags &= ~RNF_ACTIVE;
167                 tt[1].rn_flags &= ~RNF_ACTIVE;
168                 return (1);
169             }
170             t = tt;
171             tt = rn_mpath_next((struct radix_node *)t);
172         }
173         return (0);
174 }
175
176 /*
177  * check if we have the same key/mask/gateway on the table already.
178  * Assume @rt rt_key host bits are cleared according to @netmask
179  */
180 int
181 rt_mpath_conflict(struct rib_head *rnh, struct rtentry *rt,
182     struct sockaddr *netmask)
183 {
184         struct radix_node *rn, *rn1;
185         struct nhop_object *nh, *nh1;
186         struct rtentry *rt1;
187
188         rn = (struct radix_node *)rt;
189         rn1 = rnh->rnh_lookup(rt_key(rt), netmask, &rnh->head);
190         if (!rn1 || rn1->rn_flags & RNF_ROOT)
191                 return (0);
192
193         /* key/mask are the same. compare gateway for all multipaths */
194         do {
195                 rt1 = (struct rtentry *)rn1;
196
197                 /* sanity: no use in comparing the same thing */
198                 if (rn1 == rn)
199                         continue;
200         
201                 nh = rt->rt_nhop;
202                 nh1 = rt1->rt_nhop;
203
204                 if (nh1->gw_sa.sa_family == AF_LINK) {
205                         if (nh1->nh_ifa->ifa_addr->sa_len != nh->nh_ifa->ifa_addr->sa_len ||
206                             bcmp(nh1->nh_ifa->ifa_addr, nh->nh_ifa->ifa_addr, 
207                             nh1->nh_ifa->ifa_addr->sa_len))
208                                 continue;
209                 } else {
210                         if (nh1->gw_sa.sa_len != nh->gw_sa.sa_len ||
211                             bcmp(&nh1->gw_sa, &nh->gw_sa, nh1->gw_sa.sa_len))
212                                 continue;
213                 }
214
215                 /* all key/mask/gateway are the same.  conflicting entry. */
216                 return (EEXIST);
217         } while ((rn1 = rn_mpath_next(rn1)) != NULL);
218
219         return (0);
220 }
221
222 struct rtentry *
223 rt_mpath_selectrte(struct rtentry *rte, uint32_t hash)
224 {
225         struct radix_node *rn0, *rn;
226         uint32_t total_weight;
227         struct rtentry *rt;
228         int64_t weight;
229
230         /* beyond here, we use rn as the master copy */
231         rn0 = rn = (struct radix_node *)rte;
232         rt = rte;
233
234         /* gw selection by Modulo-N Hash (RFC2991) XXX need improvement? */
235         total_weight = rn_mpath_count(rn0);
236         hash += hashjitter;
237         hash %= total_weight;
238         for (weight = abs((int32_t)hash);
239              rt != NULL && weight >= rt->rt_weight; 
240              weight -= (rt == NULL) ? 0 : rt->rt_weight) {
241                 
242                 /* stay within the multipath routes */
243                 if (rn->rn_dupedkey && rn->rn_mask != rn->rn_dupedkey->rn_mask)
244                         break;
245                 rn = rn->rn_dupedkey;
246                 rt = (struct rtentry *)rn;
247         }
248
249         return (rt);
250 }
251
252 struct rtentry *
253 rt_mpath_select(struct rtentry *rte, uint32_t hash)
254 {
255         if (rn_mpath_next((struct radix_node *)rte) == NULL)
256                 return (rte);
257
258         return (rt_mpath_selectrte(rte, hash));
259 }
260
261 void
262 rt_mpath_init_rnh(struct rib_head *rnh)
263 {
264
265         rnh->rnh_multipath = 1;
266 }
267
268 #ifdef RADIX_MPATH
269 static void
270 mpath_init(void)
271 {
272
273         hashjitter = arc4random();
274 }
275 SYSINIT(mpath_init, SI_SUB_LAST, SI_ORDER_ANY, mpath_init, NULL);
276 #endif