]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - sys/netinet6/nd6.c
OpenSSL: update to 3.0.10
[FreeBSD/FreeBSD.git] / sys / netinet6 / nd6.c
1 /*-
2  * SPDX-License-Identifier: BSD-3-Clause
3  *
4  * Copyright (C) 1995, 1996, 1997, and 1998 WIDE Project.
5  * All rights reserved.
6  *
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions
9  * are met:
10  * 1. Redistributions of source code must retain the above copyright
11  *    notice, this list of conditions and the following disclaimer.
12  * 2. Redistributions in binary form must reproduce the above copyright
13  *    notice, this list of conditions and the following disclaimer in the
14  *    documentation and/or other materials provided with the distribution.
15  * 3. Neither the name of the project nor the names of its contributors
16  *    may be used to endorse or promote products derived from this software
17  *    without specific prior written permission.
18  *
19  * THIS SOFTWARE IS PROVIDED BY THE PROJECT AND CONTRIBUTORS ``AS IS'' AND
20  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
21  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
22  * ARE DISCLAIMED.  IN NO EVENT SHALL THE PROJECT OR CONTRIBUTORS BE LIABLE
23  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
24  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
25  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
26  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
27  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
28  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
29  * SUCH DAMAGE.
30  *
31  *      $KAME: nd6.c,v 1.144 2001/05/24 07:44:00 itojun Exp $
32  */
33
34 #include <sys/cdefs.h>
35 __FBSDID("$FreeBSD$");
36
37 #include "opt_inet.h"
38 #include "opt_inet6.h"
39 #include "opt_route.h"
40
41 #include <sys/param.h>
42 #include <sys/systm.h>
43 #include <sys/eventhandler.h>
44 #include <sys/callout.h>
45 #include <sys/lock.h>
46 #include <sys/malloc.h>
47 #include <sys/mbuf.h>
48 #include <sys/mutex.h>
49 #include <sys/socket.h>
50 #include <sys/sockio.h>
51 #include <sys/time.h>
52 #include <sys/kernel.h>
53 #include <sys/protosw.h>
54 #include <sys/errno.h>
55 #include <sys/syslog.h>
56 #include <sys/rwlock.h>
57 #include <sys/queue.h>
58 #include <sys/sdt.h>
59 #include <sys/sysctl.h>
60
61 #include <net/if.h>
62 #include <net/if_var.h>
63 #include <net/if_dl.h>
64 #include <net/if_private.h>
65 #include <net/if_types.h>
66 #include <net/route.h>
67 #include <net/route/route_ctl.h>
68 #include <net/route/nhop.h>
69 #include <net/vnet.h>
70
71 #include <netinet/in.h>
72 #include <netinet/in_kdtrace.h>
73 #include <net/if_llatbl.h>
74 #include <netinet/if_ether.h>
75 #include <netinet6/in6_fib.h>
76 #include <netinet6/in6_var.h>
77 #include <netinet/ip6.h>
78 #include <netinet6/ip6_var.h>
79 #include <netinet6/scope6_var.h>
80 #include <netinet6/nd6.h>
81 #include <netinet6/in6_ifattach.h>
82 #include <netinet/icmp6.h>
83 #include <netinet6/send.h>
84
85 #include <sys/limits.h>
86
87 #include <security/mac/mac_framework.h>
88
89 #define ND6_SLOWTIMER_INTERVAL (60 * 60) /* 1 hour */
90 #define ND6_RECALC_REACHTM_INTERVAL (60 * 120) /* 2 hours */
91
92 #define SIN6(s) ((const struct sockaddr_in6 *)(s))
93
94 MALLOC_DEFINE(M_IP6NDP, "ip6ndp", "IPv6 Neighbor Discovery");
95
96 /* timer values */
97 VNET_DEFINE(int, nd6_prune)     = 1;    /* walk list every 1 seconds */
98 VNET_DEFINE(int, nd6_delay)     = 5;    /* delay first probe time 5 second */
99 VNET_DEFINE(int, nd6_umaxtries) = 3;    /* maximum unicast query */
100 VNET_DEFINE(int, nd6_mmaxtries) = 3;    /* maximum multicast query */
101 VNET_DEFINE(int, nd6_useloopback) = 1;  /* use loopback interface for
102                                          * local traffic */
103 VNET_DEFINE(int, nd6_gctimer)   = (60 * 60 * 24); /* 1 day: garbage
104                                          * collection timer */
105
106 /* preventing too many loops in ND option parsing */
107 VNET_DEFINE_STATIC(int, nd6_maxndopt) = 10; /* max # of ND options allowed */
108
109 VNET_DEFINE(int, nd6_maxnudhint) = 0;   /* max # of subsequent upper
110                                          * layer hints */
111 VNET_DEFINE_STATIC(int, nd6_maxqueuelen) = 16; /* max pkts cached in unresolved
112                                          * ND entries */
113 #define V_nd6_maxndopt                  VNET(nd6_maxndopt)
114 #define V_nd6_maxqueuelen               VNET(nd6_maxqueuelen)
115
116 #ifdef ND6_DEBUG
117 VNET_DEFINE(int, nd6_debug) = 1;
118 #else
119 VNET_DEFINE(int, nd6_debug) = 0;
120 #endif
121
122 static eventhandler_tag lle_event_eh, iflladdr_event_eh, ifnet_link_event_eh;
123
124 VNET_DEFINE(struct nd_prhead, nd_prefix);
125 VNET_DEFINE(struct rwlock, nd6_lock);
126 VNET_DEFINE(uint64_t, nd6_list_genid);
127 VNET_DEFINE(struct mtx, nd6_onlink_mtx);
128
129 VNET_DEFINE(int, nd6_recalc_reachtm_interval) = ND6_RECALC_REACHTM_INTERVAL;
130 #define V_nd6_recalc_reachtm_interval   VNET(nd6_recalc_reachtm_interval)
131
132 int     (*send_sendso_input_hook)(struct mbuf *, struct ifnet *, int, int);
133
134 static bool nd6_is_new_addr_neighbor(const struct sockaddr_in6 *,
135         struct ifnet *);
136 static void nd6_setmtu0(struct ifnet *, struct nd_ifinfo *);
137 static void nd6_slowtimo(void *);
138 static int regen_tmpaddr(struct in6_ifaddr *);
139 static void nd6_free(struct llentry **, int);
140 static void nd6_free_redirect(const struct llentry *);
141 static void nd6_llinfo_timer(void *);
142 static void nd6_llinfo_settimer_locked(struct llentry *, long);
143 static int nd6_resolve_slow(struct ifnet *, int, int, struct mbuf *,
144     const struct sockaddr_in6 *, u_char *, uint32_t *, struct llentry **);
145 static int nd6_need_cache(struct ifnet *);
146
147 VNET_DEFINE_STATIC(struct callout, nd6_slowtimo_ch);
148 #define V_nd6_slowtimo_ch               VNET(nd6_slowtimo_ch)
149
150 VNET_DEFINE_STATIC(struct callout, nd6_timer_ch);
151 #define V_nd6_timer_ch                  VNET(nd6_timer_ch)
152
153 SYSCTL_DECL(_net_inet6_icmp6);
154
155 static void
156 nd6_lle_event(void *arg __unused, struct llentry *lle, int evt)
157 {
158         struct rt_addrinfo rtinfo;
159         struct sockaddr_in6 dst;
160         struct sockaddr_dl gw;
161         struct ifnet *ifp;
162         int type;
163         int fibnum;
164
165         LLE_WLOCK_ASSERT(lle);
166
167         if (lltable_get_af(lle->lle_tbl) != AF_INET6)
168                 return;
169
170         switch (evt) {
171         case LLENTRY_RESOLVED:
172                 type = RTM_ADD;
173                 KASSERT(lle->la_flags & LLE_VALID,
174                     ("%s: %p resolved but not valid?", __func__, lle));
175                 break;
176         case LLENTRY_EXPIRED:
177                 type = RTM_DELETE;
178                 break;
179         default:
180                 return;
181         }
182
183         ifp = lltable_get_ifp(lle->lle_tbl);
184
185         bzero(&dst, sizeof(dst));
186         bzero(&gw, sizeof(gw));
187         bzero(&rtinfo, sizeof(rtinfo));
188         lltable_fill_sa_entry(lle, (struct sockaddr *)&dst);
189         dst.sin6_scope_id = in6_getscopezone(ifp,
190             in6_addrscope(&dst.sin6_addr));
191         gw.sdl_len = sizeof(struct sockaddr_dl);
192         gw.sdl_family = AF_LINK;
193         gw.sdl_alen = ifp->if_addrlen;
194         gw.sdl_index = ifp->if_index;
195         gw.sdl_type = ifp->if_type;
196         if (evt == LLENTRY_RESOLVED)
197                 bcopy(lle->ll_addr, gw.sdl_data, ifp->if_addrlen);
198         rtinfo.rti_info[RTAX_DST] = (struct sockaddr *)&dst;
199         rtinfo.rti_info[RTAX_GATEWAY] = (struct sockaddr *)&gw;
200         rtinfo.rti_addrs = RTA_DST | RTA_GATEWAY;
201         fibnum = V_rt_add_addr_allfibs ? RT_ALL_FIBS : ifp->if_fib;
202         rt_missmsg_fib(type, &rtinfo, RTF_HOST | RTF_LLDATA | (
203             type == RTM_ADD ? RTF_UP: 0), 0, fibnum);
204 }
205
206 /*
207  * A handler for interface link layer address change event.
208  */
209 static void
210 nd6_iflladdr(void *arg __unused, struct ifnet *ifp)
211 {
212         if (ifp->if_afdata[AF_INET6] == NULL)
213                 return;
214
215         lltable_update_ifaddr(LLTABLE6(ifp));
216 }
217
218 void
219 nd6_init(void)
220 {
221
222         mtx_init(&V_nd6_onlink_mtx, "nd6 onlink", NULL, MTX_DEF);
223         rw_init(&V_nd6_lock, "nd6 list");
224
225         LIST_INIT(&V_nd_prefix);
226         nd6_defrouter_init();
227
228         /* Start timers. */
229         callout_init(&V_nd6_slowtimo_ch, 1);
230         callout_reset(&V_nd6_slowtimo_ch, ND6_SLOWTIMER_INTERVAL * hz,
231             nd6_slowtimo, curvnet);
232
233         callout_init(&V_nd6_timer_ch, 1);
234         callout_reset(&V_nd6_timer_ch, hz, nd6_timer, curvnet);
235
236         nd6_dad_init();
237         if (IS_DEFAULT_VNET(curvnet)) {
238                 lle_event_eh = EVENTHANDLER_REGISTER(lle_event, nd6_lle_event,
239                     NULL, EVENTHANDLER_PRI_ANY);
240                 iflladdr_event_eh = EVENTHANDLER_REGISTER(iflladdr_event,
241                     nd6_iflladdr, NULL, EVENTHANDLER_PRI_ANY);
242                 ifnet_link_event_eh = EVENTHANDLER_REGISTER(ifnet_link_event,
243                     nd6_ifnet_link_event, NULL, EVENTHANDLER_PRI_ANY);
244         }
245 }
246
247 #ifdef VIMAGE
248 void
249 nd6_destroy(void)
250 {
251
252         callout_drain(&V_nd6_slowtimo_ch);
253         callout_drain(&V_nd6_timer_ch);
254         if (IS_DEFAULT_VNET(curvnet)) {
255                 EVENTHANDLER_DEREGISTER(ifnet_link_event, ifnet_link_event_eh);
256                 EVENTHANDLER_DEREGISTER(lle_event, lle_event_eh);
257                 EVENTHANDLER_DEREGISTER(iflladdr_event, iflladdr_event_eh);
258         }
259         rw_destroy(&V_nd6_lock);
260         mtx_destroy(&V_nd6_onlink_mtx);
261 }
262 #endif
263
264 struct nd_ifinfo *
265 nd6_ifattach(struct ifnet *ifp)
266 {
267         struct nd_ifinfo *nd;
268
269         nd = malloc(sizeof(*nd), M_IP6NDP, M_WAITOK | M_ZERO);
270         nd->initialized = 1;
271
272         nd->chlim = IPV6_DEFHLIM;
273         nd->basereachable = REACHABLE_TIME;
274         nd->reachable = ND_COMPUTE_RTIME(nd->basereachable);
275         nd->retrans = RETRANS_TIMER;
276
277         nd->flags = ND6_IFF_PERFORMNUD;
278
279         /* Set IPv6 disabled on all interfaces but loopback by default. */
280         if ((ifp->if_flags & IFF_LOOPBACK) == 0)
281                 nd->flags |= ND6_IFF_IFDISABLED;
282
283         /* A loopback interface always has ND6_IFF_AUTO_LINKLOCAL.
284          * XXXHRS: Clear ND6_IFF_AUTO_LINKLOCAL on an IFT_BRIDGE interface by
285          * default regardless of the V_ip6_auto_linklocal configuration to
286          * give a reasonable default behavior.
287          */
288         if ((V_ip6_auto_linklocal && ifp->if_type != IFT_BRIDGE &&
289             ifp->if_type != IFT_WIREGUARD) || (ifp->if_flags & IFF_LOOPBACK))
290                 nd->flags |= ND6_IFF_AUTO_LINKLOCAL;
291         /*
292          * A loopback interface does not need to accept RTADV.
293          * XXXHRS: Clear ND6_IFF_ACCEPT_RTADV on an IFT_BRIDGE interface by
294          * default regardless of the V_ip6_accept_rtadv configuration to
295          * prevent the interface from accepting RA messages arrived
296          * on one of the member interfaces with ND6_IFF_ACCEPT_RTADV.
297          */
298         if (V_ip6_accept_rtadv &&
299             !(ifp->if_flags & IFF_LOOPBACK) &&
300             (ifp->if_type != IFT_BRIDGE)) {
301                         nd->flags |= ND6_IFF_ACCEPT_RTADV;
302                         /* If we globally accept rtadv, assume IPv6 on. */
303                         nd->flags &= ~ND6_IFF_IFDISABLED;
304         }
305         if (V_ip6_no_radr && !(ifp->if_flags & IFF_LOOPBACK))
306                 nd->flags |= ND6_IFF_NO_RADR;
307
308         /* XXX: we cannot call nd6_setmtu since ifp is not fully initialized */
309         nd6_setmtu0(ifp, nd);
310
311         return nd;
312 }
313
314 void
315 nd6_ifdetach(struct ifnet *ifp, struct nd_ifinfo *nd)
316 {
317         struct epoch_tracker et;
318         struct ifaddr *ifa, *next;
319
320         NET_EPOCH_ENTER(et);
321         CK_STAILQ_FOREACH_SAFE(ifa, &ifp->if_addrhead, ifa_link, next) {
322                 if (ifa->ifa_addr->sa_family != AF_INET6)
323                         continue;
324
325                 /* stop DAD processing */
326                 nd6_dad_stop(ifa);
327         }
328         NET_EPOCH_EXIT(et);
329
330         free(nd, M_IP6NDP);
331 }
332
333 /*
334  * Reset ND level link MTU. This function is called when the physical MTU
335  * changes, which means we might have to adjust the ND level MTU.
336  */
337 void
338 nd6_setmtu(struct ifnet *ifp)
339 {
340         if (ifp->if_afdata[AF_INET6] == NULL)
341                 return;
342
343         nd6_setmtu0(ifp, ND_IFINFO(ifp));
344 }
345
346 /* XXX todo: do not maintain copy of ifp->if_mtu in ndi->maxmtu */
347 void
348 nd6_setmtu0(struct ifnet *ifp, struct nd_ifinfo *ndi)
349 {
350         u_int32_t omaxmtu;
351
352         omaxmtu = ndi->maxmtu;
353         ndi->maxmtu = ifp->if_mtu;
354
355         /*
356          * Decreasing the interface MTU under IPV6 minimum MTU may cause
357          * undesirable situation.  We thus notify the operator of the change
358          * explicitly.  The check for omaxmtu is necessary to restrict the
359          * log to the case of changing the MTU, not initializing it.
360          */
361         if (omaxmtu >= IPV6_MMTU && ndi->maxmtu < IPV6_MMTU) {
362                 log(LOG_NOTICE, "nd6_setmtu0: "
363                     "new link MTU on %s (%lu) is too small for IPv6\n",
364                     if_name(ifp), (unsigned long)ndi->maxmtu);
365         }
366
367         if (ndi->maxmtu > V_in6_maxmtu)
368                 in6_setmaxmtu(); /* check all interfaces just in case */
369
370 }
371
372 void
373 nd6_option_init(void *opt, int icmp6len, union nd_opts *ndopts)
374 {
375
376         bzero(ndopts, sizeof(*ndopts));
377         ndopts->nd_opts_search = (struct nd_opt_hdr *)opt;
378         ndopts->nd_opts_last
379                 = (struct nd_opt_hdr *)(((u_char *)opt) + icmp6len);
380
381         if (icmp6len == 0) {
382                 ndopts->nd_opts_done = 1;
383                 ndopts->nd_opts_search = NULL;
384         }
385 }
386
387 /*
388  * Take one ND option.
389  */
390 struct nd_opt_hdr *
391 nd6_option(union nd_opts *ndopts)
392 {
393         struct nd_opt_hdr *nd_opt;
394         int olen;
395
396         KASSERT(ndopts != NULL, ("%s: ndopts == NULL", __func__));
397         KASSERT(ndopts->nd_opts_last != NULL, ("%s: uninitialized ndopts",
398             __func__));
399         if (ndopts->nd_opts_search == NULL)
400                 return NULL;
401         if (ndopts->nd_opts_done)
402                 return NULL;
403
404         nd_opt = ndopts->nd_opts_search;
405
406         /* make sure nd_opt_len is inside the buffer */
407         if ((caddr_t)&nd_opt->nd_opt_len >= (caddr_t)ndopts->nd_opts_last) {
408                 bzero(ndopts, sizeof(*ndopts));
409                 return NULL;
410         }
411
412         olen = nd_opt->nd_opt_len << 3;
413         if (olen == 0) {
414                 /*
415                  * Message validation requires that all included
416                  * options have a length that is greater than zero.
417                  */
418                 bzero(ndopts, sizeof(*ndopts));
419                 return NULL;
420         }
421
422         ndopts->nd_opts_search = (struct nd_opt_hdr *)((caddr_t)nd_opt + olen);
423         if (ndopts->nd_opts_search > ndopts->nd_opts_last) {
424                 /* option overruns the end of buffer, invalid */
425                 bzero(ndopts, sizeof(*ndopts));
426                 return NULL;
427         } else if (ndopts->nd_opts_search == ndopts->nd_opts_last) {
428                 /* reached the end of options chain */
429                 ndopts->nd_opts_done = 1;
430                 ndopts->nd_opts_search = NULL;
431         }
432         return nd_opt;
433 }
434
435 /*
436  * Parse multiple ND options.
437  * This function is much easier to use, for ND routines that do not need
438  * multiple options of the same type.
439  */
440 int
441 nd6_options(union nd_opts *ndopts)
442 {
443         struct nd_opt_hdr *nd_opt;
444         int i = 0;
445
446         KASSERT(ndopts != NULL, ("%s: ndopts == NULL", __func__));
447         KASSERT(ndopts->nd_opts_last != NULL, ("%s: uninitialized ndopts",
448             __func__));
449         if (ndopts->nd_opts_search == NULL)
450                 return 0;
451
452         while (1) {
453                 nd_opt = nd6_option(ndopts);
454                 if (nd_opt == NULL && ndopts->nd_opts_last == NULL) {
455                         /*
456                          * Message validation requires that all included
457                          * options have a length that is greater than zero.
458                          */
459                         ICMP6STAT_INC(icp6s_nd_badopt);
460                         bzero(ndopts, sizeof(*ndopts));
461                         return -1;
462                 }
463
464                 if (nd_opt == NULL)
465                         goto skip1;
466
467                 switch (nd_opt->nd_opt_type) {
468                 case ND_OPT_SOURCE_LINKADDR:
469                 case ND_OPT_TARGET_LINKADDR:
470                 case ND_OPT_MTU:
471                 case ND_OPT_REDIRECTED_HEADER:
472                 case ND_OPT_NONCE:
473                         if (ndopts->nd_opt_array[nd_opt->nd_opt_type]) {
474                                 nd6log((LOG_INFO,
475                                     "duplicated ND6 option found (type=%d)\n",
476                                     nd_opt->nd_opt_type));
477                                 /* XXX bark? */
478                         } else {
479                                 ndopts->nd_opt_array[nd_opt->nd_opt_type]
480                                         = nd_opt;
481                         }
482                         break;
483                 case ND_OPT_PREFIX_INFORMATION:
484                         if (ndopts->nd_opt_array[nd_opt->nd_opt_type] == 0) {
485                                 ndopts->nd_opt_array[nd_opt->nd_opt_type]
486                                         = nd_opt;
487                         }
488                         ndopts->nd_opts_pi_end =
489                                 (struct nd_opt_prefix_info *)nd_opt;
490                         break;
491                 /* What about ND_OPT_ROUTE_INFO? RFC 4191 */
492                 case ND_OPT_RDNSS:      /* RFC 6106 */
493                 case ND_OPT_DNSSL:      /* RFC 6106 */
494                         /*
495                          * Silently ignore options we know and do not care about
496                          * in the kernel.
497                          */
498                         break;
499                 default:
500                         /*
501                          * Unknown options must be silently ignored,
502                          * to accommodate future extension to the protocol.
503                          */
504                         nd6log((LOG_DEBUG,
505                             "nd6_options: unsupported option %d - "
506                             "option ignored\n", nd_opt->nd_opt_type));
507                 }
508
509 skip1:
510                 i++;
511                 if (i > V_nd6_maxndopt) {
512                         ICMP6STAT_INC(icp6s_nd_toomanyopt);
513                         nd6log((LOG_INFO, "too many loop in nd opt\n"));
514                         break;
515                 }
516
517                 if (ndopts->nd_opts_done)
518                         break;
519         }
520
521         return 0;
522 }
523
524 /*
525  * ND6 timer routine to handle ND6 entries
526  */
527 static void
528 nd6_llinfo_settimer_locked(struct llentry *ln, long tick)
529 {
530         int canceled;
531
532         LLE_WLOCK_ASSERT(ln);
533
534         /* Do not schedule timers for child LLEs. */
535         if (ln->la_flags & LLE_CHILD)
536                 return;
537
538         if (tick < 0) {
539                 ln->la_expire = 0;
540                 ln->ln_ntick = 0;
541                 canceled = callout_stop(&ln->lle_timer);
542         } else {
543                 ln->la_expire = time_uptime + tick / hz;
544                 LLE_ADDREF(ln);
545                 if (tick > INT_MAX) {
546                         ln->ln_ntick = tick - INT_MAX;
547                         canceled = callout_reset(&ln->lle_timer, INT_MAX,
548                             nd6_llinfo_timer, ln);
549                 } else {
550                         ln->ln_ntick = 0;
551                         canceled = callout_reset(&ln->lle_timer, tick,
552                             nd6_llinfo_timer, ln);
553                 }
554         }
555         if (canceled > 0)
556                 LLE_REMREF(ln);
557 }
558
559 /*
560  * Gets source address of the first packet in hold queue
561  * and stores it in @src.
562  * Returns pointer to @src (if hold queue is not empty) or NULL.
563  *
564  * Set noinline to be dtrace-friendly
565  */
566 static __noinline struct in6_addr *
567 nd6_llinfo_get_holdsrc(struct llentry *ln, struct in6_addr *src)
568 {
569         struct ip6_hdr hdr;
570         struct mbuf *m;
571
572         if (ln->la_hold == NULL)
573                 return (NULL);
574
575         /*
576          * assume every packet in la_hold has the same IP header
577          */
578         m = ln->la_hold;
579         if (sizeof(hdr) > m->m_len)
580                 return (NULL);
581
582         m_copydata(m, 0, sizeof(hdr), (caddr_t)&hdr);
583         *src = hdr.ip6_src;
584
585         return (src);
586 }
587
588 /*
589  * Checks if we need to switch from STALE state.
590  *
591  * RFC 4861 requires switching from STALE to DELAY state
592  * on first packet matching entry, waiting V_nd6_delay and
593  * transition to PROBE state (if upper layer confirmation was
594  * not received).
595  *
596  * This code performs a bit differently:
597  * On packet hit we don't change state (but desired state
598  * can be guessed by control plane). However, after V_nd6_delay
599  * seconds code will transition to PROBE state (so DELAY state
600  * is kinda skipped in most situations).
601  *
602  * Typically, V_nd6_gctimer is bigger than V_nd6_delay, so
603  * we perform the following upon entering STALE state:
604  *
605  * 1) Arm timer to run each V_nd6_delay seconds to make sure that
606  * if packet was transmitted at the start of given interval, we
607  * would be able to switch to PROBE state in V_nd6_delay seconds
608  * as user expects.
609  *
610  * 2) Reschedule timer until original V_nd6_gctimer expires keeping
611  * lle in STALE state (remaining timer value stored in lle_remtime).
612  *
613  * 3) Reschedule timer if packet was transmitted less that V_nd6_delay
614  * seconds ago.
615  *
616  * Returns non-zero value if the entry is still STALE (storing
617  * the next timer interval in @pdelay).
618  *
619  * Returns zero value if original timer expired or we need to switch to
620  * PROBE (store that in @do_switch variable).
621  */
622 static int
623 nd6_is_stale(struct llentry *lle, long *pdelay, int *do_switch)
624 {
625         int nd_delay, nd_gctimer;
626         time_t lle_hittime;
627         long delay;
628
629         *do_switch = 0;
630         nd_gctimer = V_nd6_gctimer;
631         nd_delay = V_nd6_delay;
632
633         lle_hittime = llentry_get_hittime(lle);
634
635         if (lle_hittime == 0) {
636                 /*
637                  * Datapath feedback has been requested upon entering
638                  * STALE state. No packets has been passed using this lle.
639                  * Ask for the timer reschedule and keep STALE state.
640                  */
641                 delay = (long)(MIN(nd_gctimer, nd_delay));
642                 delay *= hz;
643                 if (lle->lle_remtime > delay)
644                         lle->lle_remtime -= delay;
645                 else {
646                         delay = lle->lle_remtime;
647                         lle->lle_remtime = 0;
648                 }
649
650                 if (delay == 0) {
651                         /*
652                          * The original ng6_gctime timeout ended,
653                          * no more rescheduling.
654                          */
655                         return (0);
656                 }
657
658                 *pdelay = delay;
659                 return (1);
660         }
661
662         /*
663          * Packet received. Verify timestamp
664          */
665         delay = (long)(time_uptime - lle_hittime);
666         if (delay < nd_delay) {
667                 /*
668                  * V_nd6_delay still not passed since the first
669                  * hit in STALE state.
670                  * Reschedule timer and return.
671                  */
672                 *pdelay = (long)(nd_delay - delay) * hz;
673                 return (1);
674         }
675
676         /* Request switching to probe */
677         *do_switch = 1;
678         return (0);
679 }
680
681 /*
682  * Switch @lle state to new state optionally arming timers.
683  *
684  * Set noinline to be dtrace-friendly
685  */
686 __noinline void
687 nd6_llinfo_setstate(struct llentry *lle, int newstate)
688 {
689         struct ifnet *ifp;
690         int nd_gctimer, nd_delay;
691         long delay, remtime;
692
693         delay = 0;
694         remtime = 0;
695
696         switch (newstate) {
697         case ND6_LLINFO_INCOMPLETE:
698                 ifp = lle->lle_tbl->llt_ifp;
699                 delay = (long)ND_IFINFO(ifp)->retrans * hz / 1000;
700                 break;
701         case ND6_LLINFO_REACHABLE:
702                 if (!ND6_LLINFO_PERMANENT(lle)) {
703                         ifp = lle->lle_tbl->llt_ifp;
704                         delay = (long)ND_IFINFO(ifp)->reachable * hz;
705                 }
706                 break;
707         case ND6_LLINFO_STALE:
708
709                 llentry_request_feedback(lle);
710                 nd_delay = V_nd6_delay;
711                 nd_gctimer = V_nd6_gctimer;
712
713                 delay = (long)(MIN(nd_gctimer, nd_delay)) * hz;
714                 remtime = (long)nd_gctimer * hz - delay;
715                 break;
716         case ND6_LLINFO_DELAY:
717                 lle->la_asked = 0;
718                 delay = (long)V_nd6_delay * hz;
719                 break;
720         }
721
722         if (delay > 0)
723                 nd6_llinfo_settimer_locked(lle, delay);
724
725         lle->lle_remtime = remtime;
726         lle->ln_state = newstate;
727 }
728
729 /*
730  * Timer-dependent part of nd state machine.
731  *
732  * Set noinline to be dtrace-friendly
733  */
734 static __noinline void
735 nd6_llinfo_timer(void *arg)
736 {
737         struct epoch_tracker et;
738         struct llentry *ln;
739         struct in6_addr *dst, *pdst, *psrc, src;
740         struct ifnet *ifp;
741         struct nd_ifinfo *ndi;
742         int do_switch, send_ns;
743         long delay;
744
745         KASSERT(arg != NULL, ("%s: arg NULL", __func__));
746         ln = (struct llentry *)arg;
747         ifp = lltable_get_ifp(ln->lle_tbl);
748         CURVNET_SET(ifp->if_vnet);
749
750         ND6_RLOCK();
751         LLE_WLOCK(ln);
752         if (callout_pending(&ln->lle_timer)) {
753                 /*
754                  * Here we are a bit odd here in the treatment of 
755                  * active/pending. If the pending bit is set, it got
756                  * rescheduled before I ran. The active
757                  * bit we ignore, since if it was stopped
758                  * in ll_tablefree() and was currently running
759                  * it would have return 0 so the code would
760                  * not have deleted it since the callout could
761                  * not be stopped so we want to go through
762                  * with the delete here now. If the callout
763                  * was restarted, the pending bit will be back on and
764                  * we just want to bail since the callout_reset would
765                  * return 1 and our reference would have been removed
766                  * by nd6_llinfo_settimer_locked above since canceled
767                  * would have been 1.
768                  */
769                 LLE_WUNLOCK(ln);
770                 ND6_RUNLOCK();
771                 CURVNET_RESTORE();
772                 return;
773         }
774         NET_EPOCH_ENTER(et);
775         ndi = ND_IFINFO(ifp);
776         send_ns = 0;
777         dst = &ln->r_l3addr.addr6;
778         pdst = dst;
779
780         if (ln->ln_ntick > 0) {
781                 if (ln->ln_ntick > INT_MAX) {
782                         ln->ln_ntick -= INT_MAX;
783                         nd6_llinfo_settimer_locked(ln, INT_MAX);
784                 } else {
785                         ln->ln_ntick = 0;
786                         nd6_llinfo_settimer_locked(ln, ln->ln_ntick);
787                 }
788                 goto done;
789         }
790
791         if (ln->la_flags & LLE_STATIC) {
792                 goto done;
793         }
794
795         if (ln->la_flags & LLE_DELETED) {
796                 nd6_free(&ln, 0);
797                 goto done;
798         }
799
800         switch (ln->ln_state) {
801         case ND6_LLINFO_INCOMPLETE:
802                 if (ln->la_asked < V_nd6_mmaxtries) {
803                         ln->la_asked++;
804                         send_ns = 1;
805                         /* Send NS to multicast address */
806                         pdst = NULL;
807                 } else {
808                         struct mbuf *m;
809
810                         ICMP6STAT_ADD(icp6s_dropped, ln->la_numheld);
811
812                         m = ln->la_hold;
813                         if (m != NULL) {
814                                 /*
815                                  * assuming every packet in la_hold has the
816                                  * same IP header.  Send error after unlock.
817                                  */
818                                 ln->la_hold = m->m_nextpkt;
819                                 m->m_nextpkt = NULL;
820                                 ln->la_numheld--;
821                         }
822                         nd6_free(&ln, 0);
823                         if (m != NULL) {
824                                 struct mbuf *n = m;
825
826                                 /*
827                                  * if there are any ummapped mbufs, we
828                                  * must free them, rather than using
829                                  * them for an ICMP, as they cannot be
830                                  * checksummed.
831                                  */
832                                 while ((n = n->m_next) != NULL) {
833                                         if (n->m_flags & M_EXTPG)
834                                                 break;
835                                 }
836                                 if (n != NULL) {
837                                         m_freem(m);
838                                         m = NULL;
839                                 } else {
840                                         icmp6_error2(m, ICMP6_DST_UNREACH,
841                                             ICMP6_DST_UNREACH_ADDR, 0, ifp);
842                                 }
843                         }
844                 }
845                 break;
846         case ND6_LLINFO_REACHABLE:
847                 if (!ND6_LLINFO_PERMANENT(ln))
848                         nd6_llinfo_setstate(ln, ND6_LLINFO_STALE);
849                 break;
850
851         case ND6_LLINFO_STALE:
852                 if (nd6_is_stale(ln, &delay, &do_switch) != 0) {
853                         /*
854                          * No packet has used this entry and GC timeout
855                          * has not been passed. Reschedule timer and
856                          * return.
857                          */
858                         nd6_llinfo_settimer_locked(ln, delay);
859                         break;
860                 }
861
862                 if (do_switch == 0) {
863                         /*
864                          * GC timer has ended and entry hasn't been used.
865                          * Run Garbage collector (RFC 4861, 5.3)
866                          */
867                         if (!ND6_LLINFO_PERMANENT(ln))
868                                 nd6_free(&ln, 1);
869                         break;
870                 }
871
872                 /* Entry has been used AND delay timer has ended. */
873
874                 /* FALLTHROUGH */
875
876         case ND6_LLINFO_DELAY:
877                 if (ndi && (ndi->flags & ND6_IFF_PERFORMNUD) != 0) {
878                         /* We need NUD */
879                         ln->la_asked = 1;
880                         nd6_llinfo_setstate(ln, ND6_LLINFO_PROBE);
881                         send_ns = 1;
882                 } else
883                         nd6_llinfo_setstate(ln, ND6_LLINFO_STALE); /* XXX */
884                 break;
885         case ND6_LLINFO_PROBE:
886                 if (ln->la_asked < V_nd6_umaxtries) {
887                         ln->la_asked++;
888                         send_ns = 1;
889                 } else {
890                         nd6_free(&ln, 0);
891                 }
892                 break;
893         default:
894                 panic("%s: paths in a dark night can be confusing: %d",
895                     __func__, ln->ln_state);
896         }
897 done:
898         if (ln != NULL)
899                 ND6_RUNLOCK();
900         if (send_ns != 0) {
901                 nd6_llinfo_settimer_locked(ln, (long)ndi->retrans * hz / 1000);
902                 psrc = nd6_llinfo_get_holdsrc(ln, &src);
903                 LLE_FREE_LOCKED(ln);
904                 ln = NULL;
905                 nd6_ns_output(ifp, psrc, pdst, dst, NULL);
906         }
907
908         if (ln != NULL)
909                 LLE_FREE_LOCKED(ln);
910         NET_EPOCH_EXIT(et);
911         CURVNET_RESTORE();
912 }
913
914 /*
915  * ND6 timer routine to expire default route list and prefix list
916  */
917 void
918 nd6_timer(void *arg)
919 {
920         CURVNET_SET((struct vnet *) arg);
921         struct epoch_tracker et;
922         struct nd_prhead prl;
923         struct nd_prefix *pr, *npr;
924         struct ifnet *ifp;
925         struct in6_ifaddr *ia6, *nia6;
926         uint64_t genid;
927
928         LIST_INIT(&prl);
929
930         NET_EPOCH_ENTER(et);
931         nd6_defrouter_timer();
932
933         /*
934          * expire interface addresses.
935          * in the past the loop was inside prefix expiry processing.
936          * However, from a stricter speci-confrmance standpoint, we should
937          * rather separate address lifetimes and prefix lifetimes.
938          *
939          * XXXRW: in6_ifaddrhead locking.
940          */
941   addrloop:
942         CK_STAILQ_FOREACH_SAFE(ia6, &V_in6_ifaddrhead, ia_link, nia6) {
943                 /* check address lifetime */
944                 if (IFA6_IS_INVALID(ia6)) {
945                         int regen = 0;
946
947                         /*
948                          * If the expiring address is temporary, try
949                          * regenerating a new one.  This would be useful when
950                          * we suspended a laptop PC, then turned it on after a
951                          * period that could invalidate all temporary
952                          * addresses.  Although we may have to restart the
953                          * loop (see below), it must be after purging the
954                          * address.  Otherwise, we'd see an infinite loop of
955                          * regeneration.
956                          */
957                         if (V_ip6_use_tempaddr &&
958                             (ia6->ia6_flags & IN6_IFF_TEMPORARY) != 0) {
959                                 if (regen_tmpaddr(ia6) == 0)
960                                         regen = 1;
961                         }
962
963                         in6_purgeaddr(&ia6->ia_ifa);
964
965                         if (regen)
966                                 goto addrloop; /* XXX: see below */
967                 } else if (IFA6_IS_DEPRECATED(ia6)) {
968                         int oldflags = ia6->ia6_flags;
969
970                         ia6->ia6_flags |= IN6_IFF_DEPRECATED;
971
972                         /*
973                          * If a temporary address has just become deprecated,
974                          * regenerate a new one if possible.
975                          */
976                         if (V_ip6_use_tempaddr &&
977                             (ia6->ia6_flags & IN6_IFF_TEMPORARY) != 0 &&
978                             (oldflags & IN6_IFF_DEPRECATED) == 0) {
979                                 if (regen_tmpaddr(ia6) == 0) {
980                                         /*
981                                          * A new temporary address is
982                                          * generated.
983                                          * XXX: this means the address chain
984                                          * has changed while we are still in
985                                          * the loop.  Although the change
986                                          * would not cause disaster (because
987                                          * it's not a deletion, but an
988                                          * addition,) we'd rather restart the
989                                          * loop just for safety.  Or does this
990                                          * significantly reduce performance??
991                                          */
992                                         goto addrloop;
993                                 }
994                         }
995                 } else if ((ia6->ia6_flags & IN6_IFF_TENTATIVE) != 0) {
996                         /*
997                          * Schedule DAD for a tentative address.  This happens
998                          * if the interface was down or not running
999                          * when the address was configured.
1000                          */
1001                         int delay;
1002
1003                         delay = arc4random() %
1004                             (MAX_RTR_SOLICITATION_DELAY * hz);
1005                         nd6_dad_start((struct ifaddr *)ia6, delay);
1006                 } else {
1007                         /*
1008                          * Check status of the interface.  If it is down,
1009                          * mark the address as tentative for future DAD.
1010                          */
1011                         ifp = ia6->ia_ifp;
1012                         if ((ND_IFINFO(ifp)->flags & ND6_IFF_NO_DAD) == 0 &&
1013                             ((ifp->if_flags & IFF_UP) == 0 ||
1014                             (ifp->if_drv_flags & IFF_DRV_RUNNING) == 0 ||
1015                             (ND_IFINFO(ifp)->flags & ND6_IFF_IFDISABLED) != 0)){
1016                                 ia6->ia6_flags &= ~IN6_IFF_DUPLICATED;
1017                                 ia6->ia6_flags |= IN6_IFF_TENTATIVE;
1018                         }
1019
1020                         /*
1021                          * A new RA might have made a deprecated address
1022                          * preferred.
1023                          */
1024                         ia6->ia6_flags &= ~IN6_IFF_DEPRECATED;
1025                 }
1026         }
1027         NET_EPOCH_EXIT(et);
1028
1029         ND6_WLOCK();
1030 restart:
1031         LIST_FOREACH_SAFE(pr, &V_nd_prefix, ndpr_entry, npr) {
1032                 /*
1033                  * Expire prefixes. Since the pltime is only used for
1034                  * autoconfigured addresses, pltime processing for prefixes is
1035                  * not necessary.
1036                  *
1037                  * Only unlink after all derived addresses have expired. This
1038                  * may not occur until two hours after the prefix has expired
1039                  * per RFC 4862. If the prefix expires before its derived
1040                  * addresses, mark it off-link. This will be done automatically
1041                  * after unlinking if no address references remain.
1042                  */
1043                 if (pr->ndpr_vltime == ND6_INFINITE_LIFETIME ||
1044                     time_uptime - pr->ndpr_lastupdate <= pr->ndpr_vltime)
1045                         continue;
1046
1047                 if (pr->ndpr_addrcnt == 0) {
1048                         nd6_prefix_unlink(pr, &prl);
1049                         continue;
1050                 }
1051                 if ((pr->ndpr_stateflags & NDPRF_ONLINK) != 0) {
1052                         genid = V_nd6_list_genid;
1053                         nd6_prefix_ref(pr);
1054                         ND6_WUNLOCK();
1055                         ND6_ONLINK_LOCK();
1056                         (void)nd6_prefix_offlink(pr);
1057                         ND6_ONLINK_UNLOCK();
1058                         ND6_WLOCK();
1059                         nd6_prefix_rele(pr);
1060                         if (genid != V_nd6_list_genid)
1061                                 goto restart;
1062                 }
1063         }
1064         ND6_WUNLOCK();
1065
1066         while ((pr = LIST_FIRST(&prl)) != NULL) {
1067                 LIST_REMOVE(pr, ndpr_entry);
1068                 nd6_prefix_del(pr);
1069         }
1070
1071         callout_reset(&V_nd6_timer_ch, V_nd6_prune * hz,
1072             nd6_timer, curvnet);
1073
1074         CURVNET_RESTORE();
1075 }
1076
1077 /*
1078  * ia6 - deprecated/invalidated temporary address
1079  */
1080 static int
1081 regen_tmpaddr(struct in6_ifaddr *ia6)
1082 {
1083         struct ifaddr *ifa;
1084         struct ifnet *ifp;
1085         struct in6_ifaddr *public_ifa6 = NULL;
1086
1087         NET_EPOCH_ASSERT();
1088
1089         ifp = ia6->ia_ifa.ifa_ifp;
1090         CK_STAILQ_FOREACH(ifa, &ifp->if_addrhead, ifa_link) {
1091                 struct in6_ifaddr *it6;
1092
1093                 if (ifa->ifa_addr->sa_family != AF_INET6)
1094                         continue;
1095
1096                 it6 = (struct in6_ifaddr *)ifa;
1097
1098                 /* ignore no autoconf addresses. */
1099                 if ((it6->ia6_flags & IN6_IFF_AUTOCONF) == 0)
1100                         continue;
1101
1102                 /* ignore autoconf addresses with different prefixes. */
1103                 if (it6->ia6_ndpr == NULL || it6->ia6_ndpr != ia6->ia6_ndpr)
1104                         continue;
1105
1106                 /*
1107                  * Now we are looking at an autoconf address with the same
1108                  * prefix as ours.  If the address is temporary and is still
1109                  * preferred, do not create another one.  It would be rare, but
1110                  * could happen, for example, when we resume a laptop PC after
1111                  * a long period.
1112                  */
1113                 if ((it6->ia6_flags & IN6_IFF_TEMPORARY) != 0 &&
1114                     !IFA6_IS_DEPRECATED(it6)) {
1115                         public_ifa6 = NULL;
1116                         break;
1117                 }
1118
1119                 /*
1120                  * This is a public autoconf address that has the same prefix
1121                  * as ours.  If it is preferred, keep it.  We can't break the
1122                  * loop here, because there may be a still-preferred temporary
1123                  * address with the prefix.
1124                  */
1125                 if (!IFA6_IS_DEPRECATED(it6))
1126                         public_ifa6 = it6;
1127         }
1128         if (public_ifa6 != NULL)
1129                 ifa_ref(&public_ifa6->ia_ifa);
1130
1131         if (public_ifa6 != NULL) {
1132                 int e;
1133
1134                 if ((e = in6_tmpifadd(public_ifa6, 0, 0)) != 0) {
1135                         ifa_free(&public_ifa6->ia_ifa);
1136                         log(LOG_NOTICE, "regen_tmpaddr: failed to create a new"
1137                             " tmp addr,errno=%d\n", e);
1138                         return (-1);
1139                 }
1140                 ifa_free(&public_ifa6->ia_ifa);
1141                 return (0);
1142         }
1143
1144         return (-1);
1145 }
1146
1147 /*
1148  * Remove prefix and default router list entries corresponding to ifp. Neighbor
1149  * cache entries are freed in in6_domifdetach().
1150  */
1151 void
1152 nd6_purge(struct ifnet *ifp)
1153 {
1154         struct nd_prhead prl;
1155         struct nd_prefix *pr, *npr;
1156
1157         LIST_INIT(&prl);
1158
1159         /* Purge default router list entries toward ifp. */
1160         nd6_defrouter_purge(ifp);
1161
1162         ND6_WLOCK();
1163         /*
1164          * Remove prefixes on ifp. We should have already removed addresses on
1165          * this interface, so no addresses should be referencing these prefixes.
1166          */
1167         LIST_FOREACH_SAFE(pr, &V_nd_prefix, ndpr_entry, npr) {
1168                 if (pr->ndpr_ifp == ifp)
1169                         nd6_prefix_unlink(pr, &prl);
1170         }
1171         ND6_WUNLOCK();
1172
1173         /* Delete the unlinked prefix objects. */
1174         while ((pr = LIST_FIRST(&prl)) != NULL) {
1175                 LIST_REMOVE(pr, ndpr_entry);
1176                 nd6_prefix_del(pr);
1177         }
1178
1179         /* cancel default outgoing interface setting */
1180         if (V_nd6_defifindex == ifp->if_index)
1181                 nd6_setdefaultiface(0);
1182
1183         if (ND_IFINFO(ifp)->flags & ND6_IFF_ACCEPT_RTADV) {
1184                 /* Refresh default router list. */
1185                 defrouter_select_fib(ifp->if_fib);
1186         }
1187 }
1188
1189 /* 
1190  * the caller acquires and releases the lock on the lltbls
1191  * Returns the llentry locked
1192  */
1193 struct llentry *
1194 nd6_lookup(const struct in6_addr *addr6, int flags, struct ifnet *ifp)
1195 {
1196         struct sockaddr_in6 sin6;
1197         struct llentry *ln;
1198
1199         bzero(&sin6, sizeof(sin6));
1200         sin6.sin6_len = sizeof(struct sockaddr_in6);
1201         sin6.sin6_family = AF_INET6;
1202         sin6.sin6_addr = *addr6;
1203
1204         IF_AFDATA_LOCK_ASSERT(ifp);
1205
1206         ln = lla_lookup(LLTABLE6(ifp), flags, (struct sockaddr *)&sin6);
1207
1208         return (ln);
1209 }
1210
1211 static struct llentry *
1212 nd6_alloc(const struct in6_addr *addr6, int flags, struct ifnet *ifp)
1213 {
1214         struct sockaddr_in6 sin6;
1215         struct llentry *ln;
1216
1217         bzero(&sin6, sizeof(sin6));
1218         sin6.sin6_len = sizeof(struct sockaddr_in6);
1219         sin6.sin6_family = AF_INET6;
1220         sin6.sin6_addr = *addr6;
1221
1222         ln = lltable_alloc_entry(LLTABLE6(ifp), 0, (struct sockaddr *)&sin6);
1223         if (ln != NULL)
1224                 ln->ln_state = ND6_LLINFO_NOSTATE;
1225
1226         return (ln);
1227 }
1228
1229 /*
1230  * Test whether a given IPv6 address can be a neighbor.
1231  */
1232 static bool
1233 nd6_is_new_addr_neighbor(const struct sockaddr_in6 *addr, struct ifnet *ifp)
1234 {
1235
1236         /*
1237          * A link-local address is always a neighbor.
1238          * XXX: a link does not necessarily specify a single interface.
1239          */
1240         if (IN6_IS_ADDR_LINKLOCAL(&addr->sin6_addr)) {
1241                 struct sockaddr_in6 sin6_copy;
1242                 u_int32_t zone;
1243
1244                 /*
1245                  * We need sin6_copy since sa6_recoverscope() may modify the
1246                  * content (XXX).
1247                  */
1248                 sin6_copy = *addr;
1249                 if (sa6_recoverscope(&sin6_copy))
1250                         return (0); /* XXX: should be impossible */
1251                 if (in6_setscope(&sin6_copy.sin6_addr, ifp, &zone))
1252                         return (0);
1253                 if (sin6_copy.sin6_scope_id == zone)
1254                         return (1);
1255                 else
1256                         return (0);
1257         }
1258         /* Checking global unicast */
1259
1260         /* If an address is directly reachable, it is a neigbor */
1261         struct nhop_object *nh;
1262         nh = fib6_lookup(ifp->if_fib, &addr->sin6_addr, 0, NHR_NONE, 0);
1263         if (nh != NULL && nh->nh_aifp == ifp && (nh->nh_flags & NHF_GATEWAY) == 0)
1264                 return (true);
1265
1266         /*
1267          * Check prefixes with desired on-link state, as some may be not
1268          * installed in the routing table.
1269          */
1270         bool matched = false;
1271         struct nd_prefix *pr;
1272         ND6_RLOCK();
1273         LIST_FOREACH(pr, &V_nd_prefix, ndpr_entry) {
1274                 if (pr->ndpr_ifp != ifp)
1275                         continue;
1276                 if ((pr->ndpr_stateflags & NDPRF_ONLINK) == 0)
1277                         continue;
1278                 if (IN6_ARE_MASKED_ADDR_EQUAL(&pr->ndpr_prefix.sin6_addr,
1279                     &addr->sin6_addr, &pr->ndpr_mask)) {
1280                         matched = true;
1281                         break;
1282                 }
1283         }
1284         ND6_RUNLOCK();
1285         if (matched)
1286                 return (true);
1287
1288         /*
1289          * If the address is assigned on the node of the other side of
1290          * a p2p interface, the address should be a neighbor.
1291          */
1292         if (ifp->if_flags & IFF_POINTOPOINT) {
1293                 struct ifaddr *ifa;
1294
1295                 CK_STAILQ_FOREACH(ifa, &ifp->if_addrhead, ifa_link) {
1296                         if (ifa->ifa_addr->sa_family != addr->sin6_family)
1297                                 continue;
1298                         if (ifa->ifa_dstaddr != NULL &&
1299                             sa_equal(addr, ifa->ifa_dstaddr)) {
1300                                 return (true);
1301                         }
1302                 }
1303         }
1304
1305         /*
1306          * If the default router list is empty, all addresses are regarded
1307          * as on-link, and thus, as a neighbor.
1308          */
1309         if (ND_IFINFO(ifp)->flags & ND6_IFF_ACCEPT_RTADV &&
1310             nd6_defrouter_list_empty() &&
1311             V_nd6_defifindex == ifp->if_index) {
1312                 return (1);
1313         }
1314
1315         return (0);
1316 }
1317
1318 /*
1319  * Detect if a given IPv6 address identifies a neighbor on a given link.
1320  * XXX: should take care of the destination of a p2p link?
1321  */
1322 int
1323 nd6_is_addr_neighbor(const struct sockaddr_in6 *addr, struct ifnet *ifp)
1324 {
1325         struct llentry *lle;
1326         int rc = 0;
1327
1328         NET_EPOCH_ASSERT();
1329         IF_AFDATA_UNLOCK_ASSERT(ifp);
1330         if (nd6_is_new_addr_neighbor(addr, ifp))
1331                 return (1);
1332
1333         /*
1334          * Even if the address matches none of our addresses, it might be
1335          * in the neighbor cache.
1336          */
1337         if ((lle = nd6_lookup(&addr->sin6_addr, LLE_SF(AF_INET6, 0), ifp)) != NULL) {
1338                 LLE_RUNLOCK(lle);
1339                 rc = 1;
1340         }
1341         return (rc);
1342 }
1343
1344 static __noinline void
1345 nd6_free_children(struct llentry *lle)
1346 {
1347         struct llentry *child_lle;
1348
1349         NET_EPOCH_ASSERT();
1350         LLE_WLOCK_ASSERT(lle);
1351
1352         while ((child_lle = CK_SLIST_FIRST(&lle->lle_children)) != NULL) {
1353                 LLE_WLOCK(child_lle);
1354                 lltable_unlink_child_entry(child_lle);
1355                 llentry_free(child_lle);
1356         }
1357 }
1358
1359 /*
1360  * Tries to update @lle address/prepend data with new @lladdr.
1361  *
1362  * Returns true on success.
1363  * In any case, @lle is returned wlocked.
1364  */
1365 static __noinline bool
1366 nd6_try_set_entry_addr_locked(struct ifnet *ifp, struct llentry *lle, char *lladdr)
1367 {
1368         u_char buf[LLE_MAX_LINKHDR];
1369         int fam, off;
1370         size_t sz;
1371
1372         sz = sizeof(buf);
1373         if (lltable_calc_llheader(ifp, AF_INET6, lladdr, buf, &sz, &off) != 0)
1374                 return (false);
1375
1376         /* Update data */
1377         lltable_set_entry_addr(ifp, lle, buf, sz, off);
1378
1379         struct llentry *child_lle;
1380         CK_SLIST_FOREACH(child_lle, &lle->lle_children, lle_child_next) {
1381                 LLE_WLOCK(child_lle);
1382                 fam = child_lle->r_family;
1383                 sz = sizeof(buf);
1384                 if (lltable_calc_llheader(ifp, fam, lladdr, buf, &sz, &off) == 0) {
1385                         /* success */
1386                         lltable_set_entry_addr(ifp, child_lle, buf, sz, off);
1387                         child_lle->ln_state = ND6_LLINFO_REACHABLE;
1388                 }
1389                 LLE_WUNLOCK(child_lle);
1390         }
1391
1392         return (true);
1393 }
1394
1395 bool
1396 nd6_try_set_entry_addr(struct ifnet *ifp, struct llentry *lle, char *lladdr)
1397 {
1398         NET_EPOCH_ASSERT();
1399         LLE_WLOCK_ASSERT(lle);
1400
1401         if (!lltable_acquire_wlock(ifp, lle))
1402                 return (false);
1403         bool ret = nd6_try_set_entry_addr_locked(ifp, lle, lladdr);
1404         IF_AFDATA_WUNLOCK(ifp);
1405
1406         return (ret);
1407 }
1408
1409 /*
1410  * Free an nd6 llinfo entry.
1411  * Since the function would cause significant changes in the kernel, DO NOT
1412  * make it global, unless you have a strong reason for the change, and are sure
1413  * that the change is safe.
1414  *
1415  * Set noinline to be dtrace-friendly
1416  */
1417 static __noinline void
1418 nd6_free(struct llentry **lnp, int gc)
1419 {
1420         struct ifnet *ifp;
1421         struct llentry *ln;
1422         struct nd_defrouter *dr;
1423
1424         ln = *lnp;
1425         *lnp = NULL;
1426
1427         LLE_WLOCK_ASSERT(ln);
1428         ND6_RLOCK_ASSERT();
1429
1430         KASSERT((ln->la_flags & LLE_CHILD) == 0, ("child lle"));
1431
1432         ifp = lltable_get_ifp(ln->lle_tbl);
1433         if ((ND_IFINFO(ifp)->flags & ND6_IFF_ACCEPT_RTADV) != 0)
1434                 dr = defrouter_lookup_locked(&ln->r_l3addr.addr6, ifp);
1435         else
1436                 dr = NULL;
1437         ND6_RUNLOCK();
1438
1439         if ((ln->la_flags & LLE_DELETED) == 0)
1440                 EVENTHANDLER_INVOKE(lle_event, ln, LLENTRY_EXPIRED);
1441
1442         /*
1443          * we used to have pfctlinput(PRC_HOSTDEAD) here.
1444          * even though it is not harmful, it was not really necessary.
1445          */
1446
1447         /* cancel timer */
1448         nd6_llinfo_settimer_locked(ln, -1);
1449
1450         if (ND_IFINFO(ifp)->flags & ND6_IFF_ACCEPT_RTADV) {
1451                 if (dr != NULL && dr->expire &&
1452                     ln->ln_state == ND6_LLINFO_STALE && gc) {
1453                         /*
1454                          * If the reason for the deletion is just garbage
1455                          * collection, and the neighbor is an active default
1456                          * router, do not delete it.  Instead, reset the GC
1457                          * timer using the router's lifetime.
1458                          * Simply deleting the entry would affect default
1459                          * router selection, which is not necessarily a good
1460                          * thing, especially when we're using router preference
1461                          * values.
1462                          * XXX: the check for ln_state would be redundant,
1463                          *      but we intentionally keep it just in case.
1464                          */
1465                         if (dr->expire > time_uptime)
1466                                 nd6_llinfo_settimer_locked(ln,
1467                                     (dr->expire - time_uptime) * hz);
1468                         else
1469                                 nd6_llinfo_settimer_locked(ln,
1470                                     (long)V_nd6_gctimer * hz);
1471
1472                         LLE_REMREF(ln);
1473                         LLE_WUNLOCK(ln);
1474                         defrouter_rele(dr);
1475                         return;
1476                 }
1477
1478                 if (dr) {
1479                         /*
1480                          * Unreachability of a router might affect the default
1481                          * router selection and on-link detection of advertised
1482                          * prefixes.
1483                          */
1484
1485                         /*
1486                          * Temporarily fake the state to choose a new default
1487                          * router and to perform on-link determination of
1488                          * prefixes correctly.
1489                          * Below the state will be set correctly,
1490                          * or the entry itself will be deleted.
1491                          */
1492                         ln->ln_state = ND6_LLINFO_INCOMPLETE;
1493                 }
1494
1495                 if (ln->ln_router || dr) {
1496                         /*
1497                          * We need to unlock to avoid a LOR with rt6_flush() with the
1498                          * rnh and for the calls to pfxlist_onlink_check() and
1499                          * defrouter_select_fib() in the block further down for calls
1500                          * into nd6_lookup().  We still hold a ref.
1501                          */
1502                         LLE_WUNLOCK(ln);
1503
1504                         /*
1505                          * rt6_flush must be called whether or not the neighbor
1506                          * is in the Default Router List.
1507                          * See a corresponding comment in nd6_na_input().
1508                          */
1509                         rt6_flush(&ln->r_l3addr.addr6, ifp);
1510                 }
1511
1512                 if (dr) {
1513                         /*
1514                          * Since defrouter_select_fib() does not affect the
1515                          * on-link determination and MIP6 needs the check
1516                          * before the default router selection, we perform
1517                          * the check now.
1518                          */
1519                         pfxlist_onlink_check();
1520
1521                         /*
1522                          * Refresh default router list.
1523                          */
1524                         defrouter_select_fib(dr->ifp->if_fib);
1525                 }
1526
1527                 /*
1528                  * If this entry was added by an on-link redirect, remove the
1529                  * corresponding host route.
1530                  */
1531                 if (ln->la_flags & LLE_REDIRECT)
1532                         nd6_free_redirect(ln);
1533
1534                 if (ln->ln_router || dr)
1535                         LLE_WLOCK(ln);
1536         }
1537
1538         /*
1539          * Save to unlock. We still hold an extra reference and will not
1540          * free(9) in llentry_free() if someone else holds one as well.
1541          */
1542         LLE_WUNLOCK(ln);
1543         IF_AFDATA_LOCK(ifp);
1544         LLE_WLOCK(ln);
1545         /* Guard against race with other llentry_free(). */
1546         if (ln->la_flags & LLE_LINKED) {
1547                 /* Remove callout reference */
1548                 LLE_REMREF(ln);
1549                 lltable_unlink_entry(ln->lle_tbl, ln);
1550         }
1551         IF_AFDATA_UNLOCK(ifp);
1552
1553         nd6_free_children(ln);
1554
1555         llentry_free(ln);
1556         if (dr != NULL)
1557                 defrouter_rele(dr);
1558 }
1559
1560 static int
1561 nd6_isdynrte(const struct rtentry *rt, const struct nhop_object *nh, void *xap)
1562 {
1563
1564         if (nh->nh_flags & NHF_REDIRECT)
1565                 return (1);
1566
1567         return (0);
1568 }
1569
1570 /*
1571  * Remove the rtentry for the given llentry,
1572  * both of which were installed by a redirect.
1573  */
1574 static void
1575 nd6_free_redirect(const struct llentry *ln)
1576 {
1577         int fibnum;
1578         struct sockaddr_in6 sin6;
1579         struct rib_cmd_info rc;
1580         struct epoch_tracker et;
1581
1582         lltable_fill_sa_entry(ln, (struct sockaddr *)&sin6);
1583
1584         NET_EPOCH_ENTER(et);
1585         for (fibnum = 0; fibnum < rt_numfibs; fibnum++)
1586                 rib_del_route_px(fibnum, (struct sockaddr *)&sin6, 128,
1587                     nd6_isdynrte, NULL, 0, &rc);
1588         NET_EPOCH_EXIT(et);
1589 }
1590
1591 /*
1592  * Updates status of the default router route.
1593  */
1594 static void
1595 check_release_defrouter(const struct rib_cmd_info *rc, void *_cbdata)
1596 {
1597         struct nd_defrouter *dr;
1598         struct nhop_object *nh;
1599
1600         nh = rc->rc_nh_old;
1601
1602         if ((nh != NULL) && (nh->nh_flags & NHF_DEFAULT)) {
1603                 dr = defrouter_lookup(&nh->gw6_sa.sin6_addr, nh->nh_ifp);
1604                 if (dr != NULL) {
1605                         dr->installed = 0;
1606                         defrouter_rele(dr);
1607                 }
1608         }
1609 }
1610
1611 void
1612 nd6_subscription_cb(struct rib_head *rnh, struct rib_cmd_info *rc, void *arg)
1613 {
1614
1615 #ifdef ROUTE_MPATH
1616         rib_decompose_notification(rc, check_release_defrouter, NULL);
1617 #else
1618         check_release_defrouter(rc, NULL);
1619 #endif
1620 }
1621
1622 int
1623 nd6_ioctl(u_long cmd, caddr_t data, struct ifnet *ifp)
1624 {
1625         struct in6_ndireq *ndi = (struct in6_ndireq *)data;
1626         struct in6_nbrinfo *nbi = (struct in6_nbrinfo *)data;
1627         struct in6_ndifreq *ndif = (struct in6_ndifreq *)data;
1628         struct epoch_tracker et;
1629         int error = 0;
1630
1631         if (ifp->if_afdata[AF_INET6] == NULL)
1632                 return (EPFNOSUPPORT);
1633         switch (cmd) {
1634         case OSIOCGIFINFO_IN6:
1635 #define ND      ndi->ndi
1636                 /* XXX: old ndp(8) assumes a positive value for linkmtu. */
1637                 bzero(&ND, sizeof(ND));
1638                 ND.linkmtu = IN6_LINKMTU(ifp);
1639                 ND.maxmtu = ND_IFINFO(ifp)->maxmtu;
1640                 ND.basereachable = ND_IFINFO(ifp)->basereachable;
1641                 ND.reachable = ND_IFINFO(ifp)->reachable;
1642                 ND.retrans = ND_IFINFO(ifp)->retrans;
1643                 ND.flags = ND_IFINFO(ifp)->flags;
1644                 ND.recalctm = ND_IFINFO(ifp)->recalctm;
1645                 ND.chlim = ND_IFINFO(ifp)->chlim;
1646                 break;
1647         case SIOCGIFINFO_IN6:
1648                 ND = *ND_IFINFO(ifp);
1649                 break;
1650         case SIOCSIFINFO_IN6:
1651                 /*
1652                  * used to change host variables from userland.
1653                  * intended for a use on router to reflect RA configurations.
1654                  */
1655                 /* 0 means 'unspecified' */
1656                 if (ND.linkmtu != 0) {
1657                         if (ND.linkmtu < IPV6_MMTU ||
1658                             ND.linkmtu > IN6_LINKMTU(ifp)) {
1659                                 error = EINVAL;
1660                                 break;
1661                         }
1662                         ND_IFINFO(ifp)->linkmtu = ND.linkmtu;
1663                 }
1664
1665                 if (ND.basereachable != 0) {
1666                         int obasereachable = ND_IFINFO(ifp)->basereachable;
1667
1668                         ND_IFINFO(ifp)->basereachable = ND.basereachable;
1669                         if (ND.basereachable != obasereachable)
1670                                 ND_IFINFO(ifp)->reachable =
1671                                     ND_COMPUTE_RTIME(ND.basereachable);
1672                 }
1673                 if (ND.retrans != 0)
1674                         ND_IFINFO(ifp)->retrans = ND.retrans;
1675                 if (ND.chlim != 0)
1676                         ND_IFINFO(ifp)->chlim = ND.chlim;
1677                 /* FALLTHROUGH */
1678         case SIOCSIFINFO_FLAGS:
1679         {
1680                 struct ifaddr *ifa;
1681                 struct in6_ifaddr *ia;
1682
1683                 if ((ND_IFINFO(ifp)->flags & ND6_IFF_IFDISABLED) &&
1684                     !(ND.flags & ND6_IFF_IFDISABLED)) {
1685                         /* ifdisabled 1->0 transision */
1686
1687                         /*
1688                          * If the interface is marked as ND6_IFF_IFDISABLED and
1689                          * has an link-local address with IN6_IFF_DUPLICATED,
1690                          * do not clear ND6_IFF_IFDISABLED.
1691                          * See RFC 4862, Section 5.4.5.
1692                          */
1693                         NET_EPOCH_ENTER(et);
1694                         CK_STAILQ_FOREACH(ifa, &ifp->if_addrhead, ifa_link) {
1695                                 if (ifa->ifa_addr->sa_family != AF_INET6)
1696                                         continue;
1697                                 ia = (struct in6_ifaddr *)ifa;
1698                                 if ((ia->ia6_flags & IN6_IFF_DUPLICATED) &&
1699                                     IN6_IS_ADDR_LINKLOCAL(IA6_IN6(ia)))
1700                                         break;
1701                         }
1702                         NET_EPOCH_EXIT(et);
1703
1704                         if (ifa != NULL) {
1705                                 /* LLA is duplicated. */
1706                                 ND.flags |= ND6_IFF_IFDISABLED;
1707                                 log(LOG_ERR, "Cannot enable an interface"
1708                                     " with a link-local address marked"
1709                                     " duplicate.\n");
1710                         } else {
1711                                 ND_IFINFO(ifp)->flags &= ~ND6_IFF_IFDISABLED;
1712                                 if (ifp->if_flags & IFF_UP)
1713                                         in6_if_up(ifp);
1714                         }
1715                 } else if (!(ND_IFINFO(ifp)->flags & ND6_IFF_IFDISABLED) &&
1716                             (ND.flags & ND6_IFF_IFDISABLED)) {
1717                         /* ifdisabled 0->1 transision */
1718                         /* Mark all IPv6 address as tentative. */
1719
1720                         ND_IFINFO(ifp)->flags |= ND6_IFF_IFDISABLED;
1721                         if (V_ip6_dad_count > 0 &&
1722                             (ND_IFINFO(ifp)->flags & ND6_IFF_NO_DAD) == 0) {
1723                                 NET_EPOCH_ENTER(et);
1724                                 CK_STAILQ_FOREACH(ifa, &ifp->if_addrhead,
1725                                     ifa_link) {
1726                                         if (ifa->ifa_addr->sa_family !=
1727                                             AF_INET6)
1728                                                 continue;
1729                                         ia = (struct in6_ifaddr *)ifa;
1730                                         ia->ia6_flags |= IN6_IFF_TENTATIVE;
1731                                 }
1732                                 NET_EPOCH_EXIT(et);
1733                         }
1734                 }
1735
1736                 if (ND.flags & ND6_IFF_AUTO_LINKLOCAL) {
1737                         if (!(ND_IFINFO(ifp)->flags & ND6_IFF_AUTO_LINKLOCAL)) {
1738                                 /* auto_linklocal 0->1 transision */
1739
1740                                 /* If no link-local address on ifp, configure */
1741                                 ND_IFINFO(ifp)->flags |= ND6_IFF_AUTO_LINKLOCAL;
1742                                 in6_ifattach(ifp, NULL);
1743                         } else if (!(ND.flags & ND6_IFF_IFDISABLED) &&
1744                             ifp->if_flags & IFF_UP) {
1745                                 /*
1746                                  * When the IF already has
1747                                  * ND6_IFF_AUTO_LINKLOCAL, no link-local
1748                                  * address is assigned, and IFF_UP, try to
1749                                  * assign one.
1750                                  */
1751                                 NET_EPOCH_ENTER(et);
1752                                 CK_STAILQ_FOREACH(ifa, &ifp->if_addrhead,
1753                                     ifa_link) {
1754                                         if (ifa->ifa_addr->sa_family !=
1755                                             AF_INET6)
1756                                                 continue;
1757                                         ia = (struct in6_ifaddr *)ifa;
1758                                         if (IN6_IS_ADDR_LINKLOCAL(IA6_IN6(ia)))
1759                                                 break;
1760                                 }
1761                                 NET_EPOCH_EXIT(et);
1762                                 if (ifa != NULL)
1763                                         /* No LLA is configured. */
1764                                         in6_ifattach(ifp, NULL);
1765                         }
1766                 }
1767                 ND_IFINFO(ifp)->flags = ND.flags;
1768                 break;
1769         }
1770 #undef ND
1771         case SIOCSNDFLUSH_IN6:  /* XXX: the ioctl name is confusing... */
1772                 /* sync kernel routing table with the default router list */
1773                 defrouter_reset();
1774                 defrouter_select_fib(RT_ALL_FIBS);
1775                 break;
1776         case SIOCSPFXFLUSH_IN6:
1777         {
1778                 /* flush all the prefix advertised by routers */
1779                 struct in6_ifaddr *ia, *ia_next;
1780                 struct nd_prefix *pr, *next;
1781                 struct nd_prhead prl;
1782
1783                 LIST_INIT(&prl);
1784
1785                 ND6_WLOCK();
1786                 LIST_FOREACH_SAFE(pr, &V_nd_prefix, ndpr_entry, next) {
1787                         if (pr->ndpr_raf_ra_derived)
1788                                 nd6_prefix_unlink(pr, &prl);
1789                 }
1790                 ND6_WUNLOCK();
1791
1792                 while ((pr = LIST_FIRST(&prl)) != NULL) {
1793                         LIST_REMOVE(pr, ndpr_entry);
1794                         /* XXXRW: in6_ifaddrhead locking. */
1795                         CK_STAILQ_FOREACH_SAFE(ia, &V_in6_ifaddrhead, ia_link,
1796                             ia_next) {
1797                                 if ((ia->ia6_flags & IN6_IFF_AUTOCONF) == 0)
1798                                         continue;
1799
1800                                 if (ia->ia6_ndpr == pr)
1801                                         in6_purgeaddr(&ia->ia_ifa);
1802                         }
1803                         nd6_prefix_del(pr);
1804                 }
1805                 break;
1806         }
1807         case SIOCSRTRFLUSH_IN6:
1808         {
1809                 /* flush all the default routers */
1810
1811                 defrouter_reset();
1812                 nd6_defrouter_flush_all();
1813                 defrouter_select_fib(RT_ALL_FIBS);
1814                 break;
1815         }
1816         case SIOCGNBRINFO_IN6:
1817         {
1818                 struct llentry *ln;
1819                 struct in6_addr nb_addr = nbi->addr; /* make local for safety */
1820
1821                 if ((error = in6_setscope(&nb_addr, ifp, NULL)) != 0)
1822                         return (error);
1823
1824                 NET_EPOCH_ENTER(et);
1825                 ln = nd6_lookup(&nb_addr, LLE_SF(AF_INET6, 0), ifp);
1826                 NET_EPOCH_EXIT(et);
1827
1828                 if (ln == NULL) {
1829                         error = EINVAL;
1830                         break;
1831                 }
1832                 nbi->state = ln->ln_state;
1833                 nbi->asked = ln->la_asked;
1834                 nbi->isrouter = ln->ln_router;
1835                 if (ln->la_expire == 0)
1836                         nbi->expire = 0;
1837                 else
1838                         nbi->expire = ln->la_expire + ln->lle_remtime / hz +
1839                             (time_second - time_uptime);
1840                 LLE_RUNLOCK(ln);
1841                 break;
1842         }
1843         case SIOCGDEFIFACE_IN6: /* XXX: should be implemented as a sysctl? */
1844                 ndif->ifindex = V_nd6_defifindex;
1845                 break;
1846         case SIOCSDEFIFACE_IN6: /* XXX: should be implemented as a sysctl? */
1847                 return (nd6_setdefaultiface(ndif->ifindex));
1848         }
1849         return (error);
1850 }
1851
1852 /*
1853  * Calculates new isRouter value based on provided parameters and
1854  * returns it.
1855  */
1856 static int
1857 nd6_is_router(int type, int code, int is_new, int old_addr, int new_addr,
1858     int ln_router)
1859 {
1860
1861         /*
1862          * ICMP6 type dependent behavior.
1863          *
1864          * NS: clear IsRouter if new entry
1865          * RS: clear IsRouter
1866          * RA: set IsRouter if there's lladdr
1867          * redir: clear IsRouter if new entry
1868          *
1869          * RA case, (1):
1870          * The spec says that we must set IsRouter in the following cases:
1871          * - If lladdr exist, set IsRouter.  This means (1-5).
1872          * - If it is old entry (!newentry), set IsRouter.  This means (7).
1873          * So, based on the spec, in (1-5) and (7) cases we must set IsRouter.
1874          * A quetion arises for (1) case.  (1) case has no lladdr in the
1875          * neighbor cache, this is similar to (6).
1876          * This case is rare but we figured that we MUST NOT set IsRouter.
1877          *
1878          *   is_new  old_addr new_addr      NS  RS  RA  redir
1879          *                                                      D R
1880          *      0       n       n       (1)     c   ?     s
1881          *      0       y       n       (2)     c   s     s
1882          *      0       n       y       (3)     c   s     s
1883          *      0       y       y       (4)     c   s     s
1884          *      0       y       y       (5)     c   s     s
1885          *      1       --      n       (6) c   c       c s
1886          *      1       --      y       (7) c   c   s   c s
1887          *
1888          *                                      (c=clear s=set)
1889          */
1890         switch (type & 0xff) {
1891         case ND_NEIGHBOR_SOLICIT:
1892                 /*
1893                  * New entry must have is_router flag cleared.
1894                  */
1895                 if (is_new)                                     /* (6-7) */
1896                         ln_router = 0;
1897                 break;
1898         case ND_REDIRECT:
1899                 /*
1900                  * If the icmp is a redirect to a better router, always set the
1901                  * is_router flag.  Otherwise, if the entry is newly created,
1902                  * clear the flag.  [RFC 2461, sec 8.3]
1903                  */
1904                 if (code == ND_REDIRECT_ROUTER)
1905                         ln_router = 1;
1906                 else {
1907                         if (is_new)                             /* (6-7) */
1908                                 ln_router = 0;
1909                 }
1910                 break;
1911         case ND_ROUTER_SOLICIT:
1912                 /*
1913                  * is_router flag must always be cleared.
1914                  */
1915                 ln_router = 0;
1916                 break;
1917         case ND_ROUTER_ADVERT:
1918                 /*
1919                  * Mark an entry with lladdr as a router.
1920                  */
1921                 if ((!is_new && (old_addr || new_addr)) ||      /* (2-5) */
1922                     (is_new && new_addr)) {                     /* (7) */
1923                         ln_router = 1;
1924                 }
1925                 break;
1926         }
1927
1928         return (ln_router);
1929 }
1930
1931 /*
1932  * Create neighbor cache entry and cache link-layer address,
1933  * on reception of inbound ND6 packets.  (RS/RA/NS/redirect)
1934  *
1935  * type - ICMP6 type
1936  * code - type dependent information
1937  *
1938  */
1939 void
1940 nd6_cache_lladdr(struct ifnet *ifp, struct in6_addr *from, char *lladdr,
1941     int lladdrlen, int type, int code)
1942 {
1943         struct llentry *ln = NULL, *ln_tmp;
1944         int is_newentry;
1945         int do_update;
1946         int olladdr;
1947         int llchange;
1948         int flags;
1949         uint16_t router = 0;
1950         struct mbuf *chain = NULL;
1951         u_char linkhdr[LLE_MAX_LINKHDR];
1952         size_t linkhdrsize;
1953         int lladdr_off;
1954
1955         NET_EPOCH_ASSERT();
1956         IF_AFDATA_UNLOCK_ASSERT(ifp);
1957
1958         KASSERT(ifp != NULL, ("%s: ifp == NULL", __func__));
1959         KASSERT(from != NULL, ("%s: from == NULL", __func__));
1960
1961         /* nothing must be updated for unspecified address */
1962         if (IN6_IS_ADDR_UNSPECIFIED(from))
1963                 return;
1964
1965         /*
1966          * Validation about ifp->if_addrlen and lladdrlen must be done in
1967          * the caller.
1968          *
1969          * XXX If the link does not have link-layer adderss, what should
1970          * we do? (ifp->if_addrlen == 0)
1971          * Spec says nothing in sections for RA, RS and NA.  There's small
1972          * description on it in NS section (RFC 2461 7.2.3).
1973          */
1974         flags = lladdr ? LLE_EXCLUSIVE : 0;
1975         ln = nd6_lookup(from, LLE_SF(AF_INET6, flags), ifp);
1976         is_newentry = 0;
1977         if (ln == NULL) {
1978                 flags |= LLE_EXCLUSIVE;
1979                 ln = nd6_alloc(from, 0, ifp);
1980                 if (ln == NULL)
1981                         return;
1982
1983                 /*
1984                  * Since we already know all the data for the new entry,
1985                  * fill it before insertion.
1986                  */
1987                 if (lladdr != NULL) {
1988                         linkhdrsize = sizeof(linkhdr);
1989                         if (lltable_calc_llheader(ifp, AF_INET6, lladdr,
1990                             linkhdr, &linkhdrsize, &lladdr_off) != 0) {
1991                                 lltable_free_entry(LLTABLE6(ifp), ln);
1992                                 return;
1993                         }
1994                         lltable_set_entry_addr(ifp, ln, linkhdr, linkhdrsize,
1995                             lladdr_off);
1996                 }
1997
1998                 IF_AFDATA_WLOCK(ifp);
1999                 LLE_WLOCK(ln);
2000                 /* Prefer any existing lle over newly-created one */
2001                 ln_tmp = nd6_lookup(from, LLE_SF(AF_INET6, LLE_EXCLUSIVE), ifp);
2002                 if (ln_tmp == NULL)
2003                         lltable_link_entry(LLTABLE6(ifp), ln);
2004                 IF_AFDATA_WUNLOCK(ifp);
2005                 if (ln_tmp == NULL) {
2006                         /* No existing lle, mark as new entry (6,7) */
2007                         is_newentry = 1;
2008                         if (lladdr != NULL) {   /* (7) */
2009                                 nd6_llinfo_setstate(ln, ND6_LLINFO_STALE);
2010                                 EVENTHANDLER_INVOKE(lle_event, ln,
2011                                     LLENTRY_RESOLVED);
2012                         }
2013                 } else {
2014                         lltable_free_entry(LLTABLE6(ifp), ln);
2015                         ln = ln_tmp;
2016                         ln_tmp = NULL;
2017                 }
2018         } 
2019         /* do nothing if static ndp is set */
2020         if ((ln->la_flags & LLE_STATIC)) {
2021                 if (flags & LLE_EXCLUSIVE)
2022                         LLE_WUNLOCK(ln);
2023                 else
2024                         LLE_RUNLOCK(ln);
2025                 return;
2026         }
2027
2028         olladdr = (ln->la_flags & LLE_VALID) ? 1 : 0;
2029         if (olladdr && lladdr) {
2030                 llchange = bcmp(lladdr, ln->ll_addr,
2031                     ifp->if_addrlen);
2032         } else if (!olladdr && lladdr)
2033                 llchange = 1;
2034         else
2035                 llchange = 0;
2036
2037         /*
2038          * newentry olladdr  lladdr  llchange   (*=record)
2039          *      0       n       n       --      (1)
2040          *      0       y       n       --      (2)
2041          *      0       n       y       y       (3) * STALE
2042          *      0       y       y       n       (4) *
2043          *      0       y       y       y       (5) * STALE
2044          *      1       --      n       --      (6)   NOSTATE(= PASSIVE)
2045          *      1       --      y       --      (7) * STALE
2046          */
2047
2048         do_update = 0;
2049         if (is_newentry == 0 && llchange != 0) {
2050                 do_update = 1;  /* (3,5) */
2051
2052                 /*
2053                  * Record source link-layer address
2054                  * XXX is it dependent to ifp->if_type?
2055                  */
2056                 if (!nd6_try_set_entry_addr(ifp, ln, lladdr)) {
2057                         /* Entry was deleted */
2058                         LLE_WUNLOCK(ln);
2059                         return;
2060                 }
2061
2062                 nd6_llinfo_setstate(ln, ND6_LLINFO_STALE);
2063
2064                 EVENTHANDLER_INVOKE(lle_event, ln, LLENTRY_RESOLVED);
2065
2066                 if (ln->la_hold != NULL)
2067                         chain = nd6_grab_holdchain(ln);
2068         }
2069
2070         /* Calculates new router status */
2071         router = nd6_is_router(type, code, is_newentry, olladdr,
2072             lladdr != NULL ? 1 : 0, ln->ln_router);
2073
2074         ln->ln_router = router;
2075         /* Mark non-router redirects with special flag */
2076         if ((type & 0xFF) == ND_REDIRECT && code != ND_REDIRECT_ROUTER)
2077                 ln->la_flags |= LLE_REDIRECT;
2078
2079         if (flags & LLE_EXCLUSIVE)
2080                 LLE_WUNLOCK(ln);
2081         else
2082                 LLE_RUNLOCK(ln);
2083
2084         if (chain != NULL)
2085                 nd6_flush_holdchain(ifp, ln, chain);
2086         if (do_update)
2087                 nd6_flush_children_holdchain(ifp, ln);
2088
2089         /*
2090          * When the link-layer address of a router changes, select the
2091          * best router again.  In particular, when the neighbor entry is newly
2092          * created, it might affect the selection policy.
2093          * Question: can we restrict the first condition to the "is_newentry"
2094          * case?
2095          * XXX: when we hear an RA from a new router with the link-layer
2096          * address option, defrouter_select_fib() is called twice, since
2097          * defrtrlist_update called the function as well.  However, I believe
2098          * we can compromise the overhead, since it only happens the first
2099          * time.
2100          * XXX: although defrouter_select_fib() should not have a bad effect
2101          * for those are not autoconfigured hosts, we explicitly avoid such
2102          * cases for safety.
2103          */
2104         if ((do_update || is_newentry) && router &&
2105             ND_IFINFO(ifp)->flags & ND6_IFF_ACCEPT_RTADV) {
2106                 /*
2107                  * guaranteed recursion
2108                  */
2109                 defrouter_select_fib(ifp->if_fib);
2110         }
2111 }
2112
2113 static void
2114 nd6_slowtimo(void *arg)
2115 {
2116         struct epoch_tracker et;
2117         CURVNET_SET((struct vnet *) arg);
2118         struct nd_ifinfo *nd6if;
2119         struct ifnet *ifp;
2120
2121         callout_reset(&V_nd6_slowtimo_ch, ND6_SLOWTIMER_INTERVAL * hz,
2122             nd6_slowtimo, curvnet);
2123         NET_EPOCH_ENTER(et);
2124         CK_STAILQ_FOREACH(ifp, &V_ifnet, if_link) {
2125                 if (ifp->if_afdata[AF_INET6] == NULL)
2126                         continue;
2127                 nd6if = ND_IFINFO(ifp);
2128                 if (nd6if->basereachable && /* already initialized */
2129                     (nd6if->recalctm -= ND6_SLOWTIMER_INTERVAL) <= 0) {
2130                         /*
2131                          * Since reachable time rarely changes by router
2132                          * advertisements, we SHOULD insure that a new random
2133                          * value gets recomputed at least once every few hours.
2134                          * (RFC 2461, 6.3.4)
2135                          */
2136                         nd6if->recalctm = V_nd6_recalc_reachtm_interval;
2137                         nd6if->reachable = ND_COMPUTE_RTIME(nd6if->basereachable);
2138                 }
2139         }
2140         NET_EPOCH_EXIT(et);
2141         CURVNET_RESTORE();
2142 }
2143
2144 struct mbuf *
2145 nd6_grab_holdchain(struct llentry *ln)
2146 {
2147         struct mbuf *chain;
2148
2149         LLE_WLOCK_ASSERT(ln);
2150
2151         chain = ln->la_hold;
2152         ln->la_hold = NULL;
2153         ln->la_numheld = 0;
2154
2155         if (ln->ln_state == ND6_LLINFO_STALE) {
2156                 /*
2157                  * The first time we send a packet to a
2158                  * neighbor whose entry is STALE, we have
2159                  * to change the state to DELAY and a sets
2160                  * a timer to expire in DELAY_FIRST_PROBE_TIME
2161                  * seconds to ensure do neighbor unreachability
2162                  * detection on expiration.
2163                  * (RFC 2461 7.3.3)
2164                  */
2165                 nd6_llinfo_setstate(ln, ND6_LLINFO_DELAY);
2166         }
2167
2168         return (chain);
2169 }
2170
2171 int
2172 nd6_output_ifp(struct ifnet *ifp, struct ifnet *origifp, struct mbuf *m,
2173     struct sockaddr_in6 *dst, struct route *ro)
2174 {
2175         int error;
2176         int ip6len;
2177         struct ip6_hdr *ip6;
2178         struct m_tag *mtag;
2179
2180 #ifdef MAC
2181         mac_netinet6_nd6_send(ifp, m);
2182 #endif
2183
2184         /*
2185          * If called from nd6_ns_output() (NS), nd6_na_output() (NA),
2186          * icmp6_redirect_output() (REDIRECT) or from rip6_output() (RS, RA
2187          * as handled by rtsol and rtadvd), mbufs will be tagged for SeND
2188          * to be diverted to user space.  When re-injected into the kernel,
2189          * send_output() will directly dispatch them to the outgoing interface.
2190          */
2191         if (send_sendso_input_hook != NULL) {
2192                 mtag = m_tag_find(m, PACKET_TAG_ND_OUTGOING, NULL);
2193                 if (mtag != NULL) {
2194                         ip6 = mtod(m, struct ip6_hdr *);
2195                         ip6len = sizeof(struct ip6_hdr) + ntohs(ip6->ip6_plen);
2196                         /* Use the SEND socket */
2197                         error = send_sendso_input_hook(m, ifp, SND_OUT,
2198                             ip6len);
2199                         /* -1 == no app on SEND socket */
2200                         if (error == 0 || error != -1)
2201                             return (error);
2202                 }
2203         }
2204
2205         m_clrprotoflags(m);     /* Avoid confusing lower layers. */
2206         IP_PROBE(send, NULL, NULL, mtod(m, struct ip6_hdr *), ifp, NULL,
2207             mtod(m, struct ip6_hdr *));
2208
2209         if ((ifp->if_flags & IFF_LOOPBACK) == 0)
2210                 origifp = ifp;
2211
2212         error = (*ifp->if_output)(origifp, m, (struct sockaddr *)dst, ro);
2213         return (error);
2214 }
2215
2216 /*
2217  * Lookup link headerfor @sa_dst address. Stores found
2218  * data in @desten buffer. Copy of lle ln_flags can be also
2219  * saved in @pflags if @pflags is non-NULL.
2220  *
2221  * If destination LLE does not exists or lle state modification
2222  * is required, call "slow" version.
2223  *
2224  * Return values:
2225  * - 0 on success (address copied to buffer).
2226  * - EWOULDBLOCK (no local error, but address is still unresolved)
2227  * - other errors (alloc failure, etc)
2228  */
2229 int
2230 nd6_resolve(struct ifnet *ifp, int gw_flags, struct mbuf *m,
2231     const struct sockaddr *sa_dst, u_char *desten, uint32_t *pflags,
2232     struct llentry **plle)
2233 {
2234         struct llentry *ln = NULL;
2235         const struct sockaddr_in6 *dst6;
2236
2237         NET_EPOCH_ASSERT();
2238
2239         if (pflags != NULL)
2240                 *pflags = 0;
2241
2242         dst6 = (const struct sockaddr_in6 *)sa_dst;
2243
2244         /* discard the packet if IPv6 operation is disabled on the interface */
2245         if ((ND_IFINFO(ifp)->flags & ND6_IFF_IFDISABLED)) {
2246                 m_freem(m);
2247                 return (ENETDOWN); /* better error? */
2248         }
2249
2250         if (m != NULL && m->m_flags & M_MCAST) {
2251                 switch (ifp->if_type) {
2252                 case IFT_ETHER:
2253                 case IFT_L2VLAN:
2254                 case IFT_BRIDGE:
2255                         ETHER_MAP_IPV6_MULTICAST(&dst6->sin6_addr,
2256                                                  desten);
2257                         return (0);
2258                 default:
2259                         m_freem(m);
2260                         return (EAFNOSUPPORT);
2261                 }
2262         }
2263
2264         int family = gw_flags >> 16;
2265         int lookup_flags = plle ? LLE_EXCLUSIVE : LLE_UNLOCKED;
2266         ln = nd6_lookup(&dst6->sin6_addr, LLE_SF(family, lookup_flags), ifp);
2267         if (ln != NULL && (ln->r_flags & RLLE_VALID) != 0) {
2268                 /* Entry found, let's copy lle info */
2269                 bcopy(ln->r_linkdata, desten, ln->r_hdrlen);
2270                 if (pflags != NULL)
2271                         *pflags = LLE_VALID | (ln->r_flags & RLLE_IFADDR);
2272                 llentry_provide_feedback(ln);
2273                 if (plle) {
2274                         LLE_ADDREF(ln);
2275                         *plle = ln;
2276                         LLE_WUNLOCK(ln);
2277                 }
2278                 return (0);
2279         } else if (plle && ln)
2280                 LLE_WUNLOCK(ln);
2281
2282         return (nd6_resolve_slow(ifp, family, 0, m, dst6, desten, pflags, plle));
2283 }
2284
2285 /*
2286  * Finds or creates a new llentry for @addr and @family.
2287  * Returns wlocked llentry or NULL.
2288  *
2289  *
2290  * Child LLEs.
2291  *
2292  * Do not have their own state machine (gets marked as static)
2293  *  settimer bails out for child LLEs just in case.
2294  *
2295  * Locking order: parent lle gets locked first, chen goes the child.
2296  */
2297 static __noinline struct llentry *
2298 nd6_get_llentry(struct ifnet *ifp, const struct in6_addr *addr, int family)
2299 {
2300         struct llentry *child_lle = NULL;
2301         struct llentry *lle, *lle_tmp;
2302
2303         lle = nd6_alloc(addr, 0, ifp);
2304         if (lle != NULL && family != AF_INET6) {
2305                 child_lle = nd6_alloc(addr, 0, ifp);
2306                 if (child_lle == NULL) {
2307                         lltable_free_entry(LLTABLE6(ifp), lle);
2308                         return (NULL);
2309                 }
2310                 child_lle->r_family = family;
2311                 child_lle->la_flags |= LLE_CHILD | LLE_STATIC;
2312                 child_lle->ln_state = ND6_LLINFO_INCOMPLETE;
2313         }
2314
2315         if (lle == NULL) {
2316                 char ip6buf[INET6_ADDRSTRLEN];
2317                 log(LOG_DEBUG,
2318                     "nd6_get_llentry: can't allocate llinfo for %s "
2319                     "(ln=%p)\n",
2320                     ip6_sprintf(ip6buf, addr), lle);
2321                 return (NULL);
2322         }
2323
2324         IF_AFDATA_WLOCK(ifp);
2325         LLE_WLOCK(lle);
2326         /* Prefer any existing entry over newly-created one */
2327         lle_tmp = nd6_lookup(addr, LLE_SF(AF_INET6, LLE_EXCLUSIVE), ifp);
2328         if (lle_tmp == NULL)
2329                 lltable_link_entry(LLTABLE6(ifp), lle);
2330         else {
2331                 lltable_free_entry(LLTABLE6(ifp), lle);
2332                 lle = lle_tmp;
2333         }
2334         if (child_lle != NULL) {
2335                 /* Check if child lle for the same family exists */
2336                 lle_tmp = llentry_lookup_family(lle, child_lle->r_family);
2337                 LLE_WLOCK(child_lle);
2338                 if (lle_tmp == NULL) {
2339                         /* Attach */
2340                         lltable_link_child_entry(lle, child_lle);
2341                 } else {
2342                         /* child lle already exists, free newly-created one */
2343                         lltable_free_entry(LLTABLE6(ifp), child_lle);
2344                         child_lle = lle_tmp;
2345                 }
2346                 LLE_WUNLOCK(lle);
2347                 lle = child_lle;
2348         }
2349         IF_AFDATA_WUNLOCK(ifp);
2350         return (lle);
2351 }
2352
2353 /*
2354  * Do L2 address resolution for @sa_dst address. Stores found
2355  * address in @desten buffer. Copy of lle ln_flags can be also
2356  * saved in @pflags if @pflags is non-NULL.
2357  *
2358  * Heavy version.
2359  * Function assume that destination LLE does not exist,
2360  * is invalid or stale, so LLE_EXCLUSIVE lock needs to be acquired.
2361  *
2362  * Set noinline to be dtrace-friendly
2363  */
2364 static __noinline int
2365 nd6_resolve_slow(struct ifnet *ifp, int family, int flags, struct mbuf *m,
2366     const struct sockaddr_in6 *dst, u_char *desten, uint32_t *pflags,
2367     struct llentry **plle)
2368 {
2369         struct llentry *lle = NULL;
2370         struct in6_addr *psrc, src;
2371         int send_ns, ll_len;
2372         char *lladdr;
2373
2374         NET_EPOCH_ASSERT();
2375
2376         /*
2377          * Address resolution or Neighbor Unreachability Detection
2378          * for the next hop.
2379          * At this point, the destination of the packet must be a unicast
2380          * or an anycast address(i.e. not a multicast).
2381          */
2382         lle = nd6_lookup(&dst->sin6_addr, LLE_SF(family, LLE_EXCLUSIVE), ifp);
2383         if ((lle == NULL) && nd6_is_addr_neighbor(dst, ifp))  {
2384                 /*
2385                  * Since nd6_is_addr_neighbor() internally calls nd6_lookup(),
2386                  * the condition below is not very efficient.  But we believe
2387                  * it is tolerable, because this should be a rare case.
2388                  */
2389                 lle = nd6_get_llentry(ifp, &dst->sin6_addr, family);
2390         }
2391
2392         if (lle == NULL) {
2393                 m_freem(m);
2394                 return (ENOBUFS);
2395         }
2396
2397         LLE_WLOCK_ASSERT(lle);
2398
2399         /*
2400          * The first time we send a packet to a neighbor whose entry is
2401          * STALE, we have to change the state to DELAY and a sets a timer to
2402          * expire in DELAY_FIRST_PROBE_TIME seconds to ensure do
2403          * neighbor unreachability detection on expiration.
2404          * (RFC 2461 7.3.3)
2405          */
2406         if ((!(lle->la_flags & LLE_CHILD)) && (lle->ln_state == ND6_LLINFO_STALE))
2407                 nd6_llinfo_setstate(lle, ND6_LLINFO_DELAY);
2408
2409         /*
2410          * If the neighbor cache entry has a state other than INCOMPLETE
2411          * (i.e. its link-layer address is already resolved), just
2412          * send the packet.
2413          */
2414         if (lle->ln_state > ND6_LLINFO_INCOMPLETE) {
2415                 if (flags & LLE_ADDRONLY) {
2416                         lladdr = lle->ll_addr;
2417                         ll_len = ifp->if_addrlen;
2418                 } else {
2419                         lladdr = lle->r_linkdata;
2420                         ll_len = lle->r_hdrlen;
2421                 }
2422                 bcopy(lladdr, desten, ll_len);
2423                 if (pflags != NULL)
2424                         *pflags = lle->la_flags;
2425                 if (plle) {
2426                         LLE_ADDREF(lle);
2427                         *plle = lle;
2428                 }
2429                 LLE_WUNLOCK(lle);
2430                 return (0);
2431         }
2432
2433         /*
2434          * There is a neighbor cache entry, but no ethernet address
2435          * response yet.  Append this latest packet to the end of the
2436          * packet queue in the mbuf.  When it exceeds nd6_maxqueuelen,
2437          * the oldest packet in the queue will be removed.
2438          */
2439         if (m != NULL) {
2440                 size_t dropped;
2441
2442                 dropped = lltable_append_entry_queue(lle, m, V_nd6_maxqueuelen);
2443                 ICMP6STAT_ADD(icp6s_dropped, dropped);
2444         }
2445
2446         /*
2447          * If there has been no NS for the neighbor after entering the
2448          * INCOMPLETE state, send the first solicitation.
2449          * Note that for newly-created lle la_asked will be 0,
2450          * so we will transition from ND6_LLINFO_NOSTATE to
2451          * ND6_LLINFO_INCOMPLETE state here.
2452          */
2453         psrc = NULL;
2454         send_ns = 0;
2455
2456         /* If we have child lle, switch to the parent to send NS */
2457         if (lle->la_flags & LLE_CHILD) {
2458                 struct llentry *lle_parent = lle->lle_parent;
2459                 LLE_WUNLOCK(lle);
2460                 lle = lle_parent;
2461                 LLE_WLOCK(lle);
2462         }
2463         if (lle->la_asked == 0) {
2464                 lle->la_asked++;
2465                 send_ns = 1;
2466                 psrc = nd6_llinfo_get_holdsrc(lle, &src);
2467
2468                 nd6_llinfo_setstate(lle, ND6_LLINFO_INCOMPLETE);
2469         }
2470         LLE_WUNLOCK(lle);
2471         if (send_ns != 0)
2472                 nd6_ns_output(ifp, psrc, NULL, &dst->sin6_addr, NULL);
2473
2474         return (EWOULDBLOCK);
2475 }
2476
2477 /*
2478  * Do L2 address resolution for @sa_dst address. Stores found
2479  * address in @desten buffer. Copy of lle ln_flags can be also
2480  * saved in @pflags if @pflags is non-NULL.
2481  *
2482  * Return values:
2483  * - 0 on success (address copied to buffer).
2484  * - EWOULDBLOCK (no local error, but address is still unresolved)
2485  * - other errors (alloc failure, etc)
2486  */
2487 int
2488 nd6_resolve_addr(struct ifnet *ifp, int flags, const struct sockaddr *dst,
2489     char *desten, uint32_t *pflags)
2490 {
2491         int error;
2492
2493         flags |= LLE_ADDRONLY;
2494         error = nd6_resolve_slow(ifp, AF_INET6, flags, NULL,
2495             (const struct sockaddr_in6 *)dst, desten, pflags, NULL);
2496         return (error);
2497 }
2498
2499 int
2500 nd6_flush_holdchain(struct ifnet *ifp, struct llentry *lle, struct mbuf *chain)
2501 {
2502         struct mbuf *m, *m_head;
2503         struct sockaddr_in6 dst6;
2504         int error = 0;
2505
2506         NET_EPOCH_ASSERT();
2507
2508         struct route_in6 ro = {
2509                 .ro_prepend = lle->r_linkdata,
2510                 .ro_plen = lle->r_hdrlen,
2511         };
2512
2513         lltable_fill_sa_entry(lle, (struct sockaddr *)&dst6);
2514         m_head = chain;
2515
2516         while (m_head) {
2517                 m = m_head;
2518                 m_head = m_head->m_nextpkt;
2519                 m->m_nextpkt = NULL;
2520                 error = nd6_output_ifp(ifp, ifp, m, &dst6, (struct route *)&ro);
2521         }
2522
2523         /*
2524          * XXX
2525          * note that intermediate errors are blindly ignored
2526          */
2527         return (error);
2528 }
2529
2530 __noinline void
2531 nd6_flush_children_holdchain(struct ifnet *ifp, struct llentry *lle)
2532 {
2533         struct llentry *child_lle;
2534         struct mbuf *chain;
2535
2536         NET_EPOCH_ASSERT();
2537
2538         CK_SLIST_FOREACH(child_lle, &lle->lle_children, lle_child_next) {
2539                 LLE_WLOCK(child_lle);
2540                 chain = nd6_grab_holdchain(child_lle);
2541                 LLE_WUNLOCK(child_lle);
2542                 nd6_flush_holdchain(ifp, child_lle, chain);
2543         }
2544 }
2545
2546 static int
2547 nd6_need_cache(struct ifnet *ifp)
2548 {
2549         /*
2550          * XXX: we currently do not make neighbor cache on any interface
2551          * other than Ethernet and GIF.
2552          *
2553          * RFC2893 says:
2554          * - unidirectional tunnels needs no ND
2555          */
2556         switch (ifp->if_type) {
2557         case IFT_ETHER:
2558         case IFT_IEEE1394:
2559         case IFT_L2VLAN:
2560         case IFT_INFINIBAND:
2561         case IFT_BRIDGE:
2562         case IFT_PROPVIRTUAL:
2563                 return (1);
2564         default:
2565                 return (0);
2566         }
2567 }
2568
2569 /*
2570  * Add pernament ND6 link-layer record for given
2571  * interface address.
2572  *
2573  * Very similar to IPv4 arp_ifinit(), but:
2574  * 1) IPv6 DAD is performed in different place
2575  * 2) It is called by IPv6 protocol stack in contrast to
2576  * arp_ifinit() which is typically called in SIOCSIFADDR
2577  * driver ioctl handler.
2578  *
2579  */
2580 int
2581 nd6_add_ifa_lle(struct in6_ifaddr *ia)
2582 {
2583         struct ifnet *ifp;
2584         struct llentry *ln, *ln_tmp;
2585         struct sockaddr *dst;
2586
2587         ifp = ia->ia_ifa.ifa_ifp;
2588         if (nd6_need_cache(ifp) == 0)
2589                 return (0);
2590
2591         dst = (struct sockaddr *)&ia->ia_addr;
2592         ln = lltable_alloc_entry(LLTABLE6(ifp), LLE_IFADDR, dst);
2593         if (ln == NULL)
2594                 return (ENOBUFS);
2595
2596         IF_AFDATA_WLOCK(ifp);
2597         LLE_WLOCK(ln);
2598         /* Unlink any entry if exists */
2599         ln_tmp = lla_lookup(LLTABLE6(ifp), LLE_SF(AF_INET6, LLE_EXCLUSIVE), dst);
2600         if (ln_tmp != NULL)
2601                 lltable_unlink_entry(LLTABLE6(ifp), ln_tmp);
2602         lltable_link_entry(LLTABLE6(ifp), ln);
2603         IF_AFDATA_WUNLOCK(ifp);
2604
2605         if (ln_tmp != NULL)
2606                 EVENTHANDLER_INVOKE(lle_event, ln_tmp, LLENTRY_EXPIRED);
2607         EVENTHANDLER_INVOKE(lle_event, ln, LLENTRY_RESOLVED);
2608
2609         LLE_WUNLOCK(ln);
2610         if (ln_tmp != NULL)
2611                 llentry_free(ln_tmp);
2612
2613         return (0);
2614 }
2615
2616 /*
2617  * Removes either all lle entries for given @ia, or lle
2618  * corresponding to @ia address.
2619  */
2620 void
2621 nd6_rem_ifa_lle(struct in6_ifaddr *ia, int all)
2622 {
2623         struct sockaddr_in6 mask, addr;
2624         struct sockaddr *saddr, *smask;
2625         struct ifnet *ifp;
2626
2627         ifp = ia->ia_ifa.ifa_ifp;
2628         memcpy(&addr, &ia->ia_addr, sizeof(ia->ia_addr));
2629         memcpy(&mask, &ia->ia_prefixmask, sizeof(ia->ia_prefixmask));
2630         saddr = (struct sockaddr *)&addr;
2631         smask = (struct sockaddr *)&mask;
2632
2633         if (all != 0)
2634                 lltable_prefix_free(AF_INET6, saddr, smask, LLE_STATIC);
2635         else
2636                 lltable_delete_addr(LLTABLE6(ifp), LLE_IFADDR, saddr);
2637 }
2638
2639 static int
2640 nd6_sysctl_prlist(SYSCTL_HANDLER_ARGS)
2641 {
2642         struct in6_prefix p;
2643         struct sockaddr_in6 s6;
2644         struct nd_prefix *pr;
2645         struct nd_pfxrouter *pfr;
2646         time_t maxexpire;
2647         int error;
2648         char ip6buf[INET6_ADDRSTRLEN];
2649
2650         if (req->newptr)
2651                 return (EPERM);
2652
2653         error = sysctl_wire_old_buffer(req, 0);
2654         if (error != 0)
2655                 return (error);
2656
2657         bzero(&p, sizeof(p));
2658         p.origin = PR_ORIG_RA;
2659         bzero(&s6, sizeof(s6));
2660         s6.sin6_family = AF_INET6;
2661         s6.sin6_len = sizeof(s6);
2662
2663         ND6_RLOCK();
2664         LIST_FOREACH(pr, &V_nd_prefix, ndpr_entry) {
2665                 if (!pr->ndpr_raf_ra_derived)
2666                         continue;
2667                 p.prefix = pr->ndpr_prefix;
2668                 if (sa6_recoverscope(&p.prefix)) {
2669                         log(LOG_ERR, "scope error in prefix list (%s)\n",
2670                             ip6_sprintf(ip6buf, &p.prefix.sin6_addr));
2671                         /* XXX: press on... */
2672                 }
2673                 p.raflags = pr->ndpr_raf;
2674                 p.prefixlen = pr->ndpr_plen;
2675                 p.vltime = pr->ndpr_vltime;
2676                 p.pltime = pr->ndpr_pltime;
2677                 p.if_index = pr->ndpr_ifp->if_index;
2678                 if (pr->ndpr_vltime == ND6_INFINITE_LIFETIME)
2679                         p.expire = 0;
2680                 else {
2681                         /* XXX: we assume time_t is signed. */
2682                         maxexpire = (-1) &
2683                             ~((time_t)1 << ((sizeof(maxexpire) * 8) - 1));
2684                         if (pr->ndpr_vltime < maxexpire - pr->ndpr_lastupdate)
2685                                 p.expire = pr->ndpr_lastupdate +
2686                                     pr->ndpr_vltime +
2687                                     (time_second - time_uptime);
2688                         else
2689                                 p.expire = maxexpire;
2690                 }
2691                 p.refcnt = pr->ndpr_addrcnt;
2692                 p.flags = pr->ndpr_stateflags;
2693                 p.advrtrs = 0;
2694                 LIST_FOREACH(pfr, &pr->ndpr_advrtrs, pfr_entry)
2695                         p.advrtrs++;
2696                 error = SYSCTL_OUT(req, &p, sizeof(p));
2697                 if (error != 0)
2698                         break;
2699                 LIST_FOREACH(pfr, &pr->ndpr_advrtrs, pfr_entry) {
2700                         s6.sin6_addr = pfr->router->rtaddr;
2701                         if (sa6_recoverscope(&s6))
2702                                 log(LOG_ERR,
2703                                     "scope error in prefix list (%s)\n",
2704                                     ip6_sprintf(ip6buf, &pfr->router->rtaddr));
2705                         error = SYSCTL_OUT(req, &s6, sizeof(s6));
2706                         if (error != 0)
2707                                 goto out;
2708                 }
2709         }
2710 out:
2711         ND6_RUNLOCK();
2712         return (error);
2713 }
2714 SYSCTL_PROC(_net_inet6_icmp6, ICMPV6CTL_ND6_PRLIST, nd6_prlist,
2715         CTLTYPE_OPAQUE | CTLFLAG_RD | CTLFLAG_MPSAFE,
2716         NULL, 0, nd6_sysctl_prlist, "S,in6_prefix",
2717         "NDP prefix list");
2718 SYSCTL_INT(_net_inet6_icmp6, ICMPV6CTL_ND6_MAXQLEN, nd6_maxqueuelen,
2719         CTLFLAG_VNET | CTLFLAG_RW, &VNET_NAME(nd6_maxqueuelen), 1, "");
2720 SYSCTL_INT(_net_inet6_icmp6, OID_AUTO, nd6_gctimer,
2721         CTLFLAG_VNET | CTLFLAG_RW, &VNET_NAME(nd6_gctimer), (60 * 60 * 24), "");