sys/amd64/amd64/pmap.c

   1 /*-
   2  * SPDX-License-Identifier: BSD-4-Clause
   3  *
   4  * Copyright (c) 1991 Regents of the University of California.
   5  * All rights reserved.
   6  * Copyright (c) 1994 John S. Dyson
   7  * All rights reserved.
   8  * Copyright (c) 1994 David Greenman
   9  * All rights reserved.
  10  * Copyright (c) 2003 Peter Wemm
  11  * All rights reserved.
  12  * Copyright (c) 2005-2010 Alan L. Cox <alc@cs.rice.edu>
  13  * All rights reserved.
  14  *
  15  * This code is derived from software contributed to Berkeley by
  16  * the Systems Programming Group of the University of Utah Computer
  17  * Science Department and William Jolitz of UUNET Technologies Inc.
  18  *
  19  * Redistribution and use in source and binary forms, with or without
  20  * modification, are permitted provided that the following conditions
  21  * are met:
  22  * 1. Redistributions of source code must retain the above copyright
  23  *    notice, this list of conditions and the following disclaimer.
  24  * 2. Redistributions in binary form must reproduce the above copyright
  25  *    notice, this list of conditions and the following disclaimer in the
  26  *    documentation and/or other materials provided with the distribution.
  27  * 3. All advertising materials mentioning features or use of this software
  28  *    must display the following acknowledgement:
  29  *      This product includes software developed by the University of
  30  *      California, Berkeley and its contributors.
  31  * 4. Neither the name of the University nor the names of its contributors
  32  *    may be used to endorse or promote products derived from this software
  33  *    without specific prior written permission.
  34  *
  35  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  36  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  37  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  38  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  39  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  40  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  41  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  42  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  43  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  44  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  45  * SUCH DAMAGE.
  46  *
  47  *      from:   @(#)pmap.c      7.7 (Berkeley)  5/12/91
  48  */
  49 /*-
  50  * Copyright (c) 2003 Networks Associates Technology, Inc.
  51  * Copyright (c) 2014-2020 The FreeBSD Foundation
  52  * All rights reserved.
  53  *
  54  * This software was developed for the FreeBSD Project by Jake Burkholder,
  55  * Safeport Network Services, and Network Associates Laboratories, the
  56  * Security Research Division of Network Associates, Inc. under
  57  * DARPA/SPAWAR contract N66001-01-C-8035 ("CBOSS"), as part of the DARPA
  58  * CHATS research program.
  59  *
  60  * Portions of this software were developed by
  61  * Konstantin Belousov <kib@FreeBSD.org> under sponsorship from
  62  * the FreeBSD Foundation.
  63  *
  64  * Redistribution and use in source and binary forms, with or without
  65  * modification, are permitted provided that the following conditions
  66  * are met:
  67  * 1. Redistributions of source code must retain the above copyright
  68  *    notice, this list of conditions and the following disclaimer.
  69  * 2. Redistributions in binary form must reproduce the above copyright
  70  *    notice, this list of conditions and the following disclaimer in the
  71  *    documentation and/or other materials provided with the distribution.
  72  *
  73  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  74  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  75  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  76  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  77  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  78  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  79  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  80  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  81  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  82  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  83  * SUCH DAMAGE.
  84  */
  85
  86 #define AMD64_NPT_AWARE
  87
  88 #include <sys/cdefs.h>
  89 __FBSDID("$FreeBSD$");
  90
  91 /*
  92  *      Manages physical address maps.
  93  *
  94  *      Since the information managed by this module is
  95  *      also stored by the logical address mapping module,
  96  *      this module may throw away valid virtual-to-physical
  97  *      mappings at almost any time.  However, invalidations
  98  *      of virtual-to-physical mappings must be done as
  99  *      requested.
 100  *
 101  *      In order to cope with hardware architectures which
 102  *      make virtual-to-physical map invalidates expensive,
 103  *      this module may delay invalidate or reduced protection
 104  *      operations until such time as they are actually
 105  *      necessary.  This module is given full information as
 106  *      to which processors are currently using which maps,
 107  *      and to when physical maps must be made correct.
 108  */
 109
 110 #include "opt_ddb.h"
 111 #include "opt_pmap.h"
 112 #include "opt_vm.h"
 113
 114 #include <sys/param.h>
 115 #include <sys/bitstring.h>
 116 #include <sys/bus.h>
 117 #include <sys/systm.h>
 118 #include <sys/kernel.h>
 119 #include <sys/ktr.h>
 120 #include <sys/lock.h>
 121 #include <sys/malloc.h>
 122 #include <sys/mman.h>
 123 #include <sys/mutex.h>
 124 #include <sys/proc.h>
 125 #include <sys/rangeset.h>
 126 #include <sys/rwlock.h>
 127 #include <sys/sbuf.h>
 128 #include <sys/sx.h>
 129 #include <sys/turnstile.h>
 130 #include <sys/vmem.h>
 131 #include <sys/vmmeter.h>
 132 #include <sys/sched.h>
 133 #include <sys/sysctl.h>
 134 #include <sys/smp.h>
 135 #ifdef DDB
 136 #include <sys/kdb.h>
 137 #include <ddb/ddb.h>
 138 #endif
 139
 140 #include <vm/vm.h>
 141 #include <vm/vm_param.h>
 142 #include <vm/vm_kern.h>
 143 #include <vm/vm_page.h>
 144 #include <vm/vm_map.h>
 145 #include <vm/vm_object.h>
 146 #include <vm/vm_extern.h>
 147 #include <vm/vm_pageout.h>
 148 #include <vm/vm_pager.h>
 149 #include <vm/vm_phys.h>
 150 #include <vm/vm_radix.h>
 151 #include <vm/vm_reserv.h>
 152 #include <vm/vm_dumpset.h>
 153 #include <vm/uma.h>
 154
 155 #include <machine/intr_machdep.h>
 156 #include <x86/apicvar.h>
 157 #include <x86/ifunc.h>
 158 #include <machine/cpu.h>
 159 #include <machine/cputypes.h>
 160 #include <machine/intr_machdep.h>
 161 #include <machine/md_var.h>
 162 #include <machine/pcb.h>
 163 #include <machine/specialreg.h>
 164 #ifdef SMP
 165 #include <machine/smp.h>
 166 #endif
 167 #include <machine/sysarch.h>
 168 #include <machine/tss.h>
 169
 170 #ifdef NUMA
 171 #define PMAP_MEMDOM     MAXMEMDOM
 172 #else
 173 #define PMAP_MEMDOM     1
 174 #endif
 175
 176 static __inline boolean_t
 177 pmap_type_guest(pmap_t pmap)
 178 {
 179
 180         return ((pmap->pm_type == PT_EPT) || (pmap->pm_type == PT_RVI));
 181 }
 182
 183 static __inline boolean_t
 184 pmap_emulate_ad_bits(pmap_t pmap)
 185 {
 186
 187         return ((pmap->pm_flags & PMAP_EMULATE_AD_BITS) != 0);
 188 }
 189
 190 static __inline pt_entry_t
 191 pmap_valid_bit(pmap_t pmap)
 192 {
 193         pt_entry_t mask;
 194
 195         switch (pmap->pm_type) {
 196         case PT_X86:
 197         case PT_RVI:
 198                 mask = X86_PG_V;
 199                 break;
 200         case PT_EPT:
 201                 if (pmap_emulate_ad_bits(pmap))
 202                         mask = EPT_PG_EMUL_V;
 203                 else
 204                         mask = EPT_PG_READ;
 205                 break;
 206         default:
 207                 panic("pmap_valid_bit: invalid pm_type %d", pmap->pm_type);
 208         }
 209
 210         return (mask);
 211 }
 212
 213 static __inline pt_entry_t
 214 pmap_rw_bit(pmap_t pmap)
 215 {
 216         pt_entry_t mask;
 217
 218         switch (pmap->pm_type) {
 219         case PT_X86:
 220         case PT_RVI:
 221                 mask = X86_PG_RW;
 222                 break;
 223         case PT_EPT:
 224                 if (pmap_emulate_ad_bits(pmap))
 225                         mask = EPT_PG_EMUL_RW;
 226                 else
 227                         mask = EPT_PG_WRITE;
 228                 break;
 229         default:
 230                 panic("pmap_rw_bit: invalid pm_type %d", pmap->pm_type);
 231         }
 232
 233         return (mask);
 234 }
 235
 236 static pt_entry_t pg_g;
 237
 238 static __inline pt_entry_t
 239 pmap_global_bit(pmap_t pmap)
 240 {
 241         pt_entry_t mask;
 242
 243         switch (pmap->pm_type) {
 244         case PT_X86:
 245                 mask = pg_g;
 246                 break;
 247         case PT_RVI:
 248         case PT_EPT:
 249                 mask = 0;
 250                 break;
 251         default:
 252                 panic("pmap_global_bit: invalid pm_type %d", pmap->pm_type);
 253         }
 254
 255         return (mask);
 256 }
 257
 258 static __inline pt_entry_t
 259 pmap_accessed_bit(pmap_t pmap)
 260 {
 261         pt_entry_t mask;
 262
 263         switch (pmap->pm_type) {
 264         case PT_X86:
 265         case PT_RVI:
 266                 mask = X86_PG_A;
 267                 break;
 268         case PT_EPT:
 269                 if (pmap_emulate_ad_bits(pmap))
 270                         mask = EPT_PG_READ;
 271                 else
 272                         mask = EPT_PG_A;
 273                 break;
 274         default:
 275                 panic("pmap_accessed_bit: invalid pm_type %d", pmap->pm_type);
 276         }
 277
 278         return (mask);
 279 }
 280
 281 static __inline pt_entry_t
 282 pmap_modified_bit(pmap_t pmap)
 283 {
 284         pt_entry_t mask;
 285
 286         switch (pmap->pm_type) {
 287         case PT_X86:
 288         case PT_RVI:
 289                 mask = X86_PG_M;
 290                 break;
 291         case PT_EPT:
 292                 if (pmap_emulate_ad_bits(pmap))
 293                         mask = EPT_PG_WRITE;
 294                 else
 295                         mask = EPT_PG_M;
 296                 break;
 297         default:
 298                 panic("pmap_modified_bit: invalid pm_type %d", pmap->pm_type);
 299         }
 300
 301         return (mask);
 302 }
 303
 304 static __inline pt_entry_t
 305 pmap_pku_mask_bit(pmap_t pmap)
 306 {
 307
 308         return (pmap->pm_type == PT_X86 ? X86_PG_PKU_MASK : 0);
 309 }
 310
 311 #if !defined(DIAGNOSTIC)
 312 #ifdef __GNUC_GNU_INLINE__
 313 #define PMAP_INLINE     __attribute__((__gnu_inline__)) inline
 314 #else
 315 #define PMAP_INLINE     extern inline
 316 #endif
 317 #else
 318 #define PMAP_INLINE
 319 #endif
 320
 321 #ifdef PV_STATS
 322 #define PV_STAT(x)      do { x ; } while (0)
 323 #else
 324 #define PV_STAT(x)      do { } while (0)
 325 #endif
 326
 327 #undef pa_index
 328 #ifdef NUMA
 329 #define pa_index(pa)    ({                                      \
 330         KASSERT((pa) <= vm_phys_segs[vm_phys_nsegs - 1].end,    \
 331             ("address %lx beyond the last segment", (pa)));     \
 332         (pa) >> PDRSHIFT;                                       \
 333 })
 334 #define pa_to_pmdp(pa)  (&pv_table[pa_index(pa)])
 335 #define pa_to_pvh(pa)   (&(pa_to_pmdp(pa)->pv_page))
 336 #define PHYS_TO_PV_LIST_LOCK(pa)        ({                      \
 337         struct rwlock *_lock;                                   \
 338         if (__predict_false((pa) > pmap_last_pa))               \
 339                 _lock = &pv_dummy_large.pv_lock;                \
 340         else                                                    \
 341                 _lock = &(pa_to_pmdp(pa)->pv_lock);             \
 342         _lock;                                                  \
 343 })
 344 #else
 345 #define pa_index(pa)    ((pa) >> PDRSHIFT)
 346 #define pa_to_pvh(pa)   (&pv_table[pa_index(pa)])
 347
 348 #define NPV_LIST_LOCKS  MAXCPU
 349
 350 #define PHYS_TO_PV_LIST_LOCK(pa)        \
 351                         (&pv_list_locks[pa_index(pa) % NPV_LIST_LOCKS])
 352 #endif
 353
 354 #define CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa)  do {    \
 355         struct rwlock **_lockp = (lockp);               \
 356         struct rwlock *_new_lock;                       \
 357                                                         \
 358         _new_lock = PHYS_TO_PV_LIST_LOCK(pa);           \
 359         if (_new_lock != *_lockp) {                     \
 360                 if (*_lockp != NULL)                    \
 361                         rw_wunlock(*_lockp);            \
 362                 *_lockp = _new_lock;                    \
 363                 rw_wlock(*_lockp);                      \
 364         }                                               \
 365 } while (0)
 366
 367 #define CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m)        \
 368                         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, VM_PAGE_TO_PHYS(m))
 369
 370 #define RELEASE_PV_LIST_LOCK(lockp)             do {    \
 371         struct rwlock **_lockp = (lockp);               \
 372                                                         \
 373         if (*_lockp != NULL) {                          \
 374                 rw_wunlock(*_lockp);                    \
 375                 *_lockp = NULL;                         \
 376         }                                               \
 377 } while (0)
 378
 379 #define VM_PAGE_TO_PV_LIST_LOCK(m)      \
 380                         PHYS_TO_PV_LIST_LOCK(VM_PAGE_TO_PHYS(m))
 381
 382 struct pmap kernel_pmap_store;
 383
 384 vm_offset_t virtual_avail;      /* VA of first avail page (after kernel bss) */
 385 vm_offset_t virtual_end;        /* VA of last avail page (end of kernel AS) */
 386
 387 int nkpt;
 388 SYSCTL_INT(_machdep, OID_AUTO, nkpt, CTLFLAG_RD, &nkpt, 0,
 389     "Number of kernel page table pages allocated on bootup");
 390
 391 static int ndmpdp;
 392 vm_paddr_t dmaplimit;
 393 vm_offset_t kernel_vm_end = VM_MIN_KERNEL_ADDRESS;
 394 pt_entry_t pg_nx;
 395
 396 static SYSCTL_NODE(_vm, OID_AUTO, pmap, CTLFLAG_RD | CTLFLAG_MPSAFE, 0,
 397     "VM/pmap parameters");
 398
 399 static int pg_ps_enabled = 1;
 400 SYSCTL_INT(_vm_pmap, OID_AUTO, pg_ps_enabled, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 401     &pg_ps_enabled, 0, "Are large page mappings enabled?");
 402
 403 int __read_frequently la57 = 0;
 404 SYSCTL_INT(_vm_pmap, OID_AUTO, la57, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 405     &la57, 0,
 406     "5-level paging for host is enabled");
 407
 408 static bool
 409 pmap_is_la57(pmap_t pmap)
 410 {
 411         if (pmap->pm_type == PT_X86)
 412                 return (la57);
 413         return (false);         /* XXXKIB handle EPT */
 414 }
 415
 416 #define PAT_INDEX_SIZE  8
 417 static int pat_index[PAT_INDEX_SIZE];   /* cache mode to PAT index conversion */
 418
 419 static u_int64_t        KPTphys;        /* phys addr of kernel level 1 */
 420 static u_int64_t        KPDphys;        /* phys addr of kernel level 2 */
 421 u_int64_t               KPDPphys;       /* phys addr of kernel level 3 */
 422 u_int64_t               KPML4phys;      /* phys addr of kernel level 4 */
 423 u_int64_t               KPML5phys;      /* phys addr of kernel level 5,
 424                                            if supported */
 425
 426 static pml4_entry_t     *kernel_pml4;
 427 static u_int64_t        DMPDphys;       /* phys addr of direct mapped level 2 */
 428 static u_int64_t        DMPDPphys;      /* phys addr of direct mapped level 3 */
 429 static int              ndmpdpphys;     /* number of DMPDPphys pages */
 430
 431 static vm_paddr_t       KERNend;        /* phys addr of end of bootstrap data */
 432
 433 /*
 434  * pmap_mapdev support pre initialization (i.e. console)
 435  */
 436 #define PMAP_PREINIT_MAPPING_COUNT      8
 437 static struct pmap_preinit_mapping {
 438         vm_paddr_t      pa;
 439         vm_offset_t     va;
 440         vm_size_t       sz;
 441         int             mode;
 442 } pmap_preinit_mapping[PMAP_PREINIT_MAPPING_COUNT];
 443 static int pmap_initialized;
 444
 445 /*
 446  * Data for the pv entry allocation mechanism.
 447  * Updates to pv_invl_gen are protected by the pv list lock but reads are not.
 448  */
 449 #ifdef NUMA
 450 static __inline int
 451 pc_to_domain(struct pv_chunk *pc)
 452 {
 453
 454         return (_vm_phys_domain(DMAP_TO_PHYS((vm_offset_t)pc)));
 455 }
 456 #else
 457 static __inline int
 458 pc_to_domain(struct pv_chunk *pc __unused)
 459 {
 460
 461         return (0);
 462 }
 463 #endif
 464
 465 struct pv_chunks_list {
 466         struct mtx pvc_lock;
 467         TAILQ_HEAD(pch, pv_chunk) pvc_list;
 468         int active_reclaims;
 469 } __aligned(CACHE_LINE_SIZE);
 470
 471 struct pv_chunks_list __exclusive_cache_line pv_chunks[PMAP_MEMDOM];
 472
 473 #ifdef  NUMA
 474 struct pmap_large_md_page {
 475         struct rwlock   pv_lock;
 476         struct md_page  pv_page;
 477         u_long pv_invl_gen;
 478 };
 479 __exclusive_cache_line static struct pmap_large_md_page pv_dummy_large;
 480 #define pv_dummy pv_dummy_large.pv_page
 481 __read_mostly static struct pmap_large_md_page *pv_table;
 482 __read_mostly vm_paddr_t pmap_last_pa;
 483 #else
 484 static struct rwlock __exclusive_cache_line pv_list_locks[NPV_LIST_LOCKS];
 485 static u_long pv_invl_gen[NPV_LIST_LOCKS];
 486 static struct md_page *pv_table;
 487 static struct md_page pv_dummy;
 488 #endif
 489
 490 /*
 491  * All those kernel PT submaps that BSD is so fond of
 492  */
 493 pt_entry_t *CMAP1 = NULL;
 494 caddr_t CADDR1 = 0;
 495 static vm_offset_t qframe = 0;
 496 static struct mtx qframe_mtx;
 497
 498 static int pmap_flags = PMAP_PDE_SUPERPAGE;     /* flags for x86 pmaps */
 499
 500 static vmem_t *large_vmem;
 501 static u_int lm_ents;
 502 #define PMAP_ADDRESS_IN_LARGEMAP(va)    ((va) >= LARGEMAP_MIN_ADDRESS && \
 503         (va) < LARGEMAP_MIN_ADDRESS + NBPML4 * (u_long)lm_ents)
 504
 505 int pmap_pcid_enabled = 1;
 506 SYSCTL_INT(_vm_pmap, OID_AUTO, pcid_enabled, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 507     &pmap_pcid_enabled, 0, "Is TLB Context ID enabled ?");
 508 int invpcid_works = 0;
 509 SYSCTL_INT(_vm_pmap, OID_AUTO, invpcid_works, CTLFLAG_RD, &invpcid_works, 0,
 510     "Is the invpcid instruction available ?");
 511
 512 int __read_frequently pti = 0;
 513 SYSCTL_INT(_vm_pmap, OID_AUTO, pti, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 514     &pti, 0,
 515     "Page Table Isolation enabled");
 516 static vm_object_t pti_obj;
 517 static pml4_entry_t *pti_pml4;
 518 static vm_pindex_t pti_pg_idx;
 519 static bool pti_finalized;
 520
 521 struct pmap_pkru_range {
 522         struct rs_el    pkru_rs_el;
 523         u_int           pkru_keyidx;
 524         int             pkru_flags;
 525 };
 526
 527 static uma_zone_t pmap_pkru_ranges_zone;
 528 static bool pmap_pkru_same(pmap_t pmap, vm_offset_t sva, vm_offset_t eva);
 529 static pt_entry_t pmap_pkru_get(pmap_t pmap, vm_offset_t va);
 530 static void pmap_pkru_on_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva);
 531 static void *pkru_dup_range(void *ctx, void *data);
 532 static void pkru_free_range(void *ctx, void *node);
 533 static int pmap_pkru_copy(pmap_t dst_pmap, pmap_t src_pmap);
 534 static int pmap_pkru_deassign(pmap_t pmap, vm_offset_t sva, vm_offset_t eva);
 535 static void pmap_pkru_deassign_all(pmap_t pmap);
 536
 537 static int
 538 pmap_pcid_save_cnt_proc(SYSCTL_HANDLER_ARGS)
 539 {
 540         int i;
 541         uint64_t res;
 542
 543         res = 0;
 544         CPU_FOREACH(i) {
 545                 res += cpuid_to_pcpu[i]->pc_pm_save_cnt;
 546         }
 547         return (sysctl_handle_64(oidp, &res, 0, req));
 548 }
 549 SYSCTL_PROC(_vm_pmap, OID_AUTO, pcid_save_cnt, CTLTYPE_U64 | CTLFLAG_RD |
 550     CTLFLAG_MPSAFE, NULL, 0, pmap_pcid_save_cnt_proc, "QU",
 551     "Count of saved TLB context on switch");
 552
 553 static LIST_HEAD(, pmap_invl_gen) pmap_invl_gen_tracker =
 554     LIST_HEAD_INITIALIZER(&pmap_invl_gen_tracker);
 555 static struct mtx invl_gen_mtx;
 556 /* Fake lock object to satisfy turnstiles interface. */
 557 static struct lock_object invl_gen_ts = {
 558         .lo_name = "invlts",
 559 };
 560 static struct pmap_invl_gen pmap_invl_gen_head = {
 561         .gen = 1,
 562         .next = NULL,
 563 };
 564 static u_long pmap_invl_gen = 1;
 565 static int pmap_invl_waiters;
 566 static struct callout pmap_invl_callout;
 567 static bool pmap_invl_callout_inited;
 568
 569 #define PMAP_ASSERT_NOT_IN_DI() \
 570     KASSERT(pmap_not_in_di(), ("DI already started"))
 571
 572 static bool
 573 pmap_di_locked(void)
 574 {
 575         int tun;
 576
 577         if ((cpu_feature2 & CPUID2_CX16) == 0)
 578                 return (true);
 579         tun = 0;
 580         TUNABLE_INT_FETCH("vm.pmap.di_locked", &tun);
 581         return (tun != 0);
 582 }
 583
 584 static int
 585 sysctl_pmap_di_locked(SYSCTL_HANDLER_ARGS)
 586 {
 587         int locked;
 588
 589         locked = pmap_di_locked();
 590         return (sysctl_handle_int(oidp, &locked, 0, req));
 591 }
 592 SYSCTL_PROC(_vm_pmap, OID_AUTO, di_locked, CTLTYPE_INT | CTLFLAG_RDTUN |
 593     CTLFLAG_MPSAFE, 0, 0, sysctl_pmap_di_locked, "",
 594     "Locked delayed invalidation");
 595
 596 static bool pmap_not_in_di_l(void);
 597 static bool pmap_not_in_di_u(void);
 598 DEFINE_IFUNC(, bool, pmap_not_in_di, (void))
 599 {
 600
 601         return (pmap_di_locked() ? pmap_not_in_di_l : pmap_not_in_di_u);
 602 }
 603
 604 static bool
 605 pmap_not_in_di_l(void)
 606 {
 607         struct pmap_invl_gen *invl_gen;
 608
 609         invl_gen = &curthread->td_md.md_invl_gen;
 610         return (invl_gen->gen == 0);
 611 }
 612
 613 static void
 614 pmap_thread_init_invl_gen_l(struct thread *td)
 615 {
 616         struct pmap_invl_gen *invl_gen;
 617
 618         invl_gen = &td->td_md.md_invl_gen;
 619         invl_gen->gen = 0;
 620 }
 621
 622 static void
 623 pmap_delayed_invl_wait_block(u_long *m_gen, u_long *invl_gen)
 624 {
 625         struct turnstile *ts;
 626
 627         ts = turnstile_trywait(&invl_gen_ts);
 628         if (*m_gen > atomic_load_long(invl_gen))
 629                 turnstile_wait(ts, NULL, TS_SHARED_QUEUE);
 630         else
 631                 turnstile_cancel(ts);
 632 }
 633
 634 static void
 635 pmap_delayed_invl_finish_unblock(u_long new_gen)
 636 {
 637         struct turnstile *ts;
 638
 639         turnstile_chain_lock(&invl_gen_ts);
 640         ts = turnstile_lookup(&invl_gen_ts);
 641         if (new_gen != 0)
 642                 pmap_invl_gen = new_gen;
 643         if (ts != NULL) {
 644                 turnstile_broadcast(ts, TS_SHARED_QUEUE);
 645                 turnstile_unpend(ts);
 646         }
 647         turnstile_chain_unlock(&invl_gen_ts);
 648 }
 649
 650 /*
 651  * Start a new Delayed Invalidation (DI) block of code, executed by
 652  * the current thread.  Within a DI block, the current thread may
 653  * destroy both the page table and PV list entries for a mapping and
 654  * then release the corresponding PV list lock before ensuring that
 655  * the mapping is flushed from the TLBs of any processors with the
 656  * pmap active.
 657  */
 658 static void
 659 pmap_delayed_invl_start_l(void)
 660 {
 661         struct pmap_invl_gen *invl_gen;
 662         u_long currgen;
 663
 664         invl_gen = &curthread->td_md.md_invl_gen;
 665         PMAP_ASSERT_NOT_IN_DI();
 666         mtx_lock(&invl_gen_mtx);
 667         if (LIST_EMPTY(&pmap_invl_gen_tracker))
 668                 currgen = pmap_invl_gen;
 669         else
 670                 currgen = LIST_FIRST(&pmap_invl_gen_tracker)->gen;
 671         invl_gen->gen = currgen + 1;
 672         LIST_INSERT_HEAD(&pmap_invl_gen_tracker, invl_gen, link);
 673         mtx_unlock(&invl_gen_mtx);
 674 }
 675
 676 /*
 677  * Finish the DI block, previously started by the current thread.  All
 678  * required TLB flushes for the pages marked by
 679  * pmap_delayed_invl_page() must be finished before this function is
 680  * called.
 681  *
 682  * This function works by bumping the global DI generation number to
 683  * the generation number of the current thread's DI, unless there is a
 684  * pending DI that started earlier.  In the latter case, bumping the
 685  * global DI generation number would incorrectly signal that the
 686  * earlier DI had finished.  Instead, this function bumps the earlier
 687  * DI's generation number to match the generation number of the
 688  * current thread's DI.
 689  */
 690 static void
 691 pmap_delayed_invl_finish_l(void)
 692 {
 693         struct pmap_invl_gen *invl_gen, *next;
 694
 695         invl_gen = &curthread->td_md.md_invl_gen;
 696         KASSERT(invl_gen->gen != 0, ("missed invl_start"));
 697         mtx_lock(&invl_gen_mtx);
 698         next = LIST_NEXT(invl_gen, link);
 699         if (next == NULL)
 700                 pmap_delayed_invl_finish_unblock(invl_gen->gen);
 701         else
 702                 next->gen = invl_gen->gen;
 703         LIST_REMOVE(invl_gen, link);
 704         mtx_unlock(&invl_gen_mtx);
 705         invl_gen->gen = 0;
 706 }
 707
 708 static bool
 709 pmap_not_in_di_u(void)
 710 {
 711         struct pmap_invl_gen *invl_gen;
 712
 713         invl_gen = &curthread->td_md.md_invl_gen;
 714         return (((uintptr_t)invl_gen->next & PMAP_INVL_GEN_NEXT_INVALID) != 0);
 715 }
 716
 717 static void
 718 pmap_thread_init_invl_gen_u(struct thread *td)
 719 {
 720         struct pmap_invl_gen *invl_gen;
 721
 722         invl_gen = &td->td_md.md_invl_gen;
 723         invl_gen->gen = 0;
 724         invl_gen->next = (void *)PMAP_INVL_GEN_NEXT_INVALID;
 725 }
 726
 727 static bool
 728 pmap_di_load_invl(struct pmap_invl_gen *ptr, struct pmap_invl_gen *out)
 729 {
 730         uint64_t new_high, new_low, old_high, old_low;
 731         char res;
 732
 733         old_low = new_low = 0;
 734         old_high = new_high = (uintptr_t)0;
 735
 736         __asm volatile("lock;cmpxchg16b\t%1"
 737             : "=@cce" (res), "+m" (*ptr), "+a" (old_low), "+d" (old_high)
 738             : "b"(new_low), "c" (new_high)
 739             : "memory", "cc");
 740         if (res == 0) {
 741                 if ((old_high & PMAP_INVL_GEN_NEXT_INVALID) != 0)
 742                         return (false);
 743                 out->gen = old_low;
 744                 out->next = (void *)old_high;
 745         } else {
 746                 out->gen = new_low;
 747                 out->next = (void *)new_high;
 748         }
 749         return (true);
 750 }
 751
 752 static bool
 753 pmap_di_store_invl(struct pmap_invl_gen *ptr, struct pmap_invl_gen *old_val,
 754     struct pmap_invl_gen *new_val)
 755 {
 756         uint64_t new_high, new_low, old_high, old_low;
 757         char res;
 758
 759         new_low = new_val->gen;
 760         new_high = (uintptr_t)new_val->next;
 761         old_low = old_val->gen;
 762         old_high = (uintptr_t)old_val->next;
 763
 764         __asm volatile("lock;cmpxchg16b\t%1"
 765             : "=@cce" (res), "+m" (*ptr), "+a" (old_low), "+d" (old_high)
 766             : "b"(new_low), "c" (new_high)
 767             : "memory", "cc");
 768         return (res);
 769 }
 770
 771 #ifdef PV_STATS
 772 static long invl_start_restart;
 773 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_start_restart, CTLFLAG_RD,
 774     &invl_start_restart, 0,
 775     "");
 776 static long invl_finish_restart;
 777 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_finish_restart, CTLFLAG_RD,
 778     &invl_finish_restart, 0,
 779     "");
 780 static int invl_max_qlen;
 781 SYSCTL_INT(_vm_pmap, OID_AUTO, invl_max_qlen, CTLFLAG_RD,
 782     &invl_max_qlen, 0,
 783     "");
 784 #endif
 785
 786 #define di_delay        locks_delay
 787
 788 static void
 789 pmap_delayed_invl_start_u(void)
 790 {
 791         struct pmap_invl_gen *invl_gen, *p, prev, new_prev;
 792         struct thread *td;
 793         struct lock_delay_arg lda;
 794         uintptr_t prevl;
 795         u_char pri;
 796 #ifdef PV_STATS
 797         int i, ii;
 798 #endif
 799
 800         td = curthread;
 801         invl_gen = &td->td_md.md_invl_gen;
 802         PMAP_ASSERT_NOT_IN_DI();
 803         lock_delay_arg_init(&lda, &di_delay);
 804         invl_gen->saved_pri = 0;
 805         pri = td->td_base_pri;
 806         if (pri > PVM) {
 807                 thread_lock(td);
 808                 pri = td->td_base_pri;
 809                 if (pri > PVM) {
 810                         invl_gen->saved_pri = pri;
 811                         sched_prio(td, PVM);
 812                 }
 813                 thread_unlock(td);
 814         }
 815 again:
 816         PV_STAT(i = 0);
 817         for (p = &pmap_invl_gen_head;; p = prev.next) {
 818                 PV_STAT(i++);
 819                 prevl = (uintptr_t)atomic_load_ptr(&p->next);
 820                 if ((prevl & PMAP_INVL_GEN_NEXT_INVALID) != 0) {
 821                         PV_STAT(atomic_add_long(&invl_start_restart, 1));
 822                         lock_delay(&lda);
 823                         goto again;
 824                 }
 825                 if (prevl == 0)
 826                         break;
 827                 prev.next = (void *)prevl;
 828         }
 829 #ifdef PV_STATS
 830         if ((ii = invl_max_qlen) < i)
 831                 atomic_cmpset_int(&invl_max_qlen, ii, i);
 832 #endif
 833
 834         if (!pmap_di_load_invl(p, &prev) || prev.next != NULL) {
 835                 PV_STAT(atomic_add_long(&invl_start_restart, 1));
 836                 lock_delay(&lda);
 837                 goto again;
 838         }
 839
 840         new_prev.gen = prev.gen;
 841         new_prev.next = invl_gen;
 842         invl_gen->gen = prev.gen + 1;
 843
 844         /* Formal fence between store to invl->gen and updating *p. */
 845         atomic_thread_fence_rel();
 846
 847         /*
 848          * After inserting an invl_gen element with invalid bit set,
 849          * this thread blocks any other thread trying to enter the
 850          * delayed invalidation block.  Do not allow to remove us from
 851          * the CPU, because it causes starvation for other threads.
 852          */
 853         critical_enter();
 854
 855         /*
 856          * ABA for *p is not possible there, since p->gen can only
 857          * increase.  So if the *p thread finished its di, then
 858          * started a new one and got inserted into the list at the
 859          * same place, its gen will appear greater than the previously
 860          * read gen.
 861          */
 862         if (!pmap_di_store_invl(p, &prev, &new_prev)) {
 863                 critical_exit();
 864                 PV_STAT(atomic_add_long(&invl_start_restart, 1));
 865                 lock_delay(&lda);
 866                 goto again;
 867         }
 868
 869         /*
 870          * There we clear PMAP_INVL_GEN_NEXT_INVALID in
 871          * invl_gen->next, allowing other threads to iterate past us.
 872          * pmap_di_store_invl() provides fence between the generation
 873          * write and the update of next.
 874          */
 875         invl_gen->next = NULL;
 876         critical_exit();
 877 }
 878
 879 static bool
 880 pmap_delayed_invl_finish_u_crit(struct pmap_invl_gen *invl_gen,
 881     struct pmap_invl_gen *p)
 882 {
 883         struct pmap_invl_gen prev, new_prev;
 884         u_long mygen;
 885
 886         /*
 887          * Load invl_gen->gen after setting invl_gen->next
 888          * PMAP_INVL_GEN_NEXT_INVALID.  This prevents larger
 889          * generations to propagate to our invl_gen->gen.  Lock prefix
 890          * in atomic_set_ptr() worked as seq_cst fence.
 891          */
 892         mygen = atomic_load_long(&invl_gen->gen);
 893
 894         if (!pmap_di_load_invl(p, &prev) || prev.next != invl_gen)
 895                 return (false);
 896
 897         KASSERT(prev.gen < mygen,
 898             ("invalid di gen sequence %lu %lu", prev.gen, mygen));
 899         new_prev.gen = mygen;
 900         new_prev.next = (void *)((uintptr_t)invl_gen->next &
 901             ~PMAP_INVL_GEN_NEXT_INVALID);
 902
 903         /* Formal fence between load of prev and storing update to it. */
 904         atomic_thread_fence_rel();
 905
 906         return (pmap_di_store_invl(p, &prev, &new_prev));
 907 }
 908
 909 static void
 910 pmap_delayed_invl_finish_u(void)
 911 {
 912         struct pmap_invl_gen *invl_gen, *p;
 913         struct thread *td;
 914         struct lock_delay_arg lda;
 915         uintptr_t prevl;
 916
 917         td = curthread;
 918         invl_gen = &td->td_md.md_invl_gen;
 919         KASSERT(invl_gen->gen != 0, ("missed invl_start: gen 0"));
 920         KASSERT(((uintptr_t)invl_gen->next & PMAP_INVL_GEN_NEXT_INVALID) == 0,
 921             ("missed invl_start: INVALID"));
 922         lock_delay_arg_init(&lda, &di_delay);
 923
 924 again:
 925         for (p = &pmap_invl_gen_head; p != NULL; p = (void *)prevl) {
 926                 prevl = (uintptr_t)atomic_load_ptr(&p->next);
 927                 if ((prevl & PMAP_INVL_GEN_NEXT_INVALID) != 0) {
 928                         PV_STAT(atomic_add_long(&invl_finish_restart, 1));
 929                         lock_delay(&lda);
 930                         goto again;
 931                 }
 932                 if ((void *)prevl == invl_gen)
 933                         break;
 934         }
 935
 936         /*
 937          * It is legitimate to not find ourself on the list if a
 938          * thread before us finished its DI and started it again.
 939          */
 940         if (__predict_false(p == NULL)) {
 941                 PV_STAT(atomic_add_long(&invl_finish_restart, 1));
 942                 lock_delay(&lda);
 943                 goto again;
 944         }
 945
 946         critical_enter();
 947         atomic_set_ptr((uintptr_t *)&invl_gen->next,
 948             PMAP_INVL_GEN_NEXT_INVALID);
 949         if (!pmap_delayed_invl_finish_u_crit(invl_gen, p)) {
 950                 atomic_clear_ptr((uintptr_t *)&invl_gen->next,
 951                     PMAP_INVL_GEN_NEXT_INVALID);
 952                 critical_exit();
 953                 PV_STAT(atomic_add_long(&invl_finish_restart, 1));
 954                 lock_delay(&lda);
 955                 goto again;
 956         }
 957         critical_exit();
 958         if (atomic_load_int(&pmap_invl_waiters) > 0)
 959                 pmap_delayed_invl_finish_unblock(0);
 960         if (invl_gen->saved_pri != 0) {
 961                 thread_lock(td);
 962                 sched_prio(td, invl_gen->saved_pri);
 963                 thread_unlock(td);
 964         }
 965 }
 966
 967 #ifdef DDB
 968 DB_SHOW_COMMAND(di_queue, pmap_di_queue)
 969 {
 970         struct pmap_invl_gen *p, *pn;
 971         struct thread *td;
 972         uintptr_t nextl;
 973         bool first;
 974
 975         for (p = &pmap_invl_gen_head, first = true; p != NULL; p = pn,
 976             first = false) {
 977                 nextl = (uintptr_t)atomic_load_ptr(&p->next);
 978                 pn = (void *)(nextl & ~PMAP_INVL_GEN_NEXT_INVALID);
 979                 td = first ? NULL : __containerof(p, struct thread,
 980                     td_md.md_invl_gen);
 981                 db_printf("gen %lu inv %d td %p tid %d\n", p->gen,
 982                     (nextl & PMAP_INVL_GEN_NEXT_INVALID) != 0, td,
 983                     td != NULL ? td->td_tid : -1);
 984         }
 985 }
 986 #endif
 987
 988 #ifdef PV_STATS
 989 static long invl_wait;
 990 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_wait, CTLFLAG_RD, &invl_wait, 0,
 991     "Number of times DI invalidation blocked pmap_remove_all/write");
 992 static long invl_wait_slow;
 993 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_wait_slow, CTLFLAG_RD, &invl_wait_slow, 0,
 994     "Number of slow invalidation waits for lockless DI");
 995 #endif
 996
 997 #ifdef NUMA
 998 static u_long *
 999 pmap_delayed_invl_genp(vm_page_t m)
1000 {
1001         vm_paddr_t pa;
1002         u_long *gen;
1003
1004         pa = VM_PAGE_TO_PHYS(m);
1005         if (__predict_false((pa) > pmap_last_pa))
1006                 gen = &pv_dummy_large.pv_invl_gen;
1007         else
1008                 gen = &(pa_to_pmdp(pa)->pv_invl_gen);
1009
1010         return (gen);
1011 }
1012 #else
1013 static u_long *
1014 pmap_delayed_invl_genp(vm_page_t m)
1015 {
1016
1017         return (&pv_invl_gen[pa_index(VM_PAGE_TO_PHYS(m)) % NPV_LIST_LOCKS]);
1018 }
1019 #endif
1020
1021 static void
1022 pmap_delayed_invl_callout_func(void *arg __unused)
1023 {
1024
1025         if (atomic_load_int(&pmap_invl_waiters) == 0)
1026                 return;
1027         pmap_delayed_invl_finish_unblock(0);
1028 }
1029
1030 static void
1031 pmap_delayed_invl_callout_init(void *arg __unused)
1032 {
1033
1034         if (pmap_di_locked())
1035                 return;
1036         callout_init(&pmap_invl_callout, 1);
1037         pmap_invl_callout_inited = true;
1038 }
1039 SYSINIT(pmap_di_callout, SI_SUB_CPU + 1, SI_ORDER_ANY,
1040     pmap_delayed_invl_callout_init, NULL);
1041
1042 /*
1043  * Ensure that all currently executing DI blocks, that need to flush
1044  * TLB for the given page m, actually flushed the TLB at the time the
1045  * function returned.  If the page m has an empty PV list and we call
1046  * pmap_delayed_invl_wait(), upon its return we know that no CPU has a
1047  * valid mapping for the page m in either its page table or TLB.
1048  *
1049  * This function works by blocking until the global DI generation
1050  * number catches up with the generation number associated with the
1051  * given page m and its PV list.  Since this function's callers
1052  * typically own an object lock and sometimes own a page lock, it
1053  * cannot sleep.  Instead, it blocks on a turnstile to relinquish the
1054  * processor.
1055  */
1056 static void
1057 pmap_delayed_invl_wait_l(vm_page_t m)
1058 {
1059         u_long *m_gen;
1060 #ifdef PV_STATS
1061         bool accounted = false;
1062 #endif
1063
1064         m_gen = pmap_delayed_invl_genp(m);
1065         while (*m_gen > pmap_invl_gen) {
1066 #ifdef PV_STATS
1067                 if (!accounted) {
1068                         atomic_add_long(&invl_wait, 1);
1069                         accounted = true;
1070                 }
1071 #endif
1072                 pmap_delayed_invl_wait_block(m_gen, &pmap_invl_gen);
1073         }
1074 }
1075
1076 static void
1077 pmap_delayed_invl_wait_u(vm_page_t m)
1078 {
1079         u_long *m_gen;
1080         struct lock_delay_arg lda;
1081         bool fast;
1082
1083         fast = true;
1084         m_gen = pmap_delayed_invl_genp(m);
1085         lock_delay_arg_init(&lda, &di_delay);
1086         while (*m_gen > atomic_load_long(&pmap_invl_gen_head.gen)) {
1087                 if (fast || !pmap_invl_callout_inited) {
1088                         PV_STAT(atomic_add_long(&invl_wait, 1));
1089                         lock_delay(&lda);
1090                         fast = false;
1091                 } else {
1092                         /*
1093                          * The page's invalidation generation number
1094                          * is still below the current thread's number.
1095                          * Prepare to block so that we do not waste
1096                          * CPU cycles or worse, suffer livelock.
1097                          *
1098                          * Since it is impossible to block without
1099                          * racing with pmap_delayed_invl_finish_u(),
1100                          * prepare for the race by incrementing
1101                          * pmap_invl_waiters and arming a 1-tick
1102                          * callout which will unblock us if we lose
1103                          * the race.
1104                          */
1105                         atomic_add_int(&pmap_invl_waiters, 1);
1106
1107                         /*
1108                          * Re-check the current thread's invalidation
1109                          * generation after incrementing
1110                          * pmap_invl_waiters, so that there is no race
1111                          * with pmap_delayed_invl_finish_u() setting
1112                          * the page generation and checking
1113                          * pmap_invl_waiters.  The only race allowed
1114                          * is for a missed unblock, which is handled
1115                          * by the callout.
1116                          */
1117                         if (*m_gen >
1118                             atomic_load_long(&pmap_invl_gen_head.gen)) {
1119                                 callout_reset(&pmap_invl_callout, 1,
1120                                     pmap_delayed_invl_callout_func, NULL);
1121                                 PV_STAT(atomic_add_long(&invl_wait_slow, 1));
1122                                 pmap_delayed_invl_wait_block(m_gen,
1123                                     &pmap_invl_gen_head.gen);
1124                         }
1125                         atomic_add_int(&pmap_invl_waiters, -1);
1126                 }
1127         }
1128 }
1129
1130 DEFINE_IFUNC(, void, pmap_thread_init_invl_gen, (struct thread *))
1131 {
1132
1133         return (pmap_di_locked() ? pmap_thread_init_invl_gen_l :
1134             pmap_thread_init_invl_gen_u);
1135 }
1136
1137 DEFINE_IFUNC(static, void, pmap_delayed_invl_start, (void))
1138 {
1139
1140         return (pmap_di_locked() ? pmap_delayed_invl_start_l :
1141             pmap_delayed_invl_start_u);
1142 }
1143
1144 DEFINE_IFUNC(static, void, pmap_delayed_invl_finish, (void))
1145 {
1146
1147         return (pmap_di_locked() ? pmap_delayed_invl_finish_l :
1148             pmap_delayed_invl_finish_u);
1149 }
1150
1151 DEFINE_IFUNC(static, void, pmap_delayed_invl_wait, (vm_page_t))
1152 {
1153
1154         return (pmap_di_locked() ? pmap_delayed_invl_wait_l :
1155             pmap_delayed_invl_wait_u);
1156 }
1157
1158 /*
1159  * Mark the page m's PV list as participating in the current thread's
1160  * DI block.  Any threads concurrently using m's PV list to remove or
1161  * restrict all mappings to m will wait for the current thread's DI
1162  * block to complete before proceeding.
1163  *
1164  * The function works by setting the DI generation number for m's PV
1165  * list to at least the DI generation number of the current thread.
1166  * This forces a caller of pmap_delayed_invl_wait() to block until
1167  * current thread calls pmap_delayed_invl_finish().
1168  */
1169 static void
1170 pmap_delayed_invl_page(vm_page_t m)
1171 {
1172         u_long gen, *m_gen;
1173
1174         rw_assert(VM_PAGE_TO_PV_LIST_LOCK(m), RA_WLOCKED);
1175         gen = curthread->td_md.md_invl_gen.gen;
1176         if (gen == 0)
1177                 return;
1178         m_gen = pmap_delayed_invl_genp(m);
1179         if (*m_gen < gen)
1180                 *m_gen = gen;
1181 }
1182
1183 /*
1184  * Crashdump maps.
1185  */
1186 static caddr_t crashdumpmap;
1187
1188 /*
1189  * Internal flags for pmap_enter()'s helper functions.
1190  */
1191 #define PMAP_ENTER_NORECLAIM    0x1000000       /* Don't reclaim PV entries. */
1192 #define PMAP_ENTER_NOREPLACE    0x2000000       /* Don't replace mappings. */
1193
1194 /*
1195  * Internal flags for pmap_mapdev_internal() and
1196  * pmap_change_props_locked().
1197  */
1198 #define MAPDEV_FLUSHCACHE       0x00000001      /* Flush cache after mapping. */
1199 #define MAPDEV_SETATTR          0x00000002      /* Modify existing attrs. */
1200 #define MAPDEV_ASSERTVALID      0x00000004      /* Assert mapping validity. */
1201
1202 TAILQ_HEAD(pv_chunklist, pv_chunk);
1203
1204 static void     free_pv_chunk(struct pv_chunk *pc);
1205 static void     free_pv_chunk_batch(struct pv_chunklist *batch);
1206 static void     free_pv_entry(pmap_t pmap, pv_entry_t pv);
1207 static pv_entry_t get_pv_entry(pmap_t pmap, struct rwlock **lockp);
1208 static int      popcnt_pc_map_pq(uint64_t *map);
1209 static vm_page_t reclaim_pv_chunk(pmap_t locked_pmap, struct rwlock **lockp);
1210 static void     reserve_pv_entries(pmap_t pmap, int needed,
1211                     struct rwlock **lockp);
1212 static void     pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
1213                     struct rwlock **lockp);
1214 static bool     pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, pd_entry_t pde,
1215                     u_int flags, struct rwlock **lockp);
1216 #if VM_NRESERVLEVEL > 0
1217 static void     pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
1218                     struct rwlock **lockp);
1219 #endif
1220 static void     pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va);
1221 static pv_entry_t pmap_pvh_remove(struct md_page *pvh, pmap_t pmap,
1222                     vm_offset_t va);
1223
1224 static void     pmap_abort_ptp(pmap_t pmap, vm_offset_t va, vm_page_t mpte);
1225 static int pmap_change_props_locked(vm_offset_t va, vm_size_t size,
1226     vm_prot_t prot, int mode, int flags);
1227 static boolean_t pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va);
1228 static boolean_t pmap_demote_pde_locked(pmap_t pmap, pd_entry_t *pde,
1229     vm_offset_t va, struct rwlock **lockp);
1230 static boolean_t pmap_demote_pdpe(pmap_t pmap, pdp_entry_t *pdpe,
1231     vm_offset_t va);
1232 static bool     pmap_enter_2mpage(pmap_t pmap, vm_offset_t va, vm_page_t m,
1233                     vm_prot_t prot, struct rwlock **lockp);
1234 static int      pmap_enter_pde(pmap_t pmap, vm_offset_t va, pd_entry_t newpde,
1235                     u_int flags, vm_page_t m, struct rwlock **lockp);
1236 static vm_page_t pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va,
1237     vm_page_t m, vm_prot_t prot, vm_page_t mpte, struct rwlock **lockp);
1238 static void pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte);
1239 static int pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte, bool promoted);
1240 static void pmap_invalidate_cache_range_selfsnoop(vm_offset_t sva,
1241     vm_offset_t eva);
1242 static void pmap_invalidate_cache_range_all(vm_offset_t sva,
1243     vm_offset_t eva);
1244 static void pmap_invalidate_pde_page(pmap_t pmap, vm_offset_t va,
1245                     pd_entry_t pde);
1246 static void pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode);
1247 static vm_page_t pmap_large_map_getptp_unlocked(void);
1248 static vm_paddr_t pmap_large_map_kextract(vm_offset_t va);
1249 #if VM_NRESERVLEVEL > 0
1250 static void pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
1251     struct rwlock **lockp);
1252 #endif
1253 static boolean_t pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva,
1254     vm_prot_t prot);
1255 static void pmap_pte_props(pt_entry_t *pte, u_long bits, u_long mask);
1256 static void pmap_pti_add_kva_locked(vm_offset_t sva, vm_offset_t eva,
1257     bool exec);
1258 static pdp_entry_t *pmap_pti_pdpe(vm_offset_t va);
1259 static pd_entry_t *pmap_pti_pde(vm_offset_t va);
1260 static void pmap_pti_wire_pte(void *pte);
1261 static int pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
1262     struct spglist *free, struct rwlock **lockp);
1263 static int pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t sva,
1264     pd_entry_t ptepde, struct spglist *free, struct rwlock **lockp);
1265 static vm_page_t pmap_remove_pt_page(pmap_t pmap, vm_offset_t va);
1266 static void pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
1267     struct spglist *free);
1268 static bool     pmap_remove_ptes(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
1269                     pd_entry_t *pde, struct spglist *free,
1270                     struct rwlock **lockp);
1271 static boolean_t pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va,
1272     vm_page_t m, struct rwlock **lockp);
1273 static void pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
1274     pd_entry_t newpde);
1275 static void pmap_update_pde_invalidate(pmap_t, vm_offset_t va, pd_entry_t pde);
1276
1277 static vm_page_t _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex,
1278                 struct rwlock **lockp, vm_offset_t va);
1279 static pd_entry_t *pmap_alloc_pde(pmap_t pmap, vm_offset_t va, vm_page_t *pdpgp,
1280                 struct rwlock **lockp);
1281 static vm_page_t pmap_allocpte(pmap_t pmap, vm_offset_t va,
1282                 struct rwlock **lockp);
1283
1284 static void _pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m,
1285     struct spglist *free);
1286 static int pmap_unuse_pt(pmap_t, vm_offset_t, pd_entry_t, struct spglist *);
1287
1288 /********************/
1289 /* Inline functions */
1290 /********************/
1291
1292 /*
1293  * Return a non-clipped indexes for a given VA, which are page table
1294  * pages indexes at the corresponding level.
1295  */
1296 static __inline vm_pindex_t
1297 pmap_pde_pindex(vm_offset_t va)
1298 {
1299         return (va >> PDRSHIFT);
1300 }
1301
1302 static __inline vm_pindex_t
1303 pmap_pdpe_pindex(vm_offset_t va)
1304 {
1305         return (NUPDE + (va >> PDPSHIFT));
1306 }
1307
1308 static __inline vm_pindex_t
1309 pmap_pml4e_pindex(vm_offset_t va)
1310 {
1311         return (NUPDE + NUPDPE + (va >> PML4SHIFT));
1312 }
1313
1314 static __inline vm_pindex_t
1315 pmap_pml5e_pindex(vm_offset_t va)
1316 {
1317         return (NUPDE + NUPDPE + NUPML4E + (va >> PML5SHIFT));
1318 }
1319
1320 static __inline pml4_entry_t *
1321 pmap_pml5e(pmap_t pmap, vm_offset_t va)
1322 {
1323
1324         MPASS(pmap_is_la57(pmap));
1325         return (&pmap->pm_pmltop[pmap_pml5e_index(va)]);
1326 }
1327
1328 static __inline pml4_entry_t *
1329 pmap_pml5e_u(pmap_t pmap, vm_offset_t va)
1330 {
1331
1332         MPASS(pmap_is_la57(pmap));
1333         return (&pmap->pm_pmltopu[pmap_pml5e_index(va)]);
1334 }
1335
1336 static __inline pml4_entry_t *
1337 pmap_pml5e_to_pml4e(pml5_entry_t *pml5e, vm_offset_t va)
1338 {
1339         pml4_entry_t *pml4e;
1340
1341         /* XXX MPASS(pmap_is_la57(pmap); */
1342         pml4e = (pml4_entry_t *)PHYS_TO_DMAP(*pml5e & PG_FRAME);
1343         return (&pml4e[pmap_pml4e_index(va)]);
1344 }
1345
1346 /* Return a pointer to the PML4 slot that corresponds to a VA */
1347 static __inline pml4_entry_t *
1348 pmap_pml4e(pmap_t pmap, vm_offset_t va)
1349 {
1350         pml5_entry_t *pml5e;
1351         pml4_entry_t *pml4e;
1352         pt_entry_t PG_V;
1353
1354         if (pmap_is_la57(pmap)) {
1355                 pml5e = pmap_pml5e(pmap, va);
1356                 PG_V = pmap_valid_bit(pmap);
1357                 if ((*pml5e & PG_V) == 0)
1358                         return (NULL);
1359                 pml4e = (pml4_entry_t *)PHYS_TO_DMAP(*pml5e & PG_FRAME);
1360         } else {
1361                 pml4e = pmap->pm_pmltop;
1362         }
1363         return (&pml4e[pmap_pml4e_index(va)]);
1364 }
1365
1366 static __inline pml4_entry_t *
1367 pmap_pml4e_u(pmap_t pmap, vm_offset_t va)
1368 {
1369         MPASS(!pmap_is_la57(pmap));
1370         return (&pmap->pm_pmltopu[pmap_pml4e_index(va)]);
1371 }
1372
1373 /* Return a pointer to the PDP slot that corresponds to a VA */
1374 static __inline pdp_entry_t *
1375 pmap_pml4e_to_pdpe(pml4_entry_t *pml4e, vm_offset_t va)
1376 {
1377         pdp_entry_t *pdpe;
1378
1379         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(*pml4e & PG_FRAME);
1380         return (&pdpe[pmap_pdpe_index(va)]);
1381 }
1382
1383 /* Return a pointer to the PDP slot that corresponds to a VA */
1384 static __inline pdp_entry_t *
1385 pmap_pdpe(pmap_t pmap, vm_offset_t va)
1386 {
1387         pml4_entry_t *pml4e;
1388         pt_entry_t PG_V;
1389
1390         PG_V = pmap_valid_bit(pmap);
1391         pml4e = pmap_pml4e(pmap, va);
1392         if (pml4e == NULL || (*pml4e & PG_V) == 0)
1393                 return (NULL);
1394         return (pmap_pml4e_to_pdpe(pml4e, va));
1395 }
1396
1397 /* Return a pointer to the PD slot that corresponds to a VA */
1398 static __inline pd_entry_t *
1399 pmap_pdpe_to_pde(pdp_entry_t *pdpe, vm_offset_t va)
1400 {
1401         pd_entry_t *pde;
1402
1403         KASSERT((*pdpe & PG_PS) == 0,
1404             ("%s: pdpe %#lx is a leaf", __func__, *pdpe));
1405         pde = (pd_entry_t *)PHYS_TO_DMAP(*pdpe & PG_FRAME);
1406         return (&pde[pmap_pde_index(va)]);
1407 }
1408
1409 /* Return a pointer to the PD slot that corresponds to a VA */
1410 static __inline pd_entry_t *
1411 pmap_pde(pmap_t pmap, vm_offset_t va)
1412 {
1413         pdp_entry_t *pdpe;
1414         pt_entry_t PG_V;
1415
1416         PG_V = pmap_valid_bit(pmap);
1417         pdpe = pmap_pdpe(pmap, va);
1418         if (pdpe == NULL || (*pdpe & PG_V) == 0)
1419                 return (NULL);
1420         KASSERT((*pdpe & PG_PS) == 0,
1421             ("pmap_pde for 1G page, pmap %p va %#lx", pmap, va));
1422         return (pmap_pdpe_to_pde(pdpe, va));
1423 }
1424
1425 /* Return a pointer to the PT slot that corresponds to a VA */
1426 static __inline pt_entry_t *
1427 pmap_pde_to_pte(pd_entry_t *pde, vm_offset_t va)
1428 {
1429         pt_entry_t *pte;
1430
1431         KASSERT((*pde & PG_PS) == 0,
1432             ("%s: pde %#lx is a leaf", __func__, *pde));
1433         pte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
1434         return (&pte[pmap_pte_index(va)]);
1435 }
1436
1437 /* Return a pointer to the PT slot that corresponds to a VA */
1438 static __inline pt_entry_t *
1439 pmap_pte(pmap_t pmap, vm_offset_t va)
1440 {
1441         pd_entry_t *pde;
1442         pt_entry_t PG_V;
1443
1444         PG_V = pmap_valid_bit(pmap);
1445         pde = pmap_pde(pmap, va);
1446         if (pde == NULL || (*pde & PG_V) == 0)
1447                 return (NULL);
1448         if ((*pde & PG_PS) != 0)        /* compat with i386 pmap_pte() */
1449                 return ((pt_entry_t *)pde);
1450         return (pmap_pde_to_pte(pde, va));
1451 }
1452
1453 static __inline void
1454 pmap_resident_count_inc(pmap_t pmap, int count)
1455 {
1456
1457         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1458         pmap->pm_stats.resident_count += count;
1459 }
1460
1461 static __inline void
1462 pmap_resident_count_dec(pmap_t pmap, int count)
1463 {
1464
1465         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1466         KASSERT(pmap->pm_stats.resident_count >= count,
1467             ("pmap %p resident count underflow %ld %d", pmap,
1468             pmap->pm_stats.resident_count, count));
1469         pmap->pm_stats.resident_count -= count;
1470 }
1471
1472 PMAP_INLINE pt_entry_t *
1473 vtopte(vm_offset_t va)
1474 {
1475         u_int64_t mask;
1476
1477         KASSERT(va >= VM_MAXUSER_ADDRESS, ("vtopte on a uva/gpa 0x%0lx", va));
1478
1479         if (la57) {
1480                 mask = ((1ul << (NPTEPGSHIFT + NPDEPGSHIFT + NPDPEPGSHIFT +
1481                     NPML4EPGSHIFT + NPML5EPGSHIFT)) - 1);
1482                 return (P5Tmap + ((va >> PAGE_SHIFT) & mask));
1483         } else {
1484                 mask = ((1ul << (NPTEPGSHIFT + NPDEPGSHIFT + NPDPEPGSHIFT +
1485                     NPML4EPGSHIFT)) - 1);
1486                 return (P4Tmap + ((va >> PAGE_SHIFT) & mask));
1487         }
1488 }
1489
1490 static __inline pd_entry_t *
1491 vtopde(vm_offset_t va)
1492 {
1493         u_int64_t mask;
1494
1495         KASSERT(va >= VM_MAXUSER_ADDRESS, ("vtopde on a uva/gpa 0x%0lx", va));
1496
1497         if (la57) {
1498                 mask = ((1ul << (NPDEPGSHIFT + NPDPEPGSHIFT +
1499                     NPML4EPGSHIFT + NPML5EPGSHIFT)) - 1);
1500                 return (P5Dmap + ((va >> PDRSHIFT) & mask));
1501         } else {
1502                 mask = ((1ul << (NPDEPGSHIFT + NPDPEPGSHIFT +
1503                     NPML4EPGSHIFT)) - 1);
1504                 return (P4Dmap + ((va >> PDRSHIFT) & mask));
1505         }
1506 }
1507
1508 static u_int64_t
1509 allocpages(vm_paddr_t *firstaddr, int n)
1510 {
1511         u_int64_t ret;
1512
1513         ret = *firstaddr;
1514         bzero((void *)ret, n * PAGE_SIZE);
1515         *firstaddr += n * PAGE_SIZE;
1516         return (ret);
1517 }
1518
1519 CTASSERT(powerof2(NDMPML4E));
1520
1521 /* number of kernel PDP slots */
1522 #define NKPDPE(ptpgs)           howmany(ptpgs, NPDEPG)
1523
1524 static void
1525 nkpt_init(vm_paddr_t addr)
1526 {
1527         int pt_pages;
1528
1529 #ifdef NKPT
1530         pt_pages = NKPT;
1531 #else
1532         pt_pages = howmany(addr, 1 << PDRSHIFT);
1533         pt_pages += NKPDPE(pt_pages);
1534
1535         /*
1536          * Add some slop beyond the bare minimum required for bootstrapping
1537          * the kernel.
1538          *
1539          * This is quite important when allocating KVA for kernel modules.
1540          * The modules are required to be linked in the negative 2GB of
1541          * the address space.  If we run out of KVA in this region then
1542          * pmap_growkernel() will need to allocate page table pages to map
1543          * the entire 512GB of KVA space which is an unnecessary tax on
1544          * physical memory.
1545          *
1546          * Secondly, device memory mapped as part of setting up the low-
1547          * level console(s) is taken from KVA, starting at virtual_avail.
1548          * This is because cninit() is called after pmap_bootstrap() but
1549          * before vm_init() and pmap_init(). 20MB for a frame buffer is
1550          * not uncommon.
1551          */
1552         pt_pages += 32;         /* 64MB additional slop. */
1553 #endif
1554         nkpt = pt_pages;
1555 }
1556
1557 /*
1558  * Returns the proper write/execute permission for a physical page that is
1559  * part of the initial boot allocations.
1560  *
1561  * If the page has kernel text, it is marked as read-only. If the page has
1562  * kernel read-only data, it is marked as read-only/not-executable. If the
1563  * page has only read-write data, it is marked as read-write/not-executable.
1564  * If the page is below/above the kernel range, it is marked as read-write.
1565  *
1566  * This function operates on 2M pages, since we map the kernel space that
1567  * way.
1568  */
1569 static inline pt_entry_t
1570 bootaddr_rwx(vm_paddr_t pa)
1571 {
1572
1573         /*
1574          * The kernel is loaded at a 2MB-aligned address, and memory below that
1575          * need not be executable.  The .bss section is padded to a 2MB
1576          * boundary, so memory following the kernel need not be executable
1577          * either.  Preloaded kernel modules have their mapping permissions
1578          * fixed up by the linker.
1579          */
1580         if (pa < trunc_2mpage(btext - KERNBASE) ||
1581             pa >= trunc_2mpage(_end - KERNBASE))
1582                 return (X86_PG_RW | pg_nx);
1583
1584         /*
1585          * The linker should ensure that the read-only and read-write
1586          * portions don't share the same 2M page, so this shouldn't
1587          * impact read-only data. However, in any case, any page with
1588          * read-write data needs to be read-write.
1589          */
1590         if (pa >= trunc_2mpage(brwsection - KERNBASE))
1591                 return (X86_PG_RW | pg_nx);
1592
1593         /*
1594          * Mark any 2M page containing kernel text as read-only. Mark
1595          * other pages with read-only data as read-only and not executable.
1596          * (It is likely a small portion of the read-only data section will
1597          * be marked as read-only, but executable. This should be acceptable
1598          * since the read-only protection will keep the data from changing.)
1599          * Note that fixups to the .text section will still work until we
1600          * set CR0.WP.
1601          */
1602         if (pa < round_2mpage(etext - KERNBASE))
1603                 return (0);
1604         return (pg_nx);
1605 }
1606
1607 static void
1608 create_pagetables(vm_paddr_t *firstaddr)
1609 {
1610         int i, j, ndm1g, nkpdpe, nkdmpde;
1611         pd_entry_t *pd_p;
1612         pdp_entry_t *pdp_p;
1613         pml4_entry_t *p4_p;
1614         uint64_t DMPDkernphys;
1615
1616         /* Allocate page table pages for the direct map */
1617         ndmpdp = howmany(ptoa(Maxmem), NBPDP);
1618         if (ndmpdp < 4)         /* Minimum 4GB of dirmap */
1619                 ndmpdp = 4;
1620         ndmpdpphys = howmany(ndmpdp, NPDPEPG);
1621         if (ndmpdpphys > NDMPML4E) {
1622                 /*
1623                  * Each NDMPML4E allows 512 GB, so limit to that,
1624                  * and then readjust ndmpdp and ndmpdpphys.
1625                  */
1626                 printf("NDMPML4E limits system to %d GB\n", NDMPML4E * 512);
1627                 Maxmem = atop(NDMPML4E * NBPML4);
1628                 ndmpdpphys = NDMPML4E;
1629                 ndmpdp = NDMPML4E * NPDEPG;
1630         }
1631         DMPDPphys = allocpages(firstaddr, ndmpdpphys);
1632         ndm1g = 0;
1633         if ((amd_feature & AMDID_PAGE1GB) != 0) {
1634                 /*
1635                  * Calculate the number of 1G pages that will fully fit in
1636                  * Maxmem.
1637                  */
1638                 ndm1g = ptoa(Maxmem) >> PDPSHIFT;
1639
1640                 /*
1641                  * Allocate 2M pages for the kernel. These will be used in
1642                  * place of the first one or more 1G pages from ndm1g.
1643                  */
1644                 nkdmpde = howmany((vm_offset_t)(brwsection - KERNBASE), NBPDP);
1645                 DMPDkernphys = allocpages(firstaddr, nkdmpde);
1646         }
1647         if (ndm1g < ndmpdp)
1648                 DMPDphys = allocpages(firstaddr, ndmpdp - ndm1g);
1649         dmaplimit = (vm_paddr_t)ndmpdp << PDPSHIFT;
1650
1651         /* Allocate pages */
1652         KPML4phys = allocpages(firstaddr, 1);
1653         KPDPphys = allocpages(firstaddr, NKPML4E);
1654
1655         /*
1656          * Allocate the initial number of kernel page table pages required to
1657          * bootstrap.  We defer this until after all memory-size dependent
1658          * allocations are done (e.g. direct map), so that we don't have to
1659          * build in too much slop in our estimate.
1660          *
1661          * Note that when NKPML4E > 1, we have an empty page underneath
1662          * all but the KPML4I'th one, so we need NKPML4E-1 extra (zeroed)
1663          * pages.  (pmap_enter requires a PD page to exist for each KPML4E.)
1664          */
1665         nkpt_init(*firstaddr);
1666         nkpdpe = NKPDPE(nkpt);
1667
1668         KPTphys = allocpages(firstaddr, nkpt);
1669         KPDphys = allocpages(firstaddr, nkpdpe);
1670
1671         /*
1672          * Connect the zero-filled PT pages to their PD entries.  This
1673          * implicitly maps the PT pages at their correct locations within
1674          * the PTmap.
1675          */
1676         pd_p = (pd_entry_t *)KPDphys;
1677         for (i = 0; i < nkpt; i++)
1678                 pd_p[i] = (KPTphys + ptoa(i)) | X86_PG_RW | X86_PG_V;
1679
1680         /*
1681          * Map from physical address zero to the end of loader preallocated
1682          * memory using 2MB pages.  This replaces some of the PD entries
1683          * created above.
1684          */
1685         for (i = 0; (i << PDRSHIFT) < KERNend; i++)
1686                 /* Preset PG_M and PG_A because demotion expects it. */
1687                 pd_p[i] = (i << PDRSHIFT) | X86_PG_V | PG_PS | pg_g |
1688                     X86_PG_M | X86_PG_A | bootaddr_rwx(i << PDRSHIFT);
1689
1690         /*
1691          * Because we map the physical blocks in 2M pages, adjust firstaddr
1692          * to record the physical blocks we've actually mapped into kernel
1693          * virtual address space.
1694          */
1695         if (*firstaddr < round_2mpage(KERNend))
1696                 *firstaddr = round_2mpage(KERNend);
1697
1698         /* And connect up the PD to the PDP (leaving room for L4 pages) */
1699         pdp_p = (pdp_entry_t *)(KPDPphys + ptoa(KPML4I - KPML4BASE));
1700         for (i = 0; i < nkpdpe; i++)
1701                 pdp_p[i + KPDPI] = (KPDphys + ptoa(i)) | X86_PG_RW | X86_PG_V;
1702
1703         /*
1704          * Now, set up the direct map region using 2MB and/or 1GB pages.  If
1705          * the end of physical memory is not aligned to a 1GB page boundary,
1706          * then the residual physical memory is mapped with 2MB pages.  Later,
1707          * if pmap_mapdev{_attr}() uses the direct map for non-write-back
1708          * memory, pmap_change_attr() will demote any 2MB or 1GB page mappings
1709          * that are partially used.
1710          */
1711         pd_p = (pd_entry_t *)DMPDphys;
1712         for (i = NPDEPG * ndm1g, j = 0; i < NPDEPG * ndmpdp; i++, j++) {
1713                 pd_p[j] = (vm_paddr_t)i << PDRSHIFT;
1714                 /* Preset PG_M and PG_A because demotion expects it. */
1715                 pd_p[j] |= X86_PG_RW | X86_PG_V | PG_PS | pg_g |
1716                     X86_PG_M | X86_PG_A | pg_nx;
1717         }
1718         pdp_p = (pdp_entry_t *)DMPDPphys;
1719         for (i = 0; i < ndm1g; i++) {
1720                 pdp_p[i] = (vm_paddr_t)i << PDPSHIFT;
1721                 /* Preset PG_M and PG_A because demotion expects it. */
1722                 pdp_p[i] |= X86_PG_RW | X86_PG_V | PG_PS | pg_g |
1723                     X86_PG_M | X86_PG_A | pg_nx;
1724         }
1725         for (j = 0; i < ndmpdp; i++, j++) {
1726                 pdp_p[i] = DMPDphys + ptoa(j);
1727                 pdp_p[i] |= X86_PG_RW | X86_PG_V | pg_nx;
1728         }
1729
1730         /*
1731          * Instead of using a 1G page for the memory containing the kernel,
1732          * use 2M pages with read-only and no-execute permissions.  (If using 1G
1733          * pages, this will partially overwrite the PDPEs above.)
1734          */
1735         if (ndm1g) {
1736                 pd_p = (pd_entry_t *)DMPDkernphys;
1737                 for (i = 0; i < (NPDEPG * nkdmpde); i++)
1738                         pd_p[i] = (i << PDRSHIFT) | X86_PG_V | PG_PS | pg_g |
1739                             X86_PG_M | X86_PG_A | pg_nx |
1740                             bootaddr_rwx(i << PDRSHIFT);
1741                 for (i = 0; i < nkdmpde; i++)
1742                         pdp_p[i] = (DMPDkernphys + ptoa(i)) | X86_PG_RW |
1743                             X86_PG_V | pg_nx;
1744         }
1745
1746         /* And recursively map PML4 to itself in order to get PTmap */
1747         p4_p = (pml4_entry_t *)KPML4phys;
1748         p4_p[PML4PML4I] = KPML4phys;
1749         p4_p[PML4PML4I] |= X86_PG_RW | X86_PG_V | pg_nx;
1750
1751         /* Connect the Direct Map slot(s) up to the PML4. */
1752         for (i = 0; i < ndmpdpphys; i++) {
1753                 p4_p[DMPML4I + i] = DMPDPphys + ptoa(i);
1754                 p4_p[DMPML4I + i] |= X86_PG_RW | X86_PG_V | pg_nx;
1755         }
1756
1757         /* Connect the KVA slots up to the PML4 */
1758         for (i = 0; i < NKPML4E; i++) {
1759                 p4_p[KPML4BASE + i] = KPDPphys + ptoa(i);
1760                 p4_p[KPML4BASE + i] |= X86_PG_RW | X86_PG_V;
1761         }
1762
1763         kernel_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(KPML4phys);
1764 }
1765
1766 /*
1767  *      Bootstrap the system enough to run with virtual memory.
1768  *
1769  *      On amd64 this is called after mapping has already been enabled
1770  *      and just syncs the pmap module with what has already been done.
1771  *      [We can't call it easily with mapping off since the kernel is not
1772  *      mapped with PA == VA, hence we would have to relocate every address
1773  *      from the linked base (virtual) address "KERNBASE" to the actual
1774  *      (physical) address starting relative to 0]
1775  */
1776 void
1777 pmap_bootstrap(vm_paddr_t *firstaddr)
1778 {
1779         vm_offset_t va;
1780         pt_entry_t *pte, *pcpu_pte;
1781         struct region_descriptor r_gdt;
1782         uint64_t cr4, pcpu_phys;
1783         u_long res;
1784         int i;
1785
1786         KERNend = *firstaddr;
1787         res = atop(KERNend - (vm_paddr_t)kernphys);
1788
1789         if (!pti)
1790                 pg_g = X86_PG_G;
1791
1792         /*
1793          * Create an initial set of page tables to run the kernel in.
1794          */
1795         create_pagetables(firstaddr);
1796
1797         pcpu_phys = allocpages(firstaddr, MAXCPU);
1798
1799         /*
1800          * Add a physical memory segment (vm_phys_seg) corresponding to the
1801          * preallocated kernel page table pages so that vm_page structures
1802          * representing these pages will be created.  The vm_page structures
1803          * are required for promotion of the corresponding kernel virtual
1804          * addresses to superpage mappings.
1805          */
1806         vm_phys_early_add_seg(KPTphys, KPTphys + ptoa(nkpt));
1807
1808         /*
1809          * Account for the virtual addresses mapped by create_pagetables().
1810          */
1811         virtual_avail = (vm_offset_t)KERNBASE + round_2mpage(KERNend);
1812         virtual_end = VM_MAX_KERNEL_ADDRESS;
1813
1814         /*
1815          * Enable PG_G global pages, then switch to the kernel page
1816          * table from the bootstrap page table.  After the switch, it
1817          * is possible to enable SMEP and SMAP since PG_U bits are
1818          * correct now.
1819          */
1820         cr4 = rcr4();
1821         cr4 |= CR4_PGE;
1822         load_cr4(cr4);
1823         load_cr3(KPML4phys);
1824         if (cpu_stdext_feature & CPUID_STDEXT_SMEP)
1825                 cr4 |= CR4_SMEP;
1826         if (cpu_stdext_feature & CPUID_STDEXT_SMAP)
1827                 cr4 |= CR4_SMAP;
1828         load_cr4(cr4);
1829
1830         /*
1831          * Initialize the kernel pmap (which is statically allocated).
1832          * Count bootstrap data as being resident in case any of this data is
1833          * later unmapped (using pmap_remove()) and freed.
1834          */
1835         PMAP_LOCK_INIT(kernel_pmap);
1836         kernel_pmap->pm_pmltop = kernel_pml4;
1837         kernel_pmap->pm_cr3 = KPML4phys;
1838         kernel_pmap->pm_ucr3 = PMAP_NO_CR3;
1839         CPU_FILL(&kernel_pmap->pm_active);      /* don't allow deactivation */
1840         TAILQ_INIT(&kernel_pmap->pm_pvchunk);
1841         kernel_pmap->pm_stats.resident_count = res;
1842         kernel_pmap->pm_flags = pmap_flags;
1843
1844         /*
1845          * Initialize the TLB invalidations generation number lock.
1846          */
1847         mtx_init(&invl_gen_mtx, "invlgn", NULL, MTX_DEF);
1848
1849         /*
1850          * Reserve some special page table entries/VA space for temporary
1851          * mapping of pages.
1852          */
1853 #define SYSMAP(c, p, v, n)      \
1854         v = (c)va; va += ((n)*PAGE_SIZE); p = pte; pte += (n);
1855
1856         va = virtual_avail;
1857         pte = vtopte(va);
1858
1859         /*
1860          * Crashdump maps.  The first page is reused as CMAP1 for the
1861          * memory test.
1862          */
1863         SYSMAP(caddr_t, CMAP1, crashdumpmap, MAXDUMPPGS)
1864         CADDR1 = crashdumpmap;
1865
1866         SYSMAP(struct pcpu *, pcpu_pte, __pcpu, MAXCPU);
1867         virtual_avail = va;
1868
1869         for (i = 0; i < MAXCPU; i++) {
1870                 pcpu_pte[i] = (pcpu_phys + ptoa(i)) | X86_PG_V | X86_PG_RW |
1871                     pg_g | pg_nx | X86_PG_M | X86_PG_A;
1872         }
1873
1874         /*
1875          * Re-initialize PCPU area for BSP after switching.
1876          * Make hardware use gdt and common_tss from the new PCPU.
1877          */
1878         STAILQ_INIT(&cpuhead);
1879         wrmsr(MSR_GSBASE, (uint64_t)&__pcpu[0]);
1880         pcpu_init(&__pcpu[0], 0, sizeof(struct pcpu));
1881         amd64_bsp_pcpu_init1(&__pcpu[0]);
1882         amd64_bsp_ist_init(&__pcpu[0]);
1883         __pcpu[0].pc_common_tss.tss_iobase = sizeof(struct amd64tss) +
1884             IOPERM_BITMAP_SIZE;
1885         memcpy(__pcpu[0].pc_gdt, temp_bsp_pcpu.pc_gdt, NGDT *
1886             sizeof(struct user_segment_descriptor));
1887         gdt_segs[GPROC0_SEL].ssd_base = (uintptr_t)&__pcpu[0].pc_common_tss;
1888         ssdtosyssd(&gdt_segs[GPROC0_SEL],
1889             (struct system_segment_descriptor *)&__pcpu[0].pc_gdt[GPROC0_SEL]);
1890         r_gdt.rd_limit = NGDT * sizeof(struct user_segment_descriptor) - 1;
1891         r_gdt.rd_base = (long)__pcpu[0].pc_gdt;
1892         lgdt(&r_gdt);
1893         wrmsr(MSR_GSBASE, (uint64_t)&__pcpu[0]);
1894         ltr(GSEL(GPROC0_SEL, SEL_KPL));
1895         __pcpu[0].pc_dynamic = temp_bsp_pcpu.pc_dynamic;
1896         __pcpu[0].pc_acpi_id = temp_bsp_pcpu.pc_acpi_id;
1897
1898         /*
1899          * Initialize the PAT MSR.
1900          * pmap_init_pat() clears and sets CR4_PGE, which, as a
1901          * side-effect, invalidates stale PG_G TLB entries that might
1902          * have been created in our pre-boot environment.
1903          */
1904         pmap_init_pat();
1905
1906         /* Initialize TLB Context Id. */
1907         if (pmap_pcid_enabled) {
1908                 for (i = 0; i < MAXCPU; i++) {
1909                         kernel_pmap->pm_pcids[i].pm_pcid = PMAP_PCID_KERN;
1910                         kernel_pmap->pm_pcids[i].pm_gen = 1;
1911                 }
1912
1913                 /*
1914                  * PMAP_PCID_KERN + 1 is used for initialization of
1915                  * proc0 pmap.  The pmap' pcid state might be used by
1916                  * EFIRT entry before first context switch, so it
1917                  * needs to be valid.
1918                  */
1919                 PCPU_SET(pcid_next, PMAP_PCID_KERN + 2);
1920                 PCPU_SET(pcid_gen, 1);
1921
1922                 /*
1923                  * pcpu area for APs is zeroed during AP startup.
1924                  * pc_pcid_next and pc_pcid_gen are initialized by AP
1925                  * during pcpu setup.
1926                  */
1927                 load_cr4(rcr4() | CR4_PCIDE);
1928         }
1929 }
1930
1931 /*
1932  * Setup the PAT MSR.
1933  */
1934 void
1935 pmap_init_pat(void)
1936 {
1937         uint64_t pat_msr;
1938         u_long cr0, cr4;
1939         int i;
1940
1941         /* Bail if this CPU doesn't implement PAT. */
1942         if ((cpu_feature & CPUID_PAT) == 0)
1943                 panic("no PAT??");
1944
1945         /* Set default PAT index table. */
1946         for (i = 0; i < PAT_INDEX_SIZE; i++)
1947                 pat_index[i] = -1;
1948         pat_index[PAT_WRITE_BACK] = 0;
1949         pat_index[PAT_WRITE_THROUGH] = 1;
1950         pat_index[PAT_UNCACHEABLE] = 3;
1951         pat_index[PAT_WRITE_COMBINING] = 6;
1952         pat_index[PAT_WRITE_PROTECTED] = 5;
1953         pat_index[PAT_UNCACHED] = 2;
1954
1955         /*
1956          * Initialize default PAT entries.
1957          * Leave the indices 0-3 at the default of WB, WT, UC-, and UC.
1958          * Program 5 and 6 as WP and WC.
1959          *
1960          * Leave 4 and 7 as WB and UC.  Note that a recursive page table
1961          * mapping for a 2M page uses a PAT value with the bit 3 set due
1962          * to its overload with PG_PS.
1963          */
1964         pat_msr = PAT_VALUE(0, PAT_WRITE_BACK) |
1965             PAT_VALUE(1, PAT_WRITE_THROUGH) |
1966             PAT_VALUE(2, PAT_UNCACHED) |
1967             PAT_VALUE(3, PAT_UNCACHEABLE) |
1968             PAT_VALUE(4, PAT_WRITE_BACK) |
1969             PAT_VALUE(5, PAT_WRITE_PROTECTED) |
1970             PAT_VALUE(6, PAT_WRITE_COMBINING) |
1971             PAT_VALUE(7, PAT_UNCACHEABLE);
1972
1973         /* Disable PGE. */
1974         cr4 = rcr4();
1975         load_cr4(cr4 & ~CR4_PGE);
1976
1977         /* Disable caches (CD = 1, NW = 0). */
1978         cr0 = rcr0();
1979         load_cr0((cr0 & ~CR0_NW) | CR0_CD);
1980
1981         /* Flushes caches and TLBs. */
1982         wbinvd();
1983         invltlb();
1984
1985         /* Update PAT and index table. */
1986         wrmsr(MSR_PAT, pat_msr);
1987
1988         /* Flush caches and TLBs again. */
1989         wbinvd();
1990         invltlb();
1991
1992         /* Restore caches and PGE. */
1993         load_cr0(cr0);
1994         load_cr4(cr4);
1995 }
1996
1997 extern const char la57_trampoline[], la57_trampoline_gdt_desc[],
1998     la57_trampoline_gdt[], la57_trampoline_end[];
1999
2000 static void
2001 pmap_bootstrap_la57(void *arg __unused)
2002 {
2003         char *v_code;
2004         pml5_entry_t *v_pml5;
2005         pml4_entry_t *v_pml4;
2006         pdp_entry_t *v_pdp;
2007         pd_entry_t *v_pd;
2008         pt_entry_t *v_pt;
2009         vm_page_t m_code, m_pml4, m_pdp, m_pd, m_pt, m_pml5;
2010         void (*la57_tramp)(uint64_t pml5);
2011         struct region_descriptor r_gdt;
2012
2013         if ((cpu_stdext_feature2 & CPUID_STDEXT2_LA57) == 0)
2014                 return;
2015         if (!TUNABLE_INT_FETCH("vm.pmap.la57", &la57))
2016                 la57 = 1;
2017         if (!la57)
2018                 return;
2019
2020         r_gdt.rd_limit = NGDT * sizeof(struct user_segment_descriptor) - 1;
2021         r_gdt.rd_base = (long)__pcpu[0].pc_gdt;
2022
2023         m_code = vm_page_alloc_contig(NULL, 0,
2024             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2025             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2026         if ((m_code->flags & PG_ZERO) == 0)
2027                 pmap_zero_page(m_code);
2028         v_code = (char *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_code));
2029         m_pml5 = vm_page_alloc_contig(NULL, 0,
2030             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2031             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2032         if ((m_pml5->flags & PG_ZERO) == 0)
2033                 pmap_zero_page(m_pml5);
2034         KPML5phys = VM_PAGE_TO_PHYS(m_pml5);
2035         v_pml5 = (pml5_entry_t *)PHYS_TO_DMAP(KPML5phys);
2036         m_pml4 = vm_page_alloc_contig(NULL, 0,
2037             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2038             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2039         if ((m_pml4->flags & PG_ZERO) == 0)
2040                 pmap_zero_page(m_pml4);
2041         v_pml4 = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pml4));
2042         m_pdp = vm_page_alloc_contig(NULL, 0,
2043             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2044             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2045         if ((m_pdp->flags & PG_ZERO) == 0)
2046                 pmap_zero_page(m_pdp);
2047         v_pdp = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pdp));
2048         m_pd = vm_page_alloc_contig(NULL, 0,
2049             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2050             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2051         if ((m_pd->flags & PG_ZERO) == 0)
2052                 pmap_zero_page(m_pd);
2053         v_pd = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pd));
2054         m_pt = vm_page_alloc_contig(NULL, 0,
2055             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2056             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2057         if ((m_pt->flags & PG_ZERO) == 0)
2058                 pmap_zero_page(m_pt);
2059         v_pt = (pt_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pt));
2060
2061         /*
2062          * Map m_code 1:1, it appears below 4G in KVA due to physical
2063          * address being below 4G.  Since kernel KVA is in upper half,
2064          * the pml4e should be zero and free for temporary use.
2065          */
2066         kernel_pmap->pm_pmltop[pmap_pml4e_index(VM_PAGE_TO_PHYS(m_code))] =
2067             VM_PAGE_TO_PHYS(m_pdp) | X86_PG_V | X86_PG_RW | X86_PG_A |
2068             X86_PG_M;
2069         v_pdp[pmap_pdpe_index(VM_PAGE_TO_PHYS(m_code))] =
2070             VM_PAGE_TO_PHYS(m_pd) | X86_PG_V | X86_PG_RW | X86_PG_A |
2071             X86_PG_M;
2072         v_pd[pmap_pde_index(VM_PAGE_TO_PHYS(m_code))] =
2073             VM_PAGE_TO_PHYS(m_pt) | X86_PG_V | X86_PG_RW | X86_PG_A |
2074             X86_PG_M;
2075         v_pt[pmap_pte_index(VM_PAGE_TO_PHYS(m_code))] =
2076             VM_PAGE_TO_PHYS(m_code) | X86_PG_V | X86_PG_RW | X86_PG_A |
2077             X86_PG_M;
2078
2079         /*
2080          * Add pml5 entry at top of KVA pointing to existing pml4 table,
2081          * entering all existing kernel mappings into level 5 table.
2082          */
2083         v_pml5[pmap_pml5e_index(UPT_MAX_ADDRESS)] = KPML4phys | X86_PG_V |
2084             X86_PG_RW | X86_PG_A | X86_PG_M | pg_g;
2085
2086         /*
2087          * Add pml5 entry for 1:1 trampoline mapping after LA57 is turned on.
2088          */
2089         v_pml5[pmap_pml5e_index(VM_PAGE_TO_PHYS(m_code))] =
2090             VM_PAGE_TO_PHYS(m_pml4) | X86_PG_V | X86_PG_RW | X86_PG_A |
2091             X86_PG_M;
2092         v_pml4[pmap_pml4e_index(VM_PAGE_TO_PHYS(m_code))] =
2093             VM_PAGE_TO_PHYS(m_pdp) | X86_PG_V | X86_PG_RW | X86_PG_A |
2094             X86_PG_M;
2095
2096         /*
2097          * Copy and call the 48->57 trampoline, hope we return there, alive.
2098          */
2099         bcopy(la57_trampoline, v_code, la57_trampoline_end - la57_trampoline);
2100         *(u_long *)(v_code + 2 + (la57_trampoline_gdt_desc - la57_trampoline)) =
2101             la57_trampoline_gdt - la57_trampoline + VM_PAGE_TO_PHYS(m_code);
2102         la57_tramp = (void (*)(uint64_t))VM_PAGE_TO_PHYS(m_code);
2103         la57_tramp(KPML5phys);
2104
2105         /*
2106          * gdt was necessary reset, switch back to our gdt.
2107          */
2108         lgdt(&r_gdt);
2109         wrmsr(MSR_GSBASE, (uint64_t)&__pcpu[0]);
2110         load_ds(_udatasel);
2111         load_es(_udatasel);
2112         load_fs(_ufssel);
2113         ssdtosyssd(&gdt_segs[GPROC0_SEL],
2114             (struct system_segment_descriptor *)&__pcpu[0].pc_gdt[GPROC0_SEL]);
2115         ltr(GSEL(GPROC0_SEL, SEL_KPL));
2116
2117         /*
2118          * Now unmap the trampoline, and free the pages.
2119          * Clear pml5 entry used for 1:1 trampoline mapping.
2120          */
2121         pte_clear(&v_pml5[pmap_pml5e_index(VM_PAGE_TO_PHYS(m_code))]);
2122         invlpg((vm_offset_t)v_code);
2123         vm_page_free(m_code);
2124         vm_page_free(m_pdp);
2125         vm_page_free(m_pd);
2126         vm_page_free(m_pt);
2127
2128         /*
2129          * Recursively map PML5 to itself in order to get PTmap and
2130          * PDmap.
2131          */
2132         v_pml5[PML5PML5I] = KPML5phys | X86_PG_RW | X86_PG_V | pg_nx;
2133
2134         kernel_pmap->pm_cr3 = KPML5phys;
2135         kernel_pmap->pm_pmltop = v_pml5;
2136 }
2137 SYSINIT(la57, SI_SUB_KMEM, SI_ORDER_ANY, pmap_bootstrap_la57, NULL);
2138
2139 /*
2140  *      Initialize a vm_page's machine-dependent fields.
2141  */
2142 void
2143 pmap_page_init(vm_page_t m)
2144 {
2145
2146         TAILQ_INIT(&m->md.pv_list);
2147         m->md.pat_mode = PAT_WRITE_BACK;
2148 }
2149
2150 static int pmap_allow_2m_x_ept;
2151 SYSCTL_INT(_vm_pmap, OID_AUTO, allow_2m_x_ept, CTLFLAG_RWTUN | CTLFLAG_NOFETCH,
2152     &pmap_allow_2m_x_ept, 0,
2153     "Allow executable superpage mappings in EPT");
2154
2155 void
2156 pmap_allow_2m_x_ept_recalculate(void)
2157 {
2158         /*
2159          * SKL002, SKL012S.  Since the EPT format is only used by
2160          * Intel CPUs, the vendor check is merely a formality.
2161          */
2162         if (!(cpu_vendor_id != CPU_VENDOR_INTEL ||
2163             (cpu_ia32_arch_caps & IA32_ARCH_CAP_IF_PSCHANGE_MC_NO) != 0 ||
2164             (CPUID_TO_FAMILY(cpu_id) == 0x6 &&
2165             (CPUID_TO_MODEL(cpu_id) == 0x26 ||  /* Atoms */
2166             CPUID_TO_MODEL(cpu_id) == 0x27 ||
2167             CPUID_TO_MODEL(cpu_id) == 0x35 ||
2168             CPUID_TO_MODEL(cpu_id) == 0x36 ||
2169             CPUID_TO_MODEL(cpu_id) == 0x37 ||
2170             CPUID_TO_MODEL(cpu_id) == 0x86 ||
2171             CPUID_TO_MODEL(cpu_id) == 0x1c ||
2172             CPUID_TO_MODEL(cpu_id) == 0x4a ||
2173             CPUID_TO_MODEL(cpu_id) == 0x4c ||
2174             CPUID_TO_MODEL(cpu_id) == 0x4d ||
2175             CPUID_TO_MODEL(cpu_id) == 0x5a ||
2176             CPUID_TO_MODEL(cpu_id) == 0x5c ||
2177             CPUID_TO_MODEL(cpu_id) == 0x5d ||
2178             CPUID_TO_MODEL(cpu_id) == 0x5f ||
2179             CPUID_TO_MODEL(cpu_id) == 0x6e ||
2180             CPUID_TO_MODEL(cpu_id) == 0x7a ||
2181             CPUID_TO_MODEL(cpu_id) == 0x57 ||   /* Knights */
2182             CPUID_TO_MODEL(cpu_id) == 0x85))))
2183                 pmap_allow_2m_x_ept = 1;
2184         TUNABLE_INT_FETCH("hw.allow_2m_x_ept", &pmap_allow_2m_x_ept);
2185 }
2186
2187 static bool
2188 pmap_allow_2m_x_page(pmap_t pmap, bool executable)
2189 {
2190
2191         return (pmap->pm_type != PT_EPT || !executable ||
2192             !pmap_allow_2m_x_ept);
2193 }
2194
2195 #ifdef NUMA
2196 static void
2197 pmap_init_pv_table(void)
2198 {
2199         struct pmap_large_md_page *pvd;
2200         vm_size_t s;
2201         long start, end, highest, pv_npg;
2202         int domain, i, j, pages;
2203
2204         /*
2205          * We strongly depend on the size being a power of two, so the assert
2206          * is overzealous. However, should the struct be resized to a
2207          * different power of two, the code below needs to be revisited.
2208          */
2209         CTASSERT((sizeof(*pvd) == 64));
2210
2211         /*
2212          * Calculate the size of the array.
2213          */
2214         pmap_last_pa = vm_phys_segs[vm_phys_nsegs - 1].end;
2215         pv_npg = howmany(pmap_last_pa, NBPDR);
2216         s = (vm_size_t)pv_npg * sizeof(struct pmap_large_md_page);
2217         s = round_page(s);
2218         pv_table = (struct pmap_large_md_page *)kva_alloc(s);
2219         if (pv_table == NULL)
2220                 panic("%s: kva_alloc failed\n", __func__);
2221
2222         /*
2223          * Iterate physical segments to allocate space for respective pages.
2224          */
2225         highest = -1;
2226         s = 0;
2227         for (i = 0; i < vm_phys_nsegs; i++) {
2228                 end = vm_phys_segs[i].end / NBPDR;
2229                 domain = vm_phys_segs[i].domain;
2230
2231                 if (highest >= end)
2232                         continue;
2233
2234                 start = highest + 1;
2235                 pvd = &pv_table[start];
2236
2237                 pages = end - start + 1;
2238                 s = round_page(pages * sizeof(*pvd));
2239                 highest = start + (s / sizeof(*pvd)) - 1;
2240
2241                 for (j = 0; j < s; j += PAGE_SIZE) {
2242                         vm_page_t m = vm_page_alloc_domain(NULL, 0,
2243                             domain, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ);
2244                         if (m == NULL)
2245                                 panic("vm_page_alloc_domain failed for %lx\n", (vm_offset_t)pvd + j);
2246                         pmap_qenter((vm_offset_t)pvd + j, &m, 1);
2247                 }
2248
2249                 for (j = 0; j < s / sizeof(*pvd); j++) {
2250                         rw_init_flags(&pvd->pv_lock, "pmap pv list", RW_NEW);
2251                         TAILQ_INIT(&pvd->pv_page.pv_list);
2252                         pvd->pv_page.pv_gen = 0;
2253                         pvd->pv_page.pat_mode = 0;
2254                         pvd->pv_invl_gen = 0;
2255                         pvd++;
2256                 }
2257         }
2258         pvd = &pv_dummy_large;
2259         rw_init_flags(&pvd->pv_lock, "pmap pv list dummy", RW_NEW);
2260         TAILQ_INIT(&pvd->pv_page.pv_list);
2261         pvd->pv_page.pv_gen = 0;
2262         pvd->pv_page.pat_mode = 0;
2263         pvd->pv_invl_gen = 0;
2264 }
2265 #else
2266 static void
2267 pmap_init_pv_table(void)
2268 {
2269         vm_size_t s;
2270         long i, pv_npg;
2271
2272         /*
2273          * Initialize the pool of pv list locks.
2274          */
2275         for (i = 0; i < NPV_LIST_LOCKS; i++)
2276                 rw_init(&pv_list_locks[i], "pmap pv list");
2277
2278         /*
2279          * Calculate the size of the pv head table for superpages.
2280          */
2281         pv_npg = howmany(vm_phys_segs[vm_phys_nsegs - 1].end, NBPDR);
2282
2283         /*
2284          * Allocate memory for the pv head table for superpages.
2285          */
2286         s = (vm_size_t)pv_npg * sizeof(struct md_page);
2287         s = round_page(s);
2288         pv_table = (struct md_page *)kmem_malloc(s, M_WAITOK | M_ZERO);
2289         for (i = 0; i < pv_npg; i++)
2290                 TAILQ_INIT(&pv_table[i].pv_list);
2291         TAILQ_INIT(&pv_dummy.pv_list);
2292 }
2293 #endif
2294
2295 /*
2296  *      Initialize the pmap module.
2297  *      Called by vm_init, to initialize any structures that the pmap
2298  *      system needs to map virtual memory.
2299  */
2300 void
2301 pmap_init(void)
2302 {
2303         struct pmap_preinit_mapping *ppim;
2304         vm_page_t m, mpte;
2305         int error, i, ret, skz63;
2306
2307         /* L1TF, reserve page @0 unconditionally */
2308         vm_page_blacklist_add(0, bootverbose);
2309
2310         /* Detect bare-metal Skylake Server and Skylake-X. */
2311         if (vm_guest == VM_GUEST_NO && cpu_vendor_id == CPU_VENDOR_INTEL &&
2312             CPUID_TO_FAMILY(cpu_id) == 0x6 && CPUID_TO_MODEL(cpu_id) == 0x55) {
2313                 /*
2314                  * Skylake-X errata SKZ63. Processor May Hang When
2315                  * Executing Code In an HLE Transaction Region between
2316                  * 40000000H and 403FFFFFH.
2317                  *
2318                  * Mark the pages in the range as preallocated.  It
2319                  * seems to be impossible to distinguish between
2320                  * Skylake Server and Skylake X.
2321                  */
2322                 skz63 = 1;
2323                 TUNABLE_INT_FETCH("hw.skz63_enable", &skz63);
2324                 if (skz63 != 0) {
2325                         if (bootverbose)
2326                                 printf("SKZ63: skipping 4M RAM starting "
2327                                     "at physical 1G\n");
2328                         for (i = 0; i < atop(0x400000); i++) {
2329                                 ret = vm_page_blacklist_add(0x40000000 +
2330                                     ptoa(i), FALSE);
2331                                 if (!ret && bootverbose)
2332                                         printf("page at %#lx already used\n",
2333                                             0x40000000 + ptoa(i));
2334                         }
2335                 }
2336         }
2337
2338         /* IFU */
2339         pmap_allow_2m_x_ept_recalculate();
2340
2341         /*
2342          * Initialize the vm page array entries for the kernel pmap's
2343          * page table pages.
2344          */
2345         PMAP_LOCK(kernel_pmap);
2346         for (i = 0; i < nkpt; i++) {
2347                 mpte = PHYS_TO_VM_PAGE(KPTphys + (i << PAGE_SHIFT));
2348                 KASSERT(mpte >= vm_page_array &&
2349                     mpte < &vm_page_array[vm_page_array_size],
2350                     ("pmap_init: page table page is out of range"));
2351                 mpte->pindex = pmap_pde_pindex(KERNBASE) + i;
2352                 mpte->phys_addr = KPTphys + (i << PAGE_SHIFT);
2353                 mpte->ref_count = 1;
2354
2355                 /*
2356                  * Collect the page table pages that were replaced by a 2MB
2357                  * page in create_pagetables().  They are zero filled.
2358                  */
2359                 if ((vm_paddr_t)i << PDRSHIFT < KERNend &&
2360                     pmap_insert_pt_page(kernel_pmap, mpte, false))
2361                         panic("pmap_init: pmap_insert_pt_page failed");
2362         }
2363         PMAP_UNLOCK(kernel_pmap);
2364         vm_wire_add(nkpt);
2365
2366         /*
2367          * If the kernel is running on a virtual machine, then it must assume
2368          * that MCA is enabled by the hypervisor.  Moreover, the kernel must
2369          * be prepared for the hypervisor changing the vendor and family that
2370          * are reported by CPUID.  Consequently, the workaround for AMD Family
2371          * 10h Erratum 383 is enabled if the processor's feature set does not
2372          * include at least one feature that is only supported by older Intel
2373          * or newer AMD processors.
2374          */
2375         if (vm_guest != VM_GUEST_NO && (cpu_feature & CPUID_SS) == 0 &&
2376             (cpu_feature2 & (CPUID2_SSSE3 | CPUID2_SSE41 | CPUID2_AESNI |
2377             CPUID2_AVX | CPUID2_XSAVE)) == 0 && (amd_feature2 & (AMDID2_XOP |
2378             AMDID2_FMA4)) == 0)
2379                 workaround_erratum383 = 1;
2380
2381         /*
2382          * Are large page mappings enabled?
2383          */
2384         TUNABLE_INT_FETCH("vm.pmap.pg_ps_enabled", &pg_ps_enabled);
2385         if (pg_ps_enabled) {
2386                 KASSERT(MAXPAGESIZES > 1 && pagesizes[1] == 0,
2387                     ("pmap_init: can't assign to pagesizes[1]"));
2388                 pagesizes[1] = NBPDR;
2389                 if ((amd_feature & AMDID_PAGE1GB) != 0) {
2390                         KASSERT(MAXPAGESIZES > 2 && pagesizes[2] == 0,
2391                             ("pmap_init: can't assign to pagesizes[2]"));
2392                         pagesizes[2] = NBPDP;
2393                 }
2394         }
2395
2396         /*
2397          * Initialize pv chunk lists.
2398          */
2399         for (i = 0; i < PMAP_MEMDOM; i++) {
2400                 mtx_init(&pv_chunks[i].pvc_lock, "pmap pv chunk list", NULL, MTX_DEF);
2401                 TAILQ_INIT(&pv_chunks[i].pvc_list);
2402         }
2403         pmap_init_pv_table();
2404
2405         pmap_initialized = 1;
2406         for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
2407                 ppim = pmap_preinit_mapping + i;
2408                 if (ppim->va == 0)
2409                         continue;
2410                 /* Make the direct map consistent */
2411                 if (ppim->pa < dmaplimit && ppim->pa + ppim->sz <= dmaplimit) {
2412                         (void)pmap_change_attr(PHYS_TO_DMAP(ppim->pa),
2413                             ppim->sz, ppim->mode);
2414                 }
2415                 if (!bootverbose)
2416                         continue;
2417                 printf("PPIM %u: PA=%#lx, VA=%#lx, size=%#lx, mode=%#x\n", i,
2418                     ppim->pa, ppim->va, ppim->sz, ppim->mode);
2419         }
2420
2421         mtx_init(&qframe_mtx, "qfrmlk", NULL, MTX_SPIN);
2422         error = vmem_alloc(kernel_arena, PAGE_SIZE, M_BESTFIT | M_WAITOK,
2423             (vmem_addr_t *)&qframe);
2424         if (error != 0)
2425                 panic("qframe allocation failed");
2426
2427         lm_ents = 8;
2428         TUNABLE_INT_FETCH("vm.pmap.large_map_pml4_entries", &lm_ents);
2429         if (lm_ents > LMEPML4I - LMSPML4I + 1)
2430                 lm_ents = LMEPML4I - LMSPML4I + 1;
2431         if (bootverbose)
2432                 printf("pmap: large map %u PML4 slots (%lu GB)\n",
2433                     lm_ents, (u_long)lm_ents * (NBPML4 / 1024 / 1024 / 1024));
2434         if (lm_ents != 0) {
2435                 large_vmem = vmem_create("large", LARGEMAP_MIN_ADDRESS,
2436                     (vmem_size_t)lm_ents * NBPML4, PAGE_SIZE, 0, M_WAITOK);
2437                 if (large_vmem == NULL) {
2438                         printf("pmap: cannot create large map\n");
2439                         lm_ents = 0;
2440                 }
2441                 for (i = 0; i < lm_ents; i++) {
2442                         m = pmap_large_map_getptp_unlocked();
2443                         /* XXXKIB la57 */
2444                         kernel_pml4[LMSPML4I + i] = X86_PG_V |
2445                             X86_PG_RW | X86_PG_A | X86_PG_M | pg_nx |
2446                             VM_PAGE_TO_PHYS(m);
2447                 }
2448         }
2449 }
2450
2451 SYSCTL_UINT(_vm_pmap, OID_AUTO, large_map_pml4_entries,
2452     CTLFLAG_RDTUN | CTLFLAG_NOFETCH, &lm_ents, 0,
2453     "Maximum number of PML4 entries for use by large map (tunable).  "
2454     "Each entry corresponds to 512GB of address space.");
2455
2456 static SYSCTL_NODE(_vm_pmap, OID_AUTO, pde, CTLFLAG_RD | CTLFLAG_MPSAFE, 0,
2457     "2MB page mapping counters");
2458
2459 static u_long pmap_pde_demotions;
2460 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, demotions, CTLFLAG_RD,
2461     &pmap_pde_demotions, 0, "2MB page demotions");
2462
2463 static u_long pmap_pde_mappings;
2464 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, mappings, CTLFLAG_RD,
2465     &pmap_pde_mappings, 0, "2MB page mappings");
2466
2467 static u_long pmap_pde_p_failures;
2468 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, p_failures, CTLFLAG_RD,
2469     &pmap_pde_p_failures, 0, "2MB page promotion failures");
2470
2471 static u_long pmap_pde_promotions;
2472 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, promotions, CTLFLAG_RD,
2473     &pmap_pde_promotions, 0, "2MB page promotions");
2474
2475 static SYSCTL_NODE(_vm_pmap, OID_AUTO, pdpe, CTLFLAG_RD | CTLFLAG_MPSAFE, 0,
2476     "1GB page mapping counters");
2477
2478 static u_long pmap_pdpe_demotions;
2479 SYSCTL_ULONG(_vm_pmap_pdpe, OID_AUTO, demotions, CTLFLAG_RD,
2480     &pmap_pdpe_demotions, 0, "1GB page demotions");
2481
2482 /***************************************************
2483  * Low level helper routines.....
2484  ***************************************************/
2485
2486 static pt_entry_t
2487 pmap_swap_pat(pmap_t pmap, pt_entry_t entry)
2488 {
2489         int x86_pat_bits = X86_PG_PTE_PAT | X86_PG_PDE_PAT;
2490
2491         switch (pmap->pm_type) {
2492         case PT_X86:
2493         case PT_RVI:
2494                 /* Verify that both PAT bits are not set at the same time */
2495                 KASSERT((entry & x86_pat_bits) != x86_pat_bits,
2496                     ("Invalid PAT bits in entry %#lx", entry));
2497
2498                 /* Swap the PAT bits if one of them is set */
2499                 if ((entry & x86_pat_bits) != 0)
2500                         entry ^= x86_pat_bits;
2501                 break;
2502         case PT_EPT:
2503                 /*
2504                  * Nothing to do - the memory attributes are represented
2505                  * the same way for regular pages and superpages.
2506                  */
2507                 break;
2508         default:
2509                 panic("pmap_switch_pat_bits: bad pm_type %d", pmap->pm_type);
2510         }
2511
2512         return (entry);
2513 }
2514
2515 boolean_t
2516 pmap_is_valid_memattr(pmap_t pmap __unused, vm_memattr_t mode)
2517 {
2518
2519         return (mode >= 0 && mode < PAT_INDEX_SIZE &&
2520             pat_index[(int)mode] >= 0);
2521 }
2522
2523 /*
2524  * Determine the appropriate bits to set in a PTE or PDE for a specified
2525  * caching mode.
2526  */
2527 int
2528 pmap_cache_bits(pmap_t pmap, int mode, boolean_t is_pde)
2529 {
2530         int cache_bits, pat_flag, pat_idx;
2531
2532         if (!pmap_is_valid_memattr(pmap, mode))
2533                 panic("Unknown caching mode %d\n", mode);
2534
2535         switch (pmap->pm_type) {
2536         case PT_X86:
2537         case PT_RVI:
2538                 /* The PAT bit is different for PTE's and PDE's. */
2539                 pat_flag = is_pde ? X86_PG_PDE_PAT : X86_PG_PTE_PAT;
2540
2541                 /* Map the caching mode to a PAT index. */
2542                 pat_idx = pat_index[mode];
2543
2544                 /* Map the 3-bit index value into the PAT, PCD, and PWT bits. */
2545                 cache_bits = 0;
2546                 if (pat_idx & 0x4)
2547                         cache_bits |= pat_flag;
2548                 if (pat_idx & 0x2)
2549                         cache_bits |= PG_NC_PCD;
2550                 if (pat_idx & 0x1)
2551                         cache_bits |= PG_NC_PWT;
2552                 break;
2553
2554         case PT_EPT:
2555                 cache_bits = EPT_PG_IGNORE_PAT | EPT_PG_MEMORY_TYPE(mode);
2556                 break;
2557
2558         default:
2559                 panic("unsupported pmap type %d", pmap->pm_type);
2560         }
2561
2562         return (cache_bits);
2563 }
2564
2565 static int
2566 pmap_cache_mask(pmap_t pmap, boolean_t is_pde)
2567 {
2568         int mask;
2569
2570         switch (pmap->pm_type) {
2571         case PT_X86:
2572         case PT_RVI:
2573                 mask = is_pde ? X86_PG_PDE_CACHE : X86_PG_PTE_CACHE;
2574                 break;
2575         case PT_EPT:
2576                 mask = EPT_PG_IGNORE_PAT | EPT_PG_MEMORY_TYPE(0x7);
2577                 break;
2578         default:
2579                 panic("pmap_cache_mask: invalid pm_type %d", pmap->pm_type);
2580         }
2581
2582         return (mask);
2583 }
2584
2585 static int
2586 pmap_pat_index(pmap_t pmap, pt_entry_t pte, bool is_pde)
2587 {
2588         int pat_flag, pat_idx;
2589
2590         pat_idx = 0;
2591         switch (pmap->pm_type) {
2592         case PT_X86:
2593         case PT_RVI:
2594                 /* The PAT bit is different for PTE's and PDE's. */
2595                 pat_flag = is_pde ? X86_PG_PDE_PAT : X86_PG_PTE_PAT;
2596
2597                 if ((pte & pat_flag) != 0)
2598                         pat_idx |= 0x4;
2599                 if ((pte & PG_NC_PCD) != 0)
2600                         pat_idx |= 0x2;
2601                 if ((pte & PG_NC_PWT) != 0)
2602                         pat_idx |= 0x1;
2603                 break;
2604         case PT_EPT:
2605                 if ((pte & EPT_PG_IGNORE_PAT) != 0)
2606                         panic("EPT PTE %#lx has no PAT memory type", pte);
2607                 pat_idx = (pte & EPT_PG_MEMORY_TYPE(0x7)) >> 3;
2608                 break;
2609         }
2610
2611         /* See pmap_init_pat(). */
2612         if (pat_idx == 4)
2613                 pat_idx = 0;
2614         if (pat_idx == 7)
2615                 pat_idx = 3;
2616
2617         return (pat_idx);
2618 }
2619
2620 bool
2621 pmap_ps_enabled(pmap_t pmap)
2622 {
2623
2624         return (pg_ps_enabled && (pmap->pm_flags & PMAP_PDE_SUPERPAGE) != 0);
2625 }
2626
2627 static void
2628 pmap_update_pde_store(pmap_t pmap, pd_entry_t *pde, pd_entry_t newpde)
2629 {
2630
2631         switch (pmap->pm_type) {
2632         case PT_X86:
2633                 break;
2634         case PT_RVI:
2635         case PT_EPT:
2636                 /*
2637                  * XXX
2638                  * This is a little bogus since the generation number is
2639                  * supposed to be bumped up when a region of the address
2640                  * space is invalidated in the page tables.
2641                  *
2642                  * In this case the old PDE entry is valid but yet we want
2643                  * to make sure that any mappings using the old entry are
2644                  * invalidated in the TLB.
2645                  *
2646                  * The reason this works as expected is because we rendezvous
2647                  * "all" host cpus and force any vcpu context to exit as a
2648                  * side-effect.
2649                  */
2650                 atomic_add_acq_long(&pmap->pm_eptgen, 1);
2651                 break;
2652         default:
2653                 panic("pmap_update_pde_store: bad pm_type %d", pmap->pm_type);
2654         }
2655         pde_store(pde, newpde);
2656 }
2657
2658 /*
2659  * After changing the page size for the specified virtual address in the page
2660  * table, flush the corresponding entries from the processor's TLB.  Only the
2661  * calling processor's TLB is affected.
2662  *
2663  * The calling thread must be pinned to a processor.
2664  */
2665 static void
2666 pmap_update_pde_invalidate(pmap_t pmap, vm_offset_t va, pd_entry_t newpde)
2667 {
2668         pt_entry_t PG_G;
2669
2670         if (pmap_type_guest(pmap))
2671                 return;
2672
2673         KASSERT(pmap->pm_type == PT_X86,
2674             ("pmap_update_pde_invalidate: invalid type %d", pmap->pm_type));
2675
2676         PG_G = pmap_global_bit(pmap);
2677
2678         if ((newpde & PG_PS) == 0)
2679                 /* Demotion: flush a specific 2MB page mapping. */
2680                 invlpg(va);
2681         else if ((newpde & PG_G) == 0)
2682                 /*
2683                  * Promotion: flush every 4KB page mapping from the TLB
2684                  * because there are too many to flush individually.
2685                  */
2686                 invltlb();
2687         else {
2688                 /*
2689                  * Promotion: flush every 4KB page mapping from the TLB,
2690                  * including any global (PG_G) mappings.
2691                  */
2692                 invltlb_glob();
2693         }
2694 }
2695 #ifdef SMP
2696
2697 /*
2698  * For SMP, these functions have to use the IPI mechanism for coherence.
2699  *
2700  * N.B.: Before calling any of the following TLB invalidation functions,
2701  * the calling processor must ensure that all stores updating a non-
2702  * kernel page table are globally performed.  Otherwise, another
2703  * processor could cache an old, pre-update entry without being
2704  * invalidated.  This can happen one of two ways: (1) The pmap becomes
2705  * active on another processor after its pm_active field is checked by
2706  * one of the following functions but before a store updating the page
2707  * table is globally performed. (2) The pmap becomes active on another
2708  * processor before its pm_active field is checked but due to
2709  * speculative loads one of the following functions stills reads the
2710  * pmap as inactive on the other processor.
2711  *
2712  * The kernel page table is exempt because its pm_active field is
2713  * immutable.  The kernel page table is always active on every
2714  * processor.
2715  */
2716
2717 /*
2718  * Interrupt the cpus that are executing in the guest context.
2719  * This will force the vcpu to exit and the cached EPT mappings
2720  * will be invalidated by the host before the next vmresume.
2721  */
2722 static __inline void
2723 pmap_invalidate_ept(pmap_t pmap)
2724 {
2725         int ipinum;
2726
2727         sched_pin();
2728         KASSERT(!CPU_ISSET(curcpu, &pmap->pm_active),
2729             ("pmap_invalidate_ept: absurd pm_active"));
2730
2731         /*
2732          * The TLB mappings associated with a vcpu context are not
2733          * flushed each time a different vcpu is chosen to execute.
2734          *
2735          * This is in contrast with a process's vtop mappings that
2736          * are flushed from the TLB on each context switch.
2737          *
2738          * Therefore we need to do more than just a TLB shootdown on
2739          * the active cpus in 'pmap->pm_active'. To do this we keep
2740          * track of the number of invalidations performed on this pmap.
2741          *
2742          * Each vcpu keeps a cache of this counter and compares it
2743          * just before a vmresume. If the counter is out-of-date an
2744          * invept will be done to flush stale mappings from the TLB.
2745          */
2746         atomic_add_acq_long(&pmap->pm_eptgen, 1);
2747
2748         /*
2749          * Force the vcpu to exit and trap back into the hypervisor.
2750          */
2751         ipinum = pmap->pm_flags & PMAP_NESTED_IPIMASK;
2752         ipi_selected(pmap->pm_active, ipinum);
2753         sched_unpin();
2754 }
2755
2756 static cpuset_t
2757 pmap_invalidate_cpu_mask(pmap_t pmap)
2758 {
2759
2760         return (pmap == kernel_pmap ? all_cpus : pmap->pm_active);
2761 }
2762
2763 static inline void
2764 pmap_invalidate_page_pcid(pmap_t pmap, vm_offset_t va,
2765     const bool invpcid_works1)
2766 {
2767         struct invpcid_descr d;
2768         uint64_t kcr3, ucr3;
2769         uint32_t pcid;
2770         u_int cpuid, i;
2771
2772         cpuid = PCPU_GET(cpuid);
2773         if (pmap == PCPU_GET(curpmap)) {
2774                 if (pmap->pm_ucr3 != PMAP_NO_CR3 &&
2775                     /*
2776                      * If we context-switched right after
2777                      * PCPU_GET(ucr3_load_mask), we could read the
2778                      * ~CR3_PCID_SAVE mask, which causes us to skip
2779                      * the code below to invalidate user pages.  This
2780                      * is handled in pmap_activate_sw_pcid_pti() by
2781                      * clearing pm_gen if ucr3_load_mask is ~CR3_PCID_SAVE.
2782                      */
2783                     PCPU_GET(ucr3_load_mask) == PMAP_UCR3_NOMASK) {
2784                         /*
2785                          * Because pm_pcid is recalculated on a
2786                          * context switch, we must disable switching.
2787                          * Otherwise, we might use a stale value
2788                          * below.
2789                          */
2790                         critical_enter();
2791                         pcid = pmap->pm_pcids[cpuid].pm_pcid;
2792                         if (invpcid_works1) {
2793                                 d.pcid = pcid | PMAP_PCID_USER_PT;
2794                                 d.pad = 0;
2795                                 d.addr = va;
2796                                 invpcid(&d, INVPCID_ADDR);
2797                         } else {
2798                                 kcr3 = pmap->pm_cr3 | pcid | CR3_PCID_SAVE;
2799                                 ucr3 = pmap->pm_ucr3 | pcid |
2800                                     PMAP_PCID_USER_PT | CR3_PCID_SAVE;
2801                                 pmap_pti_pcid_invlpg(ucr3, kcr3, va);
2802                         }
2803                         critical_exit();
2804                 }
2805         } else
2806                 pmap->pm_pcids[cpuid].pm_gen = 0;
2807
2808         CPU_FOREACH(i) {
2809                 if (cpuid != i)
2810                         pmap->pm_pcids[i].pm_gen = 0;
2811         }
2812
2813         /*
2814          * The fence is between stores to pm_gen and the read of the
2815          * pm_active mask.  We need to ensure that it is impossible
2816          * for us to miss the bit update in pm_active and
2817          * simultaneously observe a non-zero pm_gen in
2818          * pmap_activate_sw(), otherwise TLB update is missed.
2819          * Without the fence, IA32 allows such an outcome.  Note that
2820          * pm_active is updated by a locked operation, which provides
2821          * the reciprocal fence.
2822          */
2823         atomic_thread_fence_seq_cst();
2824 }
2825
2826 static void
2827 pmap_invalidate_page_pcid_invpcid(pmap_t pmap, vm_offset_t va)
2828 {
2829
2830         pmap_invalidate_page_pcid(pmap, va, true);
2831 }
2832
2833 static void
2834 pmap_invalidate_page_pcid_noinvpcid(pmap_t pmap, vm_offset_t va)
2835 {
2836
2837         pmap_invalidate_page_pcid(pmap, va, false);
2838 }
2839
2840 static void
2841 pmap_invalidate_page_nopcid(pmap_t pmap, vm_offset_t va)
2842 {
2843 }
2844
2845 DEFINE_IFUNC(static, void, pmap_invalidate_page_mode, (pmap_t, vm_offset_t))
2846 {
2847
2848         if (pmap_pcid_enabled)
2849                 return (invpcid_works ? pmap_invalidate_page_pcid_invpcid :
2850                     pmap_invalidate_page_pcid_noinvpcid);
2851         return (pmap_invalidate_page_nopcid);
2852 }
2853
2854 static void
2855 pmap_invalidate_page_curcpu_cb(pmap_t pmap, vm_offset_t va,
2856     vm_offset_t addr2 __unused)
2857 {
2858
2859         if (pmap == kernel_pmap) {
2860                 invlpg(va);
2861         } else {
2862                 if (pmap == PCPU_GET(curpmap))
2863                         invlpg(va);
2864                 pmap_invalidate_page_mode(pmap, va);
2865         }
2866 }
2867
2868 void
2869 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
2870 {
2871
2872         if (pmap_type_guest(pmap)) {
2873                 pmap_invalidate_ept(pmap);
2874                 return;
2875         }
2876
2877         KASSERT(pmap->pm_type == PT_X86,
2878             ("pmap_invalidate_page: invalid type %d", pmap->pm_type));
2879
2880         smp_masked_invlpg(pmap_invalidate_cpu_mask(pmap), va, pmap,
2881             pmap_invalidate_page_curcpu_cb);
2882 }
2883
2884 /* 4k PTEs -- Chosen to exceed the total size of Broadwell L2 TLB */
2885 #define PMAP_INVLPG_THRESHOLD   (4 * 1024 * PAGE_SIZE)
2886
2887 static void
2888 pmap_invalidate_range_pcid(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
2889     const bool invpcid_works1)
2890 {
2891         struct invpcid_descr d;
2892         uint64_t kcr3, ucr3;
2893         uint32_t pcid;
2894         u_int cpuid, i;
2895
2896         cpuid = PCPU_GET(cpuid);
2897         if (pmap == PCPU_GET(curpmap)) {
2898                 if (pmap->pm_ucr3 != PMAP_NO_CR3 &&
2899                     PCPU_GET(ucr3_load_mask) == PMAP_UCR3_NOMASK) {
2900                         critical_enter();
2901                         pcid = pmap->pm_pcids[cpuid].pm_pcid;
2902                         if (invpcid_works1) {
2903                                 d.pcid = pcid | PMAP_PCID_USER_PT;
2904                                 d.pad = 0;
2905                                 d.addr = sva;
2906                                 for (; d.addr < eva; d.addr += PAGE_SIZE)
2907                                         invpcid(&d, INVPCID_ADDR);
2908                         } else {
2909                                 kcr3 = pmap->pm_cr3 | pcid | CR3_PCID_SAVE;
2910                                 ucr3 = pmap->pm_ucr3 | pcid |
2911                                     PMAP_PCID_USER_PT | CR3_PCID_SAVE;
2912                                 pmap_pti_pcid_invlrng(ucr3, kcr3, sva, eva);
2913                         }
2914                         critical_exit();
2915                 }
2916         } else
2917                 pmap->pm_pcids[cpuid].pm_gen = 0;
2918
2919         CPU_FOREACH(i) {
2920                 if (cpuid != i)
2921                         pmap->pm_pcids[i].pm_gen = 0;
2922         }
2923         /* See the comment in pmap_invalidate_page_pcid(). */
2924         atomic_thread_fence_seq_cst();
2925 }
2926
2927 static void
2928 pmap_invalidate_range_pcid_invpcid(pmap_t pmap, vm_offset_t sva,
2929     vm_offset_t eva)
2930 {
2931
2932         pmap_invalidate_range_pcid(pmap, sva, eva, true);
2933 }
2934
2935 static void
2936 pmap_invalidate_range_pcid_noinvpcid(pmap_t pmap, vm_offset_t sva,
2937     vm_offset_t eva)
2938 {
2939
2940         pmap_invalidate_range_pcid(pmap, sva, eva, false);
2941 }
2942
2943 static void
2944 pmap_invalidate_range_nopcid(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2945 {
2946 }
2947
2948 DEFINE_IFUNC(static, void, pmap_invalidate_range_mode, (pmap_t, vm_offset_t,
2949     vm_offset_t))
2950 {
2951
2952         if (pmap_pcid_enabled)
2953                 return (invpcid_works ? pmap_invalidate_range_pcid_invpcid :
2954                     pmap_invalidate_range_pcid_noinvpcid);
2955         return (pmap_invalidate_range_nopcid);
2956 }
2957
2958 static void
2959 pmap_invalidate_range_curcpu_cb(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2960 {
2961         vm_offset_t addr;
2962
2963         if (pmap == kernel_pmap) {
2964                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
2965                         invlpg(addr);
2966         } else {
2967                 if (pmap == PCPU_GET(curpmap)) {
2968                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
2969                                 invlpg(addr);
2970                 }
2971                 pmap_invalidate_range_mode(pmap, sva, eva);
2972         }
2973 }
2974
2975 void
2976 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2977 {
2978
2979         if (eva - sva >= PMAP_INVLPG_THRESHOLD) {
2980                 pmap_invalidate_all(pmap);
2981                 return;
2982         }
2983
2984         if (pmap_type_guest(pmap)) {
2985                 pmap_invalidate_ept(pmap);
2986                 return;
2987         }
2988
2989         KASSERT(pmap->pm_type == PT_X86,
2990             ("pmap_invalidate_range: invalid type %d", pmap->pm_type));
2991
2992         smp_masked_invlpg_range(pmap_invalidate_cpu_mask(pmap), sva, eva, pmap,
2993             pmap_invalidate_range_curcpu_cb);
2994 }
2995
2996 static inline void
2997 pmap_invalidate_all_pcid(pmap_t pmap, bool invpcid_works1)
2998 {
2999         struct invpcid_descr d;
3000         uint64_t kcr3;
3001         uint32_t pcid;
3002         u_int cpuid, i;
3003
3004         if (pmap == kernel_pmap) {
3005                 if (invpcid_works1) {
3006                         bzero(&d, sizeof(d));
3007                         invpcid(&d, INVPCID_CTXGLOB);
3008                 } else {
3009                         invltlb_glob();
3010                 }
3011         } else {
3012                 cpuid = PCPU_GET(cpuid);
3013                 if (pmap == PCPU_GET(curpmap)) {
3014                         critical_enter();
3015                         pcid = pmap->pm_pcids[cpuid].pm_pcid;
3016                         if (invpcid_works1) {
3017                                 d.pcid = pcid;
3018                                 d.pad = 0;
3019                                 d.addr = 0;
3020                                 invpcid(&d, INVPCID_CTX);
3021                         } else {
3022                                 kcr3 = pmap->pm_cr3 | pcid;
3023                                 load_cr3(kcr3);
3024                         }
3025                         if (pmap->pm_ucr3 != PMAP_NO_CR3)
3026                                 PCPU_SET(ucr3_load_mask, ~CR3_PCID_SAVE);
3027                         critical_exit();
3028                 } else
3029                         pmap->pm_pcids[cpuid].pm_gen = 0;
3030                 CPU_FOREACH(i) {
3031                         if (cpuid != i)
3032                                 pmap->pm_pcids[i].pm_gen = 0;
3033                 }
3034         }
3035         /* See the comment in pmap_invalidate_page_pcid(). */
3036         atomic_thread_fence_seq_cst();
3037 }
3038
3039 static void
3040 pmap_invalidate_all_pcid_invpcid(pmap_t pmap)
3041 {
3042
3043         pmap_invalidate_all_pcid(pmap, true);
3044 }
3045
3046 static void
3047 pmap_invalidate_all_pcid_noinvpcid(pmap_t pmap)
3048 {
3049
3050         pmap_invalidate_all_pcid(pmap, false);
3051 }
3052
3053 static void
3054 pmap_invalidate_all_nopcid(pmap_t pmap)
3055 {
3056
3057         if (pmap == kernel_pmap)
3058                 invltlb_glob();
3059         else if (pmap == PCPU_GET(curpmap))
3060                 invltlb();
3061 }
3062
3063 DEFINE_IFUNC(static, void, pmap_invalidate_all_mode, (pmap_t))
3064 {
3065
3066         if (pmap_pcid_enabled)
3067                 return (invpcid_works ? pmap_invalidate_all_pcid_invpcid :
3068                     pmap_invalidate_all_pcid_noinvpcid);
3069         return (pmap_invalidate_all_nopcid);
3070 }
3071
3072 static void
3073 pmap_invalidate_all_curcpu_cb(pmap_t pmap, vm_offset_t addr1 __unused,
3074     vm_offset_t addr2 __unused)
3075 {
3076
3077         pmap_invalidate_all_mode(pmap);
3078 }
3079
3080 void
3081 pmap_invalidate_all(pmap_t pmap)
3082 {
3083
3084         if (pmap_type_guest(pmap)) {
3085                 pmap_invalidate_ept(pmap);
3086                 return;
3087         }
3088
3089         KASSERT(pmap->pm_type == PT_X86,
3090             ("pmap_invalidate_all: invalid type %d", pmap->pm_type));
3091
3092         smp_masked_invltlb(pmap_invalidate_cpu_mask(pmap), pmap,
3093             pmap_invalidate_all_curcpu_cb);
3094 }
3095
3096 static void
3097 pmap_invalidate_cache_curcpu_cb(pmap_t pmap __unused, vm_offset_t va __unused,
3098     vm_offset_t addr2 __unused)
3099 {
3100
3101         wbinvd();
3102 }
3103
3104 void
3105 pmap_invalidate_cache(void)
3106 {
3107
3108         smp_cache_flush(pmap_invalidate_cache_curcpu_cb);
3109 }
3110
3111 struct pde_action {
3112         cpuset_t invalidate;    /* processors that invalidate their TLB */
3113         pmap_t pmap;
3114         vm_offset_t va;
3115         pd_entry_t *pde;
3116         pd_entry_t newpde;
3117         u_int store;            /* processor that updates the PDE */
3118 };
3119
3120 static void
3121 pmap_update_pde_action(void *arg)
3122 {
3123         struct pde_action *act = arg;
3124
3125         if (act->store == PCPU_GET(cpuid))
3126                 pmap_update_pde_store(act->pmap, act->pde, act->newpde);
3127 }
3128
3129 static void
3130 pmap_update_pde_teardown(void *arg)
3131 {
3132         struct pde_action *act = arg;
3133
3134         if (CPU_ISSET(PCPU_GET(cpuid), &act->invalidate))
3135                 pmap_update_pde_invalidate(act->pmap, act->va, act->newpde);
3136 }
3137
3138 /*
3139  * Change the page size for the specified virtual address in a way that
3140  * prevents any possibility of the TLB ever having two entries that map the
3141  * same virtual address using different page sizes.  This is the recommended
3142  * workaround for Erratum 383 on AMD Family 10h processors.  It prevents a
3143  * machine check exception for a TLB state that is improperly diagnosed as a
3144  * hardware error.
3145  */
3146 static void
3147 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
3148 {
3149         struct pde_action act;
3150         cpuset_t active, other_cpus;
3151         u_int cpuid;
3152
3153         sched_pin();
3154         cpuid = PCPU_GET(cpuid);
3155         other_cpus = all_cpus;
3156         CPU_CLR(cpuid, &other_cpus);
3157         if (pmap == kernel_pmap || pmap_type_guest(pmap))
3158                 active = all_cpus;
3159         else {
3160                 active = pmap->pm_active;
3161         }
3162         if (CPU_OVERLAP(&active, &other_cpus)) {
3163                 act.store = cpuid;
3164                 act.invalidate = active;
3165                 act.va = va;
3166                 act.pmap = pmap;
3167                 act.pde = pde;
3168                 act.newpde = newpde;
3169                 CPU_SET(cpuid, &active);
3170                 smp_rendezvous_cpus(active,
3171                     smp_no_rendezvous_barrier, pmap_update_pde_action,
3172                     pmap_update_pde_teardown, &act);
3173         } else {
3174                 pmap_update_pde_store(pmap, pde, newpde);
3175                 if (CPU_ISSET(cpuid, &active))
3176                         pmap_update_pde_invalidate(pmap, va, newpde);
3177         }
3178         sched_unpin();
3179 }
3180 #else /* !SMP */
3181 /*
3182  * Normal, non-SMP, invalidation functions.
3183  */
3184 void
3185 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
3186 {
3187         struct invpcid_descr d;
3188         uint64_t kcr3, ucr3;
3189         uint32_t pcid;
3190
3191         if (pmap->pm_type == PT_RVI || pmap->pm_type == PT_EPT) {
3192                 pmap->pm_eptgen++;
3193                 return;
3194         }
3195         KASSERT(pmap->pm_type == PT_X86,
3196             ("pmap_invalidate_range: unknown type %d", pmap->pm_type));
3197
3198         if (pmap == kernel_pmap || pmap == PCPU_GET(curpmap)) {
3199                 invlpg(va);
3200                 if (pmap == PCPU_GET(curpmap) && pmap_pcid_enabled &&
3201                     pmap->pm_ucr3 != PMAP_NO_CR3) {
3202                         critical_enter();
3203                         pcid = pmap->pm_pcids[0].pm_pcid;
3204                         if (invpcid_works) {
3205                                 d.pcid = pcid | PMAP_PCID_USER_PT;
3206                                 d.pad = 0;
3207                                 d.addr = va;
3208                                 invpcid(&d, INVPCID_ADDR);
3209                         } else {
3210                                 kcr3 = pmap->pm_cr3 | pcid | CR3_PCID_SAVE;
3211                                 ucr3 = pmap->pm_ucr3 | pcid |
3212                                     PMAP_PCID_USER_PT | CR3_PCID_SAVE;
3213                                 pmap_pti_pcid_invlpg(ucr3, kcr3, va);
3214                         }
3215                         critical_exit();
3216                 }
3217         } else if (pmap_pcid_enabled)
3218                 pmap->pm_pcids[0].pm_gen = 0;
3219 }
3220
3221 void
3222 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
3223 {
3224         struct invpcid_descr d;
3225         vm_offset_t addr;
3226         uint64_t kcr3, ucr3;
3227
3228         if (pmap->pm_type == PT_RVI || pmap->pm_type == PT_EPT) {
3229                 pmap->pm_eptgen++;
3230                 return;
3231         }
3232         KASSERT(pmap->pm_type == PT_X86,
3233             ("pmap_invalidate_range: unknown type %d", pmap->pm_type));
3234
3235         if (pmap == kernel_pmap || pmap == PCPU_GET(curpmap)) {
3236                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
3237                         invlpg(addr);
3238                 if (pmap == PCPU_GET(curpmap) && pmap_pcid_enabled &&
3239                     pmap->pm_ucr3 != PMAP_NO_CR3) {
3240                         critical_enter();
3241                         if (invpcid_works) {
3242                                 d.pcid = pmap->pm_pcids[0].pm_pcid |
3243                                     PMAP_PCID_USER_PT;
3244                                 d.pad = 0;
3245                                 d.addr = sva;
3246                                 for (; d.addr < eva; d.addr += PAGE_SIZE)
3247                                         invpcid(&d, INVPCID_ADDR);
3248                         } else {
3249                                 kcr3 = pmap->pm_cr3 | pmap->pm_pcids[0].
3250                                     pm_pcid | CR3_PCID_SAVE;
3251                                 ucr3 = pmap->pm_ucr3 | pmap->pm_pcids[0].
3252                                     pm_pcid | PMAP_PCID_USER_PT | CR3_PCID_SAVE;
3253                                 pmap_pti_pcid_invlrng(ucr3, kcr3, sva, eva);
3254                         }
3255                         critical_exit();
3256                 }
3257         } else if (pmap_pcid_enabled) {
3258                 pmap->pm_pcids[0].pm_gen = 0;
3259         }
3260 }
3261
3262 void
3263 pmap_invalidate_all(pmap_t pmap)
3264 {
3265         struct invpcid_descr d;
3266         uint64_t kcr3, ucr3;
3267
3268         if (pmap->pm_type == PT_RVI || pmap->pm_type == PT_EPT) {
3269                 pmap->pm_eptgen++;
3270                 return;
3271         }
3272         KASSERT(pmap->pm_type == PT_X86,
3273             ("pmap_invalidate_all: unknown type %d", pmap->pm_type));
3274
3275         if (pmap == kernel_pmap) {
3276                 if (pmap_pcid_enabled && invpcid_works) {
3277                         bzero(&d, sizeof(d));
3278                         invpcid(&d, INVPCID_CTXGLOB);
3279                 } else {
3280                         invltlb_glob();
3281                 }
3282         } else if (pmap == PCPU_GET(curpmap)) {
3283                 if (pmap_pcid_enabled) {
3284                         critical_enter();
3285                         if (invpcid_works) {
3286                                 d.pcid = pmap->pm_pcids[0].pm_pcid;
3287                                 d.pad = 0;
3288                                 d.addr = 0;
3289                                 invpcid(&d, INVPCID_CTX);
3290                                 if (pmap->pm_ucr3 != PMAP_NO_CR3) {
3291                                         d.pcid |= PMAP_PCID_USER_PT;
3292                                         invpcid(&d, INVPCID_CTX);
3293                                 }
3294                         } else {
3295                                 kcr3 = pmap->pm_cr3 | pmap->pm_pcids[0].pm_pcid;
3296                                 if (pmap->pm_ucr3 != PMAP_NO_CR3) {
3297                                         ucr3 = pmap->pm_ucr3 | pmap->pm_pcids[
3298                                             0].pm_pcid | PMAP_PCID_USER_PT;
3299                                         pmap_pti_pcid_invalidate(ucr3, kcr3);
3300                                 } else
3301                                         load_cr3(kcr3);
3302                         }
3303                         critical_exit();
3304                 } else {
3305                         invltlb();
3306                 }
3307         } else if (pmap_pcid_enabled) {
3308                 pmap->pm_pcids[0].pm_gen = 0;
3309         }
3310 }
3311
3312 PMAP_INLINE void
3313 pmap_invalidate_cache(void)
3314 {
3315
3316         wbinvd();
3317 }
3318
3319 static void
3320 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
3321 {
3322
3323         pmap_update_pde_store(pmap, pde, newpde);
3324         if (pmap == kernel_pmap || pmap == PCPU_GET(curpmap))
3325                 pmap_update_pde_invalidate(pmap, va, newpde);
3326         else
3327                 pmap->pm_pcids[0].pm_gen = 0;
3328 }
3329 #endif /* !SMP */
3330
3331 static void
3332 pmap_invalidate_pde_page(pmap_t pmap, vm_offset_t va, pd_entry_t pde)
3333 {
3334
3335         /*
3336          * When the PDE has PG_PROMOTED set, the 2MB page mapping was created
3337          * by a promotion that did not invalidate the 512 4KB page mappings
3338          * that might exist in the TLB.  Consequently, at this point, the TLB
3339          * may hold both 4KB and 2MB page mappings for the address range [va,
3340          * va + NBPDR).  Therefore, the entire range must be invalidated here.
3341          * In contrast, when PG_PROMOTED is clear, the TLB will not hold any
3342          * 4KB page mappings for the address range [va, va + NBPDR), and so a
3343          * single INVLPG suffices to invalidate the 2MB page mapping from the
3344          * TLB.
3345          */
3346         if ((pde & PG_PROMOTED) != 0)
3347                 pmap_invalidate_range(pmap, va, va + NBPDR - 1);
3348         else
3349                 pmap_invalidate_page(pmap, va);
3350 }
3351
3352 DEFINE_IFUNC(, void, pmap_invalidate_cache_range,
3353     (vm_offset_t sva, vm_offset_t eva))
3354 {
3355
3356         if ((cpu_feature & CPUID_SS) != 0)
3357                 return (pmap_invalidate_cache_range_selfsnoop);
3358         if ((cpu_feature & CPUID_CLFSH) != 0)
3359                 return (pmap_force_invalidate_cache_range);
3360         return (pmap_invalidate_cache_range_all);
3361 }
3362
3363 #define PMAP_CLFLUSH_THRESHOLD   (2 * 1024 * 1024)
3364
3365 static void
3366 pmap_invalidate_cache_range_check_align(vm_offset_t sva, vm_offset_t eva)
3367 {
3368
3369         KASSERT((sva & PAGE_MASK) == 0,
3370             ("pmap_invalidate_cache_range: sva not page-aligned"));
3371         KASSERT((eva & PAGE_MASK) == 0,
3372             ("pmap_invalidate_cache_range: eva not page-aligned"));
3373 }
3374
3375 static void
3376 pmap_invalidate_cache_range_selfsnoop(vm_offset_t sva, vm_offset_t eva)
3377 {
3378
3379         pmap_invalidate_cache_range_check_align(sva, eva);
3380 }
3381
3382 void
3383 pmap_force_invalidate_cache_range(vm_offset_t sva, vm_offset_t eva)
3384 {
3385
3386         sva &= ~(vm_offset_t)(cpu_clflush_line_size - 1);
3387
3388         /*
3389          * XXX: Some CPUs fault, hang, or trash the local APIC
3390          * registers if we use CLFLUSH on the local APIC range.  The
3391          * local APIC is always uncached, so we don't need to flush
3392          * for that range anyway.
3393          */
3394         if (pmap_kextract(sva) == lapic_paddr)
3395                 return;
3396
3397         if ((cpu_stdext_feature & CPUID_STDEXT_CLFLUSHOPT) != 0) {
3398                 /*
3399                  * Do per-cache line flush.  Use a locked
3400                  * instruction to insure that previous stores are
3401                  * included in the write-back.  The processor
3402                  * propagates flush to other processors in the cache
3403                  * coherence domain.
3404                  */
3405                 atomic_thread_fence_seq_cst();
3406                 for (; sva < eva; sva += cpu_clflush_line_size)
3407                         clflushopt(sva);
3408                 atomic_thread_fence_seq_cst();
3409         } else {
3410                 /*
3411                  * Writes are ordered by CLFLUSH on Intel CPUs.
3412                  */
3413                 if (cpu_vendor_id != CPU_VENDOR_INTEL)
3414                         mfence();
3415                 for (; sva < eva; sva += cpu_clflush_line_size)
3416                         clflush(sva);
3417                 if (cpu_vendor_id != CPU_VENDOR_INTEL)
3418                         mfence();
3419         }
3420 }
3421
3422 static void
3423 pmap_invalidate_cache_range_all(vm_offset_t sva, vm_offset_t eva)
3424 {
3425
3426         pmap_invalidate_cache_range_check_align(sva, eva);
3427         pmap_invalidate_cache();
3428 }
3429
3430 /*
3431  * Remove the specified set of pages from the data and instruction caches.
3432  *
3433  * In contrast to pmap_invalidate_cache_range(), this function does not
3434  * rely on the CPU's self-snoop feature, because it is intended for use
3435  * when moving pages into a different cache domain.
3436  */
3437 void
3438 pmap_invalidate_cache_pages(vm_page_t *pages, int count)
3439 {
3440         vm_offset_t daddr, eva;
3441         int i;
3442         bool useclflushopt;
3443
3444         useclflushopt = (cpu_stdext_feature & CPUID_STDEXT_CLFLUSHOPT) != 0;
3445         if (count >= PMAP_CLFLUSH_THRESHOLD / PAGE_SIZE ||
3446             ((cpu_feature & CPUID_CLFSH) == 0 && !useclflushopt))
3447                 pmap_invalidate_cache();
3448         else {
3449                 if (useclflushopt)
3450                         atomic_thread_fence_seq_cst();
3451                 else if (cpu_vendor_id != CPU_VENDOR_INTEL)
3452                         mfence();
3453                 for (i = 0; i < count; i++) {
3454                         daddr = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pages[i]));
3455                         eva = daddr + PAGE_SIZE;
3456                         for (; daddr < eva; daddr += cpu_clflush_line_size) {
3457                                 if (useclflushopt)
3458                                         clflushopt(daddr);
3459                                 else
3460                                         clflush(daddr);
3461                         }
3462                 }
3463                 if (useclflushopt)
3464                         atomic_thread_fence_seq_cst();
3465                 else if (cpu_vendor_id != CPU_VENDOR_INTEL)
3466                         mfence();
3467         }
3468 }
3469
3470 void
3471 pmap_flush_cache_range(vm_offset_t sva, vm_offset_t eva)
3472 {
3473
3474         pmap_invalidate_cache_range_check_align(sva, eva);
3475
3476         if ((cpu_stdext_feature & CPUID_STDEXT_CLWB) == 0) {
3477                 pmap_force_invalidate_cache_range(sva, eva);
3478                 return;
3479         }
3480
3481         /* See comment in pmap_force_invalidate_cache_range(). */
3482         if (pmap_kextract(sva) == lapic_paddr)
3483                 return;
3484
3485         atomic_thread_fence_seq_cst();
3486         for (; sva < eva; sva += cpu_clflush_line_size)
3487                 clwb(sva);
3488         atomic_thread_fence_seq_cst();
3489 }
3490
3491 void
3492 pmap_flush_cache_phys_range(vm_paddr_t spa, vm_paddr_t epa, vm_memattr_t mattr)
3493 {
3494         pt_entry_t *pte;
3495         vm_offset_t vaddr;
3496         int error, pte_bits;
3497
3498         KASSERT((spa & PAGE_MASK) == 0,
3499             ("pmap_flush_cache_phys_range: spa not page-aligned"));
3500         KASSERT((epa & PAGE_MASK) == 0,
3501             ("pmap_flush_cache_phys_range: epa not page-aligned"));
3502
3503         if (spa < dmaplimit) {
3504                 pmap_flush_cache_range(PHYS_TO_DMAP(spa), PHYS_TO_DMAP(MIN(
3505                     dmaplimit, epa)));
3506                 if (dmaplimit >= epa)
3507                         return;
3508                 spa = dmaplimit;
3509         }
3510
3511         pte_bits = pmap_cache_bits(kernel_pmap, mattr, 0) | X86_PG_RW |
3512             X86_PG_V;
3513         error = vmem_alloc(kernel_arena, PAGE_SIZE, M_BESTFIT | M_WAITOK,
3514             &vaddr);
3515         KASSERT(error == 0, ("vmem_alloc failed: %d", error));
3516         pte = vtopte(vaddr);
3517         for (; spa < epa; spa += PAGE_SIZE) {
3518                 sched_pin();
3519                 pte_store(pte, spa | pte_bits);
3520                 invlpg(vaddr);
3521                 /* XXXKIB atomic inside flush_cache_range are excessive */
3522                 pmap_flush_cache_range(vaddr, vaddr + PAGE_SIZE);
3523                 sched_unpin();
3524         }
3525         vmem_free(kernel_arena, vaddr, PAGE_SIZE);
3526 }
3527
3528 /*
3529  *      Routine:        pmap_extract
3530  *      Function:
3531  *              Extract the physical page address associated
3532  *              with the given map/virtual_address pair.
3533  */
3534 vm_paddr_t
3535 pmap_extract(pmap_t pmap, vm_offset_t va)
3536 {
3537         pdp_entry_t *pdpe;
3538         pd_entry_t *pde;
3539         pt_entry_t *pte, PG_V;
3540         vm_paddr_t pa;
3541
3542         pa = 0;
3543         PG_V = pmap_valid_bit(pmap);
3544         PMAP_LOCK(pmap);
3545         pdpe = pmap_pdpe(pmap, va);
3546         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
3547                 if ((*pdpe & PG_PS) != 0)
3548                         pa = (*pdpe & PG_PS_FRAME) | (va & PDPMASK);
3549                 else {
3550                         pde = pmap_pdpe_to_pde(pdpe, va);
3551                         if ((*pde & PG_V) != 0) {
3552                                 if ((*pde & PG_PS) != 0) {
3553                                         pa = (*pde & PG_PS_FRAME) |
3554                                             (va & PDRMASK);
3555                                 } else {
3556                                         pte = pmap_pde_to_pte(pde, va);
3557                                         pa = (*pte & PG_FRAME) |
3558                                             (va & PAGE_MASK);
3559                                 }
3560                         }
3561                 }
3562         }
3563         PMAP_UNLOCK(pmap);
3564         return (pa);
3565 }
3566
3567 /*
3568  *      Routine:        pmap_extract_and_hold
3569  *      Function:
3570  *              Atomically extract and hold the physical page
3571  *              with the given pmap and virtual address pair
3572  *              if that mapping permits the given protection.
3573  */
3574 vm_page_t
3575 pmap_extract_and_hold(pmap_t pmap, vm_offset_t va, vm_prot_t prot)
3576 {
3577         pdp_entry_t pdpe, *pdpep;
3578         pd_entry_t pde, *pdep;
3579         pt_entry_t pte, PG_RW, PG_V;
3580         vm_page_t m;
3581
3582         m = NULL;
3583         PG_RW = pmap_rw_bit(pmap);
3584         PG_V = pmap_valid_bit(pmap);
3585         PMAP_LOCK(pmap);
3586
3587         pdpep = pmap_pdpe(pmap, va);
3588         if (pdpep == NULL || ((pdpe = *pdpep) & PG_V) == 0)
3589                 goto out;
3590         if ((pdpe & PG_PS) != 0) {
3591                 if ((pdpe & PG_RW) == 0 && (prot & VM_PROT_WRITE) != 0)
3592                         goto out;
3593                 m = PHYS_TO_VM_PAGE((pdpe & PG_PS_FRAME) | (va & PDPMASK));
3594                 goto check_page;
3595         }
3596
3597         pdep = pmap_pdpe_to_pde(pdpep, va);
3598         if (pdep == NULL || ((pde = *pdep) & PG_V) == 0)
3599                 goto out;
3600         if ((pde & PG_PS) != 0) {
3601                 if ((pde & PG_RW) == 0 && (prot & VM_PROT_WRITE) != 0)
3602                         goto out;
3603                 m = PHYS_TO_VM_PAGE((pde & PG_PS_FRAME) | (va & PDRMASK));
3604                 goto check_page;
3605         }
3606
3607         pte = *pmap_pde_to_pte(pdep, va);
3608         if ((pte & PG_V) == 0 ||
3609             ((pte & PG_RW) == 0 && (prot & VM_PROT_WRITE) != 0))
3610                 goto out;
3611         m = PHYS_TO_VM_PAGE(pte & PG_FRAME);
3612
3613 check_page:
3614         if (m != NULL && !vm_page_wire_mapped(m))
3615                 m = NULL;
3616 out:
3617         PMAP_UNLOCK(pmap);
3618         return (m);
3619 }
3620
3621 vm_paddr_t
3622 pmap_kextract(vm_offset_t va)
3623 {
3624         pd_entry_t pde;
3625         vm_paddr_t pa;
3626
3627         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS) {
3628                 pa = DMAP_TO_PHYS(va);
3629         } else if (PMAP_ADDRESS_IN_LARGEMAP(va)) {
3630                 pa = pmap_large_map_kextract(va);
3631         } else {
3632                 pde = *vtopde(va);
3633                 if (pde & PG_PS) {
3634                         pa = (pde & PG_PS_FRAME) | (va & PDRMASK);
3635                 } else {
3636                         /*
3637                          * Beware of a concurrent promotion that changes the
3638                          * PDE at this point!  For example, vtopte() must not
3639                          * be used to access the PTE because it would use the
3640                          * new PDE.  It is, however, safe to use the old PDE
3641                          * because the page table page is preserved by the
3642                          * promotion.
3643                          */
3644                         pa = *pmap_pde_to_pte(&pde, va);
3645                         pa = (pa & PG_FRAME) | (va & PAGE_MASK);
3646                 }
3647         }
3648         return (pa);
3649 }
3650
3651 /***************************************************
3652  * Low level mapping routines.....
3653  ***************************************************/
3654
3655 /*
3656  * Add a wired page to the kva.
3657  * Note: not SMP coherent.
3658  */
3659 PMAP_INLINE void
3660 pmap_kenter(vm_offset_t va, vm_paddr_t pa)
3661 {
3662         pt_entry_t *pte;
3663
3664         pte = vtopte(va);
3665         pte_store(pte, pa | X86_PG_RW | X86_PG_V | pg_g | pg_nx);
3666 }
3667
3668 static __inline void
3669 pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode)
3670 {
3671         pt_entry_t *pte;
3672         int cache_bits;
3673
3674         pte = vtopte(va);
3675         cache_bits = pmap_cache_bits(kernel_pmap, mode, 0);
3676         pte_store(pte, pa | X86_PG_RW | X86_PG_V | pg_g | pg_nx | cache_bits);
3677 }
3678
3679 /*
3680  * Remove a page from the kernel pagetables.
3681  * Note: not SMP coherent.
3682  */
3683 PMAP_INLINE void
3684 pmap_kremove(vm_offset_t va)
3685 {
3686         pt_entry_t *pte;
3687
3688         pte = vtopte(va);
3689         pte_clear(pte);
3690 }
3691
3692 /*
3693  *      Used to map a range of physical addresses into kernel
3694  *      virtual address space.
3695  *
3696  *      The value passed in '*virt' is a suggested virtual address for
3697  *      the mapping. Architectures which can support a direct-mapped
3698  *      physical to virtual region can return the appropriate address
3699  *      within that region, leaving '*virt' unchanged. Other
3700  *      architectures should map the pages starting at '*virt' and
3701  *      update '*virt' with the first usable address after the mapped
3702  *      region.
3703  */
3704 vm_offset_t
3705 pmap_map(vm_offset_t *virt, vm_paddr_t start, vm_paddr_t end, int prot)
3706 {
3707         return PHYS_TO_DMAP(start);
3708 }
3709
3710 /*
3711  * Add a list of wired pages to the kva
3712  * this routine is only used for temporary
3713  * kernel mappings that do not need to have
3714  * page modification or references recorded.
3715  * Note that old mappings are simply written
3716  * over.  The page *must* be wired.
3717  * Note: SMP coherent.  Uses a ranged shootdown IPI.
3718  */
3719 void
3720 pmap_qenter(vm_offset_t sva, vm_page_t *ma, int count)
3721 {
3722         pt_entry_t *endpte, oldpte, pa, *pte;
3723         vm_page_t m;
3724         int cache_bits;
3725
3726         oldpte = 0;
3727         pte = vtopte(sva);
3728         endpte = pte + count;
3729         while (pte < endpte) {
3730                 m = *ma++;
3731                 cache_bits = pmap_cache_bits(kernel_pmap, m->md.pat_mode, 0);
3732                 pa = VM_PAGE_TO_PHYS(m) | cache_bits;
3733                 if ((*pte & (PG_FRAME | X86_PG_PTE_CACHE)) != pa) {
3734                         oldpte |= *pte;
3735                         pte_store(pte, pa | pg_g | pg_nx | X86_PG_RW | X86_PG_V);
3736                 }
3737                 pte++;
3738         }
3739         if (__predict_false((oldpte & X86_PG_V) != 0))
3740                 pmap_invalidate_range(kernel_pmap, sva, sva + count *
3741                     PAGE_SIZE);
3742 }
3743
3744 /*
3745  * This routine tears out page mappings from the
3746  * kernel -- it is meant only for temporary mappings.
3747  * Note: SMP coherent.  Uses a ranged shootdown IPI.
3748  */
3749 void
3750 pmap_qremove(vm_offset_t sva, int count)
3751 {
3752         vm_offset_t va;
3753
3754         va = sva;
3755         while (count-- > 0) {
3756                 KASSERT(va >= VM_MIN_KERNEL_ADDRESS, ("usermode va %lx", va));
3757                 pmap_kremove(va);
3758                 va += PAGE_SIZE;
3759         }
3760         pmap_invalidate_range(kernel_pmap, sva, va);
3761 }
3762
3763 /***************************************************
3764  * Page table page management routines.....
3765  ***************************************************/
3766 /*
3767  * Schedule the specified unused page table page to be freed.  Specifically,
3768  * add the page to the specified list of pages that will be released to the
3769  * physical memory manager after the TLB has been updated.
3770  */
3771 static __inline void
3772 pmap_add_delayed_free_list(vm_page_t m, struct spglist *free,
3773     boolean_t set_PG_ZERO)
3774 {
3775
3776         if (set_PG_ZERO)
3777                 m->flags |= PG_ZERO;
3778         else
3779                 m->flags &= ~PG_ZERO;
3780         SLIST_INSERT_HEAD(free, m, plinks.s.ss);
3781 }
3782
3783 /*
3784  * Inserts the specified page table page into the specified pmap's collection
3785  * of idle page table pages.  Each of a pmap's page table pages is responsible
3786  * for mapping a distinct range of virtual addresses.  The pmap's collection is
3787  * ordered by this virtual address range.
3788  *
3789  * If "promoted" is false, then the page table page "mpte" must be zero filled.
3790  */
3791 static __inline int
3792 pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte, bool promoted)
3793 {
3794
3795         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3796         mpte->valid = promoted ? VM_PAGE_BITS_ALL : 0;
3797         return (vm_radix_insert(&pmap->pm_root, mpte));
3798 }
3799
3800 /*
3801  * Removes the page table page mapping the specified virtual address from the
3802  * specified pmap's collection of idle page table pages, and returns it.
3803  * Otherwise, returns NULL if there is no page table page corresponding to the
3804  * specified virtual address.
3805  */
3806 static __inline vm_page_t
3807 pmap_remove_pt_page(pmap_t pmap, vm_offset_t va)
3808 {
3809
3810         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3811         return (vm_radix_remove(&pmap->pm_root, pmap_pde_pindex(va)));
3812 }
3813
3814 /*
3815  * Decrements a page table page's reference count, which is used to record the
3816  * number of valid page table entries within the page.  If the reference count
3817  * drops to zero, then the page table page is unmapped.  Returns TRUE if the
3818  * page table page was unmapped and FALSE otherwise.
3819  */
3820 static inline boolean_t
3821 pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m, struct spglist *free)
3822 {
3823
3824         --m->ref_count;
3825         if (m->ref_count == 0) {
3826                 _pmap_unwire_ptp(pmap, va, m, free);
3827                 return (TRUE);
3828         } else
3829                 return (FALSE);
3830 }
3831
3832 static void
3833 _pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m, struct spglist *free)
3834 {
3835         pml5_entry_t *pml5;
3836         pml4_entry_t *pml4;
3837         pdp_entry_t *pdp;
3838         pd_entry_t *pd;
3839         vm_page_t pdpg, pdppg, pml4pg;
3840
3841         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3842
3843         /*
3844          * unmap the page table page
3845          */
3846         if (m->pindex >= NUPDE + NUPDPE + NUPML4E) {
3847                 /* PML4 page */
3848                 MPASS(pmap_is_la57(pmap));
3849                 pml5 = pmap_pml5e(pmap, va);
3850                 *pml5 = 0;
3851                 if (pmap->pm_pmltopu != NULL && va <= VM_MAXUSER_ADDRESS) {
3852                         pml5 = pmap_pml5e_u(pmap, va);
3853                         *pml5 = 0;
3854                 }
3855         } else if (m->pindex >= NUPDE + NUPDPE) {
3856                 /* PDP page */
3857                 pml4 = pmap_pml4e(pmap, va);
3858                 *pml4 = 0;
3859                 if (!pmap_is_la57(pmap) && pmap->pm_pmltopu != NULL &&
3860                     va <= VM_MAXUSER_ADDRESS) {
3861                         pml4 = pmap_pml4e_u(pmap, va);
3862                         *pml4 = 0;
3863                 }
3864         } else if (m->pindex >= NUPDE) {
3865                 /* PD page */
3866                 pdp = pmap_pdpe(pmap, va);
3867                 *pdp = 0;
3868         } else {
3869                 /* PTE page */
3870                 pd = pmap_pde(pmap, va);
3871                 *pd = 0;
3872         }
3873         pmap_resident_count_dec(pmap, 1);
3874         if (m->pindex < NUPDE) {
3875                 /* We just released a PT, unhold the matching PD */
3876                 pdpg = PHYS_TO_VM_PAGE(*pmap_pdpe(pmap, va) & PG_FRAME);
3877                 pmap_unwire_ptp(pmap, va, pdpg, free);
3878         } else if (m->pindex < NUPDE + NUPDPE) {
3879                 /* We just released a PD, unhold the matching PDP */
3880                 pdppg = PHYS_TO_VM_PAGE(*pmap_pml4e(pmap, va) & PG_FRAME);
3881                 pmap_unwire_ptp(pmap, va, pdppg, free);
3882         } else if (m->pindex < NUPDE + NUPDPE + NUPML4E && pmap_is_la57(pmap)) {
3883                 /* We just released a PDP, unhold the matching PML4 */
3884                 pml4pg = PHYS_TO_VM_PAGE(*pmap_pml5e(pmap, va) & PG_FRAME);
3885                 pmap_unwire_ptp(pmap, va, pml4pg, free);
3886         }
3887
3888         /*
3889          * Put page on a list so that it is released after
3890          * *ALL* TLB shootdown is done
3891          */
3892         pmap_add_delayed_free_list(m, free, TRUE);
3893 }
3894
3895 /*
3896  * After removing a page table entry, this routine is used to
3897  * conditionally free the page, and manage the reference count.
3898  */
3899 static int
3900 pmap_unuse_pt(pmap_t pmap, vm_offset_t va, pd_entry_t ptepde,
3901     struct spglist *free)
3902 {
3903         vm_page_t mpte;
3904
3905         if (va >= VM_MAXUSER_ADDRESS)
3906                 return (0);
3907         KASSERT(ptepde != 0, ("pmap_unuse_pt: ptepde != 0"));
3908         mpte = PHYS_TO_VM_PAGE(ptepde & PG_FRAME);
3909         return (pmap_unwire_ptp(pmap, va, mpte, free));
3910 }
3911
3912 /*
3913  * Release a page table page reference after a failed attempt to create a
3914  * mapping.
3915  */
3916 static void
3917 pmap_abort_ptp(pmap_t pmap, vm_offset_t va, vm_page_t mpte)
3918 {
3919         struct spglist free;
3920
3921         SLIST_INIT(&free);
3922         if (pmap_unwire_ptp(pmap, va, mpte, &free)) {
3923                 /*
3924                  * Although "va" was never mapped, paging-structure caches
3925                  * could nonetheless have entries that refer to the freed
3926                  * page table pages.  Invalidate those entries.
3927                  */
3928                 pmap_invalidate_page(pmap, va);
3929                 vm_page_free_pages_toq(&free, true);
3930         }
3931 }
3932
3933 void
3934 pmap_pinit0(pmap_t pmap)
3935 {
3936         struct proc *p;
3937         struct thread *td;
3938         int i;
3939
3940         PMAP_LOCK_INIT(pmap);
3941         pmap->pm_pmltop = kernel_pmap->pm_pmltop;
3942         pmap->pm_pmltopu = NULL;
3943         pmap->pm_cr3 = kernel_pmap->pm_cr3;
3944         /* hack to keep pmap_pti_pcid_invalidate() alive */
3945         pmap->pm_ucr3 = PMAP_NO_CR3;
3946         pmap->pm_root.rt_root = 0;
3947         CPU_ZERO(&pmap->pm_active);
3948         TAILQ_INIT(&pmap->pm_pvchunk);
3949         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
3950         pmap->pm_flags = pmap_flags;
3951         CPU_FOREACH(i) {
3952                 pmap->pm_pcids[i].pm_pcid = PMAP_PCID_KERN + 1;
3953                 pmap->pm_pcids[i].pm_gen = 1;
3954         }
3955         pmap_activate_boot(pmap);
3956         td = curthread;
3957         if (pti) {
3958                 p = td->td_proc;
3959                 PROC_LOCK(p);
3960                 p->p_md.md_flags |= P_MD_KPTI;
3961                 PROC_UNLOCK(p);
3962         }
3963         pmap_thread_init_invl_gen(td);
3964
3965         if ((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0) {
3966                 pmap_pkru_ranges_zone = uma_zcreate("pkru ranges",
3967                     sizeof(struct pmap_pkru_range), NULL, NULL, NULL, NULL,
3968                     UMA_ALIGN_PTR, 0);
3969         }
3970 }
3971
3972 void
3973 pmap_pinit_pml4(vm_page_t pml4pg)
3974 {
3975         pml4_entry_t *pm_pml4;
3976         int i;
3977
3978         pm_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4pg));
3979
3980         /* Wire in kernel global address entries. */
3981         for (i = 0; i < NKPML4E; i++) {
3982                 pm_pml4[KPML4BASE + i] = (KPDPphys + ptoa(i)) | X86_PG_RW |
3983                     X86_PG_V;
3984         }
3985         for (i = 0; i < ndmpdpphys; i++) {
3986                 pm_pml4[DMPML4I + i] = (DMPDPphys + ptoa(i)) | X86_PG_RW |
3987                     X86_PG_V;
3988         }
3989
3990         /* install self-referential address mapping entry(s) */
3991         pm_pml4[PML4PML4I] = VM_PAGE_TO_PHYS(pml4pg) | X86_PG_V | X86_PG_RW |
3992             X86_PG_A | X86_PG_M;
3993
3994         /* install large map entries if configured */
3995         for (i = 0; i < lm_ents; i++)
3996                 pm_pml4[LMSPML4I + i] = kernel_pmap->pm_pmltop[LMSPML4I + i];
3997 }
3998
3999 void
4000 pmap_pinit_pml5(vm_page_t pml5pg)
4001 {
4002         pml5_entry_t *pm_pml5;
4003
4004         pm_pml5 = (pml5_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml5pg));
4005
4006         /*
4007          * Add pml5 entry at top of KVA pointing to existing pml4 table,
4008          * entering all existing kernel mappings into level 5 table.
4009          */
4010         pm_pml5[pmap_pml5e_index(UPT_MAX_ADDRESS)] = KPML4phys | X86_PG_V |
4011             X86_PG_RW | X86_PG_A | X86_PG_M | pg_g |
4012             pmap_cache_bits(kernel_pmap, VM_MEMATTR_DEFAULT, FALSE);
4013
4014         /*
4015          * Install self-referential address mapping entry.
4016          */
4017         pm_pml5[PML5PML5I] = VM_PAGE_TO_PHYS(pml5pg) |
4018             X86_PG_RW | X86_PG_V | X86_PG_M | X86_PG_A |
4019             pmap_cache_bits(kernel_pmap, VM_MEMATTR_DEFAULT, FALSE);
4020 }
4021
4022 static void
4023 pmap_pinit_pml4_pti(vm_page_t pml4pgu)
4024 {
4025         pml4_entry_t *pm_pml4u;
4026         int i;
4027
4028         pm_pml4u = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4pgu));
4029         for (i = 0; i < NPML4EPG; i++)
4030                 pm_pml4u[i] = pti_pml4[i];
4031 }
4032
4033 static void
4034 pmap_pinit_pml5_pti(vm_page_t pml5pgu)
4035 {
4036         pml5_entry_t *pm_pml5u;
4037
4038         pm_pml5u = (pml5_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml5pgu));
4039
4040         /*
4041          * Add pml5 entry at top of KVA pointing to existing pml4 pti
4042          * table, entering all kernel mappings needed for usermode
4043          * into level 5 table.
4044          */
4045         pm_pml5u[pmap_pml5e_index(UPT_MAX_ADDRESS)] =
4046             pmap_kextract((vm_offset_t)pti_pml4) |
4047             X86_PG_V | X86_PG_RW | X86_PG_A | X86_PG_M | pg_g |
4048             pmap_cache_bits(kernel_pmap, VM_MEMATTR_DEFAULT, FALSE);
4049 }
4050
4051 /*
4052  * Initialize a preallocated and zeroed pmap structure,
4053  * such as one in a vmspace structure.
4054  */
4055 int
4056 pmap_pinit_type(pmap_t pmap, enum pmap_type pm_type, int flags)
4057 {
4058         vm_page_t pmltop_pg, pmltop_pgu;
4059         vm_paddr_t pmltop_phys;
4060         int i;
4061
4062         /*
4063          * allocate the page directory page
4064          */
4065         pmltop_pg = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
4066             VM_ALLOC_WIRED | VM_ALLOC_ZERO | VM_ALLOC_WAITOK);
4067
4068         pmltop_phys = VM_PAGE_TO_PHYS(pmltop_pg);
4069         pmap->pm_pmltop = (pml5_entry_t *)PHYS_TO_DMAP(pmltop_phys);
4070
4071         CPU_FOREACH(i) {
4072                 pmap->pm_pcids[i].pm_pcid = PMAP_PCID_NONE;
4073                 pmap->pm_pcids[i].pm_gen = 0;
4074         }
4075         pmap->pm_cr3 = PMAP_NO_CR3;     /* initialize to an invalid value */
4076         pmap->pm_ucr3 = PMAP_NO_CR3;
4077         pmap->pm_pmltopu = NULL;
4078
4079         pmap->pm_type = pm_type;
4080         if ((pmltop_pg->flags & PG_ZERO) == 0)
4081                 pagezero(pmap->pm_pmltop);
4082
4083         /*
4084          * Do not install the host kernel mappings in the nested page
4085          * tables. These mappings are meaningless in the guest physical
4086          * address space.
4087          * Install minimal kernel mappings in PTI case.
4088          */
4089         if (pm_type == PT_X86) {
4090                 pmap->pm_cr3 = pmltop_phys;
4091                 if (pmap_is_la57(pmap))
4092                         pmap_pinit_pml5(pmltop_pg);
4093                 else
4094                         pmap_pinit_pml4(pmltop_pg);
4095                 if ((curproc->p_md.md_flags & P_MD_KPTI) != 0) {
4096                         pmltop_pgu = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL |
4097                             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED | VM_ALLOC_WAITOK);
4098                         pmap->pm_pmltopu = (pml4_entry_t *)PHYS_TO_DMAP(
4099                             VM_PAGE_TO_PHYS(pmltop_pgu));
4100                         if (pmap_is_la57(pmap))
4101                                 pmap_pinit_pml5_pti(pmltop_pgu);
4102                         else
4103                                 pmap_pinit_pml4_pti(pmltop_pgu);
4104                         pmap->pm_ucr3 = VM_PAGE_TO_PHYS(pmltop_pgu);
4105                 }
4106                 if ((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0) {
4107                         rangeset_init(&pmap->pm_pkru, pkru_dup_range,
4108                             pkru_free_range, pmap, M_NOWAIT);
4109                 }
4110         }
4111
4112         pmap->pm_root.rt_root = 0;
4113         CPU_ZERO(&pmap->pm_active);
4114         TAILQ_INIT(&pmap->pm_pvchunk);
4115         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
4116         pmap->pm_flags = flags;
4117         pmap->pm_eptgen = 0;
4118
4119         return (1);
4120 }
4121
4122 int
4123 pmap_pinit(pmap_t pmap)
4124 {
4125
4126         return (pmap_pinit_type(pmap, PT_X86, pmap_flags));
4127 }
4128
4129 static void
4130 pmap_allocpte_free_unref(pmap_t pmap, vm_offset_t va, pt_entry_t *pte)
4131 {
4132         vm_page_t mpg;
4133         struct spglist free;
4134
4135         mpg = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
4136         if (mpg->ref_count != 0)
4137                 return;
4138         SLIST_INIT(&free);
4139         _pmap_unwire_ptp(pmap, va, mpg, &free);
4140         pmap_invalidate_page(pmap, va);
4141         vm_page_free_pages_toq(&free, true);
4142 }
4143
4144 static pml4_entry_t *
4145 pmap_allocpte_getpml4(pmap_t pmap, struct rwlock **lockp, vm_offset_t va,
4146     bool addref)
4147 {
4148         vm_pindex_t pml5index;
4149         pml5_entry_t *pml5;
4150         pml4_entry_t *pml4;
4151         vm_page_t pml4pg;
4152         pt_entry_t PG_V;
4153         bool allocated;
4154
4155         if (!pmap_is_la57(pmap))
4156                 return (&pmap->pm_pmltop[pmap_pml4e_index(va)]);
4157
4158         PG_V = pmap_valid_bit(pmap);
4159         pml5index = pmap_pml5e_index(va);
4160         pml5 = &pmap->pm_pmltop[pml5index];
4161         if ((*pml5 & PG_V) == 0) {
4162                 if (_pmap_allocpte(pmap, pmap_pml5e_pindex(va), lockp, va) ==
4163                     NULL)
4164                         return (NULL);
4165                 allocated = true;
4166         } else {
4167                 allocated = false;
4168         }
4169         pml4 = (pml4_entry_t *)PHYS_TO_DMAP(*pml5 & PG_FRAME);
4170         pml4 = &pml4[pmap_pml4e_index(va)];
4171         if ((*pml4 & PG_V) == 0) {
4172                 pml4pg = PHYS_TO_VM_PAGE(*pml5 & PG_FRAME);
4173                 if (allocated && !addref)
4174                         pml4pg->ref_count--;
4175                 else if (!allocated && addref)
4176                         pml4pg->ref_count++;
4177         }
4178         return (pml4);
4179 }
4180
4181 static pdp_entry_t *
4182 pmap_allocpte_getpdp(pmap_t pmap, struct rwlock **lockp, vm_offset_t va,
4183     bool addref)
4184 {
4185         vm_page_t pdppg;
4186         pml4_entry_t *pml4;
4187         pdp_entry_t *pdp;
4188         pt_entry_t PG_V;
4189         bool allocated;
4190
4191         PG_V = pmap_valid_bit(pmap);
4192
4193         pml4 = pmap_allocpte_getpml4(pmap, lockp, va, false);
4194         if (pml4 == NULL)
4195                 return (NULL);
4196
4197         if ((*pml4 & PG_V) == 0) {
4198                 /* Have to allocate a new pdp, recurse */
4199                 if (_pmap_allocpte(pmap, pmap_pml4e_pindex(va), lockp, va) ==
4200                     NULL) {
4201                         if (pmap_is_la57(pmap))
4202                                 pmap_allocpte_free_unref(pmap, va,
4203                                     pmap_pml5e(pmap, va));
4204                         return (NULL);
4205                 }
4206                 allocated = true;
4207         } else {
4208                 allocated = false;
4209         }
4210         pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
4211         pdp = &pdp[pmap_pdpe_index(va)];
4212         if ((*pdp & PG_V) == 0) {
4213                 pdppg = PHYS_TO_VM_PAGE(*pml4 & PG_FRAME);
4214                 if (allocated && !addref)
4215                         pdppg->ref_count--;
4216                 else if (!allocated && addref)
4217                         pdppg->ref_count++;
4218         }
4219         return (pdp);
4220 }
4221
4222 /*
4223  * This routine is called if the desired page table page does not exist.
4224  *
4225  * If page table page allocation fails, this routine may sleep before
4226  * returning NULL.  It sleeps only if a lock pointer was given.
4227  *
4228  * Note: If a page allocation fails at page table level two, three, or four,
4229  * up to three pages may be held during the wait, only to be released
4230  * afterwards.  This conservative approach is easily argued to avoid
4231  * race conditions.
4232  *
4233  * The ptepindexes, i.e. page indices, of the page table pages encountered
4234  * while translating virtual address va are defined as follows:
4235  * - for the page table page (last level),
4236  *      ptepindex = pmap_pde_pindex(va) = va >> PDRSHIFT,
4237  *   in other words, it is just the index of the PDE that maps the page
4238  *   table page.
4239  * - for the page directory page,
4240  *      ptepindex = NUPDE (number of userland PD entries) +
4241  *          (pmap_pde_index(va) >> NPDEPGSHIFT)
4242  *   i.e. index of PDPE is put after the last index of PDE,
4243  * - for the page directory pointer page,
4244  *      ptepindex = NUPDE + NUPDPE + (pmap_pde_index(va) >> (NPDEPGSHIFT +
4245  *          NPML4EPGSHIFT),
4246  *   i.e. index of pml4e is put after the last index of PDPE,
4247  * - for the PML4 page (if LA57 mode is enabled),
4248  *      ptepindex = NUPDE + NUPDPE + NUPML4E + (pmap_pde_index(va) >>
4249  *          (NPDEPGSHIFT + NPML4EPGSHIFT + NPML5EPGSHIFT),
4250  *   i.e. index of pml5e is put after the last index of PML4E.
4251  *
4252  * Define an order on the paging entries, where all entries of the
4253  * same height are put together, then heights are put from deepest to
4254  * root.  Then ptexpindex is the sequential number of the
4255  * corresponding paging entry in this order.
4256  *
4257  * The values of NUPDE, NUPDPE, and NUPML4E are determined by the size of
4258  * LA57 paging structures even in LA48 paging mode. Moreover, the
4259  * ptepindexes are calculated as if the paging structures were 5-level
4260  * regardless of the actual mode of operation.
4261  *
4262  * The root page at PML4/PML5 does not participate in this indexing scheme,
4263  * since it is statically allocated by pmap_pinit() and not by _pmap_allocpte().
4264  */
4265 static vm_page_t
4266 _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex, struct rwlock **lockp,
4267     vm_offset_t va __unused)
4268 {
4269         vm_pindex_t pml5index, pml4index;
4270         pml5_entry_t *pml5, *pml5u;
4271         pml4_entry_t *pml4, *pml4u;
4272         pdp_entry_t *pdp;
4273         pd_entry_t *pd;
4274         vm_page_t m, pdpg;
4275         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
4276
4277         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
4278
4279         PG_A = pmap_accessed_bit(pmap);
4280         PG_M = pmap_modified_bit(pmap);
4281         PG_V = pmap_valid_bit(pmap);
4282         PG_RW = pmap_rw_bit(pmap);
4283
4284         /*
4285          * Allocate a page table page.
4286          */
4287         if ((m = vm_page_alloc(NULL, ptepindex, VM_ALLOC_NOOBJ |
4288             VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL) {
4289                 if (lockp != NULL) {
4290                         RELEASE_PV_LIST_LOCK(lockp);
4291                         PMAP_UNLOCK(pmap);
4292                         PMAP_ASSERT_NOT_IN_DI();
4293                         vm_wait(NULL);
4294                         PMAP_LOCK(pmap);
4295                 }
4296
4297                 /*
4298                  * Indicate the need to retry.  While waiting, the page table
4299                  * page may have been allocated.
4300                  */
4301                 return (NULL);
4302         }
4303         if ((m->flags & PG_ZERO) == 0)
4304                 pmap_zero_page(m);
4305
4306         /*
4307          * Map the pagetable page into the process address space, if
4308          * it isn't already there.
4309          */
4310         if (ptepindex >= NUPDE + NUPDPE + NUPML4E) {
4311                 MPASS(pmap_is_la57(pmap));
4312
4313                 pml5index = pmap_pml5e_index(va);
4314                 pml5 = &pmap->pm_pmltop[pml5index];
4315                 KASSERT((*pml5 & PG_V) == 0,
4316                     ("pmap %p va %#lx pml5 %#lx", pmap, va, *pml5));
4317                 *pml5 = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4318
4319                 if (pmap->pm_pmltopu != NULL && pml5index < NUPML5E) {
4320                         if (pmap->pm_ucr3 != PMAP_NO_CR3)
4321                                 *pml5 |= pg_nx;
4322
4323                         pml5u = &pmap->pm_pmltopu[pml5index];
4324                         *pml5u = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V |
4325                             PG_A | PG_M;
4326                 }
4327         } else if (ptepindex >= NUPDE + NUPDPE) {
4328                 pml4index = pmap_pml4e_index(va);
4329                 /* Wire up a new PDPE page */
4330                 pml4 = pmap_allocpte_getpml4(pmap, lockp, va, true);
4331                 if (pml4 == NULL) {
4332                         vm_page_unwire_noq(m);
4333                         vm_page_free_zero(m);
4334                         return (NULL);
4335                 }
4336                 KASSERT((*pml4 & PG_V) == 0,
4337                     ("pmap %p va %#lx pml4 %#lx", pmap, va, *pml4));
4338                 *pml4 = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4339
4340                 if (!pmap_is_la57(pmap) && pmap->pm_pmltopu != NULL &&
4341                     pml4index < NUPML4E) {
4342                         /*
4343                          * PTI: Make all user-space mappings in the
4344                          * kernel-mode page table no-execute so that
4345                          * we detect any programming errors that leave
4346                          * the kernel-mode page table active on return
4347                          * to user space.
4348                          */
4349                         if (pmap->pm_ucr3 != PMAP_NO_CR3)
4350                                 *pml4 |= pg_nx;
4351
4352                         pml4u = &pmap->pm_pmltopu[pml4index];
4353                         *pml4u = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V |
4354                             PG_A | PG_M;
4355                 }
4356         } else if (ptepindex >= NUPDE) {
4357                 /* Wire up a new PDE page */
4358                 pdp = pmap_allocpte_getpdp(pmap, lockp, va, true);
4359                 if (pdp == NULL) {
4360                         vm_page_unwire_noq(m);
4361                         vm_page_free_zero(m);
4362                         return (NULL);
4363                 }
4364                 KASSERT((*pdp & PG_V) == 0,
4365                     ("pmap %p va %#lx pdp %#lx", pmap, va, *pdp));
4366                 *pdp = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4367         } else {
4368                 /* Wire up a new PTE page */
4369                 pdp = pmap_allocpte_getpdp(pmap, lockp, va, false);
4370                 if (pdp == NULL) {
4371                         vm_page_unwire_noq(m);
4372                         vm_page_free_zero(m);
4373                         return (NULL);
4374                 }
4375                 if ((*pdp & PG_V) == 0) {
4376                         /* Have to allocate a new pd, recurse */
4377                         if (_pmap_allocpte(pmap, pmap_pdpe_pindex(va),
4378                             lockp, va) == NULL) {
4379                                 pmap_allocpte_free_unref(pmap, va,
4380                                     pmap_pml4e(pmap, va));
4381                                 vm_page_unwire_noq(m);
4382                                 vm_page_free_zero(m);
4383                                 return (NULL);
4384                         }
4385                 } else {
4386                         /* Add reference to the pd page */
4387                         pdpg = PHYS_TO_VM_PAGE(*pdp & PG_FRAME);
4388                         pdpg->ref_count++;
4389                 }
4390                 pd = (pd_entry_t *)PHYS_TO_DMAP(*pdp & PG_FRAME);
4391
4392                 /* Now we know where the page directory page is */
4393                 pd = &pd[pmap_pde_index(va)];
4394                 KASSERT((*pd & PG_V) == 0,
4395                     ("pmap %p va %#lx pd %#lx", pmap, va, *pd));
4396                 *pd = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4397         }
4398
4399         pmap_resident_count_inc(pmap, 1);
4400
4401         return (m);
4402 }
4403
4404 static pd_entry_t *
4405 pmap_alloc_pde(pmap_t pmap, vm_offset_t va, vm_page_t *pdpgp,
4406     struct rwlock **lockp)
4407 {
4408         pdp_entry_t *pdpe, PG_V;
4409         pd_entry_t *pde;
4410         vm_page_t pdpg;
4411         vm_pindex_t pdpindex;
4412
4413         PG_V = pmap_valid_bit(pmap);
4414
4415 retry:
4416         pdpe = pmap_pdpe(pmap, va);
4417         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
4418                 pde = pmap_pdpe_to_pde(pdpe, va);
4419                 if (va < VM_MAXUSER_ADDRESS) {
4420                         /* Add a reference to the pd page. */
4421                         pdpg = PHYS_TO_VM_PAGE(*pdpe & PG_FRAME);
4422                         pdpg->ref_count++;
4423                 } else
4424                         pdpg = NULL;
4425         } else if (va < VM_MAXUSER_ADDRESS) {
4426                 /* Allocate a pd page. */
4427                 pdpindex = pmap_pde_pindex(va) >> NPDPEPGSHIFT;
4428                 pdpg = _pmap_allocpte(pmap, NUPDE + pdpindex, lockp, va);
4429                 if (pdpg == NULL) {
4430                         if (lockp != NULL)
4431                                 goto retry;
4432                         else
4433                                 return (NULL);
4434                 }
4435                 pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pdpg));
4436                 pde = &pde[pmap_pde_index(va)];
4437         } else
4438                 panic("pmap_alloc_pde: missing page table page for va %#lx",
4439                     va);
4440         *pdpgp = pdpg;
4441         return (pde);
4442 }
4443
4444 static vm_page_t
4445 pmap_allocpte(pmap_t pmap, vm_offset_t va, struct rwlock **lockp)
4446 {
4447         vm_pindex_t ptepindex;
4448         pd_entry_t *pd, PG_V;
4449         vm_page_t m;
4450
4451         PG_V = pmap_valid_bit(pmap);
4452
4453         /*
4454          * Calculate pagetable page index
4455          */
4456         ptepindex = pmap_pde_pindex(va);
4457 retry:
4458         /*
4459          * Get the page directory entry
4460          */
4461         pd = pmap_pde(pmap, va);
4462
4463         /*
4464          * This supports switching from a 2MB page to a
4465          * normal 4K page.
4466          */
4467         if (pd != NULL && (*pd & (PG_PS | PG_V)) == (PG_PS | PG_V)) {
4468                 if (!pmap_demote_pde_locked(pmap, pd, va, lockp)) {
4469                         /*
4470                          * Invalidation of the 2MB page mapping may have caused
4471                          * the deallocation of the underlying PD page.
4472                          */
4473                         pd = NULL;
4474                 }
4475         }
4476
4477         /*
4478          * If the page table page is mapped, we just increment the
4479          * hold count, and activate it.
4480          */
4481         if (pd != NULL && (*pd & PG_V) != 0) {
4482                 m = PHYS_TO_VM_PAGE(*pd & PG_FRAME);
4483                 m->ref_count++;
4484         } else {
4485                 /*
4486                  * Here if the pte page isn't mapped, or if it has been
4487                  * deallocated.
4488                  */
4489                 m = _pmap_allocpte(pmap, ptepindex, lockp, va);
4490                 if (m == NULL && lockp != NULL)
4491                         goto retry;
4492         }
4493         return (m);
4494 }
4495
4496 /***************************************************
4497  * Pmap allocation/deallocation routines.
4498  ***************************************************/
4499
4500 /*
4501  * Release any resources held by the given physical map.
4502  * Called when a pmap initialized by pmap_pinit is being released.
4503  * Should only be called if the map contains no valid mappings.
4504  */
4505 void
4506 pmap_release(pmap_t pmap)
4507 {
4508         vm_page_t m;
4509         int i;
4510
4511         KASSERT(pmap->pm_stats.resident_count == 0,
4512             ("pmap_release: pmap %p resident count %ld != 0",
4513             pmap, pmap->pm_stats.resident_count));
4514         KASSERT(vm_radix_is_empty(&pmap->pm_root),
4515             ("pmap_release: pmap %p has reserved page table page(s)",
4516             pmap));
4517         KASSERT(CPU_EMPTY(&pmap->pm_active),
4518             ("releasing active pmap %p", pmap));
4519
4520         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pmap->pm_pmltop));
4521
4522         if (pmap_is_la57(pmap)) {
4523                 pmap->pm_pmltop[pmap_pml5e_index(UPT_MAX_ADDRESS)] = 0;
4524                 pmap->pm_pmltop[PML5PML5I] = 0;
4525         } else {
4526                 for (i = 0; i < NKPML4E; i++)   /* KVA */
4527                         pmap->pm_pmltop[KPML4BASE + i] = 0;
4528                 for (i = 0; i < ndmpdpphys; i++)/* Direct Map */
4529                         pmap->pm_pmltop[DMPML4I + i] = 0;
4530                 pmap->pm_pmltop[PML4PML4I] = 0; /* Recursive Mapping */
4531                 for (i = 0; i < lm_ents; i++)   /* Large Map */
4532                         pmap->pm_pmltop[LMSPML4I + i] = 0;
4533         }
4534
4535         vm_page_unwire_noq(m);
4536         vm_page_free_zero(m);
4537
4538         if (pmap->pm_pmltopu != NULL) {
4539                 m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pmap->
4540                     pm_pmltopu));
4541                 vm_page_unwire_noq(m);
4542                 vm_page_free(m);
4543         }
4544         if (pmap->pm_type == PT_X86 &&
4545             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0)
4546                 rangeset_fini(&pmap->pm_pkru);
4547 }
4548
4549 static int
4550 kvm_size(SYSCTL_HANDLER_ARGS)
4551 {
4552         unsigned long ksize = VM_MAX_KERNEL_ADDRESS - VM_MIN_KERNEL_ADDRESS;
4553
4554         return sysctl_handle_long(oidp, &ksize, 0, req);
4555 }
4556 SYSCTL_PROC(_vm, OID_AUTO, kvm_size, CTLTYPE_LONG | CTLFLAG_RD | CTLFLAG_MPSAFE,
4557     0, 0, kvm_size, "LU",
4558     "Size of KVM");
4559
4560 static int
4561 kvm_free(SYSCTL_HANDLER_ARGS)
4562 {
4563         unsigned long kfree = VM_MAX_KERNEL_ADDRESS - kernel_vm_end;
4564
4565         return sysctl_handle_long(oidp, &kfree, 0, req);
4566 }
4567 SYSCTL_PROC(_vm, OID_AUTO, kvm_free, CTLTYPE_LONG | CTLFLAG_RD | CTLFLAG_MPSAFE,
4568     0, 0, kvm_free, "LU",
4569     "Amount of KVM free");
4570
4571 /*
4572  * Allocate physical memory for the vm_page array and map it into KVA,
4573  * attempting to back the vm_pages with domain-local memory.
4574  */
4575 void
4576 pmap_page_array_startup(long pages)
4577 {
4578         pdp_entry_t *pdpe;
4579         pd_entry_t *pde, newpdir;
4580         vm_offset_t va, start, end;
4581         vm_paddr_t pa;
4582         long pfn;
4583         int domain, i;
4584
4585         vm_page_array_size = pages;
4586
4587         start = VM_MIN_KERNEL_ADDRESS;
4588         end = start + pages * sizeof(struct vm_page);
4589         for (va = start; va < end; va += NBPDR) {
4590                 pfn = first_page + (va - start) / sizeof(struct vm_page);
4591                 domain = _vm_phys_domain(ptoa(pfn));
4592                 pdpe = pmap_pdpe(kernel_pmap, va);
4593                 if ((*pdpe & X86_PG_V) == 0) {
4594                         pa = vm_phys_early_alloc(domain, PAGE_SIZE);
4595                         dump_add_page(pa);
4596                         pagezero((void *)PHYS_TO_DMAP(pa));
4597                         *pdpe = (pdp_entry_t)(pa | X86_PG_V | X86_PG_RW |
4598                             X86_PG_A | X86_PG_M);
4599                 }
4600                 pde = pmap_pdpe_to_pde(pdpe, va);
4601                 if ((*pde & X86_PG_V) != 0)
4602                         panic("Unexpected pde");
4603                 pa = vm_phys_early_alloc(domain, NBPDR);
4604                 for (i = 0; i < NPDEPG; i++)
4605                         dump_add_page(pa + i * PAGE_SIZE);
4606                 newpdir = (pd_entry_t)(pa | X86_PG_V | X86_PG_RW | X86_PG_A |
4607                     X86_PG_M | PG_PS | pg_g | pg_nx);
4608                 pde_store(pde, newpdir);
4609         }
4610         vm_page_array = (vm_page_t)start;
4611 }
4612
4613 /*
4614  * grow the number of kernel page table entries, if needed
4615  */
4616 void
4617 pmap_growkernel(vm_offset_t addr)
4618 {
4619         vm_paddr_t paddr;
4620         vm_page_t nkpg;
4621         pd_entry_t *pde, newpdir;
4622         pdp_entry_t *pdpe;
4623
4624         mtx_assert(&kernel_map->system_mtx, MA_OWNED);
4625
4626         /*
4627          * Return if "addr" is within the range of kernel page table pages
4628          * that were preallocated during pmap bootstrap.  Moreover, leave
4629          * "kernel_vm_end" and the kernel page table as they were.
4630          *
4631          * The correctness of this action is based on the following
4632          * argument: vm_map_insert() allocates contiguous ranges of the
4633          * kernel virtual address space.  It calls this function if a range
4634          * ends after "kernel_vm_end".  If the kernel is mapped between
4635          * "kernel_vm_end" and "addr", then the range cannot begin at
4636          * "kernel_vm_end".  In fact, its beginning address cannot be less
4637          * than the kernel.  Thus, there is no immediate need to allocate
4638          * any new kernel page table pages between "kernel_vm_end" and
4639          * "KERNBASE".
4640          */
4641         if (KERNBASE < addr && addr <= KERNBASE + nkpt * NBPDR)
4642                 return;
4643
4644         addr = roundup2(addr, NBPDR);
4645         if (addr - 1 >= vm_map_max(kernel_map))
4646                 addr = vm_map_max(kernel_map);
4647         while (kernel_vm_end < addr) {
4648                 pdpe = pmap_pdpe(kernel_pmap, kernel_vm_end);
4649                 if ((*pdpe & X86_PG_V) == 0) {
4650                         /* We need a new PDP entry */
4651                         nkpg = vm_page_alloc(NULL, kernel_vm_end >> PDPSHIFT,
4652                             VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ |
4653                             VM_ALLOC_WIRED | VM_ALLOC_ZERO);
4654                         if (nkpg == NULL)
4655                                 panic("pmap_growkernel: no memory to grow kernel");
4656                         if ((nkpg->flags & PG_ZERO) == 0)
4657                                 pmap_zero_page(nkpg);
4658                         paddr = VM_PAGE_TO_PHYS(nkpg);
4659                         *pdpe = (pdp_entry_t)(paddr | X86_PG_V | X86_PG_RW |
4660                             X86_PG_A | X86_PG_M);
4661                         continue; /* try again */
4662                 }
4663                 pde = pmap_pdpe_to_pde(pdpe, kernel_vm_end);
4664                 if ((*pde & X86_PG_V) != 0) {
4665                         kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
4666                         if (kernel_vm_end - 1 >= vm_map_max(kernel_map)) {
4667                                 kernel_vm_end = vm_map_max(kernel_map);
4668                                 break;
4669                         }
4670                         continue;
4671                 }
4672
4673                 nkpg = vm_page_alloc(NULL, pmap_pde_pindex(kernel_vm_end),
4674                     VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ | VM_ALLOC_WIRED |
4675                     VM_ALLOC_ZERO);
4676                 if (nkpg == NULL)
4677                         panic("pmap_growkernel: no memory to grow kernel");
4678                 if ((nkpg->flags & PG_ZERO) == 0)
4679                         pmap_zero_page(nkpg);
4680                 paddr = VM_PAGE_TO_PHYS(nkpg);
4681                 newpdir = paddr | X86_PG_V | X86_PG_RW | X86_PG_A | X86_PG_M;
4682                 pde_store(pde, newpdir);
4683
4684                 kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
4685                 if (kernel_vm_end - 1 >= vm_map_max(kernel_map)) {
4686                         kernel_vm_end = vm_map_max(kernel_map);
4687                         break;
4688                 }
4689         }
4690 }
4691
4692 /***************************************************
4693  * page management routines.
4694  ***************************************************/
4695
4696 CTASSERT(sizeof(struct pv_chunk) == PAGE_SIZE);
4697 CTASSERT(_NPCM == 3);
4698 CTASSERT(_NPCPV == 168);
4699
4700 static __inline struct pv_chunk *
4701 pv_to_chunk(pv_entry_t pv)
4702 {
4703
4704         return ((struct pv_chunk *)((uintptr_t)pv & ~(uintptr_t)PAGE_MASK));
4705 }
4706
4707 #define PV_PMAP(pv) (pv_to_chunk(pv)->pc_pmap)
4708
4709 #define PC_FREE0        0xfffffffffffffffful
4710 #define PC_FREE1        0xfffffffffffffffful
4711 #define PC_FREE2        0x000000fffffffffful
4712
4713 static const uint64_t pc_freemask[_NPCM] = { PC_FREE0, PC_FREE1, PC_FREE2 };
4714
4715 #ifdef PV_STATS
4716 static int pc_chunk_count, pc_chunk_allocs, pc_chunk_frees, pc_chunk_tryfail;
4717
4718 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_count, CTLFLAG_RD, &pc_chunk_count, 0,
4719         "Current number of pv entry chunks");
4720 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_allocs, CTLFLAG_RD, &pc_chunk_allocs, 0,
4721         "Current number of pv entry chunks allocated");
4722 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_frees, CTLFLAG_RD, &pc_chunk_frees, 0,
4723         "Current number of pv entry chunks frees");
4724 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_tryfail, CTLFLAG_RD, &pc_chunk_tryfail, 0,
4725         "Number of times tried to get a chunk page but failed.");
4726
4727 static long pv_entry_frees, pv_entry_allocs, pv_entry_count;
4728 static int pv_entry_spare;
4729
4730 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_frees, CTLFLAG_RD, &pv_entry_frees, 0,
4731         "Current number of pv entry frees");
4732 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_allocs, CTLFLAG_RD, &pv_entry_allocs, 0,
4733         "Current number of pv entry allocs");
4734 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_count, CTLFLAG_RD, &pv_entry_count, 0,
4735         "Current number of pv entries");
4736 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_spare, CTLFLAG_RD, &pv_entry_spare, 0,
4737         "Current number of spare pv entries");
4738 #endif
4739
4740 static void
4741 reclaim_pv_chunk_leave_pmap(pmap_t pmap, pmap_t locked_pmap, bool start_di)
4742 {
4743
4744         if (pmap == NULL)
4745                 return;
4746         pmap_invalidate_all(pmap);
4747         if (pmap != locked_pmap)
4748                 PMAP_UNLOCK(pmap);
4749         if (start_di)
4750                 pmap_delayed_invl_finish();
4751 }
4752
4753 /*
4754  * We are in a serious low memory condition.  Resort to
4755  * drastic measures to free some pages so we can allocate
4756  * another pv entry chunk.
4757  *
4758  * Returns NULL if PV entries were reclaimed from the specified pmap.
4759  *
4760  * We do not, however, unmap 2mpages because subsequent accesses will
4761  * allocate per-page pv entries until repromotion occurs, thereby
4762  * exacerbating the shortage of free pv entries.
4763  */
4764 static vm_page_t
4765 reclaim_pv_chunk_domain(pmap_t locked_pmap, struct rwlock **lockp, int domain)
4766 {
4767         struct pv_chunks_list *pvc;
4768         struct pv_chunk *pc, *pc_marker, *pc_marker_end;
4769         struct pv_chunk_header pc_marker_b, pc_marker_end_b;
4770         struct md_page *pvh;
4771         pd_entry_t *pde;
4772         pmap_t next_pmap, pmap;
4773         pt_entry_t *pte, tpte;
4774         pt_entry_t PG_G, PG_A, PG_M, PG_RW;
4775         pv_entry_t pv;
4776         vm_offset_t va;
4777         vm_page_t m, m_pc;
4778         struct spglist free;
4779         uint64_t inuse;
4780         int bit, field, freed;
4781         bool start_di, restart;
4782
4783         PMAP_LOCK_ASSERT(locked_pmap, MA_OWNED);
4784         KASSERT(lockp != NULL, ("reclaim_pv_chunk: lockp is NULL"));
4785         pmap = NULL;
4786         m_pc = NULL;
4787         PG_G = PG_A = PG_M = PG_RW = 0;
4788         SLIST_INIT(&free);
4789         bzero(&pc_marker_b, sizeof(pc_marker_b));
4790         bzero(&pc_marker_end_b, sizeof(pc_marker_end_b));
4791         pc_marker = (struct pv_chunk *)&pc_marker_b;
4792         pc_marker_end = (struct pv_chunk *)&pc_marker_end_b;
4793
4794         /*
4795          * A delayed invalidation block should already be active if
4796          * pmap_advise() or pmap_remove() called this function by way
4797          * of pmap_demote_pde_locked().
4798          */
4799         start_di = pmap_not_in_di();
4800
4801         pvc = &pv_chunks[domain];
4802         mtx_lock(&pvc->pvc_lock);
4803         pvc->active_reclaims++;
4804         TAILQ_INSERT_HEAD(&pvc->pvc_list, pc_marker, pc_lru);
4805         TAILQ_INSERT_TAIL(&pvc->pvc_list, pc_marker_end, pc_lru);
4806         while ((pc = TAILQ_NEXT(pc_marker, pc_lru)) != pc_marker_end &&
4807             SLIST_EMPTY(&free)) {
4808                 next_pmap = pc->pc_pmap;
4809                 if (next_pmap == NULL) {
4810                         /*
4811                          * The next chunk is a marker.  However, it is
4812                          * not our marker, so active_reclaims must be
4813                          * > 1.  Consequently, the next_chunk code
4814                          * will not rotate the pv_chunks list.
4815                          */
4816                         goto next_chunk;
4817                 }
4818                 mtx_unlock(&pvc->pvc_lock);
4819
4820                 /*
4821                  * A pv_chunk can only be removed from the pc_lru list
4822                  * when both pc_chunks_mutex is owned and the
4823                  * corresponding pmap is locked.
4824                  */
4825                 if (pmap != next_pmap) {
4826                         restart = false;
4827                         reclaim_pv_chunk_leave_pmap(pmap, locked_pmap,
4828                             start_di);
4829                         pmap = next_pmap;
4830                         /* Avoid deadlock and lock recursion. */
4831                         if (pmap > locked_pmap) {
4832                                 RELEASE_PV_LIST_LOCK(lockp);
4833                                 PMAP_LOCK(pmap);
4834                                 if (start_di)
4835                                         pmap_delayed_invl_start();
4836                                 mtx_lock(&pvc->pvc_lock);
4837                                 restart = true;
4838                         } else if (pmap != locked_pmap) {
4839                                 if (PMAP_TRYLOCK(pmap)) {
4840                                         if (start_di)
4841                                                 pmap_delayed_invl_start();
4842                                         mtx_lock(&pvc->pvc_lock);
4843                                         restart = true;
4844                                 } else {
4845                                         pmap = NULL; /* pmap is not locked */
4846                                         mtx_lock(&pvc->pvc_lock);
4847                                         pc = TAILQ_NEXT(pc_marker, pc_lru);
4848                                         if (pc == NULL ||
4849                                             pc->pc_pmap != next_pmap)
4850                                                 continue;
4851                                         goto next_chunk;
4852                                 }
4853                         } else if (start_di)
4854                                 pmap_delayed_invl_start();
4855                         PG_G = pmap_global_bit(pmap);
4856                         PG_A = pmap_accessed_bit(pmap);
4857                         PG_M = pmap_modified_bit(pmap);
4858                         PG_RW = pmap_rw_bit(pmap);
4859                         if (restart)
4860                                 continue;
4861                 }
4862
4863                 /*
4864                  * Destroy every non-wired, 4 KB page mapping in the chunk.
4865                  */
4866                 freed = 0;
4867                 for (field = 0; field < _NPCM; field++) {
4868                         for (inuse = ~pc->pc_map[field] & pc_freemask[field];
4869                             inuse != 0; inuse &= ~(1UL << bit)) {
4870                                 bit = bsfq(inuse);
4871                                 pv = &pc->pc_pventry[field * 64 + bit];
4872                                 va = pv->pv_va;
4873                                 pde = pmap_pde(pmap, va);
4874                                 if ((*pde & PG_PS) != 0)
4875                                         continue;
4876                                 pte = pmap_pde_to_pte(pde, va);
4877                                 if ((*pte & PG_W) != 0)
4878                                         continue;
4879                                 tpte = pte_load_clear(pte);
4880                                 if ((tpte & PG_G) != 0)
4881                                         pmap_invalidate_page(pmap, va);
4882                                 m = PHYS_TO_VM_PAGE(tpte & PG_FRAME);
4883                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
4884                                         vm_page_dirty(m);
4885                                 if ((tpte & PG_A) != 0)
4886                                         vm_page_aflag_set(m, PGA_REFERENCED);
4887                                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
4888                                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
4889                                 m->md.pv_gen++;
4890                                 if (TAILQ_EMPTY(&m->md.pv_list) &&
4891                                     (m->flags & PG_FICTITIOUS) == 0) {
4892                                         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4893                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
4894                                                 vm_page_aflag_clear(m,
4895                                                     PGA_WRITEABLE);
4896                                         }
4897                                 }
4898                                 pmap_delayed_invl_page(m);
4899                                 pc->pc_map[field] |= 1UL << bit;
4900                                 pmap_unuse_pt(pmap, va, *pde, &free);
4901                                 freed++;
4902                         }
4903                 }
4904                 if (freed == 0) {
4905                         mtx_lock(&pvc->pvc_lock);
4906                         goto next_chunk;
4907                 }
4908                 /* Every freed mapping is for a 4 KB page. */
4909                 pmap_resident_count_dec(pmap, freed);
4910                 PV_STAT(atomic_add_long(&pv_entry_frees, freed));
4911                 PV_STAT(atomic_add_int(&pv_entry_spare, freed));
4912                 PV_STAT(atomic_subtract_long(&pv_entry_count, freed));
4913                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
4914                 if (pc->pc_map[0] == PC_FREE0 && pc->pc_map[1] == PC_FREE1 &&
4915                     pc->pc_map[2] == PC_FREE2) {
4916                         PV_STAT(atomic_subtract_int(&pv_entry_spare, _NPCPV));
4917                         PV_STAT(atomic_subtract_int(&pc_chunk_count, 1));
4918                         PV_STAT(atomic_add_int(&pc_chunk_frees, 1));
4919                         /* Entire chunk is free; return it. */
4920                         m_pc = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
4921                         dump_drop_page(m_pc->phys_addr);
4922                         mtx_lock(&pvc->pvc_lock);
4923                         TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
4924                         break;
4925                 }
4926                 TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
4927                 mtx_lock(&pvc->pvc_lock);
4928                 /* One freed pv entry in locked_pmap is sufficient. */
4929                 if (pmap == locked_pmap)
4930                         break;
4931 next_chunk:
4932                 TAILQ_REMOVE(&pvc->pvc_list, pc_marker, pc_lru);
4933                 TAILQ_INSERT_AFTER(&pvc->pvc_list, pc, pc_marker, pc_lru);
4934                 if (pvc->active_reclaims == 1 && pmap != NULL) {
4935                         /*
4936                          * Rotate the pv chunks list so that we do not
4937                          * scan the same pv chunks that could not be
4938                          * freed (because they contained a wired
4939                          * and/or superpage mapping) on every
4940                          * invocation of reclaim_pv_chunk().
4941                          */
4942                         while ((pc = TAILQ_FIRST(&pvc->pvc_list)) != pc_marker) {
4943                                 MPASS(pc->pc_pmap != NULL);
4944                                 TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
4945                                 TAILQ_INSERT_TAIL(&pvc->pvc_list, pc, pc_lru);
4946                         }
4947                 }
4948         }
4949         TAILQ_REMOVE(&pvc->pvc_list, pc_marker, pc_lru);
4950         TAILQ_REMOVE(&pvc->pvc_list, pc_marker_end, pc_lru);
4951         pvc->active_reclaims--;
4952         mtx_unlock(&pvc->pvc_lock);
4953         reclaim_pv_chunk_leave_pmap(pmap, locked_pmap, start_di);
4954         if (m_pc == NULL && !SLIST_EMPTY(&free)) {
4955                 m_pc = SLIST_FIRST(&free);
4956                 SLIST_REMOVE_HEAD(&free, plinks.s.ss);
4957                 /* Recycle a freed page table page. */
4958                 m_pc->ref_count = 1;
4959         }
4960         vm_page_free_pages_toq(&free, true);
4961         return (m_pc);
4962 }
4963
4964 static vm_page_t
4965 reclaim_pv_chunk(pmap_t locked_pmap, struct rwlock **lockp)
4966 {
4967         vm_page_t m;
4968         int i, domain;
4969
4970         domain = PCPU_GET(domain);
4971         for (i = 0; i < vm_ndomains; i++) {
4972                 m = reclaim_pv_chunk_domain(locked_pmap, lockp, domain);
4973                 if (m != NULL)
4974                         break;
4975                 domain = (domain + 1) % vm_ndomains;
4976         }
4977
4978         return (m);
4979 }
4980
4981 /*
4982  * free the pv_entry back to the free list
4983  */
4984 static void
4985 free_pv_entry(pmap_t pmap, pv_entry_t pv)
4986 {
4987         struct pv_chunk *pc;
4988         int idx, field, bit;
4989
4990         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
4991         PV_STAT(atomic_add_long(&pv_entry_frees, 1));
4992         PV_STAT(atomic_add_int(&pv_entry_spare, 1));
4993         PV_STAT(atomic_subtract_long(&pv_entry_count, 1));
4994         pc = pv_to_chunk(pv);
4995         idx = pv - &pc->pc_pventry[0];
4996         field = idx / 64;
4997         bit = idx % 64;
4998         pc->pc_map[field] |= 1ul << bit;
4999         if (pc->pc_map[0] != PC_FREE0 || pc->pc_map[1] != PC_FREE1 ||
5000             pc->pc_map[2] != PC_FREE2) {
5001                 /* 98% of the time, pc is already at the head of the list. */
5002                 if (__predict_false(pc != TAILQ_FIRST(&pmap->pm_pvchunk))) {
5003                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5004                         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
5005                 }
5006                 return;
5007         }
5008         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5009         free_pv_chunk(pc);
5010 }
5011
5012 static void
5013 free_pv_chunk_dequeued(struct pv_chunk *pc)
5014 {
5015         vm_page_t m;
5016
5017         PV_STAT(atomic_subtract_int(&pv_entry_spare, _NPCPV));
5018         PV_STAT(atomic_subtract_int(&pc_chunk_count, 1));
5019         PV_STAT(atomic_add_int(&pc_chunk_frees, 1));
5020         /* entire chunk is free, return it */
5021         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
5022         dump_drop_page(m->phys_addr);
5023         vm_page_unwire_noq(m);
5024         vm_page_free(m);
5025 }
5026
5027 static void
5028 free_pv_chunk(struct pv_chunk *pc)
5029 {
5030         struct pv_chunks_list *pvc;
5031
5032         pvc = &pv_chunks[pc_to_domain(pc)];
5033         mtx_lock(&pvc->pvc_lock);
5034         TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
5035         mtx_unlock(&pvc->pvc_lock);
5036         free_pv_chunk_dequeued(pc);
5037 }
5038
5039 static void
5040 free_pv_chunk_batch(struct pv_chunklist *batch)
5041 {
5042         struct pv_chunks_list *pvc;
5043         struct pv_chunk *pc, *npc;
5044         int i;
5045
5046         for (i = 0; i < vm_ndomains; i++) {
5047                 if (TAILQ_EMPTY(&batch[i]))
5048                         continue;
5049                 pvc = &pv_chunks[i];
5050                 mtx_lock(&pvc->pvc_lock);
5051                 TAILQ_FOREACH(pc, &batch[i], pc_list) {
5052                         TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
5053                 }
5054                 mtx_unlock(&pvc->pvc_lock);
5055         }
5056
5057         for (i = 0; i < vm_ndomains; i++) {
5058                 TAILQ_FOREACH_SAFE(pc, &batch[i], pc_list, npc) {
5059                         free_pv_chunk_dequeued(pc);
5060                 }
5061         }
5062 }
5063
5064 /*
5065  * Returns a new PV entry, allocating a new PV chunk from the system when
5066  * needed.  If this PV chunk allocation fails and a PV list lock pointer was
5067  * given, a PV chunk is reclaimed from an arbitrary pmap.  Otherwise, NULL is
5068  * returned.
5069  *
5070  * The given PV list lock may be released.
5071  */
5072 static pv_entry_t
5073 get_pv_entry(pmap_t pmap, struct rwlock **lockp)
5074 {
5075         struct pv_chunks_list *pvc;
5076         int bit, field;
5077         pv_entry_t pv;
5078         struct pv_chunk *pc;
5079         vm_page_t m;
5080
5081         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5082         PV_STAT(atomic_add_long(&pv_entry_allocs, 1));
5083 retry:
5084         pc = TAILQ_FIRST(&pmap->pm_pvchunk);
5085         if (pc != NULL) {
5086                 for (field = 0; field < _NPCM; field++) {
5087                         if (pc->pc_map[field]) {
5088                                 bit = bsfq(pc->pc_map[field]);
5089                                 break;
5090                         }
5091                 }
5092                 if (field < _NPCM) {
5093                         pv = &pc->pc_pventry[field * 64 + bit];
5094                         pc->pc_map[field] &= ~(1ul << bit);
5095                         /* If this was the last item, move it to tail */
5096                         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 &&
5097                             pc->pc_map[2] == 0) {
5098                                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5099                                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc,
5100                                     pc_list);
5101                         }
5102                         PV_STAT(atomic_add_long(&pv_entry_count, 1));
5103                         PV_STAT(atomic_subtract_int(&pv_entry_spare, 1));
5104                         return (pv);
5105                 }
5106         }
5107         /* No free items, allocate another chunk */
5108         m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
5109             VM_ALLOC_WIRED);
5110         if (m == NULL) {
5111                 if (lockp == NULL) {
5112                         PV_STAT(pc_chunk_tryfail++);
5113                         return (NULL);
5114                 }
5115                 m = reclaim_pv_chunk(pmap, lockp);
5116                 if (m == NULL)
5117                         goto retry;
5118         }
5119         PV_STAT(atomic_add_int(&pc_chunk_count, 1));
5120         PV_STAT(atomic_add_int(&pc_chunk_allocs, 1));
5121         dump_add_page(m->phys_addr);
5122         pc = (void *)PHYS_TO_DMAP(m->phys_addr);
5123         pc->pc_pmap = pmap;
5124         pc->pc_map[0] = PC_FREE0 & ~1ul;        /* preallocated bit 0 */
5125         pc->pc_map[1] = PC_FREE1;
5126         pc->pc_map[2] = PC_FREE2;
5127         pvc = &pv_chunks[_vm_phys_domain(m->phys_addr)];
5128         mtx_lock(&pvc->pvc_lock);
5129         TAILQ_INSERT_TAIL(&pvc->pvc_list, pc, pc_lru);
5130         mtx_unlock(&pvc->pvc_lock);
5131         pv = &pc->pc_pventry[0];
5132         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
5133         PV_STAT(atomic_add_long(&pv_entry_count, 1));
5134         PV_STAT(atomic_add_int(&pv_entry_spare, _NPCPV - 1));
5135         return (pv);
5136 }
5137
5138 /*
5139  * Returns the number of one bits within the given PV chunk map.
5140  *
5141  * The erratas for Intel processors state that "POPCNT Instruction May
5142  * Take Longer to Execute Than Expected".  It is believed that the
5143  * issue is the spurious dependency on the destination register.
5144  * Provide a hint to the register rename logic that the destination
5145  * value is overwritten, by clearing it, as suggested in the
5146  * optimization manual.  It should be cheap for unaffected processors
5147  * as well.
5148  *
5149  * Reference numbers for erratas are
5150  * 4th Gen Core: HSD146
5151  * 5th Gen Core: BDM85
5152  * 6th Gen Core: SKL029
5153  */
5154 static int
5155 popcnt_pc_map_pq(uint64_t *map)
5156 {
5157         u_long result, tmp;
5158
5159         __asm __volatile("xorl %k0,%k0;popcntq %2,%0;"
5160             "xorl %k1,%k1;popcntq %3,%1;addl %k1,%k0;"
5161             "xorl %k1,%k1;popcntq %4,%1;addl %k1,%k0"
5162             : "=&r" (result), "=&r" (tmp)
5163             : "m" (map[0]), "m" (map[1]), "m" (map[2]));
5164         return (result);
5165 }
5166
5167 /*
5168  * Ensure that the number of spare PV entries in the specified pmap meets or
5169  * exceeds the given count, "needed".
5170  *
5171  * The given PV list lock may be released.
5172  */
5173 static void
5174 reserve_pv_entries(pmap_t pmap, int needed, struct rwlock **lockp)
5175 {
5176         struct pv_chunks_list *pvc;
5177         struct pch new_tail[PMAP_MEMDOM];
5178         struct pv_chunk *pc;
5179         vm_page_t m;
5180         int avail, free, i;
5181         bool reclaimed;
5182
5183         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5184         KASSERT(lockp != NULL, ("reserve_pv_entries: lockp is NULL"));
5185
5186         /*
5187          * Newly allocated PV chunks must be stored in a private list until
5188          * the required number of PV chunks have been allocated.  Otherwise,
5189          * reclaim_pv_chunk() could recycle one of these chunks.  In
5190          * contrast, these chunks must be added to the pmap upon allocation.
5191          */
5192         for (i = 0; i < PMAP_MEMDOM; i++)
5193                 TAILQ_INIT(&new_tail[i]);
5194 retry:
5195         avail = 0;
5196         TAILQ_FOREACH(pc, &pmap->pm_pvchunk, pc_list) {
5197 #ifndef __POPCNT__
5198                 if ((cpu_feature2 & CPUID2_POPCNT) == 0)
5199                         bit_count((bitstr_t *)pc->pc_map, 0,
5200                             sizeof(pc->pc_map) * NBBY, &free);
5201                 else
5202 #endif
5203                 free = popcnt_pc_map_pq(pc->pc_map);
5204                 if (free == 0)
5205                         break;
5206                 avail += free;
5207                 if (avail >= needed)
5208                         break;
5209         }
5210         for (reclaimed = false; avail < needed; avail += _NPCPV) {
5211                 m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
5212                     VM_ALLOC_WIRED);
5213                 if (m == NULL) {
5214                         m = reclaim_pv_chunk(pmap, lockp);
5215                         if (m == NULL)
5216                                 goto retry;
5217                         reclaimed = true;
5218                 }
5219                 PV_STAT(atomic_add_int(&pc_chunk_count, 1));
5220                 PV_STAT(atomic_add_int(&pc_chunk_allocs, 1));
5221                 dump_add_page(m->phys_addr);
5222                 pc = (void *)PHYS_TO_DMAP(m->phys_addr);
5223                 pc->pc_pmap = pmap;
5224                 pc->pc_map[0] = PC_FREE0;
5225                 pc->pc_map[1] = PC_FREE1;
5226                 pc->pc_map[2] = PC_FREE2;
5227                 TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
5228                 TAILQ_INSERT_TAIL(&new_tail[pc_to_domain(pc)], pc, pc_lru);
5229                 PV_STAT(atomic_add_int(&pv_entry_spare, _NPCPV));
5230
5231                 /*
5232                  * The reclaim might have freed a chunk from the current pmap.
5233                  * If that chunk contained available entries, we need to
5234                  * re-count the number of available entries.
5235                  */
5236                 if (reclaimed)
5237                         goto retry;
5238         }
5239         for (i = 0; i < vm_ndomains; i++) {
5240                 if (TAILQ_EMPTY(&new_tail[i]))
5241                         continue;
5242                 pvc = &pv_chunks[i];
5243                 mtx_lock(&pvc->pvc_lock);
5244                 TAILQ_CONCAT(&pvc->pvc_list, &new_tail[i], pc_lru);
5245                 mtx_unlock(&pvc->pvc_lock);
5246         }
5247 }
5248
5249 /*
5250  * First find and then remove the pv entry for the specified pmap and virtual
5251  * address from the specified pv list.  Returns the pv entry if found and NULL
5252  * otherwise.  This operation can be performed on pv lists for either 4KB or
5253  * 2MB page mappings.
5254  */
5255 static __inline pv_entry_t
5256 pmap_pvh_remove(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
5257 {
5258         pv_entry_t pv;
5259
5260         TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
5261                 if (pmap == PV_PMAP(pv) && va == pv->pv_va) {
5262                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
5263                         pvh->pv_gen++;
5264                         break;
5265                 }
5266         }
5267         return (pv);
5268 }
5269
5270 /*
5271  * After demotion from a 2MB page mapping to 512 4KB page mappings,
5272  * destroy the pv entry for the 2MB page mapping and reinstantiate the pv
5273  * entries for each of the 4KB page mappings.
5274  */
5275 static void
5276 pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
5277     struct rwlock **lockp)
5278 {
5279         struct md_page *pvh;
5280         struct pv_chunk *pc;
5281         pv_entry_t pv;
5282         vm_offset_t va_last;
5283         vm_page_t m;
5284         int bit, field;
5285
5286         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5287         KASSERT((pa & PDRMASK) == 0,
5288             ("pmap_pv_demote_pde: pa is not 2mpage aligned"));
5289         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
5290
5291         /*
5292          * Transfer the 2mpage's pv entry for this mapping to the first
5293          * page's pv list.  Once this transfer begins, the pv list lock
5294          * must not be released until the last pv entry is reinstantiated.
5295          */
5296         pvh = pa_to_pvh(pa);
5297         va = trunc_2mpage(va);
5298         pv = pmap_pvh_remove(pvh, pmap, va);
5299         KASSERT(pv != NULL, ("pmap_pv_demote_pde: pv not found"));
5300         m = PHYS_TO_VM_PAGE(pa);
5301         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5302         m->md.pv_gen++;
5303         /* Instantiate the remaining NPTEPG - 1 pv entries. */
5304         PV_STAT(atomic_add_long(&pv_entry_allocs, NPTEPG - 1));
5305         va_last = va + NBPDR - PAGE_SIZE;
5306         for (;;) {
5307                 pc = TAILQ_FIRST(&pmap->pm_pvchunk);
5308                 KASSERT(pc->pc_map[0] != 0 || pc->pc_map[1] != 0 ||
5309                     pc->pc_map[2] != 0, ("pmap_pv_demote_pde: missing spare"));
5310                 for (field = 0; field < _NPCM; field++) {
5311                         while (pc->pc_map[field]) {
5312                                 bit = bsfq(pc->pc_map[field]);
5313                                 pc->pc_map[field] &= ~(1ul << bit);
5314                                 pv = &pc->pc_pventry[field * 64 + bit];
5315                                 va += PAGE_SIZE;
5316                                 pv->pv_va = va;
5317                                 m++;
5318                                 KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5319                             ("pmap_pv_demote_pde: page %p is not managed", m));
5320                                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5321                                 m->md.pv_gen++;
5322                                 if (va == va_last)
5323                                         goto out;
5324                         }
5325                 }
5326                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5327                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
5328         }
5329 out:
5330         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 && pc->pc_map[2] == 0) {
5331                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5332                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
5333         }
5334         PV_STAT(atomic_add_long(&pv_entry_count, NPTEPG - 1));
5335         PV_STAT(atomic_subtract_int(&pv_entry_spare, NPTEPG - 1));
5336 }
5337
5338 #if VM_NRESERVLEVEL > 0
5339 /*
5340  * After promotion from 512 4KB page mappings to a single 2MB page mapping,
5341  * replace the many pv entries for the 4KB page mappings by a single pv entry
5342  * for the 2MB page mapping.
5343  */
5344 static void
5345 pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
5346     struct rwlock **lockp)
5347 {
5348         struct md_page *pvh;
5349         pv_entry_t pv;
5350         vm_offset_t va_last;
5351         vm_page_t m;
5352
5353         KASSERT((pa & PDRMASK) == 0,
5354             ("pmap_pv_promote_pde: pa is not 2mpage aligned"));
5355         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
5356
5357         /*
5358          * Transfer the first page's pv entry for this mapping to the 2mpage's
5359          * pv list.  Aside from avoiding the cost of a call to get_pv_entry(),
5360          * a transfer avoids the possibility that get_pv_entry() calls
5361          * reclaim_pv_chunk() and that reclaim_pv_chunk() removes one of the
5362          * mappings that is being promoted.
5363          */
5364         m = PHYS_TO_VM_PAGE(pa);
5365         va = trunc_2mpage(va);
5366         pv = pmap_pvh_remove(&m->md, pmap, va);
5367         KASSERT(pv != NULL, ("pmap_pv_promote_pde: pv not found"));
5368         pvh = pa_to_pvh(pa);
5369         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
5370         pvh->pv_gen++;
5371         /* Free the remaining NPTEPG - 1 pv entries. */
5372         va_last = va + NBPDR - PAGE_SIZE;
5373         do {
5374                 m++;
5375                 va += PAGE_SIZE;
5376                 pmap_pvh_free(&m->md, pmap, va);
5377         } while (va < va_last);
5378 }
5379 #endif /* VM_NRESERVLEVEL > 0 */
5380
5381 /*
5382  * First find and then destroy the pv entry for the specified pmap and virtual
5383  * address.  This operation can be performed on pv lists for either 4KB or 2MB
5384  * page mappings.
5385  */
5386 static void
5387 pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
5388 {
5389         pv_entry_t pv;
5390
5391         pv = pmap_pvh_remove(pvh, pmap, va);
5392         KASSERT(pv != NULL, ("pmap_pvh_free: pv not found"));
5393         free_pv_entry(pmap, pv);
5394 }
5395
5396 /*
5397  * Conditionally create the PV entry for a 4KB page mapping if the required
5398  * memory can be allocated without resorting to reclamation.
5399  */
5400 static boolean_t
5401 pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va, vm_page_t m,
5402     struct rwlock **lockp)
5403 {
5404         pv_entry_t pv;
5405
5406         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5407         /* Pass NULL instead of the lock pointer to disable reclamation. */
5408         if ((pv = get_pv_entry(pmap, NULL)) != NULL) {
5409                 pv->pv_va = va;
5410                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
5411                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5412                 m->md.pv_gen++;
5413                 return (TRUE);
5414         } else
5415                 return (FALSE);
5416 }
5417
5418 /*
5419  * Create the PV entry for a 2MB page mapping.  Always returns true unless the
5420  * flag PMAP_ENTER_NORECLAIM is specified.  If that flag is specified, returns
5421  * false if the PV entry cannot be allocated without resorting to reclamation.
5422  */
5423 static bool
5424 pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, pd_entry_t pde, u_int flags,
5425     struct rwlock **lockp)
5426 {
5427         struct md_page *pvh;
5428         pv_entry_t pv;
5429         vm_paddr_t pa;
5430
5431         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5432         /* Pass NULL instead of the lock pointer to disable reclamation. */
5433         if ((pv = get_pv_entry(pmap, (flags & PMAP_ENTER_NORECLAIM) != 0 ?
5434             NULL : lockp)) == NULL)
5435                 return (false);
5436         pv->pv_va = va;
5437         pa = pde & PG_PS_FRAME;
5438         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
5439         pvh = pa_to_pvh(pa);
5440         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
5441         pvh->pv_gen++;
5442         return (true);
5443 }
5444
5445 /*
5446  * Fills a page table page with mappings to consecutive physical pages.
5447  */
5448 static void
5449 pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte)
5450 {
5451         pt_entry_t *pte;
5452
5453         for (pte = firstpte; pte < firstpte + NPTEPG; pte++) {
5454                 *pte = newpte;
5455                 newpte += PAGE_SIZE;
5456         }
5457 }
5458
5459 /*
5460  * Tries to demote a 2MB page mapping.  If demotion fails, the 2MB page
5461  * mapping is invalidated.
5462  */
5463 static boolean_t
5464 pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
5465 {
5466         struct rwlock *lock;
5467         boolean_t rv;
5468
5469         lock = NULL;
5470         rv = pmap_demote_pde_locked(pmap, pde, va, &lock);
5471         if (lock != NULL)
5472                 rw_wunlock(lock);
5473         return (rv);
5474 }
5475
5476 static void
5477 pmap_demote_pde_check(pt_entry_t *firstpte __unused, pt_entry_t newpte __unused)
5478 {
5479 #ifdef INVARIANTS
5480 #ifdef DIAGNOSTIC
5481         pt_entry_t *xpte, *ypte;
5482
5483         for (xpte = firstpte; xpte < firstpte + NPTEPG;
5484             xpte++, newpte += PAGE_SIZE) {
5485                 if ((*xpte & PG_FRAME) != (newpte & PG_FRAME)) {
5486                         printf("pmap_demote_pde: xpte %zd and newpte map "
5487                             "different pages: found %#lx, expected %#lx\n",
5488                             xpte - firstpte, *xpte, newpte);
5489                         printf("page table dump\n");
5490                         for (ypte = firstpte; ypte < firstpte + NPTEPG; ypte++)
5491                                 printf("%zd %#lx\n", ypte - firstpte, *ypte);
5492                         panic("firstpte");
5493                 }
5494         }
5495 #else
5496         KASSERT((*firstpte & PG_FRAME) == (newpte & PG_FRAME),
5497             ("pmap_demote_pde: firstpte and newpte map different physical"
5498             " addresses"));
5499 #endif
5500 #endif
5501 }
5502
5503 static void
5504 pmap_demote_pde_abort(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
5505     pd_entry_t oldpde, struct rwlock **lockp)
5506 {
5507         struct spglist free;
5508         vm_offset_t sva;
5509
5510         SLIST_INIT(&free);
5511         sva = trunc_2mpage(va);
5512         pmap_remove_pde(pmap, pde, sva, &free, lockp);
5513         if ((oldpde & pmap_global_bit(pmap)) == 0)
5514                 pmap_invalidate_pde_page(pmap, sva, oldpde);
5515         vm_page_free_pages_toq(&free, true);
5516         CTR2(KTR_PMAP, "pmap_demote_pde: failure for va %#lx in pmap %p",
5517             va, pmap);
5518 }
5519
5520 static boolean_t
5521 pmap_demote_pde_locked(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
5522     struct rwlock **lockp)
5523 {
5524         pd_entry_t newpde, oldpde;
5525         pt_entry_t *firstpte, newpte;
5526         pt_entry_t PG_A, PG_G, PG_M, PG_PKU_MASK, PG_RW, PG_V;
5527         vm_paddr_t mptepa;
5528         vm_page_t mpte;
5529         int PG_PTE_CACHE;
5530         bool in_kernel;
5531
5532         PG_A = pmap_accessed_bit(pmap);
5533         PG_G = pmap_global_bit(pmap);
5534         PG_M = pmap_modified_bit(pmap);
5535         PG_RW = pmap_rw_bit(pmap);
5536         PG_V = pmap_valid_bit(pmap);
5537         PG_PTE_CACHE = pmap_cache_mask(pmap, 0);
5538         PG_PKU_MASK = pmap_pku_mask_bit(pmap);
5539
5540         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5541         in_kernel = va >= VM_MAXUSER_ADDRESS;
5542         oldpde = *pde;
5543         KASSERT((oldpde & (PG_PS | PG_V)) == (PG_PS | PG_V),
5544             ("pmap_demote_pde: oldpde is missing PG_PS and/or PG_V"));
5545
5546         /*
5547          * Invalidate the 2MB page mapping and return "failure" if the
5548          * mapping was never accessed.
5549          */
5550         if ((oldpde & PG_A) == 0) {
5551                 KASSERT((oldpde & PG_W) == 0,
5552                     ("pmap_demote_pde: a wired mapping is missing PG_A"));
5553                 pmap_demote_pde_abort(pmap, va, pde, oldpde, lockp);
5554                 return (FALSE);
5555         }
5556
5557         mpte = pmap_remove_pt_page(pmap, va);
5558         if (mpte == NULL) {
5559                 KASSERT((oldpde & PG_W) == 0,
5560                     ("pmap_demote_pde: page table page for a wired mapping"
5561                     " is missing"));
5562
5563                 /*
5564                  * If the page table page is missing and the mapping
5565                  * is for a kernel address, the mapping must belong to
5566                  * the direct map.  Page table pages are preallocated
5567                  * for every other part of the kernel address space,
5568                  * so the direct map region is the only part of the
5569                  * kernel address space that must be handled here.
5570                  */
5571                 KASSERT(!in_kernel || (va >= DMAP_MIN_ADDRESS &&
5572                     va < DMAP_MAX_ADDRESS),
5573                     ("pmap_demote_pde: No saved mpte for va %#lx", va));
5574
5575                 /*
5576                  * If the 2MB page mapping belongs to the direct map
5577                  * region of the kernel's address space, then the page
5578                  * allocation request specifies the highest possible
5579                  * priority (VM_ALLOC_INTERRUPT).  Otherwise, the
5580                  * priority is normal.
5581                  */
5582                 mpte = vm_page_alloc(NULL, pmap_pde_pindex(va),
5583                     (in_kernel ? VM_ALLOC_INTERRUPT : VM_ALLOC_NORMAL) |
5584                     VM_ALLOC_NOOBJ | VM_ALLOC_WIRED);
5585
5586                 /*
5587                  * If the allocation of the new page table page fails,
5588                  * invalidate the 2MB page mapping and return "failure".
5589                  */
5590                 if (mpte == NULL) {
5591                         pmap_demote_pde_abort(pmap, va, pde, oldpde, lockp);
5592                         return (FALSE);
5593                 }
5594
5595                 if (!in_kernel) {
5596                         mpte->ref_count = NPTEPG;
5597                         pmap_resident_count_inc(pmap, 1);
5598                 }
5599         }
5600         mptepa = VM_PAGE_TO_PHYS(mpte);
5601         firstpte = (pt_entry_t *)PHYS_TO_DMAP(mptepa);
5602         newpde = mptepa | PG_M | PG_A | (oldpde & PG_U) | PG_RW | PG_V;
5603         KASSERT((oldpde & (PG_M | PG_RW)) != PG_RW,
5604             ("pmap_demote_pde: oldpde is missing PG_M"));
5605         newpte = oldpde & ~PG_PS;
5606         newpte = pmap_swap_pat(pmap, newpte);
5607
5608         /*
5609          * If the page table page is not leftover from an earlier promotion,
5610          * initialize it.
5611          */
5612         if (mpte->valid == 0)
5613                 pmap_fill_ptp(firstpte, newpte);
5614
5615         pmap_demote_pde_check(firstpte, newpte);
5616
5617         /*
5618          * If the mapping has changed attributes, update the page table
5619          * entries.
5620          */
5621         if ((*firstpte & PG_PTE_PROMOTE) != (newpte & PG_PTE_PROMOTE))
5622                 pmap_fill_ptp(firstpte, newpte);
5623
5624         /*
5625          * The spare PV entries must be reserved prior to demoting the
5626          * mapping, that is, prior to changing the PDE.  Otherwise, the state
5627          * of the PDE and the PV lists will be inconsistent, which can result
5628          * in reclaim_pv_chunk() attempting to remove a PV entry from the
5629          * wrong PV list and pmap_pv_demote_pde() failing to find the expected
5630          * PV entry for the 2MB page mapping that is being demoted.
5631          */
5632         if ((oldpde & PG_MANAGED) != 0)
5633                 reserve_pv_entries(pmap, NPTEPG - 1, lockp);
5634
5635         /*
5636          * Demote the mapping.  This pmap is locked.  The old PDE has
5637          * PG_A set.  If the old PDE has PG_RW set, it also has PG_M
5638          * set.  Thus, there is no danger of a race with another
5639          * processor changing the setting of PG_A and/or PG_M between
5640          * the read above and the store below.
5641          */
5642         if (workaround_erratum383)
5643                 pmap_update_pde(pmap, va, pde, newpde);
5644         else
5645                 pde_store(pde, newpde);
5646
5647         /*
5648          * Invalidate a stale recursive mapping of the page table page.
5649          */
5650         if (in_kernel)
5651                 pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
5652
5653         /*
5654          * Demote the PV entry.
5655          */
5656         if ((oldpde & PG_MANAGED) != 0)
5657                 pmap_pv_demote_pde(pmap, va, oldpde & PG_PS_FRAME, lockp);
5658
5659         atomic_add_long(&pmap_pde_demotions, 1);
5660         CTR2(KTR_PMAP, "pmap_demote_pde: success for va %#lx in pmap %p",
5661             va, pmap);
5662         return (TRUE);
5663 }
5664
5665 /*
5666  * pmap_remove_kernel_pde: Remove a kernel superpage mapping.
5667  */
5668 static void
5669 pmap_remove_kernel_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
5670 {
5671         pd_entry_t newpde;
5672         vm_paddr_t mptepa;
5673         vm_page_t mpte;
5674
5675         KASSERT(pmap == kernel_pmap, ("pmap %p is not kernel_pmap", pmap));
5676         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5677         mpte = pmap_remove_pt_page(pmap, va);
5678         if (mpte == NULL)
5679                 panic("pmap_remove_kernel_pde: Missing pt page.");
5680
5681         mptepa = VM_PAGE_TO_PHYS(mpte);
5682         newpde = mptepa | X86_PG_M | X86_PG_A | X86_PG_RW | X86_PG_V;
5683
5684         /*
5685          * If this page table page was unmapped by a promotion, then it
5686          * contains valid mappings.  Zero it to invalidate those mappings.
5687          */
5688         if (mpte->valid != 0)
5689                 pagezero((void *)PHYS_TO_DMAP(mptepa));
5690
5691         /*
5692          * Demote the mapping.
5693          */
5694         if (workaround_erratum383)
5695                 pmap_update_pde(pmap, va, pde, newpde);
5696         else
5697                 pde_store(pde, newpde);
5698
5699         /*
5700          * Invalidate a stale recursive mapping of the page table page.
5701          */
5702         pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
5703 }
5704
5705 /*
5706  * pmap_remove_pde: do the things to unmap a superpage in a process
5707  */
5708 static int
5709 pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
5710     struct spglist *free, struct rwlock **lockp)
5711 {
5712         struct md_page *pvh;
5713         pd_entry_t oldpde;
5714         vm_offset_t eva, va;
5715         vm_page_t m, mpte;
5716         pt_entry_t PG_G, PG_A, PG_M, PG_RW;
5717
5718         PG_G = pmap_global_bit(pmap);
5719         PG_A = pmap_accessed_bit(pmap);
5720         PG_M = pmap_modified_bit(pmap);
5721         PG_RW = pmap_rw_bit(pmap);
5722
5723         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5724         KASSERT((sva & PDRMASK) == 0,
5725             ("pmap_remove_pde: sva is not 2mpage aligned"));
5726         oldpde = pte_load_clear(pdq);
5727         if (oldpde & PG_W)
5728                 pmap->pm_stats.wired_count -= NBPDR / PAGE_SIZE;
5729         if ((oldpde & PG_G) != 0)
5730                 pmap_invalidate_pde_page(kernel_pmap, sva, oldpde);
5731         pmap_resident_count_dec(pmap, NBPDR / PAGE_SIZE);
5732         if (oldpde & PG_MANAGED) {
5733                 CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, oldpde & PG_PS_FRAME);
5734                 pvh = pa_to_pvh(oldpde & PG_PS_FRAME);
5735                 pmap_pvh_free(pvh, pmap, sva);
5736                 eva = sva + NBPDR;
5737                 for (va = sva, m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
5738                     va < eva; va += PAGE_SIZE, m++) {
5739                         if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW))
5740                                 vm_page_dirty(m);
5741                         if (oldpde & PG_A)
5742                                 vm_page_aflag_set(m, PGA_REFERENCED);
5743                         if (TAILQ_EMPTY(&m->md.pv_list) &&
5744                             TAILQ_EMPTY(&pvh->pv_list))
5745                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
5746                         pmap_delayed_invl_page(m);
5747                 }
5748         }
5749         if (pmap == kernel_pmap) {
5750                 pmap_remove_kernel_pde(pmap, pdq, sva);
5751         } else {
5752                 mpte = pmap_remove_pt_page(pmap, sva);
5753                 if (mpte != NULL) {
5754                         KASSERT(mpte->valid == VM_PAGE_BITS_ALL,
5755                             ("pmap_remove_pde: pte page not promoted"));
5756                         pmap_resident_count_dec(pmap, 1);
5757                         KASSERT(mpte->ref_count == NPTEPG,
5758                             ("pmap_remove_pde: pte page ref count error"));
5759                         mpte->ref_count = 0;
5760                         pmap_add_delayed_free_list(mpte, free, FALSE);
5761                 }
5762         }
5763         return (pmap_unuse_pt(pmap, sva, *pmap_pdpe(pmap, sva), free));
5764 }
5765
5766 /*
5767  * pmap_remove_pte: do the things to unmap a page in a process
5768  */
5769 static int
5770 pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t va,
5771     pd_entry_t ptepde, struct spglist *free, struct rwlock **lockp)
5772 {
5773         struct md_page *pvh;
5774         pt_entry_t oldpte, PG_A, PG_M, PG_RW;
5775         vm_page_t m;
5776
5777         PG_A = pmap_accessed_bit(pmap);
5778         PG_M = pmap_modified_bit(pmap);
5779         PG_RW = pmap_rw_bit(pmap);
5780
5781         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5782         oldpte = pte_load_clear(ptq);
5783         if (oldpte & PG_W)
5784                 pmap->pm_stats.wired_count -= 1;
5785         pmap_resident_count_dec(pmap, 1);
5786         if (oldpte & PG_MANAGED) {
5787                 m = PHYS_TO_VM_PAGE(oldpte & PG_FRAME);
5788                 if ((oldpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
5789                         vm_page_dirty(m);
5790                 if (oldpte & PG_A)
5791                         vm_page_aflag_set(m, PGA_REFERENCED);
5792                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
5793                 pmap_pvh_free(&m->md, pmap, va);
5794                 if (TAILQ_EMPTY(&m->md.pv_list) &&
5795                     (m->flags & PG_FICTITIOUS) == 0) {
5796                         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5797                         if (TAILQ_EMPTY(&pvh->pv_list))
5798                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
5799                 }
5800                 pmap_delayed_invl_page(m);
5801         }
5802         return (pmap_unuse_pt(pmap, va, ptepde, free));
5803 }
5804
5805 /*
5806  * Remove a single page from a process address space
5807  */
5808 static void
5809 pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
5810     struct spglist *free)
5811 {
5812         struct rwlock *lock;
5813         pt_entry_t *pte, PG_V;
5814
5815         PG_V = pmap_valid_bit(pmap);
5816         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5817         if ((*pde & PG_V) == 0)
5818                 return;
5819         pte = pmap_pde_to_pte(pde, va);
5820         if ((*pte & PG_V) == 0)
5821                 return;
5822         lock = NULL;
5823         pmap_remove_pte(pmap, pte, va, *pde, free, &lock);
5824         if (lock != NULL)
5825                 rw_wunlock(lock);
5826         pmap_invalidate_page(pmap, va);
5827 }
5828
5829 /*
5830  * Removes the specified range of addresses from the page table page.
5831  */
5832 static bool
5833 pmap_remove_ptes(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
5834     pd_entry_t *pde, struct spglist *free, struct rwlock **lockp)
5835 {
5836         pt_entry_t PG_G, *pte;
5837         vm_offset_t va;
5838         bool anyvalid;
5839
5840         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5841         PG_G = pmap_global_bit(pmap);
5842         anyvalid = false;
5843         va = eva;
5844         for (pte = pmap_pde_to_pte(pde, sva); sva != eva; pte++,
5845             sva += PAGE_SIZE) {
5846                 if (*pte == 0) {
5847                         if (va != eva) {
5848                                 pmap_invalidate_range(pmap, va, sva);
5849                                 va = eva;
5850                         }
5851                         continue;
5852                 }
5853                 if ((*pte & PG_G) == 0)
5854                         anyvalid = true;
5855                 else if (va == eva)
5856                         va = sva;
5857                 if (pmap_remove_pte(pmap, pte, sva, *pde, free, lockp)) {
5858                         sva += PAGE_SIZE;
5859                         break;
5860                 }
5861         }
5862         if (va != eva)
5863                 pmap_invalidate_range(pmap, va, sva);
5864         return (anyvalid);
5865 }
5866
5867 /*
5868  *      Remove the given range of addresses from the specified map.
5869  *
5870  *      It is assumed that the start and end are properly
5871  *      rounded to the page size.
5872  */
5873 void
5874 pmap_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
5875 {
5876         struct rwlock *lock;
5877         vm_page_t mt;
5878         vm_offset_t va_next;
5879         pml5_entry_t *pml5e;
5880         pml4_entry_t *pml4e;
5881         pdp_entry_t *pdpe;
5882         pd_entry_t ptpaddr, *pde;
5883         pt_entry_t PG_G, PG_V;
5884         struct spglist free;
5885         int anyvalid;
5886
5887         PG_G = pmap_global_bit(pmap);
5888         PG_V = pmap_valid_bit(pmap);
5889
5890         /*
5891          * Perform an unsynchronized read.  This is, however, safe.
5892          */
5893         if (pmap->pm_stats.resident_count == 0)
5894                 return;
5895
5896         anyvalid = 0;
5897         SLIST_INIT(&free);
5898
5899         pmap_delayed_invl_start();
5900         PMAP_LOCK(pmap);
5901         pmap_pkru_on_remove(pmap, sva, eva);
5902
5903         /*
5904          * special handling of removing one page.  a very
5905          * common operation and easy to short circuit some
5906          * code.
5907          */
5908         if (sva + PAGE_SIZE == eva) {
5909                 pde = pmap_pde(pmap, sva);
5910                 if (pde && (*pde & PG_PS) == 0) {
5911                         pmap_remove_page(pmap, sva, pde, &free);
5912                         goto out;
5913                 }
5914         }
5915
5916         lock = NULL;
5917         for (; sva < eva; sva = va_next) {
5918                 if (pmap->pm_stats.resident_count == 0)
5919                         break;
5920
5921                 if (pmap_is_la57(pmap)) {
5922                         pml5e = pmap_pml5e(pmap, sva);
5923                         if ((*pml5e & PG_V) == 0) {
5924                                 va_next = (sva + NBPML5) & ~PML5MASK;
5925                                 if (va_next < sva)
5926                                         va_next = eva;
5927                                 continue;
5928                         }
5929                         pml4e = pmap_pml5e_to_pml4e(pml5e, sva);
5930                 } else {
5931                         pml4e = pmap_pml4e(pmap, sva);
5932                 }
5933                 if ((*pml4e & PG_V) == 0) {
5934                         va_next = (sva + NBPML4) & ~PML4MASK;
5935                         if (va_next < sva)
5936                                 va_next = eva;
5937                         continue;
5938                 }
5939
5940                 va_next = (sva + NBPDP) & ~PDPMASK;
5941                 if (va_next < sva)
5942                         va_next = eva;
5943                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
5944                 if ((*pdpe & PG_V) == 0)
5945                         continue;
5946                 if ((*pdpe & PG_PS) != 0) {
5947                         KASSERT(va_next <= eva,
5948                             ("partial update of non-transparent 1G mapping "
5949                             "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
5950                             *pdpe, sva, eva, va_next));
5951                         MPASS(pmap != kernel_pmap); /* XXXKIB */
5952                         MPASS((*pdpe & (PG_MANAGED | PG_G)) == 0);
5953                         anyvalid = 1;
5954                         *pdpe = 0;
5955                         pmap_resident_count_dec(pmap, NBPDP / PAGE_SIZE);
5956                         mt = PHYS_TO_VM_PAGE(*pmap_pml4e(pmap, sva) & PG_FRAME);
5957                         pmap_unwire_ptp(pmap, sva, mt, &free);
5958                         continue;
5959                 }
5960
5961                 /*
5962                  * Calculate index for next page table.
5963                  */
5964                 va_next = (sva + NBPDR) & ~PDRMASK;
5965                 if (va_next < sva)
5966                         va_next = eva;
5967
5968                 pde = pmap_pdpe_to_pde(pdpe, sva);
5969                 ptpaddr = *pde;
5970
5971                 /*
5972                  * Weed out invalid mappings.
5973                  */
5974                 if (ptpaddr == 0)
5975                         continue;
5976
5977                 /*
5978                  * Check for large page.
5979                  */
5980                 if ((ptpaddr & PG_PS) != 0) {
5981                         /*
5982                          * Are we removing the entire large page?  If not,
5983                          * demote the mapping and fall through.
5984                          */
5985                         if (sva + NBPDR == va_next && eva >= va_next) {
5986                                 /*
5987                                  * The TLB entry for a PG_G mapping is
5988                                  * invalidated by pmap_remove_pde().
5989                                  */
5990                                 if ((ptpaddr & PG_G) == 0)
5991                                         anyvalid = 1;
5992                                 pmap_remove_pde(pmap, pde, sva, &free, &lock);
5993                                 continue;
5994                         } else if (!pmap_demote_pde_locked(pmap, pde, sva,
5995                             &lock)) {
5996                                 /* The large page mapping was destroyed. */
5997                                 continue;
5998                         } else
5999                                 ptpaddr = *pde;
6000                 }
6001
6002                 /*
6003                  * Limit our scan to either the end of the va represented
6004                  * by the current page table page, or to the end of the
6005                  * range being removed.
6006                  */
6007                 if (va_next > eva)
6008                         va_next = eva;
6009
6010                 if (pmap_remove_ptes(pmap, sva, va_next, pde, &free, &lock))
6011                         anyvalid = 1;
6012         }
6013         if (lock != NULL)
6014                 rw_wunlock(lock);
6015 out:
6016         if (anyvalid)
6017                 pmap_invalidate_all(pmap);
6018         PMAP_UNLOCK(pmap);
6019         pmap_delayed_invl_finish();
6020         vm_page_free_pages_toq(&free, true);
6021 }
6022
6023 /*
6024  *      Routine:        pmap_remove_all
6025  *      Function:
6026  *              Removes this physical page from
6027  *              all physical maps in which it resides.
6028  *              Reflects back modify bits to the pager.
6029  *
6030  *      Notes:
6031  *              Original versions of this routine were very
6032  *              inefficient because they iteratively called
6033  *              pmap_remove (slow...)
6034  */
6035
6036 void
6037 pmap_remove_all(vm_page_t m)
6038 {
6039         struct md_page *pvh;
6040         pv_entry_t pv;
6041         pmap_t pmap;
6042         struct rwlock *lock;
6043         pt_entry_t *pte, tpte, PG_A, PG_M, PG_RW;
6044         pd_entry_t *pde;
6045         vm_offset_t va;
6046         struct spglist free;
6047         int pvh_gen, md_gen;
6048
6049         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
6050             ("pmap_remove_all: page %p is not managed", m));
6051         SLIST_INIT(&free);
6052         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
6053         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy :
6054             pa_to_pvh(VM_PAGE_TO_PHYS(m));
6055 retry:
6056         rw_wlock(lock);
6057         while ((pv = TAILQ_FIRST(&pvh->pv_list)) != NULL) {
6058                 pmap = PV_PMAP(pv);
6059                 if (!PMAP_TRYLOCK(pmap)) {
6060                         pvh_gen = pvh->pv_gen;
6061                         rw_wunlock(lock);
6062                         PMAP_LOCK(pmap);
6063                         rw_wlock(lock);
6064                         if (pvh_gen != pvh->pv_gen) {
6065                                 rw_wunlock(lock);
6066                                 PMAP_UNLOCK(pmap);
6067                                 goto retry;
6068                         }
6069                 }
6070                 va = pv->pv_va;
6071                 pde = pmap_pde(pmap, va);
6072                 (void)pmap_demote_pde_locked(pmap, pde, va, &lock);
6073                 PMAP_UNLOCK(pmap);
6074         }
6075         while ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
6076                 pmap = PV_PMAP(pv);
6077                 if (!PMAP_TRYLOCK(pmap)) {
6078                         pvh_gen = pvh->pv_gen;
6079                         md_gen = m->md.pv_gen;
6080                         rw_wunlock(lock);
6081                         PMAP_LOCK(pmap);
6082                         rw_wlock(lock);
6083                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
6084                                 rw_wunlock(lock);
6085                                 PMAP_UNLOCK(pmap);
6086                                 goto retry;
6087                         }
6088                 }
6089                 PG_A = pmap_accessed_bit(pmap);
6090                 PG_M = pmap_modified_bit(pmap);
6091                 PG_RW = pmap_rw_bit(pmap);
6092                 pmap_resident_count_dec(pmap, 1);
6093                 pde = pmap_pde(pmap, pv->pv_va);
6094                 KASSERT((*pde & PG_PS) == 0, ("pmap_remove_all: found"
6095                     " a 2mpage in page %p's pv list", m));
6096                 pte = pmap_pde_to_pte(pde, pv->pv_va);
6097                 tpte = pte_load_clear(pte);
6098                 if (tpte & PG_W)
6099                         pmap->pm_stats.wired_count--;
6100                 if (tpte & PG_A)
6101                         vm_page_aflag_set(m, PGA_REFERENCED);
6102
6103                 /*
6104                  * Update the vm_page_t clean and reference bits.
6105                  */
6106                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
6107                         vm_page_dirty(m);
6108                 pmap_unuse_pt(pmap, pv->pv_va, *pde, &free);
6109                 pmap_invalidate_page(pmap, pv->pv_va);
6110                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
6111                 m->md.pv_gen++;
6112                 free_pv_entry(pmap, pv);
6113                 PMAP_UNLOCK(pmap);
6114         }
6115         vm_page_aflag_clear(m, PGA_WRITEABLE);
6116         rw_wunlock(lock);
6117         pmap_delayed_invl_wait(m);
6118         vm_page_free_pages_toq(&free, true);
6119 }
6120
6121 /*
6122  * pmap_protect_pde: do the things to protect a 2mpage in a process
6123  */
6124 static boolean_t
6125 pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva, vm_prot_t prot)
6126 {
6127         pd_entry_t newpde, oldpde;
6128         vm_page_t m, mt;
6129         boolean_t anychanged;
6130         pt_entry_t PG_G, PG_M, PG_RW;
6131
6132         PG_G = pmap_global_bit(pmap);
6133         PG_M = pmap_modified_bit(pmap);
6134         PG_RW = pmap_rw_bit(pmap);
6135
6136         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6137         KASSERT((sva & PDRMASK) == 0,
6138             ("pmap_protect_pde: sva is not 2mpage aligned"));
6139         anychanged = FALSE;
6140 retry:
6141         oldpde = newpde = *pde;
6142         if ((prot & VM_PROT_WRITE) == 0) {
6143                 if ((oldpde & (PG_MANAGED | PG_M | PG_RW)) ==
6144                     (PG_MANAGED | PG_M | PG_RW)) {
6145                         m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
6146                         for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
6147                                 vm_page_dirty(mt);
6148                 }
6149                 newpde &= ~(PG_RW | PG_M);
6150         }
6151         if ((prot & VM_PROT_EXECUTE) == 0)
6152                 newpde |= pg_nx;
6153         if (newpde != oldpde) {
6154                 /*
6155                  * As an optimization to future operations on this PDE, clear
6156                  * PG_PROMOTED.  The impending invalidation will remove any
6157                  * lingering 4KB page mappings from the TLB.
6158                  */
6159                 if (!atomic_cmpset_long(pde, oldpde, newpde & ~PG_PROMOTED))
6160                         goto retry;
6161                 if ((oldpde & PG_G) != 0)
6162                         pmap_invalidate_pde_page(kernel_pmap, sva, oldpde);
6163                 else
6164                         anychanged = TRUE;
6165         }
6166         return (anychanged);
6167 }
6168
6169 /*
6170  *      Set the physical protection on the
6171  *      specified range of this map as requested.
6172  */
6173 void
6174 pmap_protect(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, vm_prot_t prot)
6175 {
6176         vm_page_t m;
6177         vm_offset_t va_next;
6178         pml4_entry_t *pml4e;
6179         pdp_entry_t *pdpe;
6180         pd_entry_t ptpaddr, *pde;
6181         pt_entry_t *pte, PG_G, PG_M, PG_RW, PG_V;
6182         pt_entry_t obits, pbits;
6183         boolean_t anychanged;
6184
6185         KASSERT((prot & ~VM_PROT_ALL) == 0, ("invalid prot %x", prot));
6186         if (prot == VM_PROT_NONE) {
6187                 pmap_remove(pmap, sva, eva);
6188                 return;
6189         }
6190
6191         if ((prot & (VM_PROT_WRITE|VM_PROT_EXECUTE)) ==
6192             (VM_PROT_WRITE|VM_PROT_EXECUTE))
6193                 return;
6194
6195         PG_G = pmap_global_bit(pmap);
6196         PG_M = pmap_modified_bit(pmap);
6197         PG_V = pmap_valid_bit(pmap);
6198         PG_RW = pmap_rw_bit(pmap);
6199         anychanged = FALSE;
6200
6201         /*
6202          * Although this function delays and batches the invalidation
6203          * of stale TLB entries, it does not need to call
6204          * pmap_delayed_invl_start() and
6205          * pmap_delayed_invl_finish(), because it does not
6206          * ordinarily destroy mappings.  Stale TLB entries from
6207          * protection-only changes need only be invalidated before the
6208          * pmap lock is released, because protection-only changes do
6209          * not destroy PV entries.  Even operations that iterate over
6210          * a physical page's PV list of mappings, like
6211          * pmap_remove_write(), acquire the pmap lock for each
6212          * mapping.  Consequently, for protection-only changes, the
6213          * pmap lock suffices to synchronize both page table and TLB
6214          * updates.
6215          *
6216          * This function only destroys a mapping if pmap_demote_pde()
6217          * fails.  In that case, stale TLB entries are immediately
6218          * invalidated.
6219          */
6220
6221         PMAP_LOCK(pmap);
6222         for (; sva < eva; sva = va_next) {
6223                 pml4e = pmap_pml4e(pmap, sva);
6224                 if (pml4e == NULL || (*pml4e & PG_V) == 0) {
6225                         va_next = (sva + NBPML4) & ~PML4MASK;
6226                         if (va_next < sva)
6227                                 va_next = eva;
6228                         continue;
6229                 }
6230
6231                 va_next = (sva + NBPDP) & ~PDPMASK;
6232                 if (va_next < sva)
6233                         va_next = eva;
6234                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
6235                 if ((*pdpe & PG_V) == 0)
6236                         continue;
6237                 if ((*pdpe & PG_PS) != 0) {
6238                         KASSERT(va_next <= eva,
6239                             ("partial update of non-transparent 1G mapping "
6240                             "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
6241                             *pdpe, sva, eva, va_next));
6242 retry_pdpe:
6243                         obits = pbits = *pdpe;
6244                         MPASS((pbits & (PG_MANAGED | PG_G)) == 0);
6245                         MPASS(pmap != kernel_pmap); /* XXXKIB */
6246                         if ((prot & VM_PROT_WRITE) == 0)
6247                                 pbits &= ~(PG_RW | PG_M);
6248                         if ((prot & VM_PROT_EXECUTE) == 0)
6249                                 pbits |= pg_nx;
6250
6251                         if (pbits != obits) {
6252                                 if (!atomic_cmpset_long(pdpe, obits, pbits))
6253                                         /* PG_PS cannot be cleared under us, */
6254                                         goto retry_pdpe;
6255                                 anychanged = TRUE;
6256                         }
6257                         continue;
6258                 }
6259
6260                 va_next = (sva + NBPDR) & ~PDRMASK;
6261                 if (va_next < sva)
6262                         va_next = eva;
6263
6264                 pde = pmap_pdpe_to_pde(pdpe, sva);
6265                 ptpaddr = *pde;
6266
6267                 /*
6268                  * Weed out invalid mappings.
6269                  */
6270                 if (ptpaddr == 0)
6271                         continue;
6272
6273                 /*
6274                  * Check for large page.
6275                  */
6276                 if ((ptpaddr & PG_PS) != 0) {
6277                         /*
6278                          * Are we protecting the entire large page?  If not,
6279                          * demote the mapping and fall through.
6280                          */
6281                         if (sva + NBPDR == va_next && eva >= va_next) {
6282                                 /*
6283                                  * The TLB entry for a PG_G mapping is
6284                                  * invalidated by pmap_protect_pde().
6285                                  */
6286                                 if (pmap_protect_pde(pmap, pde, sva, prot))
6287                                         anychanged = TRUE;
6288                                 continue;
6289                         } else if (!pmap_demote_pde(pmap, pde, sva)) {
6290                                 /*
6291                                  * The large page mapping was destroyed.
6292                                  */
6293                                 continue;
6294                         }
6295                 }
6296
6297                 if (va_next > eva)
6298                         va_next = eva;
6299
6300                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
6301                     sva += PAGE_SIZE) {
6302 retry:
6303                         obits = pbits = *pte;
6304                         if ((pbits & PG_V) == 0)
6305                                 continue;
6306
6307                         if ((prot & VM_PROT_WRITE) == 0) {
6308                                 if ((pbits & (PG_MANAGED | PG_M | PG_RW)) ==
6309                                     (PG_MANAGED | PG_M | PG_RW)) {
6310                                         m = PHYS_TO_VM_PAGE(pbits & PG_FRAME);
6311                                         vm_page_dirty(m);
6312                                 }
6313                                 pbits &= ~(PG_RW | PG_M);
6314                         }
6315                         if ((prot & VM_PROT_EXECUTE) == 0)
6316                                 pbits |= pg_nx;
6317
6318                         if (pbits != obits) {
6319                                 if (!atomic_cmpset_long(pte, obits, pbits))
6320                                         goto retry;
6321                                 if (obits & PG_G)
6322                                         pmap_invalidate_page(pmap, sva);
6323                                 else
6324                                         anychanged = TRUE;
6325                         }
6326                 }
6327         }
6328         if (anychanged)
6329                 pmap_invalidate_all(pmap);
6330         PMAP_UNLOCK(pmap);
6331 }
6332
6333 #if VM_NRESERVLEVEL > 0
6334 static bool
6335 pmap_pde_ept_executable(pmap_t pmap, pd_entry_t pde)
6336 {
6337
6338         if (pmap->pm_type != PT_EPT)
6339                 return (false);
6340         return ((pde & EPT_PG_EXECUTE) != 0);
6341 }
6342
6343 /*
6344  * Tries to promote the 512, contiguous 4KB page mappings that are within a
6345  * single page table page (PTP) to a single 2MB page mapping.  For promotion
6346  * to occur, two conditions must be met: (1) the 4KB page mappings must map
6347  * aligned, contiguous physical memory and (2) the 4KB page mappings must have
6348  * identical characteristics.
6349  */
6350 static void
6351 pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
6352     struct rwlock **lockp)
6353 {
6354         pd_entry_t newpde;
6355         pt_entry_t *firstpte, oldpte, pa, *pte;
6356         pt_entry_t PG_G, PG_A, PG_M, PG_RW, PG_V, PG_PKU_MASK;
6357         vm_page_t mpte;
6358         int PG_PTE_CACHE;
6359
6360         PG_A = pmap_accessed_bit(pmap);
6361         PG_G = pmap_global_bit(pmap);
6362         PG_M = pmap_modified_bit(pmap);
6363         PG_V = pmap_valid_bit(pmap);
6364         PG_RW = pmap_rw_bit(pmap);
6365         PG_PKU_MASK = pmap_pku_mask_bit(pmap);
6366         PG_PTE_CACHE = pmap_cache_mask(pmap, 0);
6367
6368         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6369
6370         /*
6371          * Examine the first PTE in the specified PTP.  Abort if this PTE is
6372          * either invalid, unused, or does not map the first 4KB physical page
6373          * within a 2MB page.
6374          */
6375         firstpte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
6376 setpde:
6377         newpde = *firstpte;
6378         if ((newpde & ((PG_FRAME & PDRMASK) | PG_A | PG_V)) != (PG_A | PG_V) ||
6379             !pmap_allow_2m_x_page(pmap, pmap_pde_ept_executable(pmap,
6380             newpde))) {
6381                 atomic_add_long(&pmap_pde_p_failures, 1);
6382                 CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
6383                     " in pmap %p", va, pmap);
6384                 return;
6385         }
6386         if ((newpde & (PG_M | PG_RW)) == PG_RW) {
6387                 /*
6388                  * When PG_M is already clear, PG_RW can be cleared without
6389                  * a TLB invalidation.
6390                  */
6391                 if (!atomic_cmpset_long(firstpte, newpde, newpde & ~PG_RW))
6392                         goto setpde;
6393                 newpde &= ~PG_RW;
6394         }
6395
6396         /*
6397          * Examine each of the other PTEs in the specified PTP.  Abort if this
6398          * PTE maps an unexpected 4KB physical page or does not have identical
6399          * characteristics to the first PTE.
6400          */
6401         pa = (newpde & (PG_PS_FRAME | PG_A | PG_V)) + NBPDR - PAGE_SIZE;
6402         for (pte = firstpte + NPTEPG - 1; pte > firstpte; pte--) {
6403 setpte:
6404                 oldpte = *pte;
6405                 if ((oldpte & (PG_FRAME | PG_A | PG_V)) != pa) {
6406                         atomic_add_long(&pmap_pde_p_failures, 1);
6407                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
6408                             " in pmap %p", va, pmap);
6409                         return;
6410                 }
6411                 if ((oldpte & (PG_M | PG_RW)) == PG_RW) {
6412                         /*
6413                          * When PG_M is already clear, PG_RW can be cleared
6414                          * without a TLB invalidation.
6415                          */
6416                         if (!atomic_cmpset_long(pte, oldpte, oldpte & ~PG_RW))
6417                                 goto setpte;
6418                         oldpte &= ~PG_RW;
6419                         CTR2(KTR_PMAP, "pmap_promote_pde: protect for va %#lx"
6420                             " in pmap %p", (oldpte & PG_FRAME & PDRMASK) |
6421                             (va & ~PDRMASK), pmap);
6422                 }
6423                 if ((oldpte & PG_PTE_PROMOTE) != (newpde & PG_PTE_PROMOTE)) {
6424                         atomic_add_long(&pmap_pde_p_failures, 1);
6425                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
6426                             " in pmap %p", va, pmap);
6427                         return;
6428                 }
6429                 pa -= PAGE_SIZE;
6430         }
6431
6432         /*
6433          * Save the page table page in its current state until the PDE
6434          * mapping the superpage is demoted by pmap_demote_pde() or
6435          * destroyed by pmap_remove_pde().
6436          */
6437         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
6438         KASSERT(mpte >= vm_page_array &&
6439             mpte < &vm_page_array[vm_page_array_size],
6440             ("pmap_promote_pde: page table page is out of range"));
6441         KASSERT(mpte->pindex == pmap_pde_pindex(va),
6442             ("pmap_promote_pde: page table page's pindex is wrong"));
6443         if (pmap_insert_pt_page(pmap, mpte, true)) {
6444                 atomic_add_long(&pmap_pde_p_failures, 1);
6445                 CTR2(KTR_PMAP,
6446                     "pmap_promote_pde: failure for va %#lx in pmap %p", va,
6447                     pmap);
6448                 return;
6449         }
6450
6451         /*
6452          * Promote the pv entries.
6453          */
6454         if ((newpde & PG_MANAGED) != 0)
6455                 pmap_pv_promote_pde(pmap, va, newpde & PG_PS_FRAME, lockp);
6456
6457         /*
6458          * Propagate the PAT index to its proper position.
6459          */
6460         newpde = pmap_swap_pat(pmap, newpde);
6461
6462         /*
6463          * Map the superpage.
6464          */
6465         if (workaround_erratum383)
6466                 pmap_update_pde(pmap, va, pde, PG_PS | newpde);
6467         else
6468                 pde_store(pde, PG_PROMOTED | PG_PS | newpde);
6469
6470         atomic_add_long(&pmap_pde_promotions, 1);
6471         CTR2(KTR_PMAP, "pmap_promote_pde: success for va %#lx"
6472             " in pmap %p", va, pmap);
6473 }
6474 #endif /* VM_NRESERVLEVEL > 0 */
6475
6476 static int
6477 pmap_enter_largepage(pmap_t pmap, vm_offset_t va, pt_entry_t newpte, int flags,
6478     int psind)
6479 {
6480         vm_page_t mp;
6481         pt_entry_t origpte, *pml4e, *pdpe, *pde, pten, PG_V;
6482
6483         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6484         KASSERT(psind > 0 && psind < MAXPAGESIZES && pagesizes[psind] != 0,
6485             ("psind %d unexpected", psind));
6486         KASSERT(((newpte & PG_FRAME) & (pagesizes[psind] - 1)) == 0,
6487             ("unaligned phys address %#lx newpte %#lx psind %d",
6488             newpte & PG_FRAME, newpte, psind));
6489         KASSERT((va & (pagesizes[psind] - 1)) == 0,
6490             ("unaligned va %#lx psind %d", va, psind));
6491         KASSERT(va < VM_MAXUSER_ADDRESS,
6492             ("kernel mode non-transparent superpage")); /* XXXKIB */
6493         KASSERT(va + pagesizes[psind] < VM_MAXUSER_ADDRESS,
6494             ("overflowing user map va %#lx psind %d", va, psind)); /* XXXKIB */
6495
6496         PG_V = pmap_valid_bit(pmap);
6497
6498 restart:
6499         if (!pmap_pkru_same(pmap, va, va + pagesizes[psind]))
6500                 return (KERN_PROTECTION_FAILURE);
6501         pten = newpte;
6502         if (va < VM_MAXUSER_ADDRESS && pmap->pm_type == PT_X86)
6503                 pten |= pmap_pkru_get(pmap, va);
6504
6505         if (psind == 2) {       /* 1G */
6506                 pml4e = pmap_pml4e(pmap, va);
6507                 if (pml4e == NULL || (*pml4e & PG_V) == 0) {
6508                         mp = _pmap_allocpte(pmap, pmap_pml4e_pindex(va),
6509                             NULL, va);
6510                         if (mp == NULL)
6511                                 goto allocf;
6512                         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mp));
6513                         pdpe = &pdpe[pmap_pdpe_index(va)];
6514                         origpte = *pdpe;
6515                         MPASS(origpte == 0);
6516                 } else {
6517                         pdpe = pmap_pml4e_to_pdpe(pml4e, va);
6518                         KASSERT(pdpe != NULL, ("va %#lx lost pdpe", va));
6519                         origpte = *pdpe;
6520                         if ((origpte & PG_V) == 0) {
6521                                 mp = PHYS_TO_VM_PAGE(*pml4e & PG_FRAME);
6522                                 mp->ref_count++;
6523                         }
6524                 }
6525                 *pdpe = pten;
6526         } else /* (psind == 1) */ {     /* 2M */
6527                 pde = pmap_pde(pmap, va);
6528                 if (pde == NULL) {
6529                         mp = _pmap_allocpte(pmap, pmap_pdpe_pindex(va),
6530                             NULL, va);
6531                         if (mp == NULL)
6532                                 goto allocf;
6533                         pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mp));
6534                         pde = &pde[pmap_pde_index(va)];
6535                         origpte = *pde;
6536                         MPASS(origpte == 0);
6537                 } else {
6538                         origpte = *pde;
6539                         if ((origpte & PG_V) == 0) {
6540                                 pdpe = pmap_pdpe(pmap, va);
6541                                 MPASS(pdpe != NULL && (*pdpe & PG_V) != 0);
6542                                 mp = PHYS_TO_VM_PAGE(*pdpe & PG_FRAME);
6543                                 mp->ref_count++;
6544                         }
6545                 }
6546                 *pde = pten;
6547         }
6548         KASSERT((origpte & PG_V) == 0 || ((origpte & PG_PS) != 0 &&
6549             (origpte & PG_PS_FRAME) == (pten & PG_PS_FRAME)),
6550             ("va %#lx changing %s phys page origpte %#lx pten %#lx",
6551             va, psind == 2 ? "1G" : "2M", origpte, pten));
6552         if ((pten & PG_W) != 0 && (origpte & PG_W) == 0)
6553                 pmap->pm_stats.wired_count += pagesizes[psind] / PAGE_SIZE;
6554         else if ((pten & PG_W) == 0 && (origpte & PG_W) != 0)
6555                 pmap->pm_stats.wired_count -= pagesizes[psind] / PAGE_SIZE;
6556         if ((origpte & PG_V) == 0)
6557                 pmap_resident_count_inc(pmap, pagesizes[psind] / PAGE_SIZE);
6558
6559         return (KERN_SUCCESS);
6560
6561 allocf:
6562         if ((flags & PMAP_ENTER_NOSLEEP) != 0)
6563                 return (KERN_RESOURCE_SHORTAGE);
6564         PMAP_UNLOCK(pmap);
6565         vm_wait(NULL);
6566         PMAP_LOCK(pmap);
6567         goto restart;
6568 }
6569
6570 /*
6571  *      Insert the given physical page (p) at
6572  *      the specified virtual address (v) in the
6573  *      target physical map with the protection requested.
6574  *
6575  *      If specified, the page will be wired down, meaning
6576  *      that the related pte can not be reclaimed.
6577  *
6578  *      NB:  This is the only routine which MAY NOT lazy-evaluate
6579  *      or lose information.  That is, this routine must actually
6580  *      insert this page into the given map NOW.
6581  *
6582  *      When destroying both a page table and PV entry, this function
6583  *      performs the TLB invalidation before releasing the PV list
6584  *      lock, so we do not need pmap_delayed_invl_page() calls here.
6585  */
6586 int
6587 pmap_enter(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot,
6588     u_int flags, int8_t psind)
6589 {
6590         struct rwlock *lock;
6591         pd_entry_t *pde;
6592         pt_entry_t *pte, PG_G, PG_A, PG_M, PG_RW, PG_V;
6593         pt_entry_t newpte, origpte;
6594         pv_entry_t pv;
6595         vm_paddr_t opa, pa;
6596         vm_page_t mpte, om;
6597         int rv;
6598         boolean_t nosleep;
6599
6600         PG_A = pmap_accessed_bit(pmap);
6601         PG_G = pmap_global_bit(pmap);
6602         PG_M = pmap_modified_bit(pmap);
6603         PG_V = pmap_valid_bit(pmap);
6604         PG_RW = pmap_rw_bit(pmap);
6605
6606         va = trunc_page(va);
6607         KASSERT(va <= VM_MAX_KERNEL_ADDRESS, ("pmap_enter: toobig"));
6608         KASSERT(va < UPT_MIN_ADDRESS || va >= UPT_MAX_ADDRESS,
6609             ("pmap_enter: invalid to pmap_enter page table pages (va: 0x%lx)",
6610             va));
6611         KASSERT((m->oflags & VPO_UNMANAGED) != 0 || va < kmi.clean_sva ||
6612             va >= kmi.clean_eva,
6613             ("pmap_enter: managed mapping within the clean submap"));
6614         if ((m->oflags & VPO_UNMANAGED) == 0)
6615                 VM_PAGE_OBJECT_BUSY_ASSERT(m);
6616         KASSERT((flags & PMAP_ENTER_RESERVED) == 0,
6617             ("pmap_enter: flags %u has reserved bits set", flags));
6618         pa = VM_PAGE_TO_PHYS(m);
6619         newpte = (pt_entry_t)(pa | PG_A | PG_V);
6620         if ((flags & VM_PROT_WRITE) != 0)
6621                 newpte |= PG_M;
6622         if ((prot & VM_PROT_WRITE) != 0)
6623                 newpte |= PG_RW;
6624         KASSERT((newpte & (PG_M | PG_RW)) != PG_M,
6625             ("pmap_enter: flags includes VM_PROT_WRITE but prot doesn't"));
6626         if ((prot & VM_PROT_EXECUTE) == 0)
6627                 newpte |= pg_nx;
6628         if ((flags & PMAP_ENTER_WIRED) != 0)
6629                 newpte |= PG_W;
6630         if (va < VM_MAXUSER_ADDRESS)
6631                 newpte |= PG_U;
6632         if (pmap == kernel_pmap)
6633                 newpte |= PG_G;
6634         newpte |= pmap_cache_bits(pmap, m->md.pat_mode, psind > 0);
6635
6636         /*
6637          * Set modified bit gratuitously for writeable mappings if
6638          * the page is unmanaged. We do not want to take a fault
6639          * to do the dirty bit accounting for these mappings.
6640          */
6641         if ((m->oflags & VPO_UNMANAGED) != 0) {
6642                 if ((newpte & PG_RW) != 0)
6643                         newpte |= PG_M;
6644         } else
6645                 newpte |= PG_MANAGED;
6646
6647         lock = NULL;
6648         PMAP_LOCK(pmap);
6649         if ((flags & PMAP_ENTER_LARGEPAGE) != 0) {
6650                 KASSERT((m->oflags & VPO_UNMANAGED) != 0,
6651                     ("managed largepage va %#lx flags %#x", va, flags));
6652                 rv = pmap_enter_largepage(pmap, va, newpte | PG_PS, flags,
6653                     psind);
6654                 goto out;
6655         }
6656         if (psind == 1) {
6657                 /* Assert the required virtual and physical alignment. */
6658                 KASSERT((va & PDRMASK) == 0, ("pmap_enter: va unaligned"));
6659                 KASSERT(m->psind > 0, ("pmap_enter: m->psind < psind"));
6660                 rv = pmap_enter_pde(pmap, va, newpte | PG_PS, flags, m, &lock);
6661                 goto out;
6662         }
6663         mpte = NULL;
6664
6665         /*
6666          * In the case that a page table page is not
6667          * resident, we are creating it here.
6668          */
6669 retry:
6670         pde = pmap_pde(pmap, va);
6671         if (pde != NULL && (*pde & PG_V) != 0 && ((*pde & PG_PS) == 0 ||
6672             pmap_demote_pde_locked(pmap, pde, va, &lock))) {
6673                 pte = pmap_pde_to_pte(pde, va);
6674                 if (va < VM_MAXUSER_ADDRESS && mpte == NULL) {
6675                         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
6676                         mpte->ref_count++;
6677                 }
6678         } else if (va < VM_MAXUSER_ADDRESS) {
6679                 /*
6680                  * Here if the pte page isn't mapped, or if it has been
6681                  * deallocated.
6682                  */
6683                 nosleep = (flags & PMAP_ENTER_NOSLEEP) != 0;
6684                 mpte = _pmap_allocpte(pmap, pmap_pde_pindex(va),
6685                     nosleep ? NULL : &lock, va);
6686                 if (mpte == NULL && nosleep) {
6687                         rv = KERN_RESOURCE_SHORTAGE;
6688                         goto out;
6689                 }
6690                 goto retry;
6691         } else
6692                 panic("pmap_enter: invalid page directory va=%#lx", va);
6693
6694         origpte = *pte;
6695         pv = NULL;
6696         if (va < VM_MAXUSER_ADDRESS && pmap->pm_type == PT_X86)
6697                 newpte |= pmap_pkru_get(pmap, va);
6698
6699         /*
6700          * Is the specified virtual address already mapped?
6701          */
6702         if ((origpte & PG_V) != 0) {
6703                 /*
6704                  * Wiring change, just update stats. We don't worry about
6705                  * wiring PT pages as they remain resident as long as there
6706                  * are valid mappings in them. Hence, if a user page is wired,
6707                  * the PT page will be also.
6708                  */
6709                 if ((newpte & PG_W) != 0 && (origpte & PG_W) == 0)
6710                         pmap->pm_stats.wired_count++;
6711                 else if ((newpte & PG_W) == 0 && (origpte & PG_W) != 0)
6712                         pmap->pm_stats.wired_count--;
6713
6714                 /*
6715                  * Remove the extra PT page reference.
6716                  */
6717                 if (mpte != NULL) {
6718                         mpte->ref_count--;
6719                         KASSERT(mpte->ref_count > 0,
6720                             ("pmap_enter: missing reference to page table page,"
6721                              " va: 0x%lx", va));
6722                 }
6723
6724                 /*
6725                  * Has the physical page changed?
6726                  */
6727                 opa = origpte & PG_FRAME;
6728                 if (opa == pa) {
6729                         /*
6730                          * No, might be a protection or wiring change.
6731                          */
6732                         if ((origpte & PG_MANAGED) != 0 &&
6733                             (newpte & PG_RW) != 0)
6734                                 vm_page_aflag_set(m, PGA_WRITEABLE);
6735                         if (((origpte ^ newpte) & ~(PG_M | PG_A)) == 0)
6736                                 goto unchanged;
6737                         goto validate;
6738                 }
6739
6740                 /*
6741                  * The physical page has changed.  Temporarily invalidate
6742                  * the mapping.  This ensures that all threads sharing the
6743                  * pmap keep a consistent view of the mapping, which is
6744                  * necessary for the correct handling of COW faults.  It
6745                  * also permits reuse of the old mapping's PV entry,
6746                  * avoiding an allocation.
6747                  *
6748                  * For consistency, handle unmanaged mappings the same way.
6749                  */
6750                 origpte = pte_load_clear(pte);
6751                 KASSERT((origpte & PG_FRAME) == opa,
6752                     ("pmap_enter: unexpected pa update for %#lx", va));
6753                 if ((origpte & PG_MANAGED) != 0) {
6754                         om = PHYS_TO_VM_PAGE(opa);
6755
6756                         /*
6757                          * The pmap lock is sufficient to synchronize with
6758                          * concurrent calls to pmap_page_test_mappings() and
6759                          * pmap_ts_referenced().
6760                          */
6761                         if ((origpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
6762                                 vm_page_dirty(om);
6763                         if ((origpte & PG_A) != 0) {
6764                                 pmap_invalidate_page(pmap, va);
6765                                 vm_page_aflag_set(om, PGA_REFERENCED);
6766                         }
6767                         CHANGE_PV_LIST_LOCK_TO_PHYS(&lock, opa);
6768                         pv = pmap_pvh_remove(&om->md, pmap, va);
6769                         KASSERT(pv != NULL,
6770                             ("pmap_enter: no PV entry for %#lx", va));
6771                         if ((newpte & PG_MANAGED) == 0)
6772                                 free_pv_entry(pmap, pv);
6773                         if ((om->a.flags & PGA_WRITEABLE) != 0 &&
6774                             TAILQ_EMPTY(&om->md.pv_list) &&
6775                             ((om->flags & PG_FICTITIOUS) != 0 ||
6776                             TAILQ_EMPTY(&pa_to_pvh(opa)->pv_list)))
6777                                 vm_page_aflag_clear(om, PGA_WRITEABLE);
6778                 } else {
6779                         /*
6780                          * Since this mapping is unmanaged, assume that PG_A
6781                          * is set.
6782                          */
6783                         pmap_invalidate_page(pmap, va);
6784                 }
6785                 origpte = 0;
6786         } else {
6787                 /*
6788                  * Increment the counters.
6789                  */
6790                 if ((newpte & PG_W) != 0)
6791                         pmap->pm_stats.wired_count++;
6792                 pmap_resident_count_inc(pmap, 1);
6793         }
6794
6795         /*
6796          * Enter on the PV list if part of our managed memory.
6797          */
6798         if ((newpte & PG_MANAGED) != 0) {
6799                 if (pv == NULL) {
6800                         pv = get_pv_entry(pmap, &lock);
6801                         pv->pv_va = va;
6802                 }
6803                 CHANGE_PV_LIST_LOCK_TO_PHYS(&lock, pa);
6804                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
6805                 m->md.pv_gen++;
6806                 if ((newpte & PG_RW) != 0)
6807                         vm_page_aflag_set(m, PGA_WRITEABLE);
6808         }
6809
6810         /*
6811          * Update the PTE.
6812          */
6813         if ((origpte & PG_V) != 0) {
6814 validate:
6815                 origpte = pte_load_store(pte, newpte);
6816                 KASSERT((origpte & PG_FRAME) == pa,
6817                     ("pmap_enter: unexpected pa update for %#lx", va));
6818                 if ((newpte & PG_M) == 0 && (origpte & (PG_M | PG_RW)) ==
6819                     (PG_M | PG_RW)) {
6820                         if ((origpte & PG_MANAGED) != 0)
6821                                 vm_page_dirty(m);
6822
6823                         /*
6824                          * Although the PTE may still have PG_RW set, TLB
6825                          * invalidation may nonetheless be required because
6826                          * the PTE no longer has PG_M set.
6827                          */
6828                 } else if ((origpte & PG_NX) != 0 || (newpte & PG_NX) == 0) {
6829                         /*
6830                          * This PTE change does not require TLB invalidation.
6831                          */
6832                         goto unchanged;
6833                 }
6834                 if ((origpte & PG_A) != 0)
6835                         pmap_invalidate_page(pmap, va);
6836         } else
6837                 pte_store(pte, newpte);
6838
6839 unchanged:
6840
6841 #if VM_NRESERVLEVEL > 0
6842         /*
6843          * If both the page table page and the reservation are fully
6844          * populated, then attempt promotion.
6845          */
6846         if ((mpte == NULL || mpte->ref_count == NPTEPG) &&
6847             pmap_ps_enabled(pmap) &&
6848             (m->flags & PG_FICTITIOUS) == 0 &&
6849             vm_reserv_level_iffullpop(m) == 0)
6850                 pmap_promote_pde(pmap, pde, va, &lock);
6851 #endif
6852
6853         rv = KERN_SUCCESS;
6854 out:
6855         if (lock != NULL)
6856                 rw_wunlock(lock);
6857         PMAP_UNLOCK(pmap);
6858         return (rv);
6859 }
6860
6861 /*
6862  * Tries to create a read- and/or execute-only 2MB page mapping.  Returns true
6863  * if successful.  Returns false if (1) a page table page cannot be allocated
6864  * without sleeping, (2) a mapping already exists at the specified virtual
6865  * address, or (3) a PV entry cannot be allocated without reclaiming another
6866  * PV entry.
6867  */
6868 static bool
6869 pmap_enter_2mpage(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot,
6870     struct rwlock **lockp)
6871 {
6872         pd_entry_t newpde;
6873         pt_entry_t PG_V;
6874
6875         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6876         PG_V = pmap_valid_bit(pmap);
6877         newpde = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(pmap, m->md.pat_mode, 1) |
6878             PG_PS | PG_V;
6879         if ((m->oflags & VPO_UNMANAGED) == 0)
6880                 newpde |= PG_MANAGED;
6881         if ((prot & VM_PROT_EXECUTE) == 0)
6882                 newpde |= pg_nx;
6883         if (va < VM_MAXUSER_ADDRESS)
6884                 newpde |= PG_U;
6885         return (pmap_enter_pde(pmap, va, newpde, PMAP_ENTER_NOSLEEP |
6886             PMAP_ENTER_NOREPLACE | PMAP_ENTER_NORECLAIM, NULL, lockp) ==
6887             KERN_SUCCESS);
6888 }
6889
6890 /*
6891  * Returns true if every page table entry in the specified page table page is
6892  * zero.
6893  */
6894 static bool
6895 pmap_every_pte_zero(vm_paddr_t pa)
6896 {
6897         pt_entry_t *pt_end, *pte;
6898
6899         KASSERT((pa & PAGE_MASK) == 0, ("pa is misaligned"));
6900         pte = (pt_entry_t *)PHYS_TO_DMAP(pa);
6901         for (pt_end = pte + NPTEPG; pte < pt_end; pte++) {
6902                 if (*pte != 0)
6903                         return (false);
6904         }
6905         return (true);
6906 }
6907
6908 /*
6909  * Tries to create the specified 2MB page mapping.  Returns KERN_SUCCESS if
6910  * the mapping was created, and either KERN_FAILURE or KERN_RESOURCE_SHORTAGE
6911  * otherwise.  Returns KERN_FAILURE if PMAP_ENTER_NOREPLACE was specified and
6912  * a mapping already exists at the specified virtual address.  Returns
6913  * KERN_RESOURCE_SHORTAGE if PMAP_ENTER_NOSLEEP was specified and a page table
6914  * page allocation failed.  Returns KERN_RESOURCE_SHORTAGE if
6915  * PMAP_ENTER_NORECLAIM was specified and a PV entry allocation failed.
6916  *
6917  * The parameter "m" is only used when creating a managed, writeable mapping.
6918  */
6919 static int
6920 pmap_enter_pde(pmap_t pmap, vm_offset_t va, pd_entry_t newpde, u_int flags,
6921     vm_page_t m, struct rwlock **lockp)
6922 {
6923         struct spglist free;
6924         pd_entry_t oldpde, *pde;
6925         pt_entry_t PG_G, PG_RW, PG_V;
6926         vm_page_t mt, pdpg;
6927
6928         KASSERT(pmap == kernel_pmap || (newpde & PG_W) == 0,
6929             ("pmap_enter_pde: cannot create wired user mapping"));
6930         PG_G = pmap_global_bit(pmap);
6931         PG_RW = pmap_rw_bit(pmap);
6932         KASSERT((newpde & (pmap_modified_bit(pmap) | PG_RW)) != PG_RW,
6933             ("pmap_enter_pde: newpde is missing PG_M"));
6934         PG_V = pmap_valid_bit(pmap);
6935         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6936
6937         if (!pmap_allow_2m_x_page(pmap, pmap_pde_ept_executable(pmap,
6938             newpde))) {
6939                 CTR2(KTR_PMAP, "pmap_enter_pde: 2m x blocked for va %#lx"
6940                     " in pmap %p", va, pmap);
6941                 return (KERN_FAILURE);
6942         }
6943         if ((pde = pmap_alloc_pde(pmap, va, &pdpg, (flags &
6944             PMAP_ENTER_NOSLEEP) != 0 ? NULL : lockp)) == NULL) {
6945                 CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
6946                     " in pmap %p", va, pmap);
6947                 return (KERN_RESOURCE_SHORTAGE);
6948         }
6949
6950         /*
6951          * If pkru is not same for the whole pde range, return failure
6952          * and let vm_fault() cope.  Check after pde allocation, since
6953          * it could sleep.
6954          */
6955         if (!pmap_pkru_same(pmap, va, va + NBPDR)) {
6956                 pmap_abort_ptp(pmap, va, pdpg);
6957                 return (KERN_FAILURE);
6958         }
6959         if (va < VM_MAXUSER_ADDRESS && pmap->pm_type == PT_X86) {
6960                 newpde &= ~X86_PG_PKU_MASK;
6961                 newpde |= pmap_pkru_get(pmap, va);
6962         }
6963
6964         /*
6965          * If there are existing mappings, either abort or remove them.
6966          */
6967         oldpde = *pde;
6968         if ((oldpde & PG_V) != 0) {
6969                 KASSERT(pdpg == NULL || pdpg->ref_count > 1,
6970                     ("pmap_enter_pde: pdpg's reference count is too low"));
6971                 if ((flags & PMAP_ENTER_NOREPLACE) != 0 && (va <
6972                     VM_MAXUSER_ADDRESS || (oldpde & PG_PS) != 0 ||
6973                     !pmap_every_pte_zero(oldpde & PG_FRAME))) {
6974                         if (pdpg != NULL)
6975                                 pdpg->ref_count--;
6976                         CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
6977                             " in pmap %p", va, pmap);
6978                         return (KERN_FAILURE);
6979                 }
6980                 /* Break the existing mapping(s). */
6981                 SLIST_INIT(&free);
6982                 if ((oldpde & PG_PS) != 0) {
6983                         /*
6984                          * The reference to the PD page that was acquired by
6985                          * pmap_alloc_pde() ensures that it won't be freed.
6986                          * However, if the PDE resulted from a promotion, then
6987                          * a reserved PT page could be freed.
6988                          */
6989                         (void)pmap_remove_pde(pmap, pde, va, &free, lockp);
6990                         if ((oldpde & PG_G) == 0)
6991                                 pmap_invalidate_pde_page(pmap, va, oldpde);
6992                 } else {
6993                         pmap_delayed_invl_start();
6994                         if (pmap_remove_ptes(pmap, va, va + NBPDR, pde, &free,
6995                             lockp))
6996                                pmap_invalidate_all(pmap);
6997                         pmap_delayed_invl_finish();
6998                 }
6999                 if (va < VM_MAXUSER_ADDRESS) {
7000                         vm_page_free_pages_toq(&free, true);
7001                         KASSERT(*pde == 0, ("pmap_enter_pde: non-zero pde %p",
7002                             pde));
7003                 } else {
7004                         KASSERT(SLIST_EMPTY(&free),
7005                             ("pmap_enter_pde: freed kernel page table page"));
7006
7007                         /*
7008                          * Both pmap_remove_pde() and pmap_remove_ptes() will
7009                          * leave the kernel page table page zero filled.
7010                          */
7011                         mt = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
7012                         if (pmap_insert_pt_page(pmap, mt, false))
7013                                 panic("pmap_enter_pde: trie insert failed");
7014                 }
7015         }
7016
7017         if ((newpde & PG_MANAGED) != 0) {
7018                 /*
7019                  * Abort this mapping if its PV entry could not be created.
7020                  */
7021                 if (!pmap_pv_insert_pde(pmap, va, newpde, flags, lockp)) {
7022                         if (pdpg != NULL)
7023                                 pmap_abort_ptp(pmap, va, pdpg);
7024                         CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
7025                             " in pmap %p", va, pmap);
7026                         return (KERN_RESOURCE_SHORTAGE);
7027                 }
7028                 if ((newpde & PG_RW) != 0) {
7029                         for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
7030                                 vm_page_aflag_set(mt, PGA_WRITEABLE);
7031                 }
7032         }
7033
7034         /*
7035          * Increment counters.
7036          */
7037         if ((newpde & PG_W) != 0)
7038                 pmap->pm_stats.wired_count += NBPDR / PAGE_SIZE;
7039         pmap_resident_count_inc(pmap, NBPDR / PAGE_SIZE);
7040
7041         /*
7042          * Map the superpage.  (This is not a promoted mapping; there will not
7043          * be any lingering 4KB page mappings in the TLB.)
7044          */
7045         pde_store(pde, newpde);
7046
7047         atomic_add_long(&pmap_pde_mappings, 1);
7048         CTR2(KTR_PMAP, "pmap_enter_pde: success for va %#lx in pmap %p",
7049             va, pmap);
7050         return (KERN_SUCCESS);
7051 }
7052
7053 /*
7054  * Maps a sequence of resident pages belonging to the same object.
7055  * The sequence begins with the given page m_start.  This page is
7056  * mapped at the given virtual address start.  Each subsequent page is
7057  * mapped at a virtual address that is offset from start by the same
7058  * amount as the page is offset from m_start within the object.  The
7059  * last page in the sequence is the page with the largest offset from
7060  * m_start that can be mapped at a virtual address less than the given
7061  * virtual address end.  Not every virtual page between start and end
7062  * is mapped; only those for which a resident page exists with the
7063  * corresponding offset from m_start are mapped.
7064  */
7065 void
7066 pmap_enter_object(pmap_t pmap, vm_offset_t start, vm_offset_t end,
7067     vm_page_t m_start, vm_prot_t prot)
7068 {
7069         struct rwlock *lock;
7070         vm_offset_t va;
7071         vm_page_t m, mpte;
7072         vm_pindex_t diff, psize;
7073
7074         VM_OBJECT_ASSERT_LOCKED(m_start->object);
7075
7076         psize = atop(end - start);
7077         mpte = NULL;
7078         m = m_start;
7079         lock = NULL;
7080         PMAP_LOCK(pmap);
7081         while (m != NULL && (diff = m->pindex - m_start->pindex) < psize) {
7082                 va = start + ptoa(diff);
7083                 if ((va & PDRMASK) == 0 && va + NBPDR <= end &&
7084                     m->psind == 1 && pmap_ps_enabled(pmap) &&
7085                     pmap_allow_2m_x_page(pmap, (prot & VM_PROT_EXECUTE) != 0) &&
7086                     pmap_enter_2mpage(pmap, va, m, prot, &lock))
7087                         m = &m[NBPDR / PAGE_SIZE - 1];
7088                 else
7089                         mpte = pmap_enter_quick_locked(pmap, va, m, prot,
7090                             mpte, &lock);
7091                 m = TAILQ_NEXT(m, listq);
7092         }
7093         if (lock != NULL)
7094                 rw_wunlock(lock);
7095         PMAP_UNLOCK(pmap);
7096 }
7097
7098 /*
7099  * this code makes some *MAJOR* assumptions:
7100  * 1. Current pmap & pmap exists.
7101  * 2. Not wired.
7102  * 3. Read access.
7103  * 4. No page table pages.
7104  * but is *MUCH* faster than pmap_enter...
7105  */
7106
7107 void
7108 pmap_enter_quick(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot)
7109 {
7110         struct rwlock *lock;
7111
7112         lock = NULL;
7113         PMAP_LOCK(pmap);
7114         (void)pmap_enter_quick_locked(pmap, va, m, prot, NULL, &lock);
7115         if (lock != NULL)
7116                 rw_wunlock(lock);
7117         PMAP_UNLOCK(pmap);
7118 }
7119
7120 static vm_page_t
7121 pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va, vm_page_t m,
7122     vm_prot_t prot, vm_page_t mpte, struct rwlock **lockp)
7123 {
7124         pt_entry_t newpte, *pte, PG_V;
7125
7126         KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva ||
7127             (m->oflags & VPO_UNMANAGED) != 0,
7128             ("pmap_enter_quick_locked: managed mapping within the clean submap"));
7129         PG_V = pmap_valid_bit(pmap);
7130         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
7131
7132         /*
7133          * In the case that a page table page is not
7134          * resident, we are creating it here.
7135          */
7136         if (va < VM_MAXUSER_ADDRESS) {
7137                 vm_pindex_t ptepindex;
7138                 pd_entry_t *ptepa;
7139
7140                 /*
7141                  * Calculate pagetable page index
7142                  */
7143                 ptepindex = pmap_pde_pindex(va);
7144                 if (mpte && (mpte->pindex == ptepindex)) {
7145                         mpte->ref_count++;
7146                 } else {
7147                         /*
7148                          * Get the page directory entry
7149                          */
7150                         ptepa = pmap_pde(pmap, va);
7151
7152                         /*
7153                          * If the page table page is mapped, we just increment
7154                          * the hold count, and activate it.  Otherwise, we
7155                          * attempt to allocate a page table page.  If this
7156                          * attempt fails, we don't retry.  Instead, we give up.
7157                          */
7158                         if (ptepa && (*ptepa & PG_V) != 0) {
7159                                 if (*ptepa & PG_PS)
7160                                         return (NULL);
7161                                 mpte = PHYS_TO_VM_PAGE(*ptepa & PG_FRAME);
7162                                 mpte->ref_count++;
7163                         } else {
7164                                 /*
7165                                  * Pass NULL instead of the PV list lock
7166                                  * pointer, because we don't intend to sleep.
7167                                  */
7168                                 mpte = _pmap_allocpte(pmap, ptepindex, NULL,
7169                                     va);
7170                                 if (mpte == NULL)
7171                                         return (mpte);
7172                         }
7173                 }
7174                 pte = (pt_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mpte));
7175                 pte = &pte[pmap_pte_index(va)];
7176         } else {
7177                 mpte = NULL;
7178                 pte = vtopte(va);
7179         }
7180         if (*pte) {
7181                 if (mpte != NULL)
7182                         mpte->ref_count--;
7183                 return (NULL);
7184         }
7185
7186         /*
7187          * Enter on the PV list if part of our managed memory.
7188          */
7189         if ((m->oflags & VPO_UNMANAGED) == 0 &&
7190             !pmap_try_insert_pv_entry(pmap, va, m, lockp)) {
7191                 if (mpte != NULL)
7192                         pmap_abort_ptp(pmap, va, mpte);
7193                 return (NULL);
7194         }
7195
7196         /*
7197          * Increment counters
7198          */
7199         pmap_resident_count_inc(pmap, 1);
7200
7201         newpte = VM_PAGE_TO_PHYS(m) | PG_V |
7202             pmap_cache_bits(pmap, m->md.pat_mode, 0);
7203         if ((m->oflags & VPO_UNMANAGED) == 0)
7204                 newpte |= PG_MANAGED;
7205         if ((prot & VM_PROT_EXECUTE) == 0)
7206                 newpte |= pg_nx;
7207         if (va < VM_MAXUSER_ADDRESS)
7208                 newpte |= PG_U | pmap_pkru_get(pmap, va);
7209         pte_store(pte, newpte);
7210         return (mpte);
7211 }
7212
7213 /*
7214  * Make a temporary mapping for a physical address.  This is only intended
7215  * to be used for panic dumps.
7216  */
7217 void *
7218 pmap_kenter_temporary(vm_paddr_t pa, int i)
7219 {
7220         vm_offset_t va;
7221
7222         va = (vm_offset_t)crashdumpmap + (i * PAGE_SIZE);
7223         pmap_kenter(va, pa);
7224         invlpg(va);
7225         return ((void *)crashdumpmap);
7226 }
7227
7228 /*
7229  * This code maps large physical mmap regions into the
7230  * processor address space.  Note that some shortcuts
7231  * are taken, but the code works.
7232  */
7233 void
7234 pmap_object_init_pt(pmap_t pmap, vm_offset_t addr, vm_object_t object,
7235     vm_pindex_t pindex, vm_size_t size)
7236 {
7237         pd_entry_t *pde;
7238         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
7239         vm_paddr_t pa, ptepa;
7240         vm_page_t p, pdpg;
7241         int pat_mode;
7242
7243         PG_A = pmap_accessed_bit(pmap);
7244         PG_M = pmap_modified_bit(pmap);
7245         PG_V = pmap_valid_bit(pmap);
7246         PG_RW = pmap_rw_bit(pmap);
7247
7248         VM_OBJECT_ASSERT_WLOCKED(object);
7249         KASSERT(object->type == OBJT_DEVICE || object->type == OBJT_SG,
7250             ("pmap_object_init_pt: non-device object"));
7251         if ((addr & (NBPDR - 1)) == 0 && (size & (NBPDR - 1)) == 0) {
7252                 if (!pmap_ps_enabled(pmap))
7253                         return;
7254                 if (!vm_object_populate(object, pindex, pindex + atop(size)))
7255                         return;
7256                 p = vm_page_lookup(object, pindex);
7257                 KASSERT(p->valid == VM_PAGE_BITS_ALL,
7258                     ("pmap_object_init_pt: invalid page %p", p));
7259                 pat_mode = p->md.pat_mode;
7260
7261                 /*
7262                  * Abort the mapping if the first page is not physically
7263                  * aligned to a 2MB page boundary.
7264                  */
7265                 ptepa = VM_PAGE_TO_PHYS(p);
7266                 if (ptepa & (NBPDR - 1))
7267                         return;
7268
7269                 /*
7270                  * Skip the first page.  Abort the mapping if the rest of
7271                  * the pages are not physically contiguous or have differing
7272                  * memory attributes.
7273                  */
7274                 p = TAILQ_NEXT(p, listq);
7275                 for (pa = ptepa + PAGE_SIZE; pa < ptepa + size;
7276                     pa += PAGE_SIZE) {
7277                         KASSERT(p->valid == VM_PAGE_BITS_ALL,
7278                             ("pmap_object_init_pt: invalid page %p", p));
7279                         if (pa != VM_PAGE_TO_PHYS(p) ||
7280                             pat_mode != p->md.pat_mode)
7281                                 return;
7282                         p = TAILQ_NEXT(p, listq);
7283                 }
7284
7285                 /*
7286                  * Map using 2MB pages.  Since "ptepa" is 2M aligned and
7287                  * "size" is a multiple of 2M, adding the PAT setting to "pa"
7288                  * will not affect the termination of this loop.
7289                  */
7290                 PMAP_LOCK(pmap);
7291                 for (pa = ptepa | pmap_cache_bits(pmap, pat_mode, 1);
7292                     pa < ptepa + size; pa += NBPDR) {
7293                         pde = pmap_alloc_pde(pmap, addr, &pdpg, NULL);
7294                         if (pde == NULL) {
7295                                 /*
7296                                  * The creation of mappings below is only an
7297                                  * optimization.  If a page directory page
7298                                  * cannot be allocated without blocking,
7299                                  * continue on to the next mapping rather than
7300                                  * blocking.
7301                                  */
7302                                 addr += NBPDR;
7303                                 continue;
7304                         }
7305                         if ((*pde & PG_V) == 0) {
7306                                 pde_store(pde, pa | PG_PS | PG_M | PG_A |
7307                                     PG_U | PG_RW | PG_V);
7308                                 pmap_resident_count_inc(pmap, NBPDR / PAGE_SIZE);
7309                                 atomic_add_long(&pmap_pde_mappings, 1);
7310                         } else {
7311                                 /* Continue on if the PDE is already valid. */
7312                                 pdpg->ref_count--;
7313                                 KASSERT(pdpg->ref_count > 0,
7314                                     ("pmap_object_init_pt: missing reference "
7315                                     "to page directory page, va: 0x%lx", addr));
7316                         }
7317                         addr += NBPDR;
7318                 }
7319                 PMAP_UNLOCK(pmap);
7320         }
7321 }
7322
7323 /*
7324  *      Clear the wired attribute from the mappings for the specified range of
7325  *      addresses in the given pmap.  Every valid mapping within that range
7326  *      must have the wired attribute set.  In contrast, invalid mappings
7327  *      cannot have the wired attribute set, so they are ignored.
7328  *
7329  *      The wired attribute of the page table entry is not a hardware
7330  *      feature, so there is no need to invalidate any TLB entries.
7331  *      Since pmap_demote_pde() for the wired entry must never fail,
7332  *      pmap_delayed_invl_start()/finish() calls around the
7333  *      function are not needed.
7334  */
7335 void
7336 pmap_unwire(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
7337 {
7338         vm_offset_t va_next;
7339         pml4_entry_t *pml4e;
7340         pdp_entry_t *pdpe;
7341         pd_entry_t *pde;
7342         pt_entry_t *pte, PG_V, PG_G;
7343
7344         PG_V = pmap_valid_bit(pmap);
7345         PG_G = pmap_global_bit(pmap);
7346         PMAP_LOCK(pmap);
7347         for (; sva < eva; sva = va_next) {
7348                 pml4e = pmap_pml4e(pmap, sva);
7349                 if (pml4e == NULL || (*pml4e & PG_V) == 0) {
7350                         va_next = (sva + NBPML4) & ~PML4MASK;
7351                         if (va_next < sva)
7352                                 va_next = eva;
7353                         continue;
7354                 }
7355
7356                 va_next = (sva + NBPDP) & ~PDPMASK;
7357                 if (va_next < sva)
7358                         va_next = eva;
7359                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
7360                 if ((*pdpe & PG_V) == 0)
7361                         continue;
7362                 if ((*pdpe & PG_PS) != 0) {
7363                         KASSERT(va_next <= eva,
7364                             ("partial update of non-transparent 1G mapping "
7365                             "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
7366                             *pdpe, sva, eva, va_next));
7367                         MPASS(pmap != kernel_pmap); /* XXXKIB */
7368                         MPASS((*pdpe & (PG_MANAGED | PG_G)) == 0);
7369                         atomic_clear_long(pdpe, PG_W);
7370                         pmap->pm_stats.wired_count -= NBPDP / PAGE_SIZE;
7371                         continue;
7372                 }
7373
7374                 va_next = (sva + NBPDR) & ~PDRMASK;
7375                 if (va_next < sva)
7376                         va_next = eva;
7377                 pde = pmap_pdpe_to_pde(pdpe, sva);
7378                 if ((*pde & PG_V) == 0)
7379                         continue;
7380                 if ((*pde & PG_PS) != 0) {
7381                         if ((*pde & PG_W) == 0)
7382                                 panic("pmap_unwire: pde %#jx is missing PG_W",
7383                                     (uintmax_t)*pde);
7384
7385                         /*
7386                          * Are we unwiring the entire large page?  If not,
7387                          * demote the mapping and fall through.
7388                          */
7389                         if (sva + NBPDR == va_next && eva >= va_next) {
7390                                 atomic_clear_long(pde, PG_W);
7391                                 pmap->pm_stats.wired_count -= NBPDR /
7392                                     PAGE_SIZE;
7393                                 continue;
7394                         } else if (!pmap_demote_pde(pmap, pde, sva))
7395                                 panic("pmap_unwire: demotion failed");
7396                 }
7397                 if (va_next > eva)
7398                         va_next = eva;
7399                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
7400                     sva += PAGE_SIZE) {
7401                         if ((*pte & PG_V) == 0)
7402                                 continue;
7403                         if ((*pte & PG_W) == 0)
7404                                 panic("pmap_unwire: pte %#jx is missing PG_W",
7405                                     (uintmax_t)*pte);
7406
7407                         /*
7408                          * PG_W must be cleared atomically.  Although the pmap
7409                          * lock synchronizes access to PG_W, another processor
7410                          * could be setting PG_M and/or PG_A concurrently.
7411                          */
7412                         atomic_clear_long(pte, PG_W);
7413                         pmap->pm_stats.wired_count--;
7414                 }
7415         }
7416         PMAP_UNLOCK(pmap);
7417 }
7418
7419 /*
7420  *      Copy the range specified by src_addr/len
7421  *      from the source map to the range dst_addr/len
7422  *      in the destination map.
7423  *
7424  *      This routine is only advisory and need not do anything.
7425  */
7426 void
7427 pmap_copy(pmap_t dst_pmap, pmap_t src_pmap, vm_offset_t dst_addr, vm_size_t len,
7428     vm_offset_t src_addr)
7429 {
7430         struct rwlock *lock;
7431         pml4_entry_t *pml4e;
7432         pdp_entry_t *pdpe;
7433         pd_entry_t *pde, srcptepaddr;
7434         pt_entry_t *dst_pte, PG_A, PG_M, PG_V, ptetemp, *src_pte;
7435         vm_offset_t addr, end_addr, va_next;
7436         vm_page_t dst_pdpg, dstmpte, srcmpte;
7437
7438         if (dst_addr != src_addr)
7439                 return;
7440
7441         if (dst_pmap->pm_type != src_pmap->pm_type)
7442                 return;
7443
7444         /*
7445          * EPT page table entries that require emulation of A/D bits are
7446          * sensitive to clearing the PG_A bit (aka EPT_PG_READ). Although
7447          * we clear PG_M (aka EPT_PG_WRITE) concomitantly, the PG_U bit
7448          * (aka EPT_PG_EXECUTE) could still be set. Since some EPT
7449          * implementations flag an EPT misconfiguration for exec-only
7450          * mappings we skip this function entirely for emulated pmaps.
7451          */
7452         if (pmap_emulate_ad_bits(dst_pmap))
7453                 return;
7454
7455         end_addr = src_addr + len;
7456         lock = NULL;
7457         if (dst_pmap < src_pmap) {
7458                 PMAP_LOCK(dst_pmap);
7459                 PMAP_LOCK(src_pmap);
7460         } else {
7461                 PMAP_LOCK(src_pmap);
7462                 PMAP_LOCK(dst_pmap);
7463         }
7464
7465         PG_A = pmap_accessed_bit(dst_pmap);
7466         PG_M = pmap_modified_bit(dst_pmap);
7467         PG_V = pmap_valid_bit(dst_pmap);
7468
7469         for (addr = src_addr; addr < end_addr; addr = va_next) {
7470                 KASSERT(addr < UPT_MIN_ADDRESS,
7471                     ("pmap_copy: invalid to pmap_copy page tables"));
7472
7473                 pml4e = pmap_pml4e(src_pmap, addr);
7474                 if (pml4e == NULL || (*pml4e & PG_V) == 0) {
7475                         va_next = (addr + NBPML4) & ~PML4MASK;
7476                         if (va_next < addr)
7477                                 va_next = end_addr;
7478                         continue;
7479                 }
7480
7481                 va_next = (addr + NBPDP) & ~PDPMASK;
7482                 if (va_next < addr)
7483                         va_next = end_addr;
7484                 pdpe = pmap_pml4e_to_pdpe(pml4e, addr);
7485                 if ((*pdpe & PG_V) == 0)
7486                         continue;
7487                 if ((*pdpe & PG_PS) != 0) {
7488                         KASSERT(va_next <= end_addr,
7489                             ("partial update of non-transparent 1G mapping "
7490                             "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
7491                             *pdpe, addr, end_addr, va_next));
7492                         MPASS((addr & PDPMASK) == 0);
7493                         MPASS((*pdpe & PG_MANAGED) == 0);
7494                         srcptepaddr = *pdpe;
7495                         pdpe = pmap_pdpe(dst_pmap, addr);
7496                         if (pdpe == NULL) {
7497                                 if (_pmap_allocpte(dst_pmap,
7498                                     pmap_pml4e_pindex(addr), NULL, addr) ==
7499                                     NULL)
7500                                         break;
7501                                 pdpe = pmap_pdpe(dst_pmap, addr);
7502                         } else {
7503                                 pml4e = pmap_pml4e(dst_pmap, addr);
7504                                 dst_pdpg = PHYS_TO_VM_PAGE(*pml4e & PG_FRAME);
7505                                 dst_pdpg->ref_count++;
7506                         }
7507                         KASSERT(*pdpe == 0,
7508                             ("1G mapping present in dst pmap "
7509                             "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
7510                             *pdpe, addr, end_addr, va_next));
7511                         *pdpe = srcptepaddr & ~PG_W;
7512                         pmap_resident_count_inc(dst_pmap, NBPDP / PAGE_SIZE);
7513                         continue;
7514                 }
7515
7516                 va_next = (addr + NBPDR) & ~PDRMASK;
7517                 if (va_next < addr)
7518                         va_next = end_addr;
7519
7520                 pde = pmap_pdpe_to_pde(pdpe, addr);
7521                 srcptepaddr = *pde;
7522                 if (srcptepaddr == 0)
7523                         continue;
7524
7525                 if (srcptepaddr & PG_PS) {
7526                         if ((addr & PDRMASK) != 0 || addr + NBPDR > end_addr)
7527                                 continue;
7528                         pde = pmap_alloc_pde(dst_pmap, addr, &dst_pdpg, NULL);
7529                         if (pde == NULL)
7530                                 break;
7531                         if (*pde == 0 && ((srcptepaddr & PG_MANAGED) == 0 ||
7532                             pmap_pv_insert_pde(dst_pmap, addr, srcptepaddr,
7533                             PMAP_ENTER_NORECLAIM, &lock))) {
7534                                 *pde = srcptepaddr & ~PG_W;
7535                                 pmap_resident_count_inc(dst_pmap, NBPDR /
7536                                     PAGE_SIZE);
7537                                 atomic_add_long(&pmap_pde_mappings, 1);
7538                         } else
7539                                 pmap_abort_ptp(dst_pmap, addr, dst_pdpg);
7540                         continue;
7541                 }
7542
7543                 srcptepaddr &= PG_FRAME;
7544                 srcmpte = PHYS_TO_VM_PAGE(srcptepaddr);
7545                 KASSERT(srcmpte->ref_count > 0,
7546                     ("pmap_copy: source page table page is unused"));
7547
7548                 if (va_next > end_addr)
7549                         va_next = end_addr;
7550
7551                 src_pte = (pt_entry_t *)PHYS_TO_DMAP(srcptepaddr);
7552                 src_pte = &src_pte[pmap_pte_index(addr)];
7553                 dstmpte = NULL;
7554                 for (; addr < va_next; addr += PAGE_SIZE, src_pte++) {
7555                         ptetemp = *src_pte;
7556
7557                         /*
7558                          * We only virtual copy managed pages.
7559                          */
7560                         if ((ptetemp & PG_MANAGED) == 0)
7561                                 continue;
7562
7563                         if (dstmpte != NULL) {
7564                                 KASSERT(dstmpte->pindex ==
7565                                     pmap_pde_pindex(addr),
7566                                     ("dstmpte pindex/addr mismatch"));
7567                                 dstmpte->ref_count++;
7568                         } else if ((dstmpte = pmap_allocpte(dst_pmap, addr,
7569                             NULL)) == NULL)
7570                                 goto out;
7571                         dst_pte = (pt_entry_t *)
7572                             PHYS_TO_DMAP(VM_PAGE_TO_PHYS(dstmpte));
7573                         dst_pte = &dst_pte[pmap_pte_index(addr)];
7574                         if (*dst_pte == 0 &&
7575                             pmap_try_insert_pv_entry(dst_pmap, addr,
7576                             PHYS_TO_VM_PAGE(ptetemp & PG_FRAME), &lock)) {
7577                                 /*
7578                                  * Clear the wired, modified, and accessed
7579                                  * (referenced) bits during the copy.
7580                                  */
7581                                 *dst_pte = ptetemp & ~(PG_W | PG_M | PG_A);
7582                                 pmap_resident_count_inc(dst_pmap, 1);
7583                         } else {
7584                                 pmap_abort_ptp(dst_pmap, addr, dstmpte);
7585                                 goto out;
7586                         }
7587                         /* Have we copied all of the valid mappings? */
7588                         if (dstmpte->ref_count >= srcmpte->ref_count)
7589                                 break;
7590                 }
7591         }
7592 out:
7593         if (lock != NULL)
7594                 rw_wunlock(lock);
7595         PMAP_UNLOCK(src_pmap);
7596         PMAP_UNLOCK(dst_pmap);
7597 }
7598
7599 int
7600 pmap_vmspace_copy(pmap_t dst_pmap, pmap_t src_pmap)
7601 {
7602         int error;
7603
7604         if (dst_pmap->pm_type != src_pmap->pm_type ||
7605             dst_pmap->pm_type != PT_X86 ||
7606             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0)
7607                 return (0);
7608         for (;;) {
7609                 if (dst_pmap < src_pmap) {
7610                         PMAP_LOCK(dst_pmap);
7611                         PMAP_LOCK(src_pmap);
7612                 } else {
7613                         PMAP_LOCK(src_pmap);
7614                         PMAP_LOCK(dst_pmap);
7615                 }
7616                 error = pmap_pkru_copy(dst_pmap, src_pmap);
7617                 /* Clean up partial copy on failure due to no memory. */
7618                 if (error == ENOMEM)
7619                         pmap_pkru_deassign_all(dst_pmap);
7620                 PMAP_UNLOCK(src_pmap);
7621                 PMAP_UNLOCK(dst_pmap);
7622                 if (error != ENOMEM)
7623                         break;
7624                 vm_wait(NULL);
7625         }
7626         return (error);
7627 }
7628
7629 /*
7630  * Zero the specified hardware page.
7631  */
7632 void
7633 pmap_zero_page(vm_page_t m)
7634 {
7635         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
7636
7637         pagezero((void *)va);
7638 }
7639
7640 /*
7641  * Zero an an area within a single hardware page.  off and size must not
7642  * cover an area beyond a single hardware page.
7643  */
7644 void
7645 pmap_zero_page_area(vm_page_t m, int off, int size)
7646 {
7647         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
7648
7649         if (off == 0 && size == PAGE_SIZE)
7650                 pagezero((void *)va);
7651         else
7652                 bzero((char *)va + off, size);
7653 }
7654
7655 /*
7656  * Copy 1 specified hardware page to another.
7657  */
7658 void
7659 pmap_copy_page(vm_page_t msrc, vm_page_t mdst)
7660 {
7661         vm_offset_t src = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(msrc));
7662         vm_offset_t dst = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mdst));
7663
7664         pagecopy((void *)src, (void *)dst);
7665 }
7666
7667 int unmapped_buf_allowed = 1;
7668
7669 void
7670 pmap_copy_pages(vm_page_t ma[], vm_offset_t a_offset, vm_page_t mb[],
7671     vm_offset_t b_offset, int xfersize)
7672 {
7673         void *a_cp, *b_cp;
7674         vm_page_t pages[2];
7675         vm_offset_t vaddr[2], a_pg_offset, b_pg_offset;
7676         int cnt;
7677         boolean_t mapped;
7678
7679         while (xfersize > 0) {
7680                 a_pg_offset = a_offset & PAGE_MASK;
7681                 pages[0] = ma[a_offset >> PAGE_SHIFT];
7682                 b_pg_offset = b_offset & PAGE_MASK;
7683                 pages[1] = mb[b_offset >> PAGE_SHIFT];
7684                 cnt = min(xfersize, PAGE_SIZE - a_pg_offset);
7685                 cnt = min(cnt, PAGE_SIZE - b_pg_offset);
7686                 mapped = pmap_map_io_transient(pages, vaddr, 2, FALSE);
7687                 a_cp = (char *)vaddr[0] + a_pg_offset;
7688                 b_cp = (char *)vaddr[1] + b_pg_offset;
7689                 bcopy(a_cp, b_cp, cnt);
7690                 if (__predict_false(mapped))
7691                         pmap_unmap_io_transient(pages, vaddr, 2, FALSE);
7692                 a_offset += cnt;
7693                 b_offset += cnt;
7694                 xfersize -= cnt;
7695         }
7696 }
7697
7698 /*
7699  * Returns true if the pmap's pv is one of the first
7700  * 16 pvs linked to from this page.  This count may
7701  * be changed upwards or downwards in the future; it
7702  * is only necessary that true be returned for a small
7703  * subset of pmaps for proper page aging.
7704  */
7705 boolean_t
7706 pmap_page_exists_quick(pmap_t pmap, vm_page_t m)
7707 {
7708         struct md_page *pvh;
7709         struct rwlock *lock;
7710         pv_entry_t pv;
7711         int loops = 0;
7712         boolean_t rv;
7713
7714         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
7715             ("pmap_page_exists_quick: page %p is not managed", m));
7716         rv = FALSE;
7717         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
7718         rw_rlock(lock);
7719         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
7720                 if (PV_PMAP(pv) == pmap) {
7721                         rv = TRUE;
7722                         break;
7723                 }
7724                 loops++;
7725                 if (loops >= 16)
7726                         break;
7727         }
7728         if (!rv && loops < 16 && (m->flags & PG_FICTITIOUS) == 0) {
7729                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
7730                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
7731                         if (PV_PMAP(pv) == pmap) {
7732                                 rv = TRUE;
7733                                 break;
7734                         }
7735                         loops++;
7736                         if (loops >= 16)
7737                                 break;
7738                 }
7739         }
7740         rw_runlock(lock);
7741         return (rv);
7742 }
7743
7744 /*
7745  *      pmap_page_wired_mappings:
7746  *
7747  *      Return the number of managed mappings to the given physical page
7748  *      that are wired.
7749  */
7750 int
7751 pmap_page_wired_mappings(vm_page_t m)
7752 {
7753         struct rwlock *lock;
7754         struct md_page *pvh;
7755         pmap_t pmap;
7756         pt_entry_t *pte;
7757         pv_entry_t pv;
7758         int count, md_gen, pvh_gen;
7759
7760         if ((m->oflags & VPO_UNMANAGED) != 0)
7761                 return (0);
7762         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
7763         rw_rlock(lock);
7764 restart:
7765         count = 0;
7766         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
7767                 pmap = PV_PMAP(pv);
7768                 if (!PMAP_TRYLOCK(pmap)) {
7769                         md_gen = m->md.pv_gen;
7770                         rw_runlock(lock);
7771                         PMAP_LOCK(pmap);
7772                         rw_rlock(lock);
7773                         if (md_gen != m->md.pv_gen) {
7774                                 PMAP_UNLOCK(pmap);
7775                                 goto restart;
7776                         }
7777                 }
7778                 pte = pmap_pte(pmap, pv->pv_va);
7779                 if ((*pte & PG_W) != 0)
7780                         count++;
7781                 PMAP_UNLOCK(pmap);
7782         }
7783         if ((m->flags & PG_FICTITIOUS) == 0) {
7784                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
7785                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
7786                         pmap = PV_PMAP(pv);
7787                         if (!PMAP_TRYLOCK(pmap)) {
7788                                 md_gen = m->md.pv_gen;
7789                                 pvh_gen = pvh->pv_gen;
7790                                 rw_runlock(lock);
7791                                 PMAP_LOCK(pmap);
7792                                 rw_rlock(lock);
7793                                 if (md_gen != m->md.pv_gen ||
7794                                     pvh_gen != pvh->pv_gen) {
7795                                         PMAP_UNLOCK(pmap);
7796                                         goto restart;
7797                                 }
7798                         }
7799                         pte = pmap_pde(pmap, pv->pv_va);
7800                         if ((*pte & PG_W) != 0)
7801                                 count++;
7802                         PMAP_UNLOCK(pmap);
7803                 }
7804         }
7805         rw_runlock(lock);
7806         return (count);
7807 }
7808
7809 /*
7810  * Returns TRUE if the given page is mapped individually or as part of
7811  * a 2mpage.  Otherwise, returns FALSE.
7812  */
7813 boolean_t
7814 pmap_page_is_mapped(vm_page_t m)
7815 {
7816         struct rwlock *lock;
7817         boolean_t rv;
7818
7819         if ((m->oflags & VPO_UNMANAGED) != 0)
7820                 return (FALSE);
7821         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
7822         rw_rlock(lock);
7823         rv = !TAILQ_EMPTY(&m->md.pv_list) ||
7824             ((m->flags & PG_FICTITIOUS) == 0 &&
7825             !TAILQ_EMPTY(&pa_to_pvh(VM_PAGE_TO_PHYS(m))->pv_list));
7826         rw_runlock(lock);
7827         return (rv);
7828 }
7829
7830 /*
7831  * Destroy all managed, non-wired mappings in the given user-space
7832  * pmap.  This pmap cannot be active on any processor besides the
7833  * caller.
7834  *
7835  * This function cannot be applied to the kernel pmap.  Moreover, it
7836  * is not intended for general use.  It is only to be used during
7837  * process termination.  Consequently, it can be implemented in ways
7838  * that make it faster than pmap_remove().  First, it can more quickly
7839  * destroy mappings by iterating over the pmap's collection of PV
7840  * entries, rather than searching the page table.  Second, it doesn't
7841  * have to test and clear the page table entries atomically, because
7842  * no processor is currently accessing the user address space.  In
7843  * particular, a page table entry's dirty bit won't change state once
7844  * this function starts.
7845  *
7846  * Although this function destroys all of the pmap's managed,
7847  * non-wired mappings, it can delay and batch the invalidation of TLB
7848  * entries without calling pmap_delayed_invl_start() and
7849  * pmap_delayed_invl_finish().  Because the pmap is not active on
7850  * any other processor, none of these TLB entries will ever be used
7851  * before their eventual invalidation.  Consequently, there is no need
7852  * for either pmap_remove_all() or pmap_remove_write() to wait for
7853  * that eventual TLB invalidation.
7854  */
7855 void
7856 pmap_remove_pages(pmap_t pmap)
7857 {
7858         pd_entry_t ptepde;
7859         pt_entry_t *pte, tpte;
7860         pt_entry_t PG_M, PG_RW, PG_V;
7861         struct spglist free;
7862         struct pv_chunklist free_chunks[PMAP_MEMDOM];
7863         vm_page_t m, mpte, mt;
7864         pv_entry_t pv;
7865         struct md_page *pvh;
7866         struct pv_chunk *pc, *npc;
7867         struct rwlock *lock;
7868         int64_t bit;
7869         uint64_t inuse, bitmask;
7870         int allfree, field, freed, i, idx;
7871         boolean_t superpage;
7872         vm_paddr_t pa;
7873
7874         /*
7875          * Assert that the given pmap is only active on the current
7876          * CPU.  Unfortunately, we cannot block another CPU from
7877          * activating the pmap while this function is executing.
7878          */
7879         KASSERT(pmap == PCPU_GET(curpmap), ("non-current pmap %p", pmap));
7880 #ifdef INVARIANTS
7881         {
7882                 cpuset_t other_cpus;
7883
7884                 other_cpus = all_cpus;
7885                 critical_enter();
7886                 CPU_CLR(PCPU_GET(cpuid), &other_cpus);
7887                 CPU_AND(&other_cpus, &pmap->pm_active);
7888                 critical_exit();
7889                 KASSERT(CPU_EMPTY(&other_cpus), ("pmap active %p", pmap));
7890         }
7891 #endif
7892
7893         lock = NULL;
7894         PG_M = pmap_modified_bit(pmap);
7895         PG_V = pmap_valid_bit(pmap);
7896         PG_RW = pmap_rw_bit(pmap);
7897
7898         for (i = 0; i < PMAP_MEMDOM; i++)
7899                 TAILQ_INIT(&free_chunks[i]);
7900         SLIST_INIT(&free);
7901         PMAP_LOCK(pmap);
7902         TAILQ_FOREACH_SAFE(pc, &pmap->pm_pvchunk, pc_list, npc) {
7903                 allfree = 1;
7904                 freed = 0;
7905                 for (field = 0; field < _NPCM; field++) {
7906                         inuse = ~pc->pc_map[field] & pc_freemask[field];
7907                         while (inuse != 0) {
7908                                 bit = bsfq(inuse);
7909                                 bitmask = 1UL << bit;
7910                                 idx = field * 64 + bit;
7911                                 pv = &pc->pc_pventry[idx];
7912                                 inuse &= ~bitmask;
7913
7914                                 pte = pmap_pdpe(pmap, pv->pv_va);
7915                                 ptepde = *pte;
7916                                 pte = pmap_pdpe_to_pde(pte, pv->pv_va);
7917                                 tpte = *pte;
7918                                 if ((tpte & (PG_PS | PG_V)) == PG_V) {
7919                                         superpage = FALSE;
7920                                         ptepde = tpte;
7921                                         pte = (pt_entry_t *)PHYS_TO_DMAP(tpte &
7922                                             PG_FRAME);
7923                                         pte = &pte[pmap_pte_index(pv->pv_va)];
7924                                         tpte = *pte;
7925                                 } else {
7926                                         /*
7927                                          * Keep track whether 'tpte' is a
7928                                          * superpage explicitly instead of
7929                                          * relying on PG_PS being set.
7930                                          *
7931                                          * This is because PG_PS is numerically
7932                                          * identical to PG_PTE_PAT and thus a
7933                                          * regular page could be mistaken for
7934                                          * a superpage.
7935                                          */
7936                                         superpage = TRUE;
7937                                 }
7938
7939                                 if ((tpte & PG_V) == 0) {
7940                                         panic("bad pte va %lx pte %lx",
7941                                             pv->pv_va, tpte);
7942                                 }
7943
7944 /*
7945  * We cannot remove wired pages from a process' mapping at this time
7946  */
7947                                 if (tpte & PG_W) {
7948                                         allfree = 0;
7949                                         continue;
7950                                 }
7951
7952                                 if (superpage)
7953                                         pa = tpte & PG_PS_FRAME;
7954                                 else
7955                                         pa = tpte & PG_FRAME;
7956
7957                                 m = PHYS_TO_VM_PAGE(pa);
7958                                 KASSERT(m->phys_addr == pa,
7959                                     ("vm_page_t %p phys_addr mismatch %016jx %016jx",
7960                                     m, (uintmax_t)m->phys_addr,
7961                                     (uintmax_t)tpte));
7962
7963                                 KASSERT((m->flags & PG_FICTITIOUS) != 0 ||
7964                                     m < &vm_page_array[vm_page_array_size],
7965                                     ("pmap_remove_pages: bad tpte %#jx",
7966                                     (uintmax_t)tpte));
7967
7968                                 pte_clear(pte);
7969
7970                                 /*
7971                                  * Update the vm_page_t clean/reference bits.
7972                                  */
7973                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
7974                                         if (superpage) {
7975                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
7976                                                         vm_page_dirty(mt);
7977                                         } else
7978                                                 vm_page_dirty(m);
7979                                 }
7980
7981                                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(&lock, m);
7982
7983                                 /* Mark free */
7984                                 pc->pc_map[field] |= bitmask;
7985                                 if (superpage) {
7986                                         pmap_resident_count_dec(pmap, NBPDR / PAGE_SIZE);
7987                                         pvh = pa_to_pvh(tpte & PG_PS_FRAME);
7988                                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
7989                                         pvh->pv_gen++;
7990                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
7991                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
7992                                                         if ((mt->a.flags & PGA_WRITEABLE) != 0 &&
7993                                                             TAILQ_EMPTY(&mt->md.pv_list))
7994                                                                 vm_page_aflag_clear(mt, PGA_WRITEABLE);
7995                                         }
7996                                         mpte = pmap_remove_pt_page(pmap, pv->pv_va);
7997                                         if (mpte != NULL) {
7998                                                 KASSERT(mpte->valid == VM_PAGE_BITS_ALL,
7999                                                     ("pmap_remove_pages: pte page not promoted"));
8000                                                 pmap_resident_count_dec(pmap, 1);
8001                                                 KASSERT(mpte->ref_count == NPTEPG,
8002                                                     ("pmap_remove_pages: pte page reference count error"));
8003                                                 mpte->ref_count = 0;
8004                                                 pmap_add_delayed_free_list(mpte, &free, FALSE);
8005                                         }
8006                                 } else {
8007                                         pmap_resident_count_dec(pmap, 1);
8008                                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
8009                                         m->md.pv_gen++;
8010                                         if ((m->a.flags & PGA_WRITEABLE) != 0 &&
8011                                             TAILQ_EMPTY(&m->md.pv_list) &&
8012                                             (m->flags & PG_FICTITIOUS) == 0) {
8013                                                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
8014                                                 if (TAILQ_EMPTY(&pvh->pv_list))
8015                                                         vm_page_aflag_clear(m, PGA_WRITEABLE);
8016                                         }
8017                                 }
8018                                 pmap_unuse_pt(pmap, pv->pv_va, ptepde, &free);
8019                                 freed++;
8020                         }
8021                 }
8022                 PV_STAT(atomic_add_long(&pv_entry_frees, freed));
8023                 PV_STAT(atomic_add_int(&pv_entry_spare, freed));
8024                 PV_STAT(atomic_subtract_long(&pv_entry_count, freed));
8025                 if (allfree) {
8026                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
8027                         TAILQ_INSERT_TAIL(&free_chunks[pc_to_domain(pc)], pc, pc_list);
8028                 }
8029         }
8030         if (lock != NULL)
8031                 rw_wunlock(lock);
8032         pmap_invalidate_all(pmap);
8033         pmap_pkru_deassign_all(pmap);
8034         free_pv_chunk_batch((struct pv_chunklist *)&free_chunks);
8035         PMAP_UNLOCK(pmap);
8036         vm_page_free_pages_toq(&free, true);
8037 }
8038
8039 static boolean_t
8040 pmap_page_test_mappings(vm_page_t m, boolean_t accessed, boolean_t modified)
8041 {
8042         struct rwlock *lock;
8043         pv_entry_t pv;
8044         struct md_page *pvh;
8045         pt_entry_t *pte, mask;
8046         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
8047         pmap_t pmap;
8048         int md_gen, pvh_gen;
8049         boolean_t rv;
8050
8051         rv = FALSE;
8052         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
8053         rw_rlock(lock);
8054 restart:
8055         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
8056                 pmap = PV_PMAP(pv);
8057                 if (!PMAP_TRYLOCK(pmap)) {
8058                         md_gen = m->md.pv_gen;
8059                         rw_runlock(lock);
8060                         PMAP_LOCK(pmap);
8061                         rw_rlock(lock);
8062                         if (md_gen != m->md.pv_gen) {
8063                                 PMAP_UNLOCK(pmap);
8064                                 goto restart;
8065                         }
8066                 }
8067                 pte = pmap_pte(pmap, pv->pv_va);
8068                 mask = 0;
8069                 if (modified) {
8070                         PG_M = pmap_modified_bit(pmap);
8071                         PG_RW = pmap_rw_bit(pmap);
8072                         mask |= PG_RW | PG_M;
8073                 }
8074                 if (accessed) {
8075                         PG_A = pmap_accessed_bit(pmap);
8076                         PG_V = pmap_valid_bit(pmap);
8077                         mask |= PG_V | PG_A;
8078                 }
8079                 rv = (*pte & mask) == mask;
8080                 PMAP_UNLOCK(pmap);
8081                 if (rv)
8082                         goto out;
8083         }
8084         if ((m->flags & PG_FICTITIOUS) == 0) {
8085                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
8086                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
8087                         pmap = PV_PMAP(pv);
8088                         if (!PMAP_TRYLOCK(pmap)) {
8089                                 md_gen = m->md.pv_gen;
8090                                 pvh_gen = pvh->pv_gen;
8091                                 rw_runlock(lock);
8092                                 PMAP_LOCK(pmap);
8093                                 rw_rlock(lock);
8094                                 if (md_gen != m->md.pv_gen ||
8095                                     pvh_gen != pvh->pv_gen) {
8096                                         PMAP_UNLOCK(pmap);
8097                                         goto restart;
8098                                 }
8099                         }
8100                         pte = pmap_pde(pmap, pv->pv_va);
8101                         mask = 0;
8102                         if (modified) {
8103                                 PG_M = pmap_modified_bit(pmap);
8104                                 PG_RW = pmap_rw_bit(pmap);
8105                                 mask |= PG_RW | PG_M;
8106                         }
8107                         if (accessed) {
8108                                 PG_A = pmap_accessed_bit(pmap);
8109                                 PG_V = pmap_valid_bit(pmap);
8110                                 mask |= PG_V | PG_A;
8111                         }
8112                         rv = (*pte & mask) == mask;
8113                         PMAP_UNLOCK(pmap);
8114                         if (rv)
8115                                 goto out;
8116                 }
8117         }
8118 out:
8119         rw_runlock(lock);
8120         return (rv);
8121 }
8122
8123 /*
8124  *      pmap_is_modified:
8125  *
8126  *      Return whether or not the specified physical page was modified
8127  *      in any physical maps.
8128  */
8129 boolean_t
8130 pmap_is_modified(vm_page_t m)
8131 {
8132
8133         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8134             ("pmap_is_modified: page %p is not managed", m));
8135
8136         /*
8137          * If the page is not busied then this check is racy.
8138          */
8139         if (!pmap_page_is_write_mapped(m))
8140                 return (FALSE);
8141         return (pmap_page_test_mappings(m, FALSE, TRUE));
8142 }
8143
8144 /*
8145  *      pmap_is_prefaultable:
8146  *
8147  *      Return whether or not the specified virtual address is eligible
8148  *      for prefault.
8149  */
8150 boolean_t
8151 pmap_is_prefaultable(pmap_t pmap, vm_offset_t addr)
8152 {
8153         pd_entry_t *pde;
8154         pt_entry_t *pte, PG_V;
8155         boolean_t rv;
8156
8157         PG_V = pmap_valid_bit(pmap);
8158         rv = FALSE;
8159         PMAP_LOCK(pmap);
8160         pde = pmap_pde(pmap, addr);
8161         if (pde != NULL && (*pde & (PG_PS | PG_V)) == PG_V) {
8162                 pte = pmap_pde_to_pte(pde, addr);
8163                 rv = (*pte & PG_V) == 0;
8164         }
8165         PMAP_UNLOCK(pmap);
8166         return (rv);
8167 }
8168
8169 /*
8170  *      pmap_is_referenced:
8171  *
8172  *      Return whether or not the specified physical page was referenced
8173  *      in any physical maps.
8174  */
8175 boolean_t
8176 pmap_is_referenced(vm_page_t m)
8177 {
8178
8179         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8180             ("pmap_is_referenced: page %p is not managed", m));
8181         return (pmap_page_test_mappings(m, TRUE, FALSE));
8182 }
8183
8184 /*
8185  * Clear the write and modified bits in each of the given page's mappings.
8186  */
8187 void
8188 pmap_remove_write(vm_page_t m)
8189 {
8190         struct md_page *pvh;
8191         pmap_t pmap;
8192         struct rwlock *lock;
8193         pv_entry_t next_pv, pv;
8194         pd_entry_t *pde;
8195         pt_entry_t oldpte, *pte, PG_M, PG_RW;
8196         vm_offset_t va;
8197         int pvh_gen, md_gen;
8198
8199         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8200             ("pmap_remove_write: page %p is not managed", m));
8201
8202         vm_page_assert_busied(m);
8203         if (!pmap_page_is_write_mapped(m))
8204                 return;
8205
8206         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
8207         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy :
8208             pa_to_pvh(VM_PAGE_TO_PHYS(m));
8209 retry_pv_loop:
8210         rw_wlock(lock);
8211         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_next, next_pv) {
8212                 pmap = PV_PMAP(pv);
8213                 if (!PMAP_TRYLOCK(pmap)) {
8214                         pvh_gen = pvh->pv_gen;
8215                         rw_wunlock(lock);
8216                         PMAP_LOCK(pmap);
8217                         rw_wlock(lock);
8218                         if (pvh_gen != pvh->pv_gen) {
8219                                 PMAP_UNLOCK(pmap);
8220                                 rw_wunlock(lock);
8221                                 goto retry_pv_loop;
8222                         }
8223                 }
8224                 PG_RW = pmap_rw_bit(pmap);
8225                 va = pv->pv_va;
8226                 pde = pmap_pde(pmap, va);
8227                 if ((*pde & PG_RW) != 0)
8228                         (void)pmap_demote_pde_locked(pmap, pde, va, &lock);
8229                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
8230                     ("inconsistent pv lock %p %p for page %p",
8231                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
8232                 PMAP_UNLOCK(pmap);
8233         }
8234         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
8235                 pmap = PV_PMAP(pv);
8236                 if (!PMAP_TRYLOCK(pmap)) {
8237                         pvh_gen = pvh->pv_gen;
8238                         md_gen = m->md.pv_gen;
8239                         rw_wunlock(lock);
8240                         PMAP_LOCK(pmap);
8241                         rw_wlock(lock);
8242                         if (pvh_gen != pvh->pv_gen ||
8243                             md_gen != m->md.pv_gen) {
8244                                 PMAP_UNLOCK(pmap);
8245                                 rw_wunlock(lock);
8246                                 goto retry_pv_loop;
8247                         }
8248                 }
8249                 PG_M = pmap_modified_bit(pmap);
8250                 PG_RW = pmap_rw_bit(pmap);
8251                 pde = pmap_pde(pmap, pv->pv_va);
8252                 KASSERT((*pde & PG_PS) == 0,
8253                     ("pmap_remove_write: found a 2mpage in page %p's pv list",
8254                     m));
8255                 pte = pmap_pde_to_pte(pde, pv->pv_va);
8256 retry:
8257                 oldpte = *pte;
8258                 if (oldpte & PG_RW) {
8259                         if (!atomic_cmpset_long(pte, oldpte, oldpte &
8260                             ~(PG_RW | PG_M)))
8261                                 goto retry;
8262                         if ((oldpte & PG_M) != 0)
8263                                 vm_page_dirty(m);
8264                         pmap_invalidate_page(pmap, pv->pv_va);
8265                 }
8266                 PMAP_UNLOCK(pmap);
8267         }
8268         rw_wunlock(lock);
8269         vm_page_aflag_clear(m, PGA_WRITEABLE);
8270         pmap_delayed_invl_wait(m);
8271 }
8272
8273 static __inline boolean_t
8274 safe_to_clear_referenced(pmap_t pmap, pt_entry_t pte)
8275 {
8276
8277         if (!pmap_emulate_ad_bits(pmap))
8278                 return (TRUE);
8279
8280         KASSERT(pmap->pm_type == PT_EPT, ("invalid pm_type %d", pmap->pm_type));
8281
8282         /*
8283          * XWR = 010 or 110 will cause an unconditional EPT misconfiguration
8284          * so we don't let the referenced (aka EPT_PG_READ) bit to be cleared
8285          * if the EPT_PG_WRITE bit is set.
8286          */
8287         if ((pte & EPT_PG_WRITE) != 0)
8288                 return (FALSE);
8289
8290         /*
8291          * XWR = 100 is allowed only if the PMAP_SUPPORTS_EXEC_ONLY is set.
8292          */
8293         if ((pte & EPT_PG_EXECUTE) == 0 ||
8294             ((pmap->pm_flags & PMAP_SUPPORTS_EXEC_ONLY) != 0))
8295                 return (TRUE);
8296         else
8297                 return (FALSE);
8298 }
8299
8300 /*
8301  *      pmap_ts_referenced:
8302  *
8303  *      Return a count of reference bits for a page, clearing those bits.
8304  *      It is not necessary for every reference bit to be cleared, but it
8305  *      is necessary that 0 only be returned when there are truly no
8306  *      reference bits set.
8307  *
8308  *      As an optimization, update the page's dirty field if a modified bit is
8309  *      found while counting reference bits.  This opportunistic update can be
8310  *      performed at low cost and can eliminate the need for some future calls
8311  *      to pmap_is_modified().  However, since this function stops after
8312  *      finding PMAP_TS_REFERENCED_MAX reference bits, it may not detect some
8313  *      dirty pages.  Those dirty pages will only be detected by a future call
8314  *      to pmap_is_modified().
8315  *
8316  *      A DI block is not needed within this function, because
8317  *      invalidations are performed before the PV list lock is
8318  *      released.
8319  */
8320 int
8321 pmap_ts_referenced(vm_page_t m)
8322 {
8323         struct md_page *pvh;
8324         pv_entry_t pv, pvf;
8325         pmap_t pmap;
8326         struct rwlock *lock;
8327         pd_entry_t oldpde, *pde;
8328         pt_entry_t *pte, PG_A, PG_M, PG_RW;
8329         vm_offset_t va;
8330         vm_paddr_t pa;
8331         int cleared, md_gen, not_cleared, pvh_gen;
8332         struct spglist free;
8333         boolean_t demoted;
8334
8335         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8336             ("pmap_ts_referenced: page %p is not managed", m));
8337         SLIST_INIT(&free);
8338         cleared = 0;
8339         pa = VM_PAGE_TO_PHYS(m);
8340         lock = PHYS_TO_PV_LIST_LOCK(pa);
8341         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy : pa_to_pvh(pa);
8342         rw_wlock(lock);
8343 retry:
8344         not_cleared = 0;
8345         if ((pvf = TAILQ_FIRST(&pvh->pv_list)) == NULL)
8346                 goto small_mappings;
8347         pv = pvf;
8348         do {
8349                 if (pvf == NULL)
8350                         pvf = pv;
8351                 pmap = PV_PMAP(pv);
8352                 if (!PMAP_TRYLOCK(pmap)) {
8353                         pvh_gen = pvh->pv_gen;
8354                         rw_wunlock(lock);
8355                         PMAP_LOCK(pmap);
8356                         rw_wlock(lock);
8357                         if (pvh_gen != pvh->pv_gen) {
8358                                 PMAP_UNLOCK(pmap);
8359                                 goto retry;
8360                         }
8361                 }
8362                 PG_A = pmap_accessed_bit(pmap);
8363                 PG_M = pmap_modified_bit(pmap);
8364                 PG_RW = pmap_rw_bit(pmap);
8365                 va = pv->pv_va;
8366                 pde = pmap_pde(pmap, pv->pv_va);
8367                 oldpde = *pde;
8368                 if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
8369                         /*
8370                          * Although "oldpde" is mapping a 2MB page, because
8371                          * this function is called at a 4KB page granularity,
8372                          * we only update the 4KB page under test.
8373                          */
8374                         vm_page_dirty(m);
8375                 }
8376                 if ((oldpde & PG_A) != 0) {
8377                         /*
8378                          * Since this reference bit is shared by 512 4KB
8379                          * pages, it should not be cleared every time it is
8380                          * tested.  Apply a simple "hash" function on the
8381                          * physical page number, the virtual superpage number,
8382                          * and the pmap address to select one 4KB page out of
8383                          * the 512 on which testing the reference bit will
8384                          * result in clearing that reference bit.  This
8385                          * function is designed to avoid the selection of the
8386                          * same 4KB page for every 2MB page mapping.
8387                          *
8388                          * On demotion, a mapping that hasn't been referenced
8389                          * is simply destroyed.  To avoid the possibility of a
8390                          * subsequent page fault on a demoted wired mapping,
8391                          * always leave its reference bit set.  Moreover,
8392                          * since the superpage is wired, the current state of
8393                          * its reference bit won't affect page replacement.
8394                          */
8395                         if ((((pa >> PAGE_SHIFT) ^ (pv->pv_va >> PDRSHIFT) ^
8396                             (uintptr_t)pmap) & (NPTEPG - 1)) == 0 &&
8397                             (oldpde & PG_W) == 0) {
8398                                 if (safe_to_clear_referenced(pmap, oldpde)) {
8399                                         atomic_clear_long(pde, PG_A);
8400                                         pmap_invalidate_page(pmap, pv->pv_va);
8401                                         demoted = FALSE;
8402                                 } else if (pmap_demote_pde_locked(pmap, pde,
8403                                     pv->pv_va, &lock)) {
8404                                         /*
8405                                          * Remove the mapping to a single page
8406                                          * so that a subsequent access may
8407                                          * repromote.  Since the underlying
8408                                          * page table page is fully populated,
8409                                          * this removal never frees a page
8410                                          * table page.
8411                                          */
8412                                         demoted = TRUE;
8413                                         va += VM_PAGE_TO_PHYS(m) - (oldpde &
8414                                             PG_PS_FRAME);
8415                                         pte = pmap_pde_to_pte(pde, va);
8416                                         pmap_remove_pte(pmap, pte, va, *pde,
8417                                             NULL, &lock);
8418                                         pmap_invalidate_page(pmap, va);
8419                                 } else
8420                                         demoted = TRUE;
8421
8422                                 if (demoted) {
8423                                         /*
8424                                          * The superpage mapping was removed
8425                                          * entirely and therefore 'pv' is no
8426                                          * longer valid.
8427                                          */
8428                                         if (pvf == pv)
8429                                                 pvf = NULL;
8430                                         pv = NULL;
8431                                 }
8432                                 cleared++;
8433                                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
8434                                     ("inconsistent pv lock %p %p for page %p",
8435                                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
8436                         } else
8437                                 not_cleared++;
8438                 }
8439                 PMAP_UNLOCK(pmap);
8440                 /* Rotate the PV list if it has more than one entry. */
8441                 if (pv != NULL && TAILQ_NEXT(pv, pv_next) != NULL) {
8442                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
8443                         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
8444                         pvh->pv_gen++;
8445                 }
8446                 if (cleared + not_cleared >= PMAP_TS_REFERENCED_MAX)
8447                         goto out;
8448         } while ((pv = TAILQ_FIRST(&pvh->pv_list)) != pvf);
8449 small_mappings:
8450         if ((pvf = TAILQ_FIRST(&m->md.pv_list)) == NULL)
8451                 goto out;
8452         pv = pvf;
8453         do {
8454                 if (pvf == NULL)
8455                         pvf = pv;
8456                 pmap = PV_PMAP(pv);
8457                 if (!PMAP_TRYLOCK(pmap)) {
8458                         pvh_gen = pvh->pv_gen;
8459                         md_gen = m->md.pv_gen;
8460                         rw_wunlock(lock);
8461                         PMAP_LOCK(pmap);
8462                         rw_wlock(lock);
8463                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
8464                                 PMAP_UNLOCK(pmap);
8465                                 goto retry;
8466                         }
8467                 }
8468                 PG_A = pmap_accessed_bit(pmap);
8469                 PG_M = pmap_modified_bit(pmap);
8470                 PG_RW = pmap_rw_bit(pmap);
8471                 pde = pmap_pde(pmap, pv->pv_va);
8472                 KASSERT((*pde & PG_PS) == 0,
8473                     ("pmap_ts_referenced: found a 2mpage in page %p's pv list",
8474                     m));
8475                 pte = pmap_pde_to_pte(pde, pv->pv_va);
8476                 if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW))
8477                         vm_page_dirty(m);
8478                 if ((*pte & PG_A) != 0) {
8479                         if (safe_to_clear_referenced(pmap, *pte)) {
8480                                 atomic_clear_long(pte, PG_A);
8481                                 pmap_invalidate_page(pmap, pv->pv_va);
8482                                 cleared++;
8483                         } else if ((*pte & PG_W) == 0) {
8484                                 /*
8485                                  * Wired pages cannot be paged out so
8486                                  * doing accessed bit emulation for
8487                                  * them is wasted effort. We do the
8488                                  * hard work for unwired pages only.
8489                                  */
8490                                 pmap_remove_pte(pmap, pte, pv->pv_va,
8491                                     *pde, &free, &lock);
8492                                 pmap_invalidate_page(pmap, pv->pv_va);
8493                                 cleared++;
8494                                 if (pvf == pv)
8495                                         pvf = NULL;
8496                                 pv = NULL;
8497                                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
8498                                     ("inconsistent pv lock %p %p for page %p",
8499                                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
8500                         } else
8501                                 not_cleared++;
8502                 }
8503                 PMAP_UNLOCK(pmap);
8504                 /* Rotate the PV list if it has more than one entry. */
8505                 if (pv != NULL && TAILQ_NEXT(pv, pv_next) != NULL) {
8506                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
8507                         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
8508                         m->md.pv_gen++;
8509                 }
8510         } while ((pv = TAILQ_FIRST(&m->md.pv_list)) != pvf && cleared +
8511             not_cleared < PMAP_TS_REFERENCED_MAX);
8512 out:
8513         rw_wunlock(lock);
8514         vm_page_free_pages_toq(&free, true);
8515         return (cleared + not_cleared);
8516 }
8517
8518 /*
8519  *      Apply the given advice to the specified range of addresses within the
8520  *      given pmap.  Depending on the advice, clear the referenced and/or
8521  *      modified flags in each mapping and set the mapped page's dirty field.
8522  */
8523 void
8524 pmap_advise(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, int advice)
8525 {
8526         struct rwlock *lock;
8527         pml4_entry_t *pml4e;
8528         pdp_entry_t *pdpe;
8529         pd_entry_t oldpde, *pde;
8530         pt_entry_t *pte, PG_A, PG_G, PG_M, PG_RW, PG_V;
8531         vm_offset_t va, va_next;
8532         vm_page_t m;
8533         bool anychanged;
8534
8535         if (advice != MADV_DONTNEED && advice != MADV_FREE)
8536                 return;
8537
8538         /*
8539          * A/D bit emulation requires an alternate code path when clearing
8540          * the modified and accessed bits below. Since this function is
8541          * advisory in nature we skip it entirely for pmaps that require
8542          * A/D bit emulation.
8543          */
8544         if (pmap_emulate_ad_bits(pmap))
8545                 return;
8546
8547         PG_A = pmap_accessed_bit(pmap);
8548         PG_G = pmap_global_bit(pmap);
8549         PG_M = pmap_modified_bit(pmap);
8550         PG_V = pmap_valid_bit(pmap);
8551         PG_RW = pmap_rw_bit(pmap);
8552         anychanged = false;
8553         pmap_delayed_invl_start();
8554         PMAP_LOCK(pmap);
8555         for (; sva < eva; sva = va_next) {
8556                 pml4e = pmap_pml4e(pmap, sva);
8557                 if (pml4e == NULL || (*pml4e & PG_V) == 0) {
8558                         va_next = (sva + NBPML4) & ~PML4MASK;
8559                         if (va_next < sva)
8560                                 va_next = eva;
8561                         continue;
8562                 }
8563
8564                 va_next = (sva + NBPDP) & ~PDPMASK;
8565                 if (va_next < sva)
8566                         va_next = eva;
8567                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
8568                 if ((*pdpe & PG_V) == 0)
8569                         continue;
8570                 if ((*pdpe & PG_PS) != 0) {
8571                         KASSERT(va_next <= eva,
8572                             ("partial update of non-transparent 1G mapping "
8573                             "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
8574                             *pdpe, sva, eva, va_next));
8575                         continue;
8576                 }
8577
8578                 va_next = (sva + NBPDR) & ~PDRMASK;
8579                 if (va_next < sva)
8580                         va_next = eva;
8581                 pde = pmap_pdpe_to_pde(pdpe, sva);
8582                 oldpde = *pde;
8583                 if ((oldpde & PG_V) == 0)
8584                         continue;
8585                 else if ((oldpde & PG_PS) != 0) {
8586                         if ((oldpde & PG_MANAGED) == 0)
8587                                 continue;
8588                         lock = NULL;
8589                         if (!pmap_demote_pde_locked(pmap, pde, sva, &lock)) {
8590                                 if (lock != NULL)
8591                                         rw_wunlock(lock);
8592
8593                                 /*
8594                                  * The large page mapping was destroyed.
8595                                  */
8596                                 continue;
8597                         }
8598
8599                         /*
8600                          * Unless the page mappings are wired, remove the
8601                          * mapping to a single page so that a subsequent
8602                          * access may repromote.  Choosing the last page
8603                          * within the address range [sva, min(va_next, eva))
8604                          * generally results in more repromotions.  Since the
8605                          * underlying page table page is fully populated, this
8606                          * removal never frees a page table page.
8607                          */
8608                         if ((oldpde & PG_W) == 0) {
8609                                 va = eva;
8610                                 if (va > va_next)
8611                                         va = va_next;
8612                                 va -= PAGE_SIZE;
8613                                 KASSERT(va >= sva,
8614                                     ("pmap_advise: no address gap"));
8615                                 pte = pmap_pde_to_pte(pde, va);
8616                                 KASSERT((*pte & PG_V) != 0,
8617                                     ("pmap_advise: invalid PTE"));
8618                                 pmap_remove_pte(pmap, pte, va, *pde, NULL,
8619                                     &lock);
8620                                 anychanged = true;
8621                         }
8622                         if (lock != NULL)
8623                                 rw_wunlock(lock);
8624                 }
8625                 if (va_next > eva)
8626                         va_next = eva;
8627                 va = va_next;
8628                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
8629                     sva += PAGE_SIZE) {
8630                         if ((*pte & (PG_MANAGED | PG_V)) != (PG_MANAGED | PG_V))
8631                                 goto maybe_invlrng;
8632                         else if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
8633                                 if (advice == MADV_DONTNEED) {
8634                                         /*
8635                                          * Future calls to pmap_is_modified()
8636                                          * can be avoided by making the page
8637                                          * dirty now.
8638                                          */
8639                                         m = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
8640                                         vm_page_dirty(m);
8641                                 }
8642                                 atomic_clear_long(pte, PG_M | PG_A);
8643                         } else if ((*pte & PG_A) != 0)
8644                                 atomic_clear_long(pte, PG_A);
8645                         else
8646                                 goto maybe_invlrng;
8647
8648                         if ((*pte & PG_G) != 0) {
8649                                 if (va == va_next)
8650                                         va = sva;
8651                         } else
8652                                 anychanged = true;
8653                         continue;
8654 maybe_invlrng:
8655                         if (va != va_next) {
8656                                 pmap_invalidate_range(pmap, va, sva);
8657                                 va = va_next;
8658                         }
8659                 }
8660                 if (va != va_next)
8661                         pmap_invalidate_range(pmap, va, sva);
8662         }
8663         if (anychanged)
8664                 pmap_invalidate_all(pmap);
8665         PMAP_UNLOCK(pmap);
8666         pmap_delayed_invl_finish();
8667 }
8668
8669 /*
8670  *      Clear the modify bits on the specified physical page.
8671  */
8672 void
8673 pmap_clear_modify(vm_page_t m)
8674 {
8675         struct md_page *pvh;
8676         pmap_t pmap;
8677         pv_entry_t next_pv, pv;
8678         pd_entry_t oldpde, *pde;
8679         pt_entry_t *pte, PG_M, PG_RW;
8680         struct rwlock *lock;
8681         vm_offset_t va;
8682         int md_gen, pvh_gen;
8683
8684         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8685             ("pmap_clear_modify: page %p is not managed", m));
8686         vm_page_assert_busied(m);
8687
8688         if (!pmap_page_is_write_mapped(m))
8689                 return;
8690         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy :
8691             pa_to_pvh(VM_PAGE_TO_PHYS(m));
8692         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
8693         rw_wlock(lock);
8694 restart:
8695         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_next, next_pv) {
8696                 pmap = PV_PMAP(pv);
8697                 if (!PMAP_TRYLOCK(pmap)) {
8698                         pvh_gen = pvh->pv_gen;
8699                         rw_wunlock(lock);
8700                         PMAP_LOCK(pmap);
8701                         rw_wlock(lock);
8702                         if (pvh_gen != pvh->pv_gen) {
8703                                 PMAP_UNLOCK(pmap);
8704                                 goto restart;
8705                         }
8706                 }
8707                 PG_M = pmap_modified_bit(pmap);
8708                 PG_RW = pmap_rw_bit(pmap);
8709                 va = pv->pv_va;
8710                 pde = pmap_pde(pmap, va);
8711                 oldpde = *pde;
8712                 /* If oldpde has PG_RW set, then it also has PG_M set. */
8713                 if ((oldpde & PG_RW) != 0 &&
8714                     pmap_demote_pde_locked(pmap, pde, va, &lock) &&
8715                     (oldpde & PG_W) == 0) {
8716                         /*
8717                          * Write protect the mapping to a single page so that
8718                          * a subsequent write access may repromote.
8719                          */
8720                         va += VM_PAGE_TO_PHYS(m) - (oldpde & PG_PS_FRAME);
8721                         pte = pmap_pde_to_pte(pde, va);
8722                         atomic_clear_long(pte, PG_M | PG_RW);
8723                         vm_page_dirty(m);
8724                         pmap_invalidate_page(pmap, va);
8725                 }
8726                 PMAP_UNLOCK(pmap);
8727         }
8728         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
8729                 pmap = PV_PMAP(pv);
8730                 if (!PMAP_TRYLOCK(pmap)) {
8731                         md_gen = m->md.pv_gen;
8732                         pvh_gen = pvh->pv_gen;
8733                         rw_wunlock(lock);
8734                         PMAP_LOCK(pmap);
8735                         rw_wlock(lock);
8736                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
8737                                 PMAP_UNLOCK(pmap);
8738                                 goto restart;
8739                         }
8740                 }
8741                 PG_M = pmap_modified_bit(pmap);
8742                 PG_RW = pmap_rw_bit(pmap);
8743                 pde = pmap_pde(pmap, pv->pv_va);
8744                 KASSERT((*pde & PG_PS) == 0, ("pmap_clear_modify: found"
8745                     " a 2mpage in page %p's pv list", m));
8746                 pte = pmap_pde_to_pte(pde, pv->pv_va);
8747                 if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
8748                         atomic_clear_long(pte, PG_M);
8749                         pmap_invalidate_page(pmap, pv->pv_va);
8750                 }
8751                 PMAP_UNLOCK(pmap);
8752         }
8753         rw_wunlock(lock);
8754 }
8755
8756 /*
8757  * Miscellaneous support routines follow
8758  */
8759
8760 /* Adjust the properties for a leaf page table entry. */
8761 static __inline void
8762 pmap_pte_props(pt_entry_t *pte, u_long bits, u_long mask)
8763 {
8764         u_long opte, npte;
8765
8766         opte = *(u_long *)pte;
8767         do {
8768                 npte = opte & ~mask;
8769                 npte |= bits;
8770         } while (npte != opte && !atomic_fcmpset_long((u_long *)pte, &opte,
8771             npte));
8772 }
8773
8774 /*
8775  * Map a set of physical memory pages into the kernel virtual
8776  * address space. Return a pointer to where it is mapped. This
8777  * routine is intended to be used for mapping device memory,
8778  * NOT real memory.
8779  */
8780 static void *
8781 pmap_mapdev_internal(vm_paddr_t pa, vm_size_t size, int mode, int flags)
8782 {
8783         struct pmap_preinit_mapping *ppim;
8784         vm_offset_t va, offset;
8785         vm_size_t tmpsize;
8786         int i;
8787
8788         offset = pa & PAGE_MASK;
8789         size = round_page(offset + size);
8790         pa = trunc_page(pa);
8791
8792         if (!pmap_initialized) {
8793                 va = 0;
8794                 for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
8795                         ppim = pmap_preinit_mapping + i;
8796                         if (ppim->va == 0) {
8797                                 ppim->pa = pa;
8798                                 ppim->sz = size;
8799                                 ppim->mode = mode;
8800                                 ppim->va = virtual_avail;
8801                                 virtual_avail += size;
8802                                 va = ppim->va;
8803                                 break;
8804                         }
8805                 }
8806                 if (va == 0)
8807                         panic("%s: too many preinit mappings", __func__);
8808         } else {
8809                 /*
8810                  * If we have a preinit mapping, re-use it.
8811                  */
8812                 for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
8813                         ppim = pmap_preinit_mapping + i;
8814                         if (ppim->pa == pa && ppim->sz == size &&
8815                             (ppim->mode == mode ||
8816                             (flags & MAPDEV_SETATTR) == 0))
8817                                 return ((void *)(ppim->va + offset));
8818                 }
8819                 /*
8820                  * If the specified range of physical addresses fits within
8821                  * the direct map window, use the direct map.
8822                  */
8823                 if (pa < dmaplimit && pa + size <= dmaplimit) {
8824                         va = PHYS_TO_DMAP(pa);
8825                         if ((flags & MAPDEV_SETATTR) != 0) {
8826                                 PMAP_LOCK(kernel_pmap);
8827                                 i = pmap_change_props_locked(va, size,
8828                                     PROT_NONE, mode, flags);
8829                                 PMAP_UNLOCK(kernel_pmap);
8830                         } else
8831                                 i = 0;
8832                         if (!i)
8833                                 return ((void *)(va + offset));
8834                 }
8835                 va = kva_alloc(size);
8836                 if (va == 0)
8837                         panic("%s: Couldn't allocate KVA", __func__);
8838         }
8839         for (tmpsize = 0; tmpsize < size; tmpsize += PAGE_SIZE)
8840                 pmap_kenter_attr(va + tmpsize, pa + tmpsize, mode);
8841         pmap_invalidate_range(kernel_pmap, va, va + tmpsize);
8842         if ((flags & MAPDEV_FLUSHCACHE) != 0)
8843                 pmap_invalidate_cache_range(va, va + tmpsize);
8844         return ((void *)(va + offset));
8845 }
8846
8847 void *
8848 pmap_mapdev_attr(vm_paddr_t pa, vm_size_t size, int mode)
8849 {
8850
8851         return (pmap_mapdev_internal(pa, size, mode, MAPDEV_FLUSHCACHE |
8852             MAPDEV_SETATTR));
8853 }
8854
8855 void *
8856 pmap_mapdev(vm_paddr_t pa, vm_size_t size)
8857 {
8858
8859         return (pmap_mapdev_attr(pa, size, PAT_UNCACHEABLE));
8860 }
8861
8862 void *
8863 pmap_mapdev_pciecfg(vm_paddr_t pa, vm_size_t size)
8864 {
8865
8866         return (pmap_mapdev_internal(pa, size, PAT_UNCACHEABLE,
8867             MAPDEV_SETATTR));
8868 }
8869
8870 void *
8871 pmap_mapbios(vm_paddr_t pa, vm_size_t size)
8872 {
8873
8874         return (pmap_mapdev_internal(pa, size, PAT_WRITE_BACK,
8875             MAPDEV_FLUSHCACHE));
8876 }
8877
8878 void
8879 pmap_unmapdev(vm_offset_t va, vm_size_t size)
8880 {
8881         struct pmap_preinit_mapping *ppim;
8882         vm_offset_t offset;
8883         int i;
8884
8885         /* If we gave a direct map region in pmap_mapdev, do nothing */
8886         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS)
8887                 return;
8888         offset = va & PAGE_MASK;
8889         size = round_page(offset + size);
8890         va = trunc_page(va);
8891         for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
8892                 ppim = pmap_preinit_mapping + i;
8893                 if (ppim->va == va && ppim->sz == size) {
8894                         if (pmap_initialized)
8895                                 return;
8896                         ppim->pa = 0;
8897                         ppim->va = 0;
8898                         ppim->sz = 0;
8899                         ppim->mode = 0;
8900                         if (va + size == virtual_avail)
8901                                 virtual_avail = va;
8902                         return;
8903                 }
8904         }
8905         if (pmap_initialized) {
8906                 pmap_qremove(va, atop(size));
8907                 kva_free(va, size);
8908         }
8909 }
8910
8911 /*
8912  * Tries to demote a 1GB page mapping.
8913  */
8914 static boolean_t
8915 pmap_demote_pdpe(pmap_t pmap, pdp_entry_t *pdpe, vm_offset_t va)
8916 {
8917         pdp_entry_t newpdpe, oldpdpe;
8918         pd_entry_t *firstpde, newpde, *pde;
8919         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
8920         vm_paddr_t pdpgpa;
8921         vm_page_t pdpg;
8922
8923         PG_A = pmap_accessed_bit(pmap);
8924         PG_M = pmap_modified_bit(pmap);
8925         PG_V = pmap_valid_bit(pmap);
8926         PG_RW = pmap_rw_bit(pmap);
8927
8928         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
8929         oldpdpe = *pdpe;
8930         KASSERT((oldpdpe & (PG_PS | PG_V)) == (PG_PS | PG_V),
8931             ("pmap_demote_pdpe: oldpdpe is missing PG_PS and/or PG_V"));
8932         if ((pdpg = vm_page_alloc(NULL, va >> PDPSHIFT, VM_ALLOC_INTERRUPT |
8933             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED)) == NULL) {
8934                 CTR2(KTR_PMAP, "pmap_demote_pdpe: failure for va %#lx"
8935                     " in pmap %p", va, pmap);
8936                 return (FALSE);
8937         }
8938         pdpgpa = VM_PAGE_TO_PHYS(pdpg);
8939         firstpde = (pd_entry_t *)PHYS_TO_DMAP(pdpgpa);
8940         newpdpe = pdpgpa | PG_M | PG_A | (oldpdpe & PG_U) | PG_RW | PG_V;
8941         KASSERT((oldpdpe & PG_A) != 0,
8942             ("pmap_demote_pdpe: oldpdpe is missing PG_A"));
8943         KASSERT((oldpdpe & (PG_M | PG_RW)) != PG_RW,
8944             ("pmap_demote_pdpe: oldpdpe is missing PG_M"));
8945         newpde = oldpdpe;
8946
8947         /*
8948          * Initialize the page directory page.
8949          */
8950         for (pde = firstpde; pde < firstpde + NPDEPG; pde++) {
8951                 *pde = newpde;
8952                 newpde += NBPDR;
8953         }
8954
8955         /*
8956          * Demote the mapping.
8957          */
8958         *pdpe = newpdpe;
8959
8960         /*
8961          * Invalidate a stale recursive mapping of the page directory page.
8962          */
8963         pmap_invalidate_page(pmap, (vm_offset_t)vtopde(va));
8964
8965         pmap_pdpe_demotions++;
8966         CTR2(KTR_PMAP, "pmap_demote_pdpe: success for va %#lx"
8967             " in pmap %p", va, pmap);
8968         return (TRUE);
8969 }
8970
8971 /*
8972  * Sets the memory attribute for the specified page.
8973  */
8974 void
8975 pmap_page_set_memattr(vm_page_t m, vm_memattr_t ma)
8976 {
8977
8978         m->md.pat_mode = ma;
8979
8980         /*
8981          * If "m" is a normal page, update its direct mapping.  This update
8982          * can be relied upon to perform any cache operations that are
8983          * required for data coherence.
8984          */
8985         if ((m->flags & PG_FICTITIOUS) == 0 &&
8986             pmap_change_attr(PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m)), PAGE_SIZE,
8987             m->md.pat_mode))
8988                 panic("memory attribute change on the direct map failed");
8989 }
8990
8991 /*
8992  * Changes the specified virtual address range's memory type to that given by
8993  * the parameter "mode".  The specified virtual address range must be
8994  * completely contained within either the direct map or the kernel map.  If
8995  * the virtual address range is contained within the kernel map, then the
8996  * memory type for each of the corresponding ranges of the direct map is also
8997  * changed.  (The corresponding ranges of the direct map are those ranges that
8998  * map the same physical pages as the specified virtual address range.)  These
8999  * changes to the direct map are necessary because Intel describes the
9000  * behavior of their processors as "undefined" if two or more mappings to the
9001  * same physical page have different memory types.
9002  *
9003  * Returns zero if the change completed successfully, and either EINVAL or
9004  * ENOMEM if the change failed.  Specifically, EINVAL is returned if some part
9005  * of the virtual address range was not mapped, and ENOMEM is returned if
9006  * there was insufficient memory available to complete the change.  In the
9007  * latter case, the memory type may have been changed on some part of the
9008  * virtual address range or the direct map.
9009  */
9010 int
9011 pmap_change_attr(vm_offset_t va, vm_size_t size, int mode)
9012 {
9013         int error;
9014
9015         PMAP_LOCK(kernel_pmap);
9016         error = pmap_change_props_locked(va, size, PROT_NONE, mode,
9017             MAPDEV_FLUSHCACHE);
9018         PMAP_UNLOCK(kernel_pmap);
9019         return (error);
9020 }
9021
9022 /*
9023  * Changes the specified virtual address range's protections to those
9024  * specified by "prot".  Like pmap_change_attr(), protections for aliases
9025  * in the direct map are updated as well.  Protections on aliasing mappings may
9026  * be a subset of the requested protections; for example, mappings in the direct
9027  * map are never executable.
9028  */
9029 int
9030 pmap_change_prot(vm_offset_t va, vm_size_t size, vm_prot_t prot)
9031 {
9032         int error;
9033
9034         /* Only supported within the kernel map. */
9035         if (va < VM_MIN_KERNEL_ADDRESS)
9036                 return (EINVAL);
9037
9038         PMAP_LOCK(kernel_pmap);
9039         error = pmap_change_props_locked(va, size, prot, -1,
9040             MAPDEV_ASSERTVALID);
9041         PMAP_UNLOCK(kernel_pmap);
9042         return (error);
9043 }
9044
9045 static int
9046 pmap_change_props_locked(vm_offset_t va, vm_size_t size, vm_prot_t prot,
9047     int mode, int flags)
9048 {
9049         vm_offset_t base, offset, tmpva;
9050         vm_paddr_t pa_start, pa_end, pa_end1;
9051         pdp_entry_t *pdpe;
9052         pd_entry_t *pde, pde_bits, pde_mask;
9053         pt_entry_t *pte, pte_bits, pte_mask;
9054         int error;
9055         bool changed;
9056
9057         PMAP_LOCK_ASSERT(kernel_pmap, MA_OWNED);
9058         base = trunc_page(va);
9059         offset = va & PAGE_MASK;
9060         size = round_page(offset + size);
9061
9062         /*
9063          * Only supported on kernel virtual addresses, including the direct
9064          * map but excluding the recursive map.
9065          */
9066         if (base < DMAP_MIN_ADDRESS)
9067                 return (EINVAL);
9068
9069         /*
9070          * Construct our flag sets and masks.  "bits" is the subset of
9071          * "mask" that will be set in each modified PTE.
9072          *
9073          * Mappings in the direct map are never allowed to be executable.
9074          */
9075         pde_bits = pte_bits = 0;
9076         pde_mask = pte_mask = 0;
9077         if (mode != -1) {
9078                 pde_bits |= pmap_cache_bits(kernel_pmap, mode, true);
9079                 pde_mask |= X86_PG_PDE_CACHE;
9080                 pte_bits |= pmap_cache_bits(kernel_pmap, mode, false);
9081                 pte_mask |= X86_PG_PTE_CACHE;
9082         }
9083         if (prot != VM_PROT_NONE) {
9084                 if ((prot & VM_PROT_WRITE) != 0) {
9085                         pde_bits |= X86_PG_RW;
9086                         pte_bits |= X86_PG_RW;
9087                 }
9088                 if ((prot & VM_PROT_EXECUTE) == 0 ||
9089                     va < VM_MIN_KERNEL_ADDRESS) {
9090                         pde_bits |= pg_nx;
9091                         pte_bits |= pg_nx;
9092                 }
9093                 pde_mask |= X86_PG_RW | pg_nx;
9094                 pte_mask |= X86_PG_RW | pg_nx;
9095         }
9096
9097         /*
9098          * Pages that aren't mapped aren't supported.  Also break down 2MB pages
9099          * into 4KB pages if required.
9100          */
9101         for (tmpva = base; tmpva < base + size; ) {
9102                 pdpe = pmap_pdpe(kernel_pmap, tmpva);
9103                 if (pdpe == NULL || *pdpe == 0) {
9104                         KASSERT((flags & MAPDEV_ASSERTVALID) == 0,
9105                             ("%s: addr %#lx is not mapped", __func__, tmpva));
9106                         return (EINVAL);
9107                 }
9108                 if (*pdpe & PG_PS) {
9109                         /*
9110                          * If the current 1GB page already has the required
9111                          * properties, then we need not demote this page.  Just
9112                          * increment tmpva to the next 1GB page frame.
9113                          */
9114                         if ((*pdpe & pde_mask) == pde_bits) {
9115                                 tmpva = trunc_1gpage(tmpva) + NBPDP;
9116                                 continue;
9117                         }
9118
9119                         /*
9120                          * If the current offset aligns with a 1GB page frame
9121                          * and there is at least 1GB left within the range, then
9122                          * we need not break down this page into 2MB pages.
9123                          */
9124                         if ((tmpva & PDPMASK) == 0 &&
9125                             tmpva + PDPMASK < base + size) {
9126                                 tmpva += NBPDP;
9127                                 continue;
9128                         }
9129                         if (!pmap_demote_pdpe(kernel_pmap, pdpe, tmpva))
9130                                 return (ENOMEM);
9131                 }
9132                 pde = pmap_pdpe_to_pde(pdpe, tmpva);
9133                 if (*pde == 0) {
9134                         KASSERT((flags & MAPDEV_ASSERTVALID) == 0,
9135                             ("%s: addr %#lx is not mapped", __func__, tmpva));
9136                         return (EINVAL);
9137                 }
9138                 if (*pde & PG_PS) {
9139                         /*
9140                          * If the current 2MB page already has the required
9141                          * properties, then we need not demote this page.  Just
9142                          * increment tmpva to the next 2MB page frame.
9143                          */
9144                         if ((*pde & pde_mask) == pde_bits) {
9145                                 tmpva = trunc_2mpage(tmpva) + NBPDR;
9146                                 continue;
9147                         }
9148
9149                         /*
9150                          * If the current offset aligns with a 2MB page frame
9151                          * and there is at least 2MB left within the range, then
9152                          * we need not break down this page into 4KB pages.
9153                          */
9154                         if ((tmpva & PDRMASK) == 0 &&
9155                             tmpva + PDRMASK < base + size) {
9156                                 tmpva += NBPDR;
9157                                 continue;
9158                         }
9159                         if (!pmap_demote_pde(kernel_pmap, pde, tmpva))
9160                                 return (ENOMEM);
9161                 }
9162                 pte = pmap_pde_to_pte(pde, tmpva);
9163                 if (*pte == 0) {
9164                         KASSERT((flags & MAPDEV_ASSERTVALID) == 0,
9165                             ("%s: addr %#lx is not mapped", __func__, tmpva));
9166                         return (EINVAL);
9167                 }
9168                 tmpva += PAGE_SIZE;
9169         }
9170         error = 0;
9171
9172         /*
9173          * Ok, all the pages exist, so run through them updating their
9174          * properties if required.
9175          */
9176         changed = false;
9177         pa_start = pa_end = 0;
9178         for (tmpva = base; tmpva < base + size; ) {
9179                 pdpe = pmap_pdpe(kernel_pmap, tmpva);
9180                 if (*pdpe & PG_PS) {
9181                         if ((*pdpe & pde_mask) != pde_bits) {
9182                                 pmap_pte_props(pdpe, pde_bits, pde_mask);
9183                                 changed = true;
9184                         }
9185                         if (tmpva >= VM_MIN_KERNEL_ADDRESS &&
9186                             (*pdpe & PG_PS_FRAME) < dmaplimit) {
9187                                 if (pa_start == pa_end) {
9188                                         /* Start physical address run. */
9189                                         pa_start = *pdpe & PG_PS_FRAME;
9190                                         pa_end = pa_start + NBPDP;
9191                                 } else if (pa_end == (*pdpe & PG_PS_FRAME))
9192                                         pa_end += NBPDP;
9193                                 else {
9194                                         /* Run ended, update direct map. */
9195                                         error = pmap_change_props_locked(
9196                                             PHYS_TO_DMAP(pa_start),
9197                                             pa_end - pa_start, prot, mode,
9198                                             flags);
9199                                         if (error != 0)
9200                                                 break;
9201                                         /* Start physical address run. */
9202                                         pa_start = *pdpe & PG_PS_FRAME;
9203                                         pa_end = pa_start + NBPDP;
9204                                 }
9205                         }
9206                         tmpva = trunc_1gpage(tmpva) + NBPDP;
9207                         continue;
9208                 }
9209                 pde = pmap_pdpe_to_pde(pdpe, tmpva);
9210                 if (*pde & PG_PS) {
9211                         if ((*pde & pde_mask) != pde_bits) {
9212                                 pmap_pte_props(pde, pde_bits, pde_mask);
9213                                 changed = true;
9214                         }
9215                         if (tmpva >= VM_MIN_KERNEL_ADDRESS &&
9216                             (*pde & PG_PS_FRAME) < dmaplimit) {
9217                                 if (pa_start == pa_end) {
9218                                         /* Start physical address run. */
9219                                         pa_start = *pde & PG_PS_FRAME;
9220                                         pa_end = pa_start + NBPDR;
9221                                 } else if (pa_end == (*pde & PG_PS_FRAME))
9222                                         pa_end += NBPDR;
9223                                 else {
9224                                         /* Run ended, update direct map. */
9225                                         error = pmap_change_props_locked(
9226                                             PHYS_TO_DMAP(pa_start),
9227                                             pa_end - pa_start, prot, mode,
9228                                             flags);
9229                                         if (error != 0)
9230                                                 break;
9231                                         /* Start physical address run. */
9232                                         pa_start = *pde & PG_PS_FRAME;
9233                                         pa_end = pa_start + NBPDR;
9234                                 }
9235                         }
9236                         tmpva = trunc_2mpage(tmpva) + NBPDR;
9237                 } else {
9238                         pte = pmap_pde_to_pte(pde, tmpva);
9239                         if ((*pte & pte_mask) != pte_bits) {
9240                                 pmap_pte_props(pte, pte_bits, pte_mask);
9241                                 changed = true;
9242                         }
9243                         if (tmpva >= VM_MIN_KERNEL_ADDRESS &&
9244                             (*pte & PG_FRAME) < dmaplimit) {
9245                                 if (pa_start == pa_end) {
9246                                         /* Start physical address run. */
9247                                         pa_start = *pte & PG_FRAME;
9248                                         pa_end = pa_start + PAGE_SIZE;
9249                                 } else if (pa_end == (*pte & PG_FRAME))
9250                                         pa_end += PAGE_SIZE;
9251                                 else {
9252                                         /* Run ended, update direct map. */
9253                                         error = pmap_change_props_locked(
9254                                             PHYS_TO_DMAP(pa_start),
9255                                             pa_end - pa_start, prot, mode,
9256                                             flags);
9257                                         if (error != 0)
9258                                                 break;
9259                                         /* Start physical address run. */
9260                                         pa_start = *pte & PG_FRAME;
9261                                         pa_end = pa_start + PAGE_SIZE;
9262                                 }
9263                         }
9264                         tmpva += PAGE_SIZE;
9265                 }
9266         }
9267         if (error == 0 && pa_start != pa_end && pa_start < dmaplimit) {
9268                 pa_end1 = MIN(pa_end, dmaplimit);
9269                 if (pa_start != pa_end1)
9270                         error = pmap_change_props_locked(PHYS_TO_DMAP(pa_start),
9271                             pa_end1 - pa_start, prot, mode, flags);
9272         }
9273
9274         /*
9275          * Flush CPU caches if required to make sure any data isn't cached that
9276          * shouldn't be, etc.
9277          */
9278         if (changed) {
9279                 pmap_invalidate_range(kernel_pmap, base, tmpva);
9280                 if ((flags & MAPDEV_FLUSHCACHE) != 0)
9281                         pmap_invalidate_cache_range(base, tmpva);
9282         }
9283         return (error);
9284 }
9285
9286 /*
9287  * Demotes any mapping within the direct map region that covers more than the
9288  * specified range of physical addresses.  This range's size must be a power
9289  * of two and its starting address must be a multiple of its size.  Since the
9290  * demotion does not change any attributes of the mapping, a TLB invalidation
9291  * is not mandatory.  The caller may, however, request a TLB invalidation.
9292  */
9293 void
9294 pmap_demote_DMAP(vm_paddr_t base, vm_size_t len, boolean_t invalidate)
9295 {
9296         pdp_entry_t *pdpe;
9297         pd_entry_t *pde;
9298         vm_offset_t va;
9299         boolean_t changed;
9300
9301         if (len == 0)
9302                 return;
9303         KASSERT(powerof2(len), ("pmap_demote_DMAP: len is not a power of 2"));
9304         KASSERT((base & (len - 1)) == 0,
9305             ("pmap_demote_DMAP: base is not a multiple of len"));
9306         if (len < NBPDP && base < dmaplimit) {
9307                 va = PHYS_TO_DMAP(base);
9308                 changed = FALSE;
9309                 PMAP_LOCK(kernel_pmap);
9310                 pdpe = pmap_pdpe(kernel_pmap, va);
9311                 if ((*pdpe & X86_PG_V) == 0)
9312                         panic("pmap_demote_DMAP: invalid PDPE");
9313                 if ((*pdpe & PG_PS) != 0) {
9314                         if (!pmap_demote_pdpe(kernel_pmap, pdpe, va))
9315                                 panic("pmap_demote_DMAP: PDPE failed");
9316                         changed = TRUE;
9317                 }
9318                 if (len < NBPDR) {
9319                         pde = pmap_pdpe_to_pde(pdpe, va);
9320                         if ((*pde & X86_PG_V) == 0)
9321                                 panic("pmap_demote_DMAP: invalid PDE");
9322                         if ((*pde & PG_PS) != 0) {
9323                                 if (!pmap_demote_pde(kernel_pmap, pde, va))
9324                                         panic("pmap_demote_DMAP: PDE failed");
9325                                 changed = TRUE;
9326                         }
9327                 }
9328                 if (changed && invalidate)
9329                         pmap_invalidate_page(kernel_pmap, va);
9330                 PMAP_UNLOCK(kernel_pmap);
9331         }
9332 }
9333
9334 /*
9335  * Perform the pmap work for mincore(2).  If the page is not both referenced and
9336  * modified by this pmap, returns its physical address so that the caller can
9337  * find other mappings.
9338  */
9339 int
9340 pmap_mincore(pmap_t pmap, vm_offset_t addr, vm_paddr_t *pap)
9341 {
9342         pdp_entry_t *pdpe;
9343         pd_entry_t *pdep;
9344         pt_entry_t pte, PG_A, PG_M, PG_RW, PG_V;
9345         vm_paddr_t pa;
9346         int val;
9347
9348         PG_A = pmap_accessed_bit(pmap);
9349         PG_M = pmap_modified_bit(pmap);
9350         PG_V = pmap_valid_bit(pmap);
9351         PG_RW = pmap_rw_bit(pmap);
9352
9353         PMAP_LOCK(pmap);
9354         pte = 0;
9355         pa = 0;
9356         val = 0;
9357         pdpe = pmap_pdpe(pmap, addr);
9358         if ((*pdpe & PG_V) != 0) {
9359                 if ((*pdpe & PG_PS) != 0) {
9360                         pte = *pdpe;
9361                         pa = ((pte & PG_PS_PDP_FRAME) | (addr & PDPMASK)) &
9362                             PG_FRAME;
9363                         val = MINCORE_PSIND(2);
9364                 } else {
9365                         pdep = pmap_pde(pmap, addr);
9366                         if (pdep != NULL && (*pdep & PG_V) != 0) {
9367                                 if ((*pdep & PG_PS) != 0) {
9368                                         pte = *pdep;
9369                         /* Compute the physical address of the 4KB page. */
9370                                         pa = ((pte & PG_PS_FRAME) | (addr &
9371                                             PDRMASK)) & PG_FRAME;
9372                                         val = MINCORE_PSIND(1);
9373                                 } else {
9374                                         pte = *pmap_pde_to_pte(pdep, addr);
9375                                         pa = pte & PG_FRAME;
9376                                         val = 0;
9377                                 }
9378                         }
9379                 }
9380         }
9381         if ((pte & PG_V) != 0) {
9382                 val |= MINCORE_INCORE;
9383                 if ((pte & (PG_M | PG_RW)) == (PG_M | PG_RW))
9384                         val |= MINCORE_MODIFIED | MINCORE_MODIFIED_OTHER;
9385                 if ((pte & PG_A) != 0)
9386                         val |= MINCORE_REFERENCED | MINCORE_REFERENCED_OTHER;
9387         }
9388         if ((val & (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER)) !=
9389             (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER) &&
9390             (pte & (PG_MANAGED | PG_V)) == (PG_MANAGED | PG_V)) {
9391                 *pap = pa;
9392         }
9393         PMAP_UNLOCK(pmap);
9394         return (val);
9395 }
9396
9397 static uint64_t
9398 pmap_pcid_alloc(pmap_t pmap, u_int cpuid)
9399 {
9400         uint32_t gen, new_gen, pcid_next;
9401
9402         CRITICAL_ASSERT(curthread);
9403         gen = PCPU_GET(pcid_gen);
9404         if (pmap->pm_pcids[cpuid].pm_pcid == PMAP_PCID_KERN)
9405                 return (pti ? 0 : CR3_PCID_SAVE);
9406         if (pmap->pm_pcids[cpuid].pm_gen == gen)
9407                 return (CR3_PCID_SAVE);
9408         pcid_next = PCPU_GET(pcid_next);
9409         KASSERT((!pti && pcid_next <= PMAP_PCID_OVERMAX) ||
9410             (pti && pcid_next <= PMAP_PCID_OVERMAX_KERN),
9411             ("cpu %d pcid_next %#x", cpuid, pcid_next));
9412         if ((!pti && pcid_next == PMAP_PCID_OVERMAX) ||
9413             (pti && pcid_next == PMAP_PCID_OVERMAX_KERN)) {
9414                 new_gen = gen + 1;
9415                 if (new_gen == 0)
9416                         new_gen = 1;
9417                 PCPU_SET(pcid_gen, new_gen);
9418                 pcid_next = PMAP_PCID_KERN + 1;
9419         } else {
9420                 new_gen = gen;
9421         }
9422         pmap->pm_pcids[cpuid].pm_pcid = pcid_next;
9423         pmap->pm_pcids[cpuid].pm_gen = new_gen;
9424         PCPU_SET(pcid_next, pcid_next + 1);
9425         return (0);
9426 }
9427
9428 static uint64_t
9429 pmap_pcid_alloc_checked(pmap_t pmap, u_int cpuid)
9430 {
9431         uint64_t cached;
9432
9433         cached = pmap_pcid_alloc(pmap, cpuid);
9434         KASSERT(pmap->pm_pcids[cpuid].pm_pcid < PMAP_PCID_OVERMAX,
9435             ("pmap %p cpu %d pcid %#x", pmap, cpuid,
9436             pmap->pm_pcids[cpuid].pm_pcid));
9437         KASSERT(pmap->pm_pcids[cpuid].pm_pcid != PMAP_PCID_KERN ||
9438             pmap == kernel_pmap,
9439             ("non-kernel pmap pmap %p cpu %d pcid %#x",
9440             pmap, cpuid, pmap->pm_pcids[cpuid].pm_pcid));
9441         return (cached);
9442 }
9443
9444 static void
9445 pmap_activate_sw_pti_post(struct thread *td, pmap_t pmap)
9446 {
9447
9448         PCPU_GET(tssp)->tss_rsp0 = pmap->pm_ucr3 != PMAP_NO_CR3 ?
9449             PCPU_GET(pti_rsp0) : (uintptr_t)td->td_md.md_stack_base;
9450 }
9451
9452 static void
9453 pmap_activate_sw_pcid_pti(struct thread *td, pmap_t pmap, u_int cpuid)
9454 {
9455         pmap_t old_pmap;
9456         uint64_t cached, cr3, kcr3, ucr3;
9457
9458         KASSERT((read_rflags() & PSL_I) == 0,
9459             ("PCID needs interrupts disabled in pmap_activate_sw()"));
9460
9461         /* See the comment in pmap_invalidate_page_pcid(). */
9462         if (PCPU_GET(ucr3_load_mask) != PMAP_UCR3_NOMASK) {
9463                 PCPU_SET(ucr3_load_mask, PMAP_UCR3_NOMASK);
9464                 old_pmap = PCPU_GET(curpmap);
9465                 MPASS(old_pmap->pm_ucr3 != PMAP_NO_CR3);
9466                 old_pmap->pm_pcids[cpuid].pm_gen = 0;
9467         }
9468
9469         cached = pmap_pcid_alloc_checked(pmap, cpuid);
9470         cr3 = rcr3();
9471         if ((cr3 & ~CR3_PCID_MASK) != pmap->pm_cr3)
9472                 load_cr3(pmap->pm_cr3 | pmap->pm_pcids[cpuid].pm_pcid);
9473         PCPU_SET(curpmap, pmap);
9474         kcr3 = pmap->pm_cr3 | pmap->pm_pcids[cpuid].pm_pcid;
9475         ucr3 = pmap->pm_ucr3 | pmap->pm_pcids[cpuid].pm_pcid |
9476             PMAP_PCID_USER_PT;
9477
9478         if (!cached && pmap->pm_ucr3 != PMAP_NO_CR3)
9479                 PCPU_SET(ucr3_load_mask, ~CR3_PCID_SAVE);
9480
9481         PCPU_SET(kcr3, kcr3 | CR3_PCID_SAVE);
9482         PCPU_SET(ucr3, ucr3 | CR3_PCID_SAVE);
9483         if (cached)
9484                 PCPU_INC(pm_save_cnt);
9485
9486         pmap_activate_sw_pti_post(td, pmap);
9487 }
9488
9489 static void
9490 pmap_activate_sw_pcid_nopti(struct thread *td __unused, pmap_t pmap,
9491     u_int cpuid)
9492 {
9493         uint64_t cached, cr3;
9494
9495         KASSERT((read_rflags() & PSL_I) == 0,
9496             ("PCID needs interrupts disabled in pmap_activate_sw()"));
9497
9498         cached = pmap_pcid_alloc_checked(pmap, cpuid);
9499         cr3 = rcr3();
9500         if (!cached || (cr3 & ~CR3_PCID_MASK) != pmap->pm_cr3)
9501                 load_cr3(pmap->pm_cr3 | pmap->pm_pcids[cpuid].pm_pcid |
9502                     cached);
9503         PCPU_SET(curpmap, pmap);
9504         if (cached)
9505                 PCPU_INC(pm_save_cnt);
9506 }
9507
9508 static void
9509 pmap_activate_sw_nopcid_nopti(struct thread *td __unused, pmap_t pmap,
9510     u_int cpuid __unused)
9511 {
9512
9513         load_cr3(pmap->pm_cr3);
9514         PCPU_SET(curpmap, pmap);
9515 }
9516
9517 static void
9518 pmap_activate_sw_nopcid_pti(struct thread *td, pmap_t pmap,
9519     u_int cpuid __unused)
9520 {
9521
9522         pmap_activate_sw_nopcid_nopti(td, pmap, cpuid);
9523         PCPU_SET(kcr3, pmap->pm_cr3);
9524         PCPU_SET(ucr3, pmap->pm_ucr3);
9525         pmap_activate_sw_pti_post(td, pmap);
9526 }
9527
9528 DEFINE_IFUNC(static, void, pmap_activate_sw_mode, (struct thread *, pmap_t,
9529     u_int))
9530 {
9531
9532         if (pmap_pcid_enabled && pti)
9533                 return (pmap_activate_sw_pcid_pti);
9534         else if (pmap_pcid_enabled && !pti)
9535                 return (pmap_activate_sw_pcid_nopti);
9536         else if (!pmap_pcid_enabled && pti)
9537                 return (pmap_activate_sw_nopcid_pti);
9538         else /* if (!pmap_pcid_enabled && !pti) */
9539                 return (pmap_activate_sw_nopcid_nopti);
9540 }
9541
9542 void
9543 pmap_activate_sw(struct thread *td)
9544 {
9545         pmap_t oldpmap, pmap;
9546         u_int cpuid;
9547
9548         oldpmap = PCPU_GET(curpmap);
9549         pmap = vmspace_pmap(td->td_proc->p_vmspace);
9550         if (oldpmap == pmap) {
9551                 if (cpu_vendor_id != CPU_VENDOR_INTEL)
9552                         mfence();
9553                 return;
9554         }
9555         cpuid = PCPU_GET(cpuid);
9556 #ifdef SMP
9557         CPU_SET_ATOMIC(cpuid, &pmap->pm_active);
9558 #else
9559         CPU_SET(cpuid, &pmap->pm_active);
9560 #endif
9561         pmap_activate_sw_mode(td, pmap, cpuid);
9562 #ifdef SMP
9563         CPU_CLR_ATOMIC(cpuid, &oldpmap->pm_active);
9564 #else
9565         CPU_CLR(cpuid, &oldpmap->pm_active);
9566 #endif
9567 }
9568
9569 void
9570 pmap_activate(struct thread *td)
9571 {
9572         /*
9573          * invltlb_{invpcid,}_pcid_handler() is used to handle an
9574          * invalidate_all IPI, which checks for curpmap ==
9575          * smp_tlb_pmap.  The below sequence of operations has a
9576          * window where %CR3 is loaded with the new pmap's PML4
9577          * address, but the curpmap value has not yet been updated.
9578          * This causes the invltlb IPI handler, which is called
9579          * between the updates, to execute as a NOP, which leaves
9580          * stale TLB entries.
9581          *
9582          * Note that the most common use of pmap_activate_sw(), from
9583          * a context switch, is immune to this race, because
9584          * interrupts are disabled (while the thread lock is owned),
9585          * so the IPI is delayed until after curpmap is updated.  Protect
9586          * other callers in a similar way, by disabling interrupts
9587          * around the %cr3 register reload and curpmap assignment.
9588          */
9589         spinlock_enter();
9590         pmap_activate_sw(td);
9591         spinlock_exit();
9592 }
9593
9594 void
9595 pmap_activate_boot(pmap_t pmap)
9596 {
9597         uint64_t kcr3;
9598         u_int cpuid;
9599
9600         /*
9601          * kernel_pmap must be never deactivated, and we ensure that
9602          * by never activating it at all.
9603          */
9604         MPASS(pmap != kernel_pmap);
9605
9606         cpuid = PCPU_GET(cpuid);
9607 #ifdef SMP
9608         CPU_SET_ATOMIC(cpuid, &pmap->pm_active);
9609 #else
9610         CPU_SET(cpuid, &pmap->pm_active);
9611 #endif
9612         PCPU_SET(curpmap, pmap);
9613         if (pti) {
9614                 kcr3 = pmap->pm_cr3;
9615                 if (pmap_pcid_enabled)
9616                         kcr3 |= pmap->pm_pcids[cpuid].pm_pcid | CR3_PCID_SAVE;
9617         } else {
9618                 kcr3 = PMAP_NO_CR3;
9619         }
9620         PCPU_SET(kcr3, kcr3);
9621         PCPU_SET(ucr3, PMAP_NO_CR3);
9622 }
9623
9624 void
9625 pmap_sync_icache(pmap_t pm, vm_offset_t va, vm_size_t sz)
9626 {
9627 }
9628
9629 /*
9630  *      Increase the starting virtual address of the given mapping if a
9631  *      different alignment might result in more superpage mappings.
9632  */
9633 void
9634 pmap_align_superpage(vm_object_t object, vm_ooffset_t offset,
9635     vm_offset_t *addr, vm_size_t size)
9636 {
9637         vm_offset_t superpage_offset;
9638
9639         if (size < NBPDR)
9640                 return;
9641         if (object != NULL && (object->flags & OBJ_COLORED) != 0)
9642                 offset += ptoa(object->pg_color);
9643         superpage_offset = offset & PDRMASK;
9644         if (size - ((NBPDR - superpage_offset) & PDRMASK) < NBPDR ||
9645             (*addr & PDRMASK) == superpage_offset)
9646                 return;
9647         if ((*addr & PDRMASK) < superpage_offset)
9648                 *addr = (*addr & ~PDRMASK) + superpage_offset;
9649         else
9650                 *addr = ((*addr + PDRMASK) & ~PDRMASK) + superpage_offset;
9651 }
9652
9653 #ifdef INVARIANTS
9654 static unsigned long num_dirty_emulations;
9655 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_dirty_emulations, CTLFLAG_RW,
9656              &num_dirty_emulations, 0, NULL);
9657
9658 static unsigned long num_accessed_emulations;
9659 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_accessed_emulations, CTLFLAG_RW,
9660              &num_accessed_emulations, 0, NULL);
9661
9662 static unsigned long num_superpage_accessed_emulations;
9663 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_superpage_accessed_emulations, CTLFLAG_RW,
9664              &num_superpage_accessed_emulations, 0, NULL);
9665
9666 static unsigned long ad_emulation_superpage_promotions;
9667 SYSCTL_ULONG(_vm_pmap, OID_AUTO, ad_emulation_superpage_promotions, CTLFLAG_RW,
9668              &ad_emulation_superpage_promotions, 0, NULL);
9669 #endif  /* INVARIANTS */
9670
9671 int
9672 pmap_emulate_accessed_dirty(pmap_t pmap, vm_offset_t va, int ftype)
9673 {
9674         int rv;
9675         struct rwlock *lock;
9676 #if VM_NRESERVLEVEL > 0
9677         vm_page_t m, mpte;
9678 #endif
9679         pd_entry_t *pde;
9680         pt_entry_t *pte, PG_A, PG_M, PG_RW, PG_V;
9681
9682         KASSERT(ftype == VM_PROT_READ || ftype == VM_PROT_WRITE,
9683             ("pmap_emulate_accessed_dirty: invalid fault type %d", ftype));
9684
9685         if (!pmap_emulate_ad_bits(pmap))
9686                 return (-1);
9687
9688         PG_A = pmap_accessed_bit(pmap);
9689         PG_M = pmap_modified_bit(pmap);
9690         PG_V = pmap_valid_bit(pmap);
9691         PG_RW = pmap_rw_bit(pmap);
9692
9693         rv = -1;
9694         lock = NULL;
9695         PMAP_LOCK(pmap);
9696
9697         pde = pmap_pde(pmap, va);
9698         if (pde == NULL || (*pde & PG_V) == 0)
9699                 goto done;
9700
9701         if ((*pde & PG_PS) != 0) {
9702                 if (ftype == VM_PROT_READ) {
9703 #ifdef INVARIANTS
9704                         atomic_add_long(&num_superpage_accessed_emulations, 1);
9705 #endif
9706                         *pde |= PG_A;
9707                         rv = 0;
9708                 }
9709                 goto done;
9710         }
9711
9712         pte = pmap_pde_to_pte(pde, va);
9713         if ((*pte & PG_V) == 0)
9714                 goto done;
9715
9716         if (ftype == VM_PROT_WRITE) {
9717                 if ((*pte & PG_RW) == 0)
9718                         goto done;
9719                 /*
9720                  * Set the modified and accessed bits simultaneously.
9721                  *
9722                  * Intel EPT PTEs that do software emulation of A/D bits map
9723                  * PG_A and PG_M to EPT_PG_READ and EPT_PG_WRITE respectively.
9724                  * An EPT misconfiguration is triggered if the PTE is writable
9725                  * but not readable (WR=10). This is avoided by setting PG_A
9726                  * and PG_M simultaneously.
9727                  */
9728                 *pte |= PG_M | PG_A;
9729         } else {
9730                 *pte |= PG_A;
9731         }
9732
9733 #if VM_NRESERVLEVEL > 0
9734         /* try to promote the mapping */
9735         if (va < VM_MAXUSER_ADDRESS)
9736                 mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
9737         else
9738                 mpte = NULL;
9739
9740         m = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
9741
9742         if ((mpte == NULL || mpte->ref_count == NPTEPG) &&
9743             pmap_ps_enabled(pmap) &&
9744             (m->flags & PG_FICTITIOUS) == 0 &&
9745             vm_reserv_level_iffullpop(m) == 0) {
9746                 pmap_promote_pde(pmap, pde, va, &lock);
9747 #ifdef INVARIANTS
9748                 atomic_add_long(&ad_emulation_superpage_promotions, 1);
9749 #endif
9750         }
9751 #endif
9752
9753 #ifdef INVARIANTS
9754         if (ftype == VM_PROT_WRITE)
9755                 atomic_add_long(&num_dirty_emulations, 1);
9756         else
9757                 atomic_add_long(&num_accessed_emulations, 1);
9758 #endif
9759         rv = 0;         /* success */
9760 done:
9761         if (lock != NULL)
9762                 rw_wunlock(lock);
9763         PMAP_UNLOCK(pmap);
9764         return (rv);
9765 }
9766
9767 void
9768 pmap_get_mapping(pmap_t pmap, vm_offset_t va, uint64_t *ptr, int *num)
9769 {
9770         pml4_entry_t *pml4;
9771         pdp_entry_t *pdp;
9772         pd_entry_t *pde;
9773         pt_entry_t *pte, PG_V;
9774         int idx;
9775
9776         idx = 0;
9777         PG_V = pmap_valid_bit(pmap);
9778         PMAP_LOCK(pmap);
9779
9780         pml4 = pmap_pml4e(pmap, va);
9781         if (pml4 == NULL)
9782                 goto done;
9783         ptr[idx++] = *pml4;
9784         if ((*pml4 & PG_V) == 0)
9785                 goto done;
9786
9787         pdp = pmap_pml4e_to_pdpe(pml4, va);
9788         ptr[idx++] = *pdp;
9789         if ((*pdp & PG_V) == 0 || (*pdp & PG_PS) != 0)
9790                 goto done;
9791
9792         pde = pmap_pdpe_to_pde(pdp, va);
9793         ptr[idx++] = *pde;
9794         if ((*pde & PG_V) == 0 || (*pde & PG_PS) != 0)
9795                 goto done;
9796
9797         pte = pmap_pde_to_pte(pde, va);
9798         ptr[idx++] = *pte;
9799
9800 done:
9801         PMAP_UNLOCK(pmap);
9802         *num = idx;
9803 }
9804
9805 /**
9806  * Get the kernel virtual address of a set of physical pages. If there are
9807  * physical addresses not covered by the DMAP perform a transient mapping
9808  * that will be removed when calling pmap_unmap_io_transient.
9809  *
9810  * \param page        The pages the caller wishes to obtain the virtual
9811  *                    address on the kernel memory map.
9812  * \param vaddr       On return contains the kernel virtual memory address
9813  *                    of the pages passed in the page parameter.
9814  * \param count       Number of pages passed in.
9815  * \param can_fault   TRUE if the thread using the mapped pages can take
9816  *                    page faults, FALSE otherwise.
9817  *
9818  * \returns TRUE if the caller must call pmap_unmap_io_transient when
9819  *          finished or FALSE otherwise.
9820  *
9821  */
9822 boolean_t
9823 pmap_map_io_transient(vm_page_t page[], vm_offset_t vaddr[], int count,
9824     boolean_t can_fault)
9825 {
9826         vm_paddr_t paddr;
9827         boolean_t needs_mapping;
9828         pt_entry_t *pte;
9829         int cache_bits, error __unused, i;
9830
9831         /*
9832          * Allocate any KVA space that we need, this is done in a separate
9833          * loop to prevent calling vmem_alloc while pinned.
9834          */
9835         needs_mapping = FALSE;
9836         for (i = 0; i < count; i++) {
9837                 paddr = VM_PAGE_TO_PHYS(page[i]);
9838                 if (__predict_false(paddr >= dmaplimit)) {
9839                         error = vmem_alloc(kernel_arena, PAGE_SIZE,
9840                             M_BESTFIT | M_WAITOK, &vaddr[i]);
9841                         KASSERT(error == 0, ("vmem_alloc failed: %d", error));
9842                         needs_mapping = TRUE;
9843                 } else {
9844                         vaddr[i] = PHYS_TO_DMAP(paddr);
9845                 }
9846         }
9847
9848         /* Exit early if everything is covered by the DMAP */
9849         if (!needs_mapping)
9850                 return (FALSE);
9851
9852         /*
9853          * NB:  The sequence of updating a page table followed by accesses
9854          * to the corresponding pages used in the !DMAP case is subject to
9855          * the situation described in the "AMD64 Architecture Programmer's
9856          * Manual Volume 2: System Programming" rev. 3.23, "7.3.1 Special
9857          * Coherency Considerations".  Therefore, issuing the INVLPG right
9858          * after modifying the PTE bits is crucial.
9859          */
9860         if (!can_fault)
9861                 sched_pin();
9862         for (i = 0; i < count; i++) {
9863                 paddr = VM_PAGE_TO_PHYS(page[i]);
9864                 if (paddr >= dmaplimit) {
9865                         if (can_fault) {
9866                                 /*
9867                                  * Slow path, since we can get page faults
9868                                  * while mappings are active don't pin the
9869                                  * thread to the CPU and instead add a global
9870                                  * mapping visible to all CPUs.
9871                                  */
9872                                 pmap_qenter(vaddr[i], &page[i], 1);
9873                         } else {
9874                                 pte = vtopte(vaddr[i]);
9875                                 cache_bits = pmap_cache_bits(kernel_pmap,
9876                                     page[i]->md.pat_mode, 0);
9877                                 pte_store(pte, paddr | X86_PG_RW | X86_PG_V |
9878                                     cache_bits);
9879                                 invlpg(vaddr[i]);
9880                         }
9881                 }
9882         }
9883
9884         return (needs_mapping);
9885 }
9886
9887 void
9888 pmap_unmap_io_transient(vm_page_t page[], vm_offset_t vaddr[], int count,
9889     boolean_t can_fault)
9890 {
9891         vm_paddr_t paddr;
9892         int i;
9893
9894         if (!can_fault)
9895                 sched_unpin();
9896         for (i = 0; i < count; i++) {
9897                 paddr = VM_PAGE_TO_PHYS(page[i]);
9898                 if (paddr >= dmaplimit) {
9899                         if (can_fault)
9900                                 pmap_qremove(vaddr[i], 1);
9901                         vmem_free(kernel_arena, vaddr[i], PAGE_SIZE);
9902                 }
9903         }
9904 }
9905
9906 vm_offset_t
9907 pmap_quick_enter_page(vm_page_t m)
9908 {
9909         vm_paddr_t paddr;
9910
9911         paddr = VM_PAGE_TO_PHYS(m);
9912         if (paddr < dmaplimit)
9913                 return (PHYS_TO_DMAP(paddr));
9914         mtx_lock_spin(&qframe_mtx);
9915         KASSERT(*vtopte(qframe) == 0, ("qframe busy"));
9916         pte_store(vtopte(qframe), paddr | X86_PG_RW | X86_PG_V | X86_PG_A |
9917             X86_PG_M | pmap_cache_bits(kernel_pmap, m->md.pat_mode, 0));
9918         return (qframe);
9919 }
9920
9921 void
9922 pmap_quick_remove_page(vm_offset_t addr)
9923 {
9924
9925         if (addr != qframe)
9926                 return;
9927         pte_store(vtopte(qframe), 0);
9928         invlpg(qframe);
9929         mtx_unlock_spin(&qframe_mtx);
9930 }
9931
9932 /*
9933  * Pdp pages from the large map are managed differently from either
9934  * kernel or user page table pages.  They are permanently allocated at
9935  * initialization time, and their reference count is permanently set to
9936  * zero.  The pml4 entries pointing to those pages are copied into
9937  * each allocated pmap.
9938  *
9939  * In contrast, pd and pt pages are managed like user page table
9940  * pages.  They are dynamically allocated, and their reference count
9941  * represents the number of valid entries within the page.
9942  */
9943 static vm_page_t
9944 pmap_large_map_getptp_unlocked(void)
9945 {
9946         vm_page_t m;
9947
9948         m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
9949             VM_ALLOC_ZERO);
9950         if (m != NULL && (m->flags & PG_ZERO) == 0)
9951                 pmap_zero_page(m);
9952         return (m);
9953 }
9954
9955 static vm_page_t
9956 pmap_large_map_getptp(void)
9957 {
9958         vm_page_t m;
9959
9960         PMAP_LOCK_ASSERT(kernel_pmap, MA_OWNED);
9961         m = pmap_large_map_getptp_unlocked();
9962         if (m == NULL) {
9963                 PMAP_UNLOCK(kernel_pmap);
9964                 vm_wait(NULL);
9965                 PMAP_LOCK(kernel_pmap);
9966                 /* Callers retry. */
9967         }
9968         return (m);
9969 }
9970
9971 static pdp_entry_t *
9972 pmap_large_map_pdpe(vm_offset_t va)
9973 {
9974         vm_pindex_t pml4_idx;
9975         vm_paddr_t mphys;
9976
9977         pml4_idx = pmap_pml4e_index(va);
9978         KASSERT(LMSPML4I <= pml4_idx && pml4_idx < LMSPML4I + lm_ents,
9979             ("pmap_large_map_pdpe: va %#jx out of range idx %#jx LMSPML4I "
9980             "%#jx lm_ents %d",
9981             (uintmax_t)va, (uintmax_t)pml4_idx, LMSPML4I, lm_ents));
9982         KASSERT((kernel_pml4[pml4_idx] & X86_PG_V) != 0,
9983             ("pmap_large_map_pdpe: invalid pml4 for va %#jx idx %#jx "
9984             "LMSPML4I %#jx lm_ents %d",
9985             (uintmax_t)va, (uintmax_t)pml4_idx, LMSPML4I, lm_ents));
9986         mphys = kernel_pml4[pml4_idx] & PG_FRAME;
9987         return ((pdp_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pdpe_index(va));
9988 }
9989
9990 static pd_entry_t *
9991 pmap_large_map_pde(vm_offset_t va)
9992 {
9993         pdp_entry_t *pdpe;
9994         vm_page_t m;
9995         vm_paddr_t mphys;
9996
9997 retry:
9998         pdpe = pmap_large_map_pdpe(va);
9999         if (*pdpe == 0) {
10000                 m = pmap_large_map_getptp();
10001                 if (m == NULL)
10002                         goto retry;
10003                 mphys = VM_PAGE_TO_PHYS(m);
10004                 *pdpe = mphys | X86_PG_A | X86_PG_RW | X86_PG_V | pg_nx;
10005         } else {
10006                 MPASS((*pdpe & X86_PG_PS) == 0);
10007                 mphys = *pdpe & PG_FRAME;
10008         }
10009         return ((pd_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pde_index(va));
10010 }
10011
10012 static pt_entry_t *
10013 pmap_large_map_pte(vm_offset_t va)
10014 {
10015         pd_entry_t *pde;
10016         vm_page_t m;
10017         vm_paddr_t mphys;
10018
10019 retry:
10020         pde = pmap_large_map_pde(va);
10021         if (*pde == 0) {
10022                 m = pmap_large_map_getptp();
10023                 if (m == NULL)
10024                         goto retry;
10025                 mphys = VM_PAGE_TO_PHYS(m);
10026                 *pde = mphys | X86_PG_A | X86_PG_RW | X86_PG_V | pg_nx;
10027                 PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pde))->ref_count++;
10028         } else {
10029                 MPASS((*pde & X86_PG_PS) == 0);
10030                 mphys = *pde & PG_FRAME;
10031         }
10032         return ((pt_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pte_index(va));
10033 }
10034
10035 static vm_paddr_t
10036 pmap_large_map_kextract(vm_offset_t va)
10037 {
10038         pdp_entry_t *pdpe, pdp;
10039         pd_entry_t *pde, pd;
10040         pt_entry_t *pte, pt;
10041
10042         KASSERT(PMAP_ADDRESS_IN_LARGEMAP(va),
10043             ("not largemap range %#lx", (u_long)va));
10044         pdpe = pmap_large_map_pdpe(va);
10045         pdp = *pdpe;
10046         KASSERT((pdp & X86_PG_V) != 0,
10047             ("invalid pdp va %#lx pdpe %#lx pdp %#lx", va,
10048             (u_long)pdpe, pdp));
10049         if ((pdp & X86_PG_PS) != 0) {
10050                 KASSERT((amd_feature & AMDID_PAGE1GB) != 0,
10051                     ("no 1G pages, va %#lx pdpe %#lx pdp %#lx", va,
10052                     (u_long)pdpe, pdp));
10053                 return ((pdp & PG_PS_PDP_FRAME) | (va & PDPMASK));
10054         }
10055         pde = pmap_pdpe_to_pde(pdpe, va);
10056         pd = *pde;
10057         KASSERT((pd & X86_PG_V) != 0,
10058             ("invalid pd va %#lx pde %#lx pd %#lx", va, (u_long)pde, pd));
10059         if ((pd & X86_PG_PS) != 0)
10060                 return ((pd & PG_PS_FRAME) | (va & PDRMASK));
10061         pte = pmap_pde_to_pte(pde, va);
10062         pt = *pte;
10063         KASSERT((pt & X86_PG_V) != 0,
10064             ("invalid pte va %#lx pte %#lx pt %#lx", va, (u_long)pte, pt));
10065         return ((pt & PG_FRAME) | (va & PAGE_MASK));
10066 }
10067
10068 static int
10069 pmap_large_map_getva(vm_size_t len, vm_offset_t align, vm_offset_t phase,
10070     vmem_addr_t *vmem_res)
10071 {
10072
10073         /*
10074          * Large mappings are all but static.  Consequently, there
10075          * is no point in waiting for an earlier allocation to be
10076          * freed.
10077          */
10078         return (vmem_xalloc(large_vmem, len, align, phase, 0, VMEM_ADDR_MIN,
10079             VMEM_ADDR_MAX, M_NOWAIT | M_BESTFIT, vmem_res));
10080 }
10081
10082 int
10083 pmap_large_map(vm_paddr_t spa, vm_size_t len, void **addr,
10084     vm_memattr_t mattr)
10085 {
10086         pdp_entry_t *pdpe;
10087         pd_entry_t *pde;
10088         pt_entry_t *pte;
10089         vm_offset_t va, inc;
10090         vmem_addr_t vmem_res;
10091         vm_paddr_t pa;
10092         int error;
10093
10094         if (len == 0 || spa + len < spa)
10095                 return (EINVAL);
10096
10097         /* See if DMAP can serve. */
10098         if (spa + len <= dmaplimit) {
10099                 va = PHYS_TO_DMAP(spa);
10100                 *addr = (void *)va;
10101                 return (pmap_change_attr(va, len, mattr));
10102         }
10103
10104         /*
10105          * No, allocate KVA.  Fit the address with best possible
10106          * alignment for superpages.  Fall back to worse align if
10107          * failed.
10108          */
10109         error = ENOMEM;
10110         if ((amd_feature & AMDID_PAGE1GB) != 0 && rounddown2(spa + len,
10111             NBPDP) >= roundup2(spa, NBPDP) + NBPDP)
10112                 error = pmap_large_map_getva(len, NBPDP, spa & PDPMASK,
10113                     &vmem_res);
10114         if (error != 0 && rounddown2(spa + len, NBPDR) >= roundup2(spa,
10115             NBPDR) + NBPDR)
10116                 error = pmap_large_map_getva(len, NBPDR, spa & PDRMASK,
10117                     &vmem_res);
10118         if (error != 0)
10119                 error = pmap_large_map_getva(len, PAGE_SIZE, 0, &vmem_res);
10120         if (error != 0)
10121                 return (error);
10122
10123         /*
10124          * Fill pagetable.  PG_M is not pre-set, we scan modified bits
10125          * in the pagetable to minimize flushing.  No need to
10126          * invalidate TLB, since we only update invalid entries.
10127          */
10128         PMAP_LOCK(kernel_pmap);
10129         for (pa = spa, va = vmem_res; len > 0; pa += inc, va += inc,
10130             len -= inc) {
10131                 if ((amd_feature & AMDID_PAGE1GB) != 0 && len >= NBPDP &&
10132                     (pa & PDPMASK) == 0 && (va & PDPMASK) == 0) {
10133                         pdpe = pmap_large_map_pdpe(va);
10134                         MPASS(*pdpe == 0);
10135                         *pdpe = pa | pg_g | X86_PG_PS | X86_PG_RW |
10136                             X86_PG_V | X86_PG_A | pg_nx |
10137                             pmap_cache_bits(kernel_pmap, mattr, TRUE);
10138                         inc = NBPDP;
10139                 } else if (len >= NBPDR && (pa & PDRMASK) == 0 &&
10140                     (va & PDRMASK) == 0) {
10141                         pde = pmap_large_map_pde(va);
10142                         MPASS(*pde == 0);
10143                         *pde = pa | pg_g | X86_PG_PS | X86_PG_RW |
10144                             X86_PG_V | X86_PG_A | pg_nx |
10145                             pmap_cache_bits(kernel_pmap, mattr, TRUE);
10146                         PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pde))->
10147                             ref_count++;
10148                         inc = NBPDR;
10149                 } else {
10150                         pte = pmap_large_map_pte(va);
10151                         MPASS(*pte == 0);
10152                         *pte = pa | pg_g | X86_PG_RW | X86_PG_V |
10153                             X86_PG_A | pg_nx | pmap_cache_bits(kernel_pmap,
10154                             mattr, FALSE);
10155                         PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pte))->
10156                             ref_count++;
10157                         inc = PAGE_SIZE;
10158                 }
10159         }
10160         PMAP_UNLOCK(kernel_pmap);
10161         MPASS(len == 0);
10162
10163         *addr = (void *)vmem_res;
10164         return (0);
10165 }
10166
10167 void
10168 pmap_large_unmap(void *svaa, vm_size_t len)
10169 {
10170         vm_offset_t sva, va;
10171         vm_size_t inc;
10172         pdp_entry_t *pdpe, pdp;
10173         pd_entry_t *pde, pd;
10174         pt_entry_t *pte;
10175         vm_page_t m;
10176         struct spglist spgf;
10177
10178         sva = (vm_offset_t)svaa;
10179         if (len == 0 || sva + len < sva || (sva >= DMAP_MIN_ADDRESS &&
10180             sva + len <= DMAP_MIN_ADDRESS + dmaplimit))
10181                 return;
10182
10183         SLIST_INIT(&spgf);
10184         KASSERT(PMAP_ADDRESS_IN_LARGEMAP(sva) &&
10185             PMAP_ADDRESS_IN_LARGEMAP(sva + len - 1),
10186             ("not largemap range %#lx %#lx", (u_long)svaa, (u_long)svaa + len));
10187         PMAP_LOCK(kernel_pmap);
10188         for (va = sva; va < sva + len; va += inc) {
10189                 pdpe = pmap_large_map_pdpe(va);
10190                 pdp = *pdpe;
10191                 KASSERT((pdp & X86_PG_V) != 0,
10192                     ("invalid pdp va %#lx pdpe %#lx pdp %#lx", va,
10193                     (u_long)pdpe, pdp));
10194                 if ((pdp & X86_PG_PS) != 0) {
10195                         KASSERT((amd_feature & AMDID_PAGE1GB) != 0,
10196                             ("no 1G pages, va %#lx pdpe %#lx pdp %#lx", va,
10197                             (u_long)pdpe, pdp));
10198                         KASSERT((va & PDPMASK) == 0,
10199                             ("PDPMASK bit set, va %#lx pdpe %#lx pdp %#lx", va,
10200                             (u_long)pdpe, pdp));
10201                         KASSERT(va + NBPDP <= sva + len,
10202                             ("unmap covers partial 1GB page, sva %#lx va %#lx "
10203                             "pdpe %#lx pdp %#lx len %#lx", sva, va,
10204                             (u_long)pdpe, pdp, len));
10205                         *pdpe = 0;
10206                         inc = NBPDP;
10207                         continue;
10208                 }
10209                 pde = pmap_pdpe_to_pde(pdpe, va);
10210                 pd = *pde;
10211                 KASSERT((pd & X86_PG_V) != 0,
10212                     ("invalid pd va %#lx pde %#lx pd %#lx", va,
10213                     (u_long)pde, pd));
10214                 if ((pd & X86_PG_PS) != 0) {
10215                         KASSERT((va & PDRMASK) == 0,
10216                             ("PDRMASK bit set, va %#lx pde %#lx pd %#lx", va,
10217                             (u_long)pde, pd));
10218                         KASSERT(va + NBPDR <= sva + len,
10219                             ("unmap covers partial 2MB page, sva %#lx va %#lx "
10220                             "pde %#lx pd %#lx len %#lx", sva, va, (u_long)pde,
10221                             pd, len));
10222                         pde_store(pde, 0);
10223                         inc = NBPDR;
10224                         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pde));
10225                         m->ref_count--;
10226                         if (m->ref_count == 0) {
10227                                 *pdpe = 0;
10228                                 SLIST_INSERT_HEAD(&spgf, m, plinks.s.ss);
10229                         }
10230                         continue;
10231                 }
10232                 pte = pmap_pde_to_pte(pde, va);
10233                 KASSERT((*pte & X86_PG_V) != 0,
10234                     ("invalid pte va %#lx pte %#lx pt %#lx", va,
10235                     (u_long)pte, *pte));
10236                 pte_clear(pte);
10237                 inc = PAGE_SIZE;
10238                 m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pte));
10239                 m->ref_count--;
10240                 if (m->ref_count == 0) {
10241                         *pde = 0;
10242                         SLIST_INSERT_HEAD(&spgf, m, plinks.s.ss);
10243                         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pde));
10244                         m->ref_count--;
10245                         if (m->ref_count == 0) {
10246                                 *pdpe = 0;
10247                                 SLIST_INSERT_HEAD(&spgf, m, plinks.s.ss);
10248                         }
10249                 }
10250         }
10251         pmap_invalidate_range(kernel_pmap, sva, sva + len);
10252         PMAP_UNLOCK(kernel_pmap);
10253         vm_page_free_pages_toq(&spgf, false);
10254         vmem_free(large_vmem, sva, len);
10255 }
10256
10257 static void
10258 pmap_large_map_wb_fence_mfence(void)
10259 {
10260
10261         mfence();
10262 }
10263
10264 static void
10265 pmap_large_map_wb_fence_atomic(void)
10266 {
10267
10268         atomic_thread_fence_seq_cst();
10269 }
10270
10271 static void
10272 pmap_large_map_wb_fence_nop(void)
10273 {
10274 }
10275
10276 DEFINE_IFUNC(static, void, pmap_large_map_wb_fence, (void))
10277 {
10278
10279         if (cpu_vendor_id != CPU_VENDOR_INTEL)
10280                 return (pmap_large_map_wb_fence_mfence);
10281         else if ((cpu_stdext_feature & (CPUID_STDEXT_CLWB |
10282             CPUID_STDEXT_CLFLUSHOPT)) == 0)
10283                 return (pmap_large_map_wb_fence_atomic);
10284         else
10285                 /* clflush is strongly enough ordered */
10286                 return (pmap_large_map_wb_fence_nop);
10287 }
10288
10289 static void
10290 pmap_large_map_flush_range_clwb(vm_offset_t va, vm_size_t len)
10291 {
10292
10293         for (; len > 0; len -= cpu_clflush_line_size,
10294             va += cpu_clflush_line_size)
10295                 clwb(va);
10296 }
10297
10298 static void
10299 pmap_large_map_flush_range_clflushopt(vm_offset_t va, vm_size_t len)
10300 {
10301
10302         for (; len > 0; len -= cpu_clflush_line_size,
10303             va += cpu_clflush_line_size)
10304                 clflushopt(va);
10305 }
10306
10307 static void
10308 pmap_large_map_flush_range_clflush(vm_offset_t va, vm_size_t len)
10309 {
10310
10311         for (; len > 0; len -= cpu_clflush_line_size,
10312             va += cpu_clflush_line_size)
10313                 clflush(va);
10314 }
10315
10316 static void
10317 pmap_large_map_flush_range_nop(vm_offset_t sva __unused, vm_size_t len __unused)
10318 {
10319 }
10320
10321 DEFINE_IFUNC(static, void, pmap_large_map_flush_range, (vm_offset_t, vm_size_t))
10322 {
10323
10324         if ((cpu_stdext_feature & CPUID_STDEXT_CLWB) != 0)
10325                 return (pmap_large_map_flush_range_clwb);
10326         else if ((cpu_stdext_feature & CPUID_STDEXT_CLFLUSHOPT) != 0)
10327                 return (pmap_large_map_flush_range_clflushopt);
10328         else if ((cpu_feature & CPUID_CLFSH) != 0)
10329                 return (pmap_large_map_flush_range_clflush);
10330         else
10331                 return (pmap_large_map_flush_range_nop);
10332 }
10333
10334 static void
10335 pmap_large_map_wb_large(vm_offset_t sva, vm_offset_t eva)
10336 {
10337         volatile u_long *pe;
10338         u_long p;
10339         vm_offset_t va;
10340         vm_size_t inc;
10341         bool seen_other;
10342
10343         for (va = sva; va < eva; va += inc) {
10344                 inc = 0;
10345                 if ((amd_feature & AMDID_PAGE1GB) != 0) {
10346                         pe = (volatile u_long *)pmap_large_map_pdpe(va);
10347                         p = *pe;
10348                         if ((p & X86_PG_PS) != 0)
10349                                 inc = NBPDP;
10350                 }
10351                 if (inc == 0) {
10352                         pe = (volatile u_long *)pmap_large_map_pde(va);
10353                         p = *pe;
10354                         if ((p & X86_PG_PS) != 0)
10355                                 inc = NBPDR;
10356                 }
10357                 if (inc == 0) {
10358                         pe = (volatile u_long *)pmap_large_map_pte(va);
10359                         p = *pe;
10360                         inc = PAGE_SIZE;
10361                 }
10362                 seen_other = false;
10363                 for (;;) {
10364                         if ((p & X86_PG_AVAIL1) != 0) {
10365                                 /*
10366                                  * Spin-wait for the end of a parallel
10367                                  * write-back.
10368                                  */
10369                                 cpu_spinwait();
10370                                 p = *pe;
10371
10372                                 /*
10373                                  * If we saw other write-back
10374                                  * occuring, we cannot rely on PG_M to
10375                                  * indicate state of the cache.  The
10376                                  * PG_M bit is cleared before the
10377                                  * flush to avoid ignoring new writes,
10378                                  * and writes which are relevant for
10379                                  * us might happen after.
10380                                  */
10381                                 seen_other = true;
10382                                 continue;
10383                         }
10384
10385                         if ((p & X86_PG_M) != 0 || seen_other) {
10386                                 if (!atomic_fcmpset_long(pe, &p,
10387                                     (p & ~X86_PG_M) | X86_PG_AVAIL1))
10388                                         /*
10389                                          * If we saw PG_M without
10390                                          * PG_AVAIL1, and then on the
10391                                          * next attempt we do not
10392                                          * observe either PG_M or
10393                                          * PG_AVAIL1, the other
10394                                          * write-back started after us
10395                                          * and finished before us.  We
10396                                          * can rely on it doing our
10397                                          * work.
10398                                          */
10399                                         continue;
10400                                 pmap_large_map_flush_range(va, inc);
10401                                 atomic_clear_long(pe, X86_PG_AVAIL1);
10402                         }
10403                         break;
10404                 }
10405                 maybe_yield();
10406         }
10407 }
10408
10409 /*
10410  * Write-back cache lines for the given address range.
10411  *
10412  * Must be called only on the range or sub-range returned from
10413  * pmap_large_map().  Must not be called on the coalesced ranges.
10414  *
10415  * Does nothing on CPUs without CLWB, CLFLUSHOPT, or CLFLUSH
10416  * instructions support.
10417  */
10418 void
10419 pmap_large_map_wb(void *svap, vm_size_t len)
10420 {
10421         vm_offset_t eva, sva;
10422
10423         sva = (vm_offset_t)svap;
10424         eva = sva + len;
10425         pmap_large_map_wb_fence();
10426         if (sva >= DMAP_MIN_ADDRESS && eva <= DMAP_MIN_ADDRESS + dmaplimit) {
10427                 pmap_large_map_flush_range(sva, len);
10428         } else {
10429                 KASSERT(sva >= LARGEMAP_MIN_ADDRESS &&
10430                     eva <= LARGEMAP_MIN_ADDRESS + lm_ents * NBPML4,
10431                     ("pmap_large_map_wb: not largemap %#lx %#lx", sva, len));
10432                 pmap_large_map_wb_large(sva, eva);
10433         }
10434         pmap_large_map_wb_fence();
10435 }
10436
10437 static vm_page_t
10438 pmap_pti_alloc_page(void)
10439 {
10440         vm_page_t m;
10441
10442         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10443         m = vm_page_grab(pti_obj, pti_pg_idx++, VM_ALLOC_NOBUSY |
10444             VM_ALLOC_WIRED | VM_ALLOC_ZERO);
10445         return (m);
10446 }
10447
10448 static bool
10449 pmap_pti_free_page(vm_page_t m)
10450 {
10451
10452         KASSERT(m->ref_count > 0, ("page %p not referenced", m));
10453         if (!vm_page_unwire_noq(m))
10454                 return (false);
10455         vm_page_free_zero(m);
10456         return (true);
10457 }
10458
10459 static void
10460 pmap_pti_init(void)
10461 {
10462         vm_page_t pml4_pg;
10463         pdp_entry_t *pdpe;
10464         vm_offset_t va;
10465         int i;
10466
10467         if (!pti)
10468                 return;
10469         pti_obj = vm_pager_allocate(OBJT_PHYS, NULL, 0, VM_PROT_ALL, 0, NULL);
10470         VM_OBJECT_WLOCK(pti_obj);
10471         pml4_pg = pmap_pti_alloc_page();
10472         pti_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4_pg));
10473         for (va = VM_MIN_KERNEL_ADDRESS; va <= VM_MAX_KERNEL_ADDRESS &&
10474             va >= VM_MIN_KERNEL_ADDRESS && va > NBPML4; va += NBPML4) {
10475                 pdpe = pmap_pti_pdpe(va);
10476                 pmap_pti_wire_pte(pdpe);
10477         }
10478         pmap_pti_add_kva_locked((vm_offset_t)&__pcpu[0],
10479             (vm_offset_t)&__pcpu[0] + sizeof(__pcpu[0]) * MAXCPU, false);
10480         pmap_pti_add_kva_locked((vm_offset_t)idt, (vm_offset_t)idt +
10481             sizeof(struct gate_descriptor) * NIDT, false);
10482         CPU_FOREACH(i) {
10483                 /* Doublefault stack IST 1 */
10484                 va = __pcpu[i].pc_common_tss.tss_ist1 + sizeof(struct nmi_pcpu);
10485                 pmap_pti_add_kva_locked(va - DBLFAULT_STACK_SIZE, va, false);
10486                 /* NMI stack IST 2 */
10487                 va = __pcpu[i].pc_common_tss.tss_ist2 + sizeof(struct nmi_pcpu);
10488                 pmap_pti_add_kva_locked(va - NMI_STACK_SIZE, va, false);
10489                 /* MC# stack IST 3 */
10490                 va = __pcpu[i].pc_common_tss.tss_ist3 +
10491                     sizeof(struct nmi_pcpu);
10492                 pmap_pti_add_kva_locked(va - MCE_STACK_SIZE, va, false);
10493                 /* DB# stack IST 4 */
10494                 va = __pcpu[i].pc_common_tss.tss_ist4 + sizeof(struct nmi_pcpu);
10495                 pmap_pti_add_kva_locked(va - DBG_STACK_SIZE, va, false);
10496         }
10497         pmap_pti_add_kva_locked((vm_offset_t)kernphys + KERNBASE,
10498             (vm_offset_t)etext, true);
10499         pti_finalized = true;
10500         VM_OBJECT_WUNLOCK(pti_obj);
10501 }
10502 SYSINIT(pmap_pti, SI_SUB_CPU + 1, SI_ORDER_ANY, pmap_pti_init, NULL);
10503
10504 static pdp_entry_t *
10505 pmap_pti_pdpe(vm_offset_t va)
10506 {
10507         pml4_entry_t *pml4e;
10508         pdp_entry_t *pdpe;
10509         vm_page_t m;
10510         vm_pindex_t pml4_idx;
10511         vm_paddr_t mphys;
10512
10513         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10514
10515         pml4_idx = pmap_pml4e_index(va);
10516         pml4e = &pti_pml4[pml4_idx];
10517         m = NULL;
10518         if (*pml4e == 0) {
10519                 if (pti_finalized)
10520                         panic("pml4 alloc after finalization\n");
10521                 m = pmap_pti_alloc_page();
10522                 if (*pml4e != 0) {
10523                         pmap_pti_free_page(m);
10524                         mphys = *pml4e & ~PAGE_MASK;
10525                 } else {
10526                         mphys = VM_PAGE_TO_PHYS(m);
10527                         *pml4e = mphys | X86_PG_RW | X86_PG_V;
10528                 }
10529         } else {
10530                 mphys = *pml4e & ~PAGE_MASK;
10531         }
10532         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pdpe_index(va);
10533         return (pdpe);
10534 }
10535
10536 static void
10537 pmap_pti_wire_pte(void *pte)
10538 {
10539         vm_page_t m;
10540
10541         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10542         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pte));
10543         m->ref_count++;
10544 }
10545
10546 static void
10547 pmap_pti_unwire_pde(void *pde, bool only_ref)
10548 {
10549         vm_page_t m;
10550
10551         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10552         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pde));
10553         MPASS(m->ref_count > 0);
10554         MPASS(only_ref || m->ref_count > 1);
10555         pmap_pti_free_page(m);
10556 }
10557
10558 static void
10559 pmap_pti_unwire_pte(void *pte, vm_offset_t va)
10560 {
10561         vm_page_t m;
10562         pd_entry_t *pde;
10563
10564         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10565         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pte));
10566         MPASS(m->ref_count > 0);
10567         if (pmap_pti_free_page(m)) {
10568                 pde = pmap_pti_pde(va);
10569                 MPASS((*pde & (X86_PG_PS | X86_PG_V)) == X86_PG_V);
10570                 *pde = 0;
10571                 pmap_pti_unwire_pde(pde, false);
10572         }
10573 }
10574
10575 static pd_entry_t *
10576 pmap_pti_pde(vm_offset_t va)
10577 {
10578         pdp_entry_t *pdpe;
10579         pd_entry_t *pde;
10580         vm_page_t m;
10581         vm_pindex_t pd_idx;
10582         vm_paddr_t mphys;
10583
10584         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10585
10586         pdpe = pmap_pti_pdpe(va);
10587         if (*pdpe == 0) {
10588                 m = pmap_pti_alloc_page();
10589                 if (*pdpe != 0) {
10590                         pmap_pti_free_page(m);
10591                         MPASS((*pdpe & X86_PG_PS) == 0);
10592                         mphys = *pdpe & ~PAGE_MASK;
10593                 } else {
10594                         mphys =  VM_PAGE_TO_PHYS(m);
10595                         *pdpe = mphys | X86_PG_RW | X86_PG_V;
10596                 }
10597         } else {
10598                 MPASS((*pdpe & X86_PG_PS) == 0);
10599                 mphys = *pdpe & ~PAGE_MASK;
10600         }
10601
10602         pde = (pd_entry_t *)PHYS_TO_DMAP(mphys);
10603         pd_idx = pmap_pde_index(va);
10604         pde += pd_idx;
10605         return (pde);
10606 }
10607
10608 static pt_entry_t *
10609 pmap_pti_pte(vm_offset_t va, bool *unwire_pde)
10610 {
10611         pd_entry_t *pde;
10612         pt_entry_t *pte;
10613         vm_page_t m;
10614         vm_paddr_t mphys;
10615
10616         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10617
10618         pde = pmap_pti_pde(va);
10619         if (unwire_pde != NULL) {
10620                 *unwire_pde = true;
10621                 pmap_pti_wire_pte(pde);
10622         }
10623         if (*pde == 0) {
10624                 m = pmap_pti_alloc_page();
10625                 if (*pde != 0) {
10626                         pmap_pti_free_page(m);
10627                         MPASS((*pde & X86_PG_PS) == 0);
10628                         mphys = *pde & ~(PAGE_MASK | pg_nx);
10629                 } else {
10630                         mphys = VM_PAGE_TO_PHYS(m);
10631                         *pde = mphys | X86_PG_RW | X86_PG_V;
10632                         if (unwire_pde != NULL)
10633                                 *unwire_pde = false;
10634                 }
10635         } else {
10636                 MPASS((*pde & X86_PG_PS) == 0);
10637                 mphys = *pde & ~(PAGE_MASK | pg_nx);
10638         }
10639
10640         pte = (pt_entry_t *)PHYS_TO_DMAP(mphys);
10641         pte += pmap_pte_index(va);
10642
10643         return (pte);
10644 }
10645
10646 static void
10647 pmap_pti_add_kva_locked(vm_offset_t sva, vm_offset_t eva, bool exec)
10648 {
10649         vm_paddr_t pa;
10650         pd_entry_t *pde;
10651         pt_entry_t *pte, ptev;
10652         bool unwire_pde;
10653
10654         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10655
10656         sva = trunc_page(sva);
10657         MPASS(sva > VM_MAXUSER_ADDRESS);
10658         eva = round_page(eva);
10659         MPASS(sva < eva);
10660         for (; sva < eva; sva += PAGE_SIZE) {
10661                 pte = pmap_pti_pte(sva, &unwire_pde);
10662                 pa = pmap_kextract(sva);
10663                 ptev = pa | X86_PG_RW | X86_PG_V | X86_PG_A | X86_PG_G |
10664                     (exec ? 0 : pg_nx) | pmap_cache_bits(kernel_pmap,
10665                     VM_MEMATTR_DEFAULT, FALSE);
10666                 if (*pte == 0) {
10667                         pte_store(pte, ptev);
10668                         pmap_pti_wire_pte(pte);
10669                 } else {
10670                         KASSERT(!pti_finalized,
10671                             ("pti overlap after fin %#lx %#lx %#lx",
10672                             sva, *pte, ptev));
10673                         KASSERT(*pte == ptev,
10674                             ("pti non-identical pte after fin %#lx %#lx %#lx",
10675                             sva, *pte, ptev));
10676                 }
10677                 if (unwire_pde) {
10678                         pde = pmap_pti_pde(sva);
10679                         pmap_pti_unwire_pde(pde, true);
10680                 }
10681         }
10682 }
10683
10684 void
10685 pmap_pti_add_kva(vm_offset_t sva, vm_offset_t eva, bool exec)
10686 {
10687
10688         if (!pti)
10689                 return;
10690         VM_OBJECT_WLOCK(pti_obj);
10691         pmap_pti_add_kva_locked(sva, eva, exec);
10692         VM_OBJECT_WUNLOCK(pti_obj);
10693 }
10694
10695 void
10696 pmap_pti_remove_kva(vm_offset_t sva, vm_offset_t eva)
10697 {
10698         pt_entry_t *pte;
10699         vm_offset_t va;
10700
10701         if (!pti)
10702                 return;
10703         sva = rounddown2(sva, PAGE_SIZE);
10704         MPASS(sva > VM_MAXUSER_ADDRESS);
10705         eva = roundup2(eva, PAGE_SIZE);
10706         MPASS(sva < eva);
10707         VM_OBJECT_WLOCK(pti_obj);
10708         for (va = sva; va < eva; va += PAGE_SIZE) {
10709                 pte = pmap_pti_pte(va, NULL);
10710                 KASSERT((*pte & X86_PG_V) != 0,
10711                     ("invalid pte va %#lx pte %#lx pt %#lx", va,
10712                     (u_long)pte, *pte));
10713                 pte_clear(pte);
10714                 pmap_pti_unwire_pte(pte, va);
10715         }
10716         pmap_invalidate_range(kernel_pmap, sva, eva);
10717         VM_OBJECT_WUNLOCK(pti_obj);
10718 }
10719
10720 static void *
10721 pkru_dup_range(void *ctx __unused, void *data)
10722 {
10723         struct pmap_pkru_range *node, *new_node;
10724
10725         new_node = uma_zalloc(pmap_pkru_ranges_zone, M_NOWAIT);
10726         if (new_node == NULL)
10727                 return (NULL);
10728         node = data;
10729         memcpy(new_node, node, sizeof(*node));
10730         return (new_node);
10731 }
10732
10733 static void
10734 pkru_free_range(void *ctx __unused, void *node)
10735 {
10736
10737         uma_zfree(pmap_pkru_ranges_zone, node);
10738 }
10739
10740 static int
10741 pmap_pkru_assign(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, u_int keyidx,
10742     int flags)
10743 {
10744         struct pmap_pkru_range *ppr;
10745         int error;
10746
10747         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10748         MPASS(pmap->pm_type == PT_X86);
10749         MPASS((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0);
10750         if ((flags & AMD64_PKRU_EXCL) != 0 &&
10751             !rangeset_check_empty(&pmap->pm_pkru, sva, eva))
10752                 return (EBUSY);
10753         ppr = uma_zalloc(pmap_pkru_ranges_zone, M_NOWAIT);
10754         if (ppr == NULL)
10755                 return (ENOMEM);
10756         ppr->pkru_keyidx = keyidx;
10757         ppr->pkru_flags = flags & AMD64_PKRU_PERSIST;
10758         error = rangeset_insert(&pmap->pm_pkru, sva, eva, ppr);
10759         if (error != 0)
10760                 uma_zfree(pmap_pkru_ranges_zone, ppr);
10761         return (error);
10762 }
10763
10764 static int
10765 pmap_pkru_deassign(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10766 {
10767
10768         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10769         MPASS(pmap->pm_type == PT_X86);
10770         MPASS((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0);
10771         return (rangeset_remove(&pmap->pm_pkru, sva, eva));
10772 }
10773
10774 static void
10775 pmap_pkru_deassign_all(pmap_t pmap)
10776 {
10777
10778         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10779         if (pmap->pm_type == PT_X86 &&
10780             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0)
10781                 rangeset_remove_all(&pmap->pm_pkru);
10782 }
10783
10784 static bool
10785 pmap_pkru_same(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10786 {
10787         struct pmap_pkru_range *ppr, *prev_ppr;
10788         vm_offset_t va;
10789
10790         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10791         if (pmap->pm_type != PT_X86 ||
10792             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0 ||
10793             sva >= VM_MAXUSER_ADDRESS)
10794                 return (true);
10795         MPASS(eva <= VM_MAXUSER_ADDRESS);
10796         for (va = sva; va < eva; prev_ppr = ppr) {
10797                 ppr = rangeset_lookup(&pmap->pm_pkru, va);
10798                 if (va == sva)
10799                         prev_ppr = ppr;
10800                 else if ((ppr == NULL) ^ (prev_ppr == NULL))
10801                         return (false);
10802                 if (ppr == NULL) {
10803                         va += PAGE_SIZE;
10804                         continue;
10805                 }
10806                 if (prev_ppr->pkru_keyidx != ppr->pkru_keyidx)
10807                         return (false);
10808                 va = ppr->pkru_rs_el.re_end;
10809         }
10810         return (true);
10811 }
10812
10813 static pt_entry_t
10814 pmap_pkru_get(pmap_t pmap, vm_offset_t va)
10815 {
10816         struct pmap_pkru_range *ppr;
10817
10818         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10819         if (pmap->pm_type != PT_X86 ||
10820             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0 ||
10821             va >= VM_MAXUSER_ADDRESS)
10822                 return (0);
10823         ppr = rangeset_lookup(&pmap->pm_pkru, va);
10824         if (ppr != NULL)
10825                 return (X86_PG_PKU(ppr->pkru_keyidx));
10826         return (0);
10827 }
10828
10829 static bool
10830 pred_pkru_on_remove(void *ctx __unused, void *r)
10831 {
10832         struct pmap_pkru_range *ppr;
10833
10834         ppr = r;
10835         return ((ppr->pkru_flags & AMD64_PKRU_PERSIST) == 0);
10836 }
10837
10838 static void
10839 pmap_pkru_on_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10840 {
10841
10842         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10843         if (pmap->pm_type == PT_X86 &&
10844             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0) {
10845                 rangeset_remove_pred(&pmap->pm_pkru, sva, eva,
10846                     pred_pkru_on_remove);
10847         }
10848 }
10849
10850 static int
10851 pmap_pkru_copy(pmap_t dst_pmap, pmap_t src_pmap)
10852 {
10853
10854         PMAP_LOCK_ASSERT(dst_pmap, MA_OWNED);
10855         PMAP_LOCK_ASSERT(src_pmap, MA_OWNED);
10856         MPASS(dst_pmap->pm_type == PT_X86);
10857         MPASS(src_pmap->pm_type == PT_X86);
10858         MPASS((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0);
10859         if (src_pmap->pm_pkru.rs_data_ctx == NULL)
10860                 return (0);
10861         return (rangeset_copy(&dst_pmap->pm_pkru, &src_pmap->pm_pkru));
10862 }
10863
10864 static void
10865 pmap_pkru_update_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
10866     u_int keyidx)
10867 {
10868         pml4_entry_t *pml4e;
10869         pdp_entry_t *pdpe;
10870         pd_entry_t newpde, ptpaddr, *pde;
10871         pt_entry_t newpte, *ptep, pte;
10872         vm_offset_t va, va_next;
10873         bool changed;
10874
10875         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10876         MPASS(pmap->pm_type == PT_X86);
10877         MPASS(keyidx <= PMAP_MAX_PKRU_IDX);
10878
10879         for (changed = false, va = sva; va < eva; va = va_next) {
10880                 pml4e = pmap_pml4e(pmap, va);
10881                 if (pml4e == NULL || (*pml4e & X86_PG_V) == 0) {
10882                         va_next = (va + NBPML4) & ~PML4MASK;
10883                         if (va_next < va)
10884                                 va_next = eva;
10885                         continue;
10886                 }
10887
10888                 pdpe = pmap_pml4e_to_pdpe(pml4e, va);
10889                 if ((*pdpe & X86_PG_V) == 0) {
10890                         va_next = (va + NBPDP) & ~PDPMASK;
10891                         if (va_next < va)
10892                                 va_next = eva;
10893                         continue;
10894                 }
10895
10896                 va_next = (va + NBPDR) & ~PDRMASK;
10897                 if (va_next < va)
10898                         va_next = eva;
10899
10900                 pde = pmap_pdpe_to_pde(pdpe, va);
10901                 ptpaddr = *pde;
10902                 if (ptpaddr == 0)
10903                         continue;
10904
10905                 MPASS((ptpaddr & X86_PG_V) != 0);
10906                 if ((ptpaddr & PG_PS) != 0) {
10907                         if (va + NBPDR == va_next && eva >= va_next) {
10908                                 newpde = (ptpaddr & ~X86_PG_PKU_MASK) |
10909                                     X86_PG_PKU(keyidx);
10910                                 if (newpde != ptpaddr) {
10911                                         *pde = newpde;
10912                                         changed = true;
10913                                 }
10914                                 continue;
10915                         } else if (!pmap_demote_pde(pmap, pde, va)) {
10916                                 continue;
10917                         }
10918                 }
10919
10920                 if (va_next > eva)
10921                         va_next = eva;
10922
10923                 for (ptep = pmap_pde_to_pte(pde, va); va != va_next;
10924                     ptep++, va += PAGE_SIZE) {
10925                         pte = *ptep;
10926                         if ((pte & X86_PG_V) == 0)
10927                                 continue;
10928                         newpte = (pte & ~X86_PG_PKU_MASK) | X86_PG_PKU(keyidx);
10929                         if (newpte != pte) {
10930                                 *ptep = newpte;
10931                                 changed = true;
10932                         }
10933                 }
10934         }
10935         if (changed)
10936                 pmap_invalidate_range(pmap, sva, eva);
10937 }
10938
10939 static int
10940 pmap_pkru_check_uargs(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
10941     u_int keyidx, int flags)
10942 {
10943
10944         if (pmap->pm_type != PT_X86 || keyidx > PMAP_MAX_PKRU_IDX ||
10945             (flags & ~(AMD64_PKRU_PERSIST | AMD64_PKRU_EXCL)) != 0)
10946                 return (EINVAL);
10947         if (eva <= sva || eva > VM_MAXUSER_ADDRESS)
10948                 return (EFAULT);
10949         if ((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0)
10950                 return (ENOTSUP);
10951         return (0);
10952 }
10953
10954 int
10955 pmap_pkru_set(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, u_int keyidx,
10956     int flags)
10957 {
10958         int error;
10959
10960         sva = trunc_page(sva);
10961         eva = round_page(eva);
10962         error = pmap_pkru_check_uargs(pmap, sva, eva, keyidx, flags);
10963         if (error != 0)
10964                 return (error);
10965         for (;;) {
10966                 PMAP_LOCK(pmap);
10967                 error = pmap_pkru_assign(pmap, sva, eva, keyidx, flags);
10968                 if (error == 0)
10969                         pmap_pkru_update_range(pmap, sva, eva, keyidx);
10970                 PMAP_UNLOCK(pmap);
10971                 if (error != ENOMEM)
10972                         break;
10973                 vm_wait(NULL);
10974         }
10975         return (error);
10976 }
10977
10978 int
10979 pmap_pkru_clear(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10980 {
10981         int error;
10982
10983         sva = trunc_page(sva);
10984         eva = round_page(eva);
10985         error = pmap_pkru_check_uargs(pmap, sva, eva, 0, 0);
10986         if (error != 0)
10987                 return (error);
10988         for (;;) {
10989                 PMAP_LOCK(pmap);
10990                 error = pmap_pkru_deassign(pmap, sva, eva);
10991                 if (error == 0)
10992                         pmap_pkru_update_range(pmap, sva, eva, 0);
10993                 PMAP_UNLOCK(pmap);
10994                 if (error != ENOMEM)
10995                         break;
10996                 vm_wait(NULL);
10997         }
10998         return (error);
10999 }
11000
11001 /*
11002  * Track a range of the kernel's virtual address space that is contiguous
11003  * in various mapping attributes.
11004  */
11005 struct pmap_kernel_map_range {
11006         vm_offset_t sva;
11007         pt_entry_t attrs;
11008         int ptes;
11009         int pdes;
11010         int pdpes;
11011 };
11012
11013 static void
11014 sysctl_kmaps_dump(struct sbuf *sb, struct pmap_kernel_map_range *range,
11015     vm_offset_t eva)
11016 {
11017         const char *mode;
11018         int i, pat_idx;
11019
11020         if (eva <= range->sva)
11021                 return;
11022
11023         pat_idx = pmap_pat_index(kernel_pmap, range->attrs, true);
11024         for (i = 0; i < PAT_INDEX_SIZE; i++)
11025                 if (pat_index[i] == pat_idx)
11026                         break;
11027
11028         switch (i) {
11029         case PAT_WRITE_BACK:
11030                 mode = "WB";
11031                 break;
11032         case PAT_WRITE_THROUGH:
11033                 mode = "WT";
11034                 break;
11035         case PAT_UNCACHEABLE:
11036                 mode = "UC";
11037                 break;
11038         case PAT_UNCACHED:
11039                 mode = "U-";
11040                 break;
11041         case PAT_WRITE_PROTECTED:
11042                 mode = "WP";
11043                 break;
11044         case PAT_WRITE_COMBINING:
11045                 mode = "WC";
11046                 break;
11047         default:
11048                 printf("%s: unknown PAT mode %#x for range 0x%016lx-0x%016lx\n",
11049                     __func__, pat_idx, range->sva, eva);
11050                 mode = "??";
11051                 break;
11052         }
11053
11054         sbuf_printf(sb, "0x%016lx-0x%016lx r%c%c%c%c %s %d %d %d\n",
11055             range->sva, eva,
11056             (range->attrs & X86_PG_RW) != 0 ? 'w' : '-',
11057             (range->attrs & pg_nx) != 0 ? '-' : 'x',
11058             (range->attrs & X86_PG_U) != 0 ? 'u' : 's',
11059             (range->attrs & X86_PG_G) != 0 ? 'g' : '-',
11060             mode, range->pdpes, range->pdes, range->ptes);
11061
11062         /* Reset to sentinel value. */
11063         range->sva = la57 ? KV5ADDR(NPML5EPG - 1, NPML4EPG - 1, NPDPEPG - 1,
11064             NPDEPG - 1, NPTEPG - 1) : KV4ADDR(NPML4EPG - 1, NPDPEPG - 1,
11065             NPDEPG - 1, NPTEPG - 1);
11066 }
11067
11068 /*
11069  * Determine whether the attributes specified by a page table entry match those
11070  * being tracked by the current range.  This is not quite as simple as a direct
11071  * flag comparison since some PAT modes have multiple representations.
11072  */
11073 static bool
11074 sysctl_kmaps_match(struct pmap_kernel_map_range *range, pt_entry_t attrs)
11075 {
11076         pt_entry_t diff, mask;
11077
11078         mask = X86_PG_G | X86_PG_RW | X86_PG_U | X86_PG_PDE_CACHE | pg_nx;
11079         diff = (range->attrs ^ attrs) & mask;
11080         if (diff == 0)
11081                 return (true);
11082         if ((diff & ~X86_PG_PDE_PAT) == 0 &&
11083             pmap_pat_index(kernel_pmap, range->attrs, true) ==
11084             pmap_pat_index(kernel_pmap, attrs, true))
11085                 return (true);
11086         return (false);
11087 }
11088
11089 static void
11090 sysctl_kmaps_reinit(struct pmap_kernel_map_range *range, vm_offset_t va,
11091     pt_entry_t attrs)
11092 {
11093
11094         memset(range, 0, sizeof(*range));
11095         range->sva = va;
11096         range->attrs = attrs;
11097 }
11098
11099 /*
11100  * Given a leaf PTE, derive the mapping's attributes.  If they do not match
11101  * those of the current run, dump the address range and its attributes, and
11102  * begin a new run.
11103  */
11104 static void
11105 sysctl_kmaps_check(struct sbuf *sb, struct pmap_kernel_map_range *range,
11106     vm_offset_t va, pml4_entry_t pml4e, pdp_entry_t pdpe, pd_entry_t pde,
11107     pt_entry_t pte)
11108 {
11109         pt_entry_t attrs;
11110
11111         attrs = pml4e & (X86_PG_RW | X86_PG_U | pg_nx);
11112
11113         attrs |= pdpe & pg_nx;
11114         attrs &= pg_nx | (pdpe & (X86_PG_RW | X86_PG_U));
11115         if ((pdpe & PG_PS) != 0) {
11116                 attrs |= pdpe & (X86_PG_G | X86_PG_PDE_CACHE);
11117         } else if (pde != 0) {
11118                 attrs |= pde & pg_nx;
11119                 attrs &= pg_nx | (pde & (X86_PG_RW | X86_PG_U));
11120         }
11121         if ((pde & PG_PS) != 0) {
11122                 attrs |= pde & (X86_PG_G | X86_PG_PDE_CACHE);
11123         } else if (pte != 0) {
11124                 attrs |= pte & pg_nx;
11125                 attrs &= pg_nx | (pte & (X86_PG_RW | X86_PG_U));
11126                 attrs |= pte & (X86_PG_G | X86_PG_PTE_CACHE);
11127
11128                 /* Canonicalize by always using the PDE PAT bit. */
11129                 if ((attrs & X86_PG_PTE_PAT) != 0)
11130                         attrs ^= X86_PG_PDE_PAT | X86_PG_PTE_PAT;
11131         }
11132
11133         if (range->sva > va || !sysctl_kmaps_match(range, attrs)) {
11134                 sysctl_kmaps_dump(sb, range, va);
11135                 sysctl_kmaps_reinit(range, va, attrs);
11136         }
11137 }
11138
11139 static int
11140 sysctl_kmaps(SYSCTL_HANDLER_ARGS)
11141 {
11142         struct pmap_kernel_map_range range;
11143         struct sbuf sbuf, *sb;
11144         pml4_entry_t pml4e;
11145         pdp_entry_t *pdp, pdpe;
11146         pd_entry_t *pd, pde;
11147         pt_entry_t *pt, pte;
11148         vm_offset_t sva;
11149         vm_paddr_t pa;
11150         int error, i, j, k, l;
11151
11152         error = sysctl_wire_old_buffer(req, 0);
11153         if (error != 0)
11154                 return (error);
11155         sb = &sbuf;
11156         sbuf_new_for_sysctl(sb, NULL, PAGE_SIZE, req);
11157
11158         /* Sentinel value. */
11159         range.sva = la57 ? KV5ADDR(NPML5EPG - 1, NPML4EPG - 1, NPDPEPG - 1,
11160             NPDEPG - 1, NPTEPG - 1) : KV4ADDR(NPML4EPG - 1, NPDPEPG - 1,
11161             NPDEPG - 1, NPTEPG - 1);
11162
11163         /*
11164          * Iterate over the kernel page tables without holding the kernel pmap
11165          * lock.  Outside of the large map, kernel page table pages are never
11166          * freed, so at worst we will observe inconsistencies in the output.
11167          * Within the large map, ensure that PDP and PD page addresses are
11168          * valid before descending.
11169          */
11170         for (sva = 0, i = pmap_pml4e_index(sva); i < NPML4EPG; i++) {
11171                 switch (i) {
11172                 case PML4PML4I:
11173                         sbuf_printf(sb, "\nRecursive map:\n");
11174                         break;
11175                 case DMPML4I:
11176                         sbuf_printf(sb, "\nDirect map:\n");
11177                         break;
11178                 case KPML4BASE:
11179                         sbuf_printf(sb, "\nKernel map:\n");
11180                         break;
11181                 case LMSPML4I:
11182                         sbuf_printf(sb, "\nLarge map:\n");
11183                         break;
11184                 }
11185
11186                 /* Convert to canonical form. */
11187                 if (sva == 1ul << 47)
11188                         sva |= -1ul << 48;
11189
11190 restart:
11191                 pml4e = kernel_pml4[i];
11192                 if ((pml4e & X86_PG_V) == 0) {
11193                         sva = rounddown2(sva, NBPML4);
11194                         sysctl_kmaps_dump(sb, &range, sva);
11195                         sva += NBPML4;
11196                         continue;
11197                 }
11198                 pa = pml4e & PG_FRAME;
11199                 pdp = (pdp_entry_t *)PHYS_TO_DMAP(pa);
11200
11201                 for (j = pmap_pdpe_index(sva); j < NPDPEPG; j++) {
11202                         pdpe = pdp[j];
11203                         if ((pdpe & X86_PG_V) == 0) {
11204                                 sva = rounddown2(sva, NBPDP);
11205                                 sysctl_kmaps_dump(sb, &range, sva);
11206                                 sva += NBPDP;
11207                                 continue;
11208                         }
11209                         pa = pdpe & PG_FRAME;
11210                         if (PMAP_ADDRESS_IN_LARGEMAP(sva) &&
11211                             vm_phys_paddr_to_vm_page(pa) == NULL)
11212                                 goto restart;
11213                         if ((pdpe & PG_PS) != 0) {
11214                                 sva = rounddown2(sva, NBPDP);
11215                                 sysctl_kmaps_check(sb, &range, sva, pml4e, pdpe,
11216                                     0, 0);
11217                                 range.pdpes++;
11218                                 sva += NBPDP;
11219                                 continue;
11220                         }
11221                         pd = (pd_entry_t *)PHYS_TO_DMAP(pa);
11222
11223                         for (k = pmap_pde_index(sva); k < NPDEPG; k++) {
11224                                 pde = pd[k];
11225                                 if ((pde & X86_PG_V) == 0) {
11226                                         sva = rounddown2(sva, NBPDR);
11227                                         sysctl_kmaps_dump(sb, &range, sva);
11228                                         sva += NBPDR;
11229                                         continue;
11230                                 }
11231                                 pa = pde & PG_FRAME;
11232                                 if (PMAP_ADDRESS_IN_LARGEMAP(sva) &&
11233                                     vm_phys_paddr_to_vm_page(pa) == NULL)
11234                                         goto restart;
11235                                 if ((pde & PG_PS) != 0) {
11236                                         sva = rounddown2(sva, NBPDR);
11237                                         sysctl_kmaps_check(sb, &range, sva,
11238                                             pml4e, pdpe, pde, 0);
11239                                         range.pdes++;
11240                                         sva += NBPDR;
11241                                         continue;
11242                                 }
11243                                 pt = (pt_entry_t *)PHYS_TO_DMAP(pa);
11244
11245                                 for (l = pmap_pte_index(sva); l < NPTEPG; l++,
11246                                     sva += PAGE_SIZE) {
11247                                         pte = pt[l];
11248                                         if ((pte & X86_PG_V) == 0) {
11249                                                 sysctl_kmaps_dump(sb, &range,
11250                                                     sva);
11251                                                 continue;
11252                                         }
11253                                         sysctl_kmaps_check(sb, &range, sva,
11254                                             pml4e, pdpe, pde, pte);
11255                                         range.ptes++;
11256                                 }
11257                         }
11258                 }
11259         }
11260
11261         error = sbuf_finish(sb);
11262         sbuf_delete(sb);
11263         return (error);
11264 }
11265 SYSCTL_OID(_vm_pmap, OID_AUTO, kernel_maps,
11266     CTLTYPE_STRING | CTLFLAG_RD | CTLFLAG_MPSAFE,
11267     NULL, 0, sysctl_kmaps, "A",
11268     "Dump kernel address layout");
11269
11270 #ifdef DDB
11271 DB_SHOW_COMMAND(pte, pmap_print_pte)
11272 {
11273         pmap_t pmap;
11274         pml5_entry_t *pml5;
11275         pml4_entry_t *pml4;
11276         pdp_entry_t *pdp;
11277         pd_entry_t *pde;
11278         pt_entry_t *pte, PG_V;
11279         vm_offset_t va;
11280
11281         if (!have_addr) {
11282                 db_printf("show pte addr\n");
11283                 return;
11284         }
11285         va = (vm_offset_t)addr;
11286
11287         if (kdb_thread != NULL)
11288                 pmap = vmspace_pmap(kdb_thread->td_proc->p_vmspace);
11289         else
11290                 pmap = PCPU_GET(curpmap);
11291
11292         PG_V = pmap_valid_bit(pmap);
11293         db_printf("VA 0x%016lx", va);
11294
11295         if (pmap_is_la57(pmap)) {
11296                 pml5 = pmap_pml5e(pmap, va);
11297                 db_printf(" pml5e 0x%016lx", *pml5);
11298                 if ((*pml5 & PG_V) == 0) {
11299                         db_printf("\n");
11300                         return;
11301                 }
11302                 pml4 = pmap_pml5e_to_pml4e(pml5, va);
11303         } else {
11304                 pml4 = pmap_pml4e(pmap, va);
11305         }
11306         db_printf(" pml4e 0x%016lx", *pml4);
11307         if ((*pml4 & PG_V) == 0) {
11308                 db_printf("\n");
11309                 return;
11310         }
11311         pdp = pmap_pml4e_to_pdpe(pml4, va);
11312         db_printf(" pdpe 0x%016lx", *pdp);
11313         if ((*pdp & PG_V) == 0 || (*pdp & PG_PS) != 0) {
11314                 db_printf("\n");
11315                 return;
11316         }
11317         pde = pmap_pdpe_to_pde(pdp, va);
11318         db_printf(" pde 0x%016lx", *pde);
11319         if ((*pde & PG_V) == 0 || (*pde & PG_PS) != 0) {
11320                 db_printf("\n");
11321                 return;
11322         }
11323         pte = pmap_pde_to_pte(pde, va);
11324         db_printf(" pte 0x%016lx\n", *pte);
11325 }
11326
11327 DB_SHOW_COMMAND(phys2dmap, pmap_phys2dmap)
11328 {
11329         vm_paddr_t a;
11330
11331         if (have_addr) {
11332                 a = (vm_paddr_t)addr;
11333                 db_printf("0x%jx\n", (uintmax_t)PHYS_TO_DMAP(a));
11334         } else {
11335                 db_printf("show phys2dmap addr\n");
11336         }
11337 }
11338
11339 static void
11340 ptpages_show_page(int level, int idx, vm_page_t pg)
11341 {
11342         db_printf("l %d i %d pg %p phys %#lx ref %x\n",
11343             level, idx, pg, VM_PAGE_TO_PHYS(pg), pg->ref_count);
11344 }
11345
11346 static void
11347 ptpages_show_complain(int level, int idx, uint64_t pte)
11348 {
11349         db_printf("l %d i %d pte %#lx\n", level, idx, pte);
11350 }
11351
11352 static void
11353 ptpages_show_pml4(vm_page_t pg4, int num_entries, uint64_t PG_V)
11354 {
11355         vm_page_t pg3, pg2, pg1;
11356         pml4_entry_t *pml4;
11357         pdp_entry_t *pdp;
11358         pd_entry_t *pd;
11359         int i4, i3, i2;
11360
11361         pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pg4));
11362         for (i4 = 0; i4 < num_entries; i4++) {
11363                 if ((pml4[i4] & PG_V) == 0)
11364                         continue;
11365                 pg3 = PHYS_TO_VM_PAGE(pml4[i4] & PG_FRAME);
11366                 if (pg3 == NULL) {
11367                         ptpages_show_complain(3, i4, pml4[i4]);
11368                         continue;
11369                 }
11370                 ptpages_show_page(3, i4, pg3);
11371                 pdp = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pg3));
11372                 for (i3 = 0; i3 < NPDPEPG; i3++) {
11373                         if ((pdp[i3] & PG_V) == 0)
11374                                 continue;
11375                         pg2 = PHYS_TO_VM_PAGE(pdp[i3] & PG_FRAME);
11376                         if (pg3 == NULL) {
11377                                 ptpages_show_complain(2, i3, pdp[i3]);
11378                                 continue;
11379                         }
11380                         ptpages_show_page(2, i3, pg2);
11381                         pd = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pg2));
11382                         for (i2 = 0; i2 < NPDEPG; i2++) {
11383                                 if ((pd[i2] & PG_V) == 0)
11384                                         continue;
11385                                 pg1 = PHYS_TO_VM_PAGE(pd[i2] & PG_FRAME);
11386                                 if (pg1 == NULL) {
11387                                         ptpages_show_complain(1, i2, pd[i2]);
11388                                         continue;
11389                                 }
11390                                 ptpages_show_page(1, i2, pg1);
11391                         }
11392                 }
11393         }
11394 }
11395
11396 DB_SHOW_COMMAND(ptpages, pmap_ptpages)
11397 {
11398         pmap_t pmap;
11399         vm_page_t pg;
11400         pml5_entry_t *pml5;
11401         uint64_t PG_V;
11402         int i5;
11403
11404         if (have_addr)
11405                 pmap = (pmap_t)addr;
11406         else
11407                 pmap = PCPU_GET(curpmap);
11408
11409         PG_V = pmap_valid_bit(pmap);
11410
11411         if (pmap_is_la57(pmap)) {
11412                 pml5 = pmap->pm_pmltop;
11413                 for (i5 = 0; i5 < NUPML5E; i5++) {
11414                         if ((pml5[i5] & PG_V) == 0)
11415                                 continue;
11416                         pg = PHYS_TO_VM_PAGE(pml5[i5] & PG_FRAME);
11417                         if (pg == NULL) {
11418                                 ptpages_show_complain(4, i5, pml5[i5]);
11419                                 continue;
11420                         }
11421                         ptpages_show_page(4, i5, pg);
11422                         ptpages_show_pml4(pg, NPML4EPG, PG_V);
11423                 }
11424         } else {
11425                 ptpages_show_pml4(PHYS_TO_VM_PAGE(DMAP_TO_PHYS(
11426                     (vm_offset_t)pmap->pm_pmltop)), NUP4ML4E, PG_V);
11427         }
11428 }
11429 #endif