sys/amd64/amd64/pmap.c

   1 /*-
   2  * SPDX-License-Identifier: BSD-4-Clause
   3  *
   4  * Copyright (c) 1991 Regents of the University of California.
   5  * All rights reserved.
   6  * Copyright (c) 1994 John S. Dyson
   7  * All rights reserved.
   8  * Copyright (c) 1994 David Greenman
   9  * All rights reserved.
  10  * Copyright (c) 2003 Peter Wemm
  11  * All rights reserved.
  12  * Copyright (c) 2005-2010 Alan L. Cox <alc@cs.rice.edu>
  13  * All rights reserved.
  14  *
  15  * This code is derived from software contributed to Berkeley by
  16  * the Systems Programming Group of the University of Utah Computer
  17  * Science Department and William Jolitz of UUNET Technologies Inc.
  18  *
  19  * Redistribution and use in source and binary forms, with or without
  20  * modification, are permitted provided that the following conditions
  21  * are met:
  22  * 1. Redistributions of source code must retain the above copyright
  23  *    notice, this list of conditions and the following disclaimer.
  24  * 2. Redistributions in binary form must reproduce the above copyright
  25  *    notice, this list of conditions and the following disclaimer in the
  26  *    documentation and/or other materials provided with the distribution.
  27  * 3. All advertising materials mentioning features or use of this software
  28  *    must display the following acknowledgement:
  29  *      This product includes software developed by the University of
  30  *      California, Berkeley and its contributors.
  31  * 4. Neither the name of the University nor the names of its contributors
  32  *    may be used to endorse or promote products derived from this software
  33  *    without specific prior written permission.
  34  *
  35  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  36  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  37  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  38  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  39  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  40  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  41  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  42  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  43  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  44  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  45  * SUCH DAMAGE.
  46  *
  47  *      from:   @(#)pmap.c      7.7 (Berkeley)  5/12/91
  48  */
  49 /*-
  50  * Copyright (c) 2003 Networks Associates Technology, Inc.
  51  * Copyright (c) 2014-2020 The FreeBSD Foundation
  52  * All rights reserved.
  53  *
  54  * This software was developed for the FreeBSD Project by Jake Burkholder,
  55  * Safeport Network Services, and Network Associates Laboratories, the
  56  * Security Research Division of Network Associates, Inc. under
  57  * DARPA/SPAWAR contract N66001-01-C-8035 ("CBOSS"), as part of the DARPA
  58  * CHATS research program.
  59  *
  60  * Portions of this software were developed by
  61  * Konstantin Belousov <kib@FreeBSD.org> under sponsorship from
  62  * the FreeBSD Foundation.
  63  *
  64  * Redistribution and use in source and binary forms, with or without
  65  * modification, are permitted provided that the following conditions
  66  * are met:
  67  * 1. Redistributions of source code must retain the above copyright
  68  *    notice, this list of conditions and the following disclaimer.
  69  * 2. Redistributions in binary form must reproduce the above copyright
  70  *    notice, this list of conditions and the following disclaimer in the
  71  *    documentation and/or other materials provided with the distribution.
  72  *
  73  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  74  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  75  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  76  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  77  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  78  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  79  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  80  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  81  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  82  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  83  * SUCH DAMAGE.
  84  */
  85
  86 #define AMD64_NPT_AWARE
  87
  88 #include <sys/cdefs.h>
  89 __FBSDID("$FreeBSD$");
  90
  91 /*
  92  *      Manages physical address maps.
  93  *
  94  *      Since the information managed by this module is
  95  *      also stored by the logical address mapping module,
  96  *      this module may throw away valid virtual-to-physical
  97  *      mappings at almost any time.  However, invalidations
  98  *      of virtual-to-physical mappings must be done as
  99  *      requested.
 100  *
 101  *      In order to cope with hardware architectures which
 102  *      make virtual-to-physical map invalidates expensive,
 103  *      this module may delay invalidate or reduced protection
 104  *      operations until such time as they are actually
 105  *      necessary.  This module is given full information as
 106  *      to which processors are currently using which maps,
 107  *      and to when physical maps must be made correct.
 108  */
 109
 110 #include "opt_ddb.h"
 111 #include "opt_pmap.h"
 112 #include "opt_vm.h"
 113
 114 #include <sys/param.h>
 115 #include <sys/bitstring.h>
 116 #include <sys/bus.h>
 117 #include <sys/systm.h>
 118 #include <sys/kernel.h>
 119 #include <sys/ktr.h>
 120 #include <sys/lock.h>
 121 #include <sys/malloc.h>
 122 #include <sys/mman.h>
 123 #include <sys/mutex.h>
 124 #include <sys/proc.h>
 125 #include <sys/rangeset.h>
 126 #include <sys/rwlock.h>
 127 #include <sys/sbuf.h>
 128 #include <sys/sx.h>
 129 #include <sys/turnstile.h>
 130 #include <sys/vmem.h>
 131 #include <sys/vmmeter.h>
 132 #include <sys/sched.h>
 133 #include <sys/sysctl.h>
 134 #include <sys/smp.h>
 135 #ifdef DDB
 136 #include <sys/kdb.h>
 137 #include <ddb/ddb.h>
 138 #endif
 139
 140 #include <vm/vm.h>
 141 #include <vm/vm_param.h>
 142 #include <vm/vm_kern.h>
 143 #include <vm/vm_page.h>
 144 #include <vm/vm_map.h>
 145 #include <vm/vm_object.h>
 146 #include <vm/vm_extern.h>
 147 #include <vm/vm_pageout.h>
 148 #include <vm/vm_pager.h>
 149 #include <vm/vm_phys.h>
 150 #include <vm/vm_radix.h>
 151 #include <vm/vm_reserv.h>
 152 #include <vm/uma.h>
 153
 154 #include <machine/intr_machdep.h>
 155 #include <x86/apicvar.h>
 156 #include <x86/ifunc.h>
 157 #include <machine/cpu.h>
 158 #include <machine/cputypes.h>
 159 #include <machine/md_var.h>
 160 #include <machine/pcb.h>
 161 #include <machine/specialreg.h>
 162 #ifdef SMP
 163 #include <machine/smp.h>
 164 #endif
 165 #include <machine/sysarch.h>
 166 #include <machine/tss.h>
 167
 168 #ifdef NUMA
 169 #define PMAP_MEMDOM     MAXMEMDOM
 170 #else
 171 #define PMAP_MEMDOM     1
 172 #endif
 173
 174 static __inline boolean_t
 175 pmap_type_guest(pmap_t pmap)
 176 {
 177
 178         return ((pmap->pm_type == PT_EPT) || (pmap->pm_type == PT_RVI));
 179 }
 180
 181 static __inline boolean_t
 182 pmap_emulate_ad_bits(pmap_t pmap)
 183 {
 184
 185         return ((pmap->pm_flags & PMAP_EMULATE_AD_BITS) != 0);
 186 }
 187
 188 static __inline pt_entry_t
 189 pmap_valid_bit(pmap_t pmap)
 190 {
 191         pt_entry_t mask;
 192
 193         switch (pmap->pm_type) {
 194         case PT_X86:
 195         case PT_RVI:
 196                 mask = X86_PG_V;
 197                 break;
 198         case PT_EPT:
 199                 if (pmap_emulate_ad_bits(pmap))
 200                         mask = EPT_PG_EMUL_V;
 201                 else
 202                         mask = EPT_PG_READ;
 203                 break;
 204         default:
 205                 panic("pmap_valid_bit: invalid pm_type %d", pmap->pm_type);
 206         }
 207
 208         return (mask);
 209 }
 210
 211 static __inline pt_entry_t
 212 pmap_rw_bit(pmap_t pmap)
 213 {
 214         pt_entry_t mask;
 215
 216         switch (pmap->pm_type) {
 217         case PT_X86:
 218         case PT_RVI:
 219                 mask = X86_PG_RW;
 220                 break;
 221         case PT_EPT:
 222                 if (pmap_emulate_ad_bits(pmap))
 223                         mask = EPT_PG_EMUL_RW;
 224                 else
 225                         mask = EPT_PG_WRITE;
 226                 break;
 227         default:
 228                 panic("pmap_rw_bit: invalid pm_type %d", pmap->pm_type);
 229         }
 230
 231         return (mask);
 232 }
 233
 234 static pt_entry_t pg_g;
 235
 236 static __inline pt_entry_t
 237 pmap_global_bit(pmap_t pmap)
 238 {
 239         pt_entry_t mask;
 240
 241         switch (pmap->pm_type) {
 242         case PT_X86:
 243                 mask = pg_g;
 244                 break;
 245         case PT_RVI:
 246         case PT_EPT:
 247                 mask = 0;
 248                 break;
 249         default:
 250                 panic("pmap_global_bit: invalid pm_type %d", pmap->pm_type);
 251         }
 252
 253         return (mask);
 254 }
 255
 256 static __inline pt_entry_t
 257 pmap_accessed_bit(pmap_t pmap)
 258 {
 259         pt_entry_t mask;
 260
 261         switch (pmap->pm_type) {
 262         case PT_X86:
 263         case PT_RVI:
 264                 mask = X86_PG_A;
 265                 break;
 266         case PT_EPT:
 267                 if (pmap_emulate_ad_bits(pmap))
 268                         mask = EPT_PG_READ;
 269                 else
 270                         mask = EPT_PG_A;
 271                 break;
 272         default:
 273                 panic("pmap_accessed_bit: invalid pm_type %d", pmap->pm_type);
 274         }
 275
 276         return (mask);
 277 }
 278
 279 static __inline pt_entry_t
 280 pmap_modified_bit(pmap_t pmap)
 281 {
 282         pt_entry_t mask;
 283
 284         switch (pmap->pm_type) {
 285         case PT_X86:
 286         case PT_RVI:
 287                 mask = X86_PG_M;
 288                 break;
 289         case PT_EPT:
 290                 if (pmap_emulate_ad_bits(pmap))
 291                         mask = EPT_PG_WRITE;
 292                 else
 293                         mask = EPT_PG_M;
 294                 break;
 295         default:
 296                 panic("pmap_modified_bit: invalid pm_type %d", pmap->pm_type);
 297         }
 298
 299         return (mask);
 300 }
 301
 302 static __inline pt_entry_t
 303 pmap_pku_mask_bit(pmap_t pmap)
 304 {
 305
 306         return (pmap->pm_type == PT_X86 ? X86_PG_PKU_MASK : 0);
 307 }
 308
 309 #if !defined(DIAGNOSTIC)
 310 #ifdef __GNUC_GNU_INLINE__
 311 #define PMAP_INLINE     __attribute__((__gnu_inline__)) inline
 312 #else
 313 #define PMAP_INLINE     extern inline
 314 #endif
 315 #else
 316 #define PMAP_INLINE
 317 #endif
 318
 319 #ifdef PV_STATS
 320 #define PV_STAT(x)      do { x ; } while (0)
 321 #else
 322 #define PV_STAT(x)      do { } while (0)
 323 #endif
 324
 325 #undef pa_index
 326 #ifdef NUMA
 327 #define pa_index(pa)    ({                                      \
 328         KASSERT((pa) <= vm_phys_segs[vm_phys_nsegs - 1].end,    \
 329             ("address %lx beyond the last segment", (pa)));     \
 330         (pa) >> PDRSHIFT;                                       \
 331 })
 332 #define pa_to_pmdp(pa)  (&pv_table[pa_index(pa)])
 333 #define pa_to_pvh(pa)   (&(pa_to_pmdp(pa)->pv_page))
 334 #define PHYS_TO_PV_LIST_LOCK(pa)        ({                      \
 335         struct rwlock *_lock;                                   \
 336         if (__predict_false((pa) > pmap_last_pa))               \
 337                 _lock = &pv_dummy_large.pv_lock;                \
 338         else                                                    \
 339                 _lock = &(pa_to_pmdp(pa)->pv_lock);             \
 340         _lock;                                                  \
 341 })
 342 #else
 343 #define pa_index(pa)    ((pa) >> PDRSHIFT)
 344 #define pa_to_pvh(pa)   (&pv_table[pa_index(pa)])
 345
 346 #define NPV_LIST_LOCKS  MAXCPU
 347
 348 #define PHYS_TO_PV_LIST_LOCK(pa)        \
 349                         (&pv_list_locks[pa_index(pa) % NPV_LIST_LOCKS])
 350 #endif
 351
 352 #define CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa)  do {    \
 353         struct rwlock **_lockp = (lockp);               \
 354         struct rwlock *_new_lock;                       \
 355                                                         \
 356         _new_lock = PHYS_TO_PV_LIST_LOCK(pa);           \
 357         if (_new_lock != *_lockp) {                     \
 358                 if (*_lockp != NULL)                    \
 359                         rw_wunlock(*_lockp);            \
 360                 *_lockp = _new_lock;                    \
 361                 rw_wlock(*_lockp);                      \
 362         }                                               \
 363 } while (0)
 364
 365 #define CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m)        \
 366                         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, VM_PAGE_TO_PHYS(m))
 367
 368 #define RELEASE_PV_LIST_LOCK(lockp)             do {    \
 369         struct rwlock **_lockp = (lockp);               \
 370                                                         \
 371         if (*_lockp != NULL) {                          \
 372                 rw_wunlock(*_lockp);                    \
 373                 *_lockp = NULL;                         \
 374         }                                               \
 375 } while (0)
 376
 377 #define VM_PAGE_TO_PV_LIST_LOCK(m)      \
 378                         PHYS_TO_PV_LIST_LOCK(VM_PAGE_TO_PHYS(m))
 379
 380 struct pmap kernel_pmap_store;
 381
 382 vm_offset_t virtual_avail;      /* VA of first avail page (after kernel bss) */
 383 vm_offset_t virtual_end;        /* VA of last avail page (end of kernel AS) */
 384
 385 int nkpt;
 386 SYSCTL_INT(_machdep, OID_AUTO, nkpt, CTLFLAG_RD, &nkpt, 0,
 387     "Number of kernel page table pages allocated on bootup");
 388
 389 static int ndmpdp;
 390 vm_paddr_t dmaplimit;
 391 vm_offset_t kernel_vm_end = VM_MIN_KERNEL_ADDRESS;
 392 pt_entry_t pg_nx;
 393
 394 static SYSCTL_NODE(_vm, OID_AUTO, pmap, CTLFLAG_RD | CTLFLAG_MPSAFE, 0,
 395     "VM/pmap parameters");
 396
 397 static int pg_ps_enabled = 1;
 398 SYSCTL_INT(_vm_pmap, OID_AUTO, pg_ps_enabled, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 399     &pg_ps_enabled, 0, "Are large page mappings enabled?");
 400
 401 int __read_frequently la57 = 0;
 402 SYSCTL_INT(_vm_pmap, OID_AUTO, la57, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 403     &la57, 0,
 404     "5-level paging for host is enabled");
 405
 406 static bool
 407 pmap_is_la57(pmap_t pmap)
 408 {
 409         if (pmap->pm_type == PT_X86)
 410                 return (la57);
 411         return (false);         /* XXXKIB handle EPT */
 412 }
 413
 414 #define PAT_INDEX_SIZE  8
 415 static int pat_index[PAT_INDEX_SIZE];   /* cache mode to PAT index conversion */
 416
 417 static u_int64_t        KPTphys;        /* phys addr of kernel level 1 */
 418 static u_int64_t        KPDphys;        /* phys addr of kernel level 2 */
 419 u_int64_t               KPDPphys;       /* phys addr of kernel level 3 */
 420 u_int64_t               KPML4phys;      /* phys addr of kernel level 4 */
 421 u_int64_t               KPML5phys;      /* phys addr of kernel level 5,
 422                                            if supported */
 423
 424 static pml4_entry_t     *kernel_pml4;
 425 static u_int64_t        DMPDphys;       /* phys addr of direct mapped level 2 */
 426 static u_int64_t        DMPDPphys;      /* phys addr of direct mapped level 3 */
 427 static int              ndmpdpphys;     /* number of DMPDPphys pages */
 428
 429 static vm_paddr_t       KERNend;        /* phys addr of end of bootstrap data */
 430
 431 /*
 432  * pmap_mapdev support pre initialization (i.e. console)
 433  */
 434 #define PMAP_PREINIT_MAPPING_COUNT      8
 435 static struct pmap_preinit_mapping {
 436         vm_paddr_t      pa;
 437         vm_offset_t     va;
 438         vm_size_t       sz;
 439         int             mode;
 440 } pmap_preinit_mapping[PMAP_PREINIT_MAPPING_COUNT];
 441 static int pmap_initialized;
 442
 443 /*
 444  * Data for the pv entry allocation mechanism.
 445  * Updates to pv_invl_gen are protected by the pv list lock but reads are not.
 446  */
 447 #ifdef NUMA
 448 static __inline int
 449 pc_to_domain(struct pv_chunk *pc)
 450 {
 451
 452         return (_vm_phys_domain(DMAP_TO_PHYS((vm_offset_t)pc)));
 453 }
 454 #else
 455 static __inline int
 456 pc_to_domain(struct pv_chunk *pc __unused)
 457 {
 458
 459         return (0);
 460 }
 461 #endif
 462
 463 struct pv_chunks_list {
 464         struct mtx pvc_lock;
 465         TAILQ_HEAD(pch, pv_chunk) pvc_list;
 466         int active_reclaims;
 467 } __aligned(CACHE_LINE_SIZE);
 468
 469 struct pv_chunks_list __exclusive_cache_line pv_chunks[PMAP_MEMDOM];
 470
 471 #ifdef  NUMA
 472 struct pmap_large_md_page {
 473         struct rwlock   pv_lock;
 474         struct md_page  pv_page;
 475         u_long pv_invl_gen;
 476 };
 477 __exclusive_cache_line static struct pmap_large_md_page pv_dummy_large;
 478 #define pv_dummy pv_dummy_large.pv_page
 479 __read_mostly static struct pmap_large_md_page *pv_table;
 480 __read_mostly vm_paddr_t pmap_last_pa;
 481 #else
 482 static struct rwlock __exclusive_cache_line pv_list_locks[NPV_LIST_LOCKS];
 483 static u_long pv_invl_gen[NPV_LIST_LOCKS];
 484 static struct md_page *pv_table;
 485 static struct md_page pv_dummy;
 486 #endif
 487
 488 /*
 489  * All those kernel PT submaps that BSD is so fond of
 490  */
 491 pt_entry_t *CMAP1 = NULL;
 492 caddr_t CADDR1 = 0;
 493 static vm_offset_t qframe = 0;
 494 static struct mtx qframe_mtx;
 495
 496 static int pmap_flags = PMAP_PDE_SUPERPAGE;     /* flags for x86 pmaps */
 497
 498 static vmem_t *large_vmem;
 499 static u_int lm_ents;
 500 #define PMAP_ADDRESS_IN_LARGEMAP(va)    ((va) >= LARGEMAP_MIN_ADDRESS && \
 501         (va) < LARGEMAP_MIN_ADDRESS + NBPML4 * (u_long)lm_ents)
 502
 503 int pmap_pcid_enabled = 1;
 504 SYSCTL_INT(_vm_pmap, OID_AUTO, pcid_enabled, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 505     &pmap_pcid_enabled, 0, "Is TLB Context ID enabled ?");
 506 int invpcid_works = 0;
 507 SYSCTL_INT(_vm_pmap, OID_AUTO, invpcid_works, CTLFLAG_RD, &invpcid_works, 0,
 508     "Is the invpcid instruction available ?");
 509
 510 int __read_frequently pti = 0;
 511 SYSCTL_INT(_vm_pmap, OID_AUTO, pti, CTLFLAG_RDTUN | CTLFLAG_NOFETCH,
 512     &pti, 0,
 513     "Page Table Isolation enabled");
 514 static vm_object_t pti_obj;
 515 static pml4_entry_t *pti_pml4;
 516 static vm_pindex_t pti_pg_idx;
 517 static bool pti_finalized;
 518
 519 struct pmap_pkru_range {
 520         struct rs_el    pkru_rs_el;
 521         u_int           pkru_keyidx;
 522         int             pkru_flags;
 523 };
 524
 525 static uma_zone_t pmap_pkru_ranges_zone;
 526 static bool pmap_pkru_same(pmap_t pmap, vm_offset_t sva, vm_offset_t eva);
 527 static pt_entry_t pmap_pkru_get(pmap_t pmap, vm_offset_t va);
 528 static void pmap_pkru_on_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva);
 529 static void *pkru_dup_range(void *ctx, void *data);
 530 static void pkru_free_range(void *ctx, void *node);
 531 static int pmap_pkru_copy(pmap_t dst_pmap, pmap_t src_pmap);
 532 static int pmap_pkru_deassign(pmap_t pmap, vm_offset_t sva, vm_offset_t eva);
 533 static void pmap_pkru_deassign_all(pmap_t pmap);
 534
 535 static int
 536 pmap_pcid_save_cnt_proc(SYSCTL_HANDLER_ARGS)
 537 {
 538         int i;
 539         uint64_t res;
 540
 541         res = 0;
 542         CPU_FOREACH(i) {
 543                 res += cpuid_to_pcpu[i]->pc_pm_save_cnt;
 544         }
 545         return (sysctl_handle_64(oidp, &res, 0, req));
 546 }
 547 SYSCTL_PROC(_vm_pmap, OID_AUTO, pcid_save_cnt, CTLTYPE_U64 | CTLFLAG_RD |
 548     CTLFLAG_MPSAFE, NULL, 0, pmap_pcid_save_cnt_proc, "QU",
 549     "Count of saved TLB context on switch");
 550
 551 static LIST_HEAD(, pmap_invl_gen) pmap_invl_gen_tracker =
 552     LIST_HEAD_INITIALIZER(&pmap_invl_gen_tracker);
 553 static struct mtx invl_gen_mtx;
 554 /* Fake lock object to satisfy turnstiles interface. */
 555 static struct lock_object invl_gen_ts = {
 556         .lo_name = "invlts",
 557 };
 558 static struct pmap_invl_gen pmap_invl_gen_head = {
 559         .gen = 1,
 560         .next = NULL,
 561 };
 562 static u_long pmap_invl_gen = 1;
 563 static int pmap_invl_waiters;
 564 static struct callout pmap_invl_callout;
 565 static bool pmap_invl_callout_inited;
 566
 567 #define PMAP_ASSERT_NOT_IN_DI() \
 568     KASSERT(pmap_not_in_di(), ("DI already started"))
 569
 570 static bool
 571 pmap_di_locked(void)
 572 {
 573         int tun;
 574
 575         if ((cpu_feature2 & CPUID2_CX16) == 0)
 576                 return (true);
 577         tun = 0;
 578         TUNABLE_INT_FETCH("vm.pmap.di_locked", &tun);
 579         return (tun != 0);
 580 }
 581
 582 static int
 583 sysctl_pmap_di_locked(SYSCTL_HANDLER_ARGS)
 584 {
 585         int locked;
 586
 587         locked = pmap_di_locked();
 588         return (sysctl_handle_int(oidp, &locked, 0, req));
 589 }
 590 SYSCTL_PROC(_vm_pmap, OID_AUTO, di_locked, CTLTYPE_INT | CTLFLAG_RDTUN |
 591     CTLFLAG_MPSAFE, 0, 0, sysctl_pmap_di_locked, "",
 592     "Locked delayed invalidation");
 593
 594 static bool pmap_not_in_di_l(void);
 595 static bool pmap_not_in_di_u(void);
 596 DEFINE_IFUNC(, bool, pmap_not_in_di, (void))
 597 {
 598
 599         return (pmap_di_locked() ? pmap_not_in_di_l : pmap_not_in_di_u);
 600 }
 601
 602 static bool
 603 pmap_not_in_di_l(void)
 604 {
 605         struct pmap_invl_gen *invl_gen;
 606
 607         invl_gen = &curthread->td_md.md_invl_gen;
 608         return (invl_gen->gen == 0);
 609 }
 610
 611 static void
 612 pmap_thread_init_invl_gen_l(struct thread *td)
 613 {
 614         struct pmap_invl_gen *invl_gen;
 615
 616         invl_gen = &td->td_md.md_invl_gen;
 617         invl_gen->gen = 0;
 618 }
 619
 620 static void
 621 pmap_delayed_invl_wait_block(u_long *m_gen, u_long *invl_gen)
 622 {
 623         struct turnstile *ts;
 624
 625         ts = turnstile_trywait(&invl_gen_ts);
 626         if (*m_gen > atomic_load_long(invl_gen))
 627                 turnstile_wait(ts, NULL, TS_SHARED_QUEUE);
 628         else
 629                 turnstile_cancel(ts);
 630 }
 631
 632 static void
 633 pmap_delayed_invl_finish_unblock(u_long new_gen)
 634 {
 635         struct turnstile *ts;
 636
 637         turnstile_chain_lock(&invl_gen_ts);
 638         ts = turnstile_lookup(&invl_gen_ts);
 639         if (new_gen != 0)
 640                 pmap_invl_gen = new_gen;
 641         if (ts != NULL) {
 642                 turnstile_broadcast(ts, TS_SHARED_QUEUE);
 643                 turnstile_unpend(ts);
 644         }
 645         turnstile_chain_unlock(&invl_gen_ts);
 646 }
 647
 648 /*
 649  * Start a new Delayed Invalidation (DI) block of code, executed by
 650  * the current thread.  Within a DI block, the current thread may
 651  * destroy both the page table and PV list entries for a mapping and
 652  * then release the corresponding PV list lock before ensuring that
 653  * the mapping is flushed from the TLBs of any processors with the
 654  * pmap active.
 655  */
 656 static void
 657 pmap_delayed_invl_start_l(void)
 658 {
 659         struct pmap_invl_gen *invl_gen;
 660         u_long currgen;
 661
 662         invl_gen = &curthread->td_md.md_invl_gen;
 663         PMAP_ASSERT_NOT_IN_DI();
 664         mtx_lock(&invl_gen_mtx);
 665         if (LIST_EMPTY(&pmap_invl_gen_tracker))
 666                 currgen = pmap_invl_gen;
 667         else
 668                 currgen = LIST_FIRST(&pmap_invl_gen_tracker)->gen;
 669         invl_gen->gen = currgen + 1;
 670         LIST_INSERT_HEAD(&pmap_invl_gen_tracker, invl_gen, link);
 671         mtx_unlock(&invl_gen_mtx);
 672 }
 673
 674 /*
 675  * Finish the DI block, previously started by the current thread.  All
 676  * required TLB flushes for the pages marked by
 677  * pmap_delayed_invl_page() must be finished before this function is
 678  * called.
 679  *
 680  * This function works by bumping the global DI generation number to
 681  * the generation number of the current thread's DI, unless there is a
 682  * pending DI that started earlier.  In the latter case, bumping the
 683  * global DI generation number would incorrectly signal that the
 684  * earlier DI had finished.  Instead, this function bumps the earlier
 685  * DI's generation number to match the generation number of the
 686  * current thread's DI.
 687  */
 688 static void
 689 pmap_delayed_invl_finish_l(void)
 690 {
 691         struct pmap_invl_gen *invl_gen, *next;
 692
 693         invl_gen = &curthread->td_md.md_invl_gen;
 694         KASSERT(invl_gen->gen != 0, ("missed invl_start"));
 695         mtx_lock(&invl_gen_mtx);
 696         next = LIST_NEXT(invl_gen, link);
 697         if (next == NULL)
 698                 pmap_delayed_invl_finish_unblock(invl_gen->gen);
 699         else
 700                 next->gen = invl_gen->gen;
 701         LIST_REMOVE(invl_gen, link);
 702         mtx_unlock(&invl_gen_mtx);
 703         invl_gen->gen = 0;
 704 }
 705
 706 static bool
 707 pmap_not_in_di_u(void)
 708 {
 709         struct pmap_invl_gen *invl_gen;
 710
 711         invl_gen = &curthread->td_md.md_invl_gen;
 712         return (((uintptr_t)invl_gen->next & PMAP_INVL_GEN_NEXT_INVALID) != 0);
 713 }
 714
 715 static void
 716 pmap_thread_init_invl_gen_u(struct thread *td)
 717 {
 718         struct pmap_invl_gen *invl_gen;
 719
 720         invl_gen = &td->td_md.md_invl_gen;
 721         invl_gen->gen = 0;
 722         invl_gen->next = (void *)PMAP_INVL_GEN_NEXT_INVALID;
 723 }
 724
 725 static bool
 726 pmap_di_load_invl(struct pmap_invl_gen *ptr, struct pmap_invl_gen *out)
 727 {
 728         uint64_t new_high, new_low, old_high, old_low;
 729         char res;
 730
 731         old_low = new_low = 0;
 732         old_high = new_high = (uintptr_t)0;
 733
 734         __asm volatile("lock;cmpxchg16b\t%1"
 735             : "=@cce" (res), "+m" (*ptr), "+a" (old_low), "+d" (old_high)
 736             : "b"(new_low), "c" (new_high)
 737             : "memory", "cc");
 738         if (res == 0) {
 739                 if ((old_high & PMAP_INVL_GEN_NEXT_INVALID) != 0)
 740                         return (false);
 741                 out->gen = old_low;
 742                 out->next = (void *)old_high;
 743         } else {
 744                 out->gen = new_low;
 745                 out->next = (void *)new_high;
 746         }
 747         return (true);
 748 }
 749
 750 static bool
 751 pmap_di_store_invl(struct pmap_invl_gen *ptr, struct pmap_invl_gen *old_val,
 752     struct pmap_invl_gen *new_val)
 753 {
 754         uint64_t new_high, new_low, old_high, old_low;
 755         char res;
 756
 757         new_low = new_val->gen;
 758         new_high = (uintptr_t)new_val->next;
 759         old_low = old_val->gen;
 760         old_high = (uintptr_t)old_val->next;
 761
 762         __asm volatile("lock;cmpxchg16b\t%1"
 763             : "=@cce" (res), "+m" (*ptr), "+a" (old_low), "+d" (old_high)
 764             : "b"(new_low), "c" (new_high)
 765             : "memory", "cc");
 766         return (res);
 767 }
 768
 769 #ifdef PV_STATS
 770 static long invl_start_restart;
 771 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_start_restart, CTLFLAG_RD,
 772     &invl_start_restart, 0,
 773     "");
 774 static long invl_finish_restart;
 775 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_finish_restart, CTLFLAG_RD,
 776     &invl_finish_restart, 0,
 777     "");
 778 static int invl_max_qlen;
 779 SYSCTL_INT(_vm_pmap, OID_AUTO, invl_max_qlen, CTLFLAG_RD,
 780     &invl_max_qlen, 0,
 781     "");
 782 #endif
 783
 784 #define di_delay        locks_delay
 785
 786 static void
 787 pmap_delayed_invl_start_u(void)
 788 {
 789         struct pmap_invl_gen *invl_gen, *p, prev, new_prev;
 790         struct thread *td;
 791         struct lock_delay_arg lda;
 792         uintptr_t prevl;
 793         u_char pri;
 794 #ifdef PV_STATS
 795         int i, ii;
 796 #endif
 797
 798         td = curthread;
 799         invl_gen = &td->td_md.md_invl_gen;
 800         PMAP_ASSERT_NOT_IN_DI();
 801         lock_delay_arg_init(&lda, &di_delay);
 802         invl_gen->saved_pri = 0;
 803         pri = td->td_base_pri;
 804         if (pri > PVM) {
 805                 thread_lock(td);
 806                 pri = td->td_base_pri;
 807                 if (pri > PVM) {
 808                         invl_gen->saved_pri = pri;
 809                         sched_prio(td, PVM);
 810                 }
 811                 thread_unlock(td);
 812         }
 813 again:
 814         PV_STAT(i = 0);
 815         for (p = &pmap_invl_gen_head;; p = prev.next) {
 816                 PV_STAT(i++);
 817                 prevl = (uintptr_t)atomic_load_ptr(&p->next);
 818                 if ((prevl & PMAP_INVL_GEN_NEXT_INVALID) != 0) {
 819                         PV_STAT(atomic_add_long(&invl_start_restart, 1));
 820                         lock_delay(&lda);
 821                         goto again;
 822                 }
 823                 if (prevl == 0)
 824                         break;
 825                 prev.next = (void *)prevl;
 826         }
 827 #ifdef PV_STATS
 828         if ((ii = invl_max_qlen) < i)
 829                 atomic_cmpset_int(&invl_max_qlen, ii, i);
 830 #endif
 831
 832         if (!pmap_di_load_invl(p, &prev) || prev.next != NULL) {
 833                 PV_STAT(atomic_add_long(&invl_start_restart, 1));
 834                 lock_delay(&lda);
 835                 goto again;
 836         }
 837
 838         new_prev.gen = prev.gen;
 839         new_prev.next = invl_gen;
 840         invl_gen->gen = prev.gen + 1;
 841
 842         /* Formal fence between store to invl->gen and updating *p. */
 843         atomic_thread_fence_rel();
 844
 845         /*
 846          * After inserting an invl_gen element with invalid bit set,
 847          * this thread blocks any other thread trying to enter the
 848          * delayed invalidation block.  Do not allow to remove us from
 849          * the CPU, because it causes starvation for other threads.
 850          */
 851         critical_enter();
 852
 853         /*
 854          * ABA for *p is not possible there, since p->gen can only
 855          * increase.  So if the *p thread finished its di, then
 856          * started a new one and got inserted into the list at the
 857          * same place, its gen will appear greater than the previously
 858          * read gen.
 859          */
 860         if (!pmap_di_store_invl(p, &prev, &new_prev)) {
 861                 critical_exit();
 862                 PV_STAT(atomic_add_long(&invl_start_restart, 1));
 863                 lock_delay(&lda);
 864                 goto again;
 865         }
 866
 867         /*
 868          * There we clear PMAP_INVL_GEN_NEXT_INVALID in
 869          * invl_gen->next, allowing other threads to iterate past us.
 870          * pmap_di_store_invl() provides fence between the generation
 871          * write and the update of next.
 872          */
 873         invl_gen->next = NULL;
 874         critical_exit();
 875 }
 876
 877 static bool
 878 pmap_delayed_invl_finish_u_crit(struct pmap_invl_gen *invl_gen,
 879     struct pmap_invl_gen *p)
 880 {
 881         struct pmap_invl_gen prev, new_prev;
 882         u_long mygen;
 883
 884         /*
 885          * Load invl_gen->gen after setting invl_gen->next
 886          * PMAP_INVL_GEN_NEXT_INVALID.  This prevents larger
 887          * generations to propagate to our invl_gen->gen.  Lock prefix
 888          * in atomic_set_ptr() worked as seq_cst fence.
 889          */
 890         mygen = atomic_load_long(&invl_gen->gen);
 891
 892         if (!pmap_di_load_invl(p, &prev) || prev.next != invl_gen)
 893                 return (false);
 894
 895         KASSERT(prev.gen < mygen,
 896             ("invalid di gen sequence %lu %lu", prev.gen, mygen));
 897         new_prev.gen = mygen;
 898         new_prev.next = (void *)((uintptr_t)invl_gen->next &
 899             ~PMAP_INVL_GEN_NEXT_INVALID);
 900
 901         /* Formal fence between load of prev and storing update to it. */
 902         atomic_thread_fence_rel();
 903
 904         return (pmap_di_store_invl(p, &prev, &new_prev));
 905 }
 906
 907 static void
 908 pmap_delayed_invl_finish_u(void)
 909 {
 910         struct pmap_invl_gen *invl_gen, *p;
 911         struct thread *td;
 912         struct lock_delay_arg lda;
 913         uintptr_t prevl;
 914
 915         td = curthread;
 916         invl_gen = &td->td_md.md_invl_gen;
 917         KASSERT(invl_gen->gen != 0, ("missed invl_start: gen 0"));
 918         KASSERT(((uintptr_t)invl_gen->next & PMAP_INVL_GEN_NEXT_INVALID) == 0,
 919             ("missed invl_start: INVALID"));
 920         lock_delay_arg_init(&lda, &di_delay);
 921
 922 again:
 923         for (p = &pmap_invl_gen_head; p != NULL; p = (void *)prevl) {
 924                 prevl = (uintptr_t)atomic_load_ptr(&p->next);
 925                 if ((prevl & PMAP_INVL_GEN_NEXT_INVALID) != 0) {
 926                         PV_STAT(atomic_add_long(&invl_finish_restart, 1));
 927                         lock_delay(&lda);
 928                         goto again;
 929                 }
 930                 if ((void *)prevl == invl_gen)
 931                         break;
 932         }
 933
 934         /*
 935          * It is legitimate to not find ourself on the list if a
 936          * thread before us finished its DI and started it again.
 937          */
 938         if (__predict_false(p == NULL)) {
 939                 PV_STAT(atomic_add_long(&invl_finish_restart, 1));
 940                 lock_delay(&lda);
 941                 goto again;
 942         }
 943
 944         critical_enter();
 945         atomic_set_ptr((uintptr_t *)&invl_gen->next,
 946             PMAP_INVL_GEN_NEXT_INVALID);
 947         if (!pmap_delayed_invl_finish_u_crit(invl_gen, p)) {
 948                 atomic_clear_ptr((uintptr_t *)&invl_gen->next,
 949                     PMAP_INVL_GEN_NEXT_INVALID);
 950                 critical_exit();
 951                 PV_STAT(atomic_add_long(&invl_finish_restart, 1));
 952                 lock_delay(&lda);
 953                 goto again;
 954         }
 955         critical_exit();
 956         if (atomic_load_int(&pmap_invl_waiters) > 0)
 957                 pmap_delayed_invl_finish_unblock(0);
 958         if (invl_gen->saved_pri != 0) {
 959                 thread_lock(td);
 960                 sched_prio(td, invl_gen->saved_pri);
 961                 thread_unlock(td);
 962         }
 963 }
 964
 965 #ifdef DDB
 966 DB_SHOW_COMMAND(di_queue, pmap_di_queue)
 967 {
 968         struct pmap_invl_gen *p, *pn;
 969         struct thread *td;
 970         uintptr_t nextl;
 971         bool first;
 972
 973         for (p = &pmap_invl_gen_head, first = true; p != NULL; p = pn,
 974             first = false) {
 975                 nextl = (uintptr_t)atomic_load_ptr(&p->next);
 976                 pn = (void *)(nextl & ~PMAP_INVL_GEN_NEXT_INVALID);
 977                 td = first ? NULL : __containerof(p, struct thread,
 978                     td_md.md_invl_gen);
 979                 db_printf("gen %lu inv %d td %p tid %d\n", p->gen,
 980                     (nextl & PMAP_INVL_GEN_NEXT_INVALID) != 0, td,
 981                     td != NULL ? td->td_tid : -1);
 982         }
 983 }
 984 #endif
 985
 986 #ifdef PV_STATS
 987 static long invl_wait;
 988 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_wait, CTLFLAG_RD, &invl_wait, 0,
 989     "Number of times DI invalidation blocked pmap_remove_all/write");
 990 static long invl_wait_slow;
 991 SYSCTL_LONG(_vm_pmap, OID_AUTO, invl_wait_slow, CTLFLAG_RD, &invl_wait_slow, 0,
 992     "Number of slow invalidation waits for lockless DI");
 993 #endif
 994
 995 #ifdef NUMA
 996 static u_long *
 997 pmap_delayed_invl_genp(vm_page_t m)
 998 {
 999         vm_paddr_t pa;
1000         u_long *gen;
1001
1002         pa = VM_PAGE_TO_PHYS(m);
1003         if (__predict_false((pa) > pmap_last_pa))
1004                 gen = &pv_dummy_large.pv_invl_gen;
1005         else
1006                 gen = &(pa_to_pmdp(pa)->pv_invl_gen);
1007
1008         return (gen);
1009 }
1010 #else
1011 static u_long *
1012 pmap_delayed_invl_genp(vm_page_t m)
1013 {
1014
1015         return (&pv_invl_gen[pa_index(VM_PAGE_TO_PHYS(m)) % NPV_LIST_LOCKS]);
1016 }
1017 #endif
1018
1019 static void
1020 pmap_delayed_invl_callout_func(void *arg __unused)
1021 {
1022
1023         if (atomic_load_int(&pmap_invl_waiters) == 0)
1024                 return;
1025         pmap_delayed_invl_finish_unblock(0);
1026 }
1027
1028 static void
1029 pmap_delayed_invl_callout_init(void *arg __unused)
1030 {
1031
1032         if (pmap_di_locked())
1033                 return;
1034         callout_init(&pmap_invl_callout, 1);
1035         pmap_invl_callout_inited = true;
1036 }
1037 SYSINIT(pmap_di_callout, SI_SUB_CPU + 1, SI_ORDER_ANY,
1038     pmap_delayed_invl_callout_init, NULL);
1039
1040 /*
1041  * Ensure that all currently executing DI blocks, that need to flush
1042  * TLB for the given page m, actually flushed the TLB at the time the
1043  * function returned.  If the page m has an empty PV list and we call
1044  * pmap_delayed_invl_wait(), upon its return we know that no CPU has a
1045  * valid mapping for the page m in either its page table or TLB.
1046  *
1047  * This function works by blocking until the global DI generation
1048  * number catches up with the generation number associated with the
1049  * given page m and its PV list.  Since this function's callers
1050  * typically own an object lock and sometimes own a page lock, it
1051  * cannot sleep.  Instead, it blocks on a turnstile to relinquish the
1052  * processor.
1053  */
1054 static void
1055 pmap_delayed_invl_wait_l(vm_page_t m)
1056 {
1057         u_long *m_gen;
1058 #ifdef PV_STATS
1059         bool accounted = false;
1060 #endif
1061
1062         m_gen = pmap_delayed_invl_genp(m);
1063         while (*m_gen > pmap_invl_gen) {
1064 #ifdef PV_STATS
1065                 if (!accounted) {
1066                         atomic_add_long(&invl_wait, 1);
1067                         accounted = true;
1068                 }
1069 #endif
1070                 pmap_delayed_invl_wait_block(m_gen, &pmap_invl_gen);
1071         }
1072 }
1073
1074 static void
1075 pmap_delayed_invl_wait_u(vm_page_t m)
1076 {
1077         u_long *m_gen;
1078         struct lock_delay_arg lda;
1079         bool fast;
1080
1081         fast = true;
1082         m_gen = pmap_delayed_invl_genp(m);
1083         lock_delay_arg_init(&lda, &di_delay);
1084         while (*m_gen > atomic_load_long(&pmap_invl_gen_head.gen)) {
1085                 if (fast || !pmap_invl_callout_inited) {
1086                         PV_STAT(atomic_add_long(&invl_wait, 1));
1087                         lock_delay(&lda);
1088                         fast = false;
1089                 } else {
1090                         /*
1091                          * The page's invalidation generation number
1092                          * is still below the current thread's number.
1093                          * Prepare to block so that we do not waste
1094                          * CPU cycles or worse, suffer livelock.
1095                          *
1096                          * Since it is impossible to block without
1097                          * racing with pmap_delayed_invl_finish_u(),
1098                          * prepare for the race by incrementing
1099                          * pmap_invl_waiters and arming a 1-tick
1100                          * callout which will unblock us if we lose
1101                          * the race.
1102                          */
1103                         atomic_add_int(&pmap_invl_waiters, 1);
1104
1105                         /*
1106                          * Re-check the current thread's invalidation
1107                          * generation after incrementing
1108                          * pmap_invl_waiters, so that there is no race
1109                          * with pmap_delayed_invl_finish_u() setting
1110                          * the page generation and checking
1111                          * pmap_invl_waiters.  The only race allowed
1112                          * is for a missed unblock, which is handled
1113                          * by the callout.
1114                          */
1115                         if (*m_gen >
1116                             atomic_load_long(&pmap_invl_gen_head.gen)) {
1117                                 callout_reset(&pmap_invl_callout, 1,
1118                                     pmap_delayed_invl_callout_func, NULL);
1119                                 PV_STAT(atomic_add_long(&invl_wait_slow, 1));
1120                                 pmap_delayed_invl_wait_block(m_gen,
1121                                     &pmap_invl_gen_head.gen);
1122                         }
1123                         atomic_add_int(&pmap_invl_waiters, -1);
1124                 }
1125         }
1126 }
1127
1128 DEFINE_IFUNC(, void, pmap_thread_init_invl_gen, (struct thread *))
1129 {
1130
1131         return (pmap_di_locked() ? pmap_thread_init_invl_gen_l :
1132             pmap_thread_init_invl_gen_u);
1133 }
1134
1135 DEFINE_IFUNC(static, void, pmap_delayed_invl_start, (void))
1136 {
1137
1138         return (pmap_di_locked() ? pmap_delayed_invl_start_l :
1139             pmap_delayed_invl_start_u);
1140 }
1141
1142 DEFINE_IFUNC(static, void, pmap_delayed_invl_finish, (void))
1143 {
1144
1145         return (pmap_di_locked() ? pmap_delayed_invl_finish_l :
1146             pmap_delayed_invl_finish_u);
1147 }
1148
1149 DEFINE_IFUNC(static, void, pmap_delayed_invl_wait, (vm_page_t))
1150 {
1151
1152         return (pmap_di_locked() ? pmap_delayed_invl_wait_l :
1153             pmap_delayed_invl_wait_u);
1154 }
1155
1156 /*
1157  * Mark the page m's PV list as participating in the current thread's
1158  * DI block.  Any threads concurrently using m's PV list to remove or
1159  * restrict all mappings to m will wait for the current thread's DI
1160  * block to complete before proceeding.
1161  *
1162  * The function works by setting the DI generation number for m's PV
1163  * list to at least the DI generation number of the current thread.
1164  * This forces a caller of pmap_delayed_invl_wait() to block until
1165  * current thread calls pmap_delayed_invl_finish().
1166  */
1167 static void
1168 pmap_delayed_invl_page(vm_page_t m)
1169 {
1170         u_long gen, *m_gen;
1171
1172         rw_assert(VM_PAGE_TO_PV_LIST_LOCK(m), RA_WLOCKED);
1173         gen = curthread->td_md.md_invl_gen.gen;
1174         if (gen == 0)
1175                 return;
1176         m_gen = pmap_delayed_invl_genp(m);
1177         if (*m_gen < gen)
1178                 *m_gen = gen;
1179 }
1180
1181 /*
1182  * Crashdump maps.
1183  */
1184 static caddr_t crashdumpmap;
1185
1186 /*
1187  * Internal flags for pmap_enter()'s helper functions.
1188  */
1189 #define PMAP_ENTER_NORECLAIM    0x1000000       /* Don't reclaim PV entries. */
1190 #define PMAP_ENTER_NOREPLACE    0x2000000       /* Don't replace mappings. */
1191
1192 /*
1193  * Internal flags for pmap_mapdev_internal() and
1194  * pmap_change_props_locked().
1195  */
1196 #define MAPDEV_FLUSHCACHE       0x00000001      /* Flush cache after mapping. */
1197 #define MAPDEV_SETATTR          0x00000002      /* Modify existing attrs. */
1198 #define MAPDEV_ASSERTVALID      0x00000004      /* Assert mapping validity. */
1199
1200 TAILQ_HEAD(pv_chunklist, pv_chunk);
1201
1202 static void     free_pv_chunk(struct pv_chunk *pc);
1203 static void     free_pv_chunk_batch(struct pv_chunklist *batch);
1204 static void     free_pv_entry(pmap_t pmap, pv_entry_t pv);
1205 static pv_entry_t get_pv_entry(pmap_t pmap, struct rwlock **lockp);
1206 static int      popcnt_pc_map_pq(uint64_t *map);
1207 static vm_page_t reclaim_pv_chunk(pmap_t locked_pmap, struct rwlock **lockp);
1208 static void     reserve_pv_entries(pmap_t pmap, int needed,
1209                     struct rwlock **lockp);
1210 static void     pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
1211                     struct rwlock **lockp);
1212 static bool     pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, pd_entry_t pde,
1213                     u_int flags, struct rwlock **lockp);
1214 #if VM_NRESERVLEVEL > 0
1215 static void     pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
1216                     struct rwlock **lockp);
1217 #endif
1218 static void     pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va);
1219 static pv_entry_t pmap_pvh_remove(struct md_page *pvh, pmap_t pmap,
1220                     vm_offset_t va);
1221
1222 static void     pmap_abort_ptp(pmap_t pmap, vm_offset_t va, vm_page_t mpte);
1223 static int pmap_change_props_locked(vm_offset_t va, vm_size_t size,
1224     vm_prot_t prot, int mode, int flags);
1225 static boolean_t pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va);
1226 static boolean_t pmap_demote_pde_locked(pmap_t pmap, pd_entry_t *pde,
1227     vm_offset_t va, struct rwlock **lockp);
1228 static boolean_t pmap_demote_pdpe(pmap_t pmap, pdp_entry_t *pdpe,
1229     vm_offset_t va);
1230 static bool     pmap_enter_2mpage(pmap_t pmap, vm_offset_t va, vm_page_t m,
1231                     vm_prot_t prot, struct rwlock **lockp);
1232 static int      pmap_enter_pde(pmap_t pmap, vm_offset_t va, pd_entry_t newpde,
1233                     u_int flags, vm_page_t m, struct rwlock **lockp);
1234 static vm_page_t pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va,
1235     vm_page_t m, vm_prot_t prot, vm_page_t mpte, struct rwlock **lockp);
1236 static void pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte);
1237 static int pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte, bool promoted);
1238 static void pmap_invalidate_cache_range_selfsnoop(vm_offset_t sva,
1239     vm_offset_t eva);
1240 static void pmap_invalidate_cache_range_all(vm_offset_t sva,
1241     vm_offset_t eva);
1242 static void pmap_invalidate_pde_page(pmap_t pmap, vm_offset_t va,
1243                     pd_entry_t pde);
1244 static void pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode);
1245 static vm_page_t pmap_large_map_getptp_unlocked(void);
1246 static vm_paddr_t pmap_large_map_kextract(vm_offset_t va);
1247 #if VM_NRESERVLEVEL > 0
1248 static void pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
1249     struct rwlock **lockp);
1250 #endif
1251 static boolean_t pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva,
1252     vm_prot_t prot);
1253 static void pmap_pte_props(pt_entry_t *pte, u_long bits, u_long mask);
1254 static void pmap_pti_add_kva_locked(vm_offset_t sva, vm_offset_t eva,
1255     bool exec);
1256 static pdp_entry_t *pmap_pti_pdpe(vm_offset_t va);
1257 static pd_entry_t *pmap_pti_pde(vm_offset_t va);
1258 static void pmap_pti_wire_pte(void *pte);
1259 static int pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
1260     struct spglist *free, struct rwlock **lockp);
1261 static int pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t sva,
1262     pd_entry_t ptepde, struct spglist *free, struct rwlock **lockp);
1263 static vm_page_t pmap_remove_pt_page(pmap_t pmap, vm_offset_t va);
1264 static void pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
1265     struct spglist *free);
1266 static bool     pmap_remove_ptes(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
1267                     pd_entry_t *pde, struct spglist *free,
1268                     struct rwlock **lockp);
1269 static boolean_t pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va,
1270     vm_page_t m, struct rwlock **lockp);
1271 static void pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
1272     pd_entry_t newpde);
1273 static void pmap_update_pde_invalidate(pmap_t, vm_offset_t va, pd_entry_t pde);
1274
1275 static vm_page_t _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex,
1276                 struct rwlock **lockp, vm_offset_t va);
1277 static pd_entry_t *pmap_alloc_pde(pmap_t pmap, vm_offset_t va, vm_page_t *pdpgp,
1278                 struct rwlock **lockp);
1279 static vm_page_t pmap_allocpte(pmap_t pmap, vm_offset_t va,
1280                 struct rwlock **lockp);
1281
1282 static void _pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m,
1283     struct spglist *free);
1284 static int pmap_unuse_pt(pmap_t, vm_offset_t, pd_entry_t, struct spglist *);
1285
1286 /********************/
1287 /* Inline functions */
1288 /********************/
1289
1290 /*
1291  * Return a non-clipped indexes for a given VA, which are page table
1292  * pages indexes at the corresponding level.
1293  */
1294 static __inline vm_pindex_t
1295 pmap_pde_pindex(vm_offset_t va)
1296 {
1297         return (va >> PDRSHIFT);
1298 }
1299
1300 static __inline vm_pindex_t
1301 pmap_pdpe_pindex(vm_offset_t va)
1302 {
1303         return (NUPDE + (va >> PDPSHIFT));
1304 }
1305
1306 static __inline vm_pindex_t
1307 pmap_pml4e_pindex(vm_offset_t va)
1308 {
1309         return (NUPDE + NUPDPE + (va >> PML4SHIFT));
1310 }
1311
1312 static __inline vm_pindex_t
1313 pmap_pml5e_pindex(vm_offset_t va)
1314 {
1315         return (NUPDE + NUPDPE + NUPML4E + (va >> PML5SHIFT));
1316 }
1317
1318 static __inline pml4_entry_t *
1319 pmap_pml5e(pmap_t pmap, vm_offset_t va)
1320 {
1321
1322         MPASS(pmap_is_la57(pmap));
1323         return (&pmap->pm_pmltop[pmap_pml5e_index(va)]);
1324 }
1325
1326 static __inline pml4_entry_t *
1327 pmap_pml5e_u(pmap_t pmap, vm_offset_t va)
1328 {
1329
1330         MPASS(pmap_is_la57(pmap));
1331         return (&pmap->pm_pmltopu[pmap_pml5e_index(va)]);
1332 }
1333
1334 static __inline pml4_entry_t *
1335 pmap_pml5e_to_pml4e(pml5_entry_t *pml5e, vm_offset_t va)
1336 {
1337         pml4_entry_t *pml4e;
1338
1339         /* XXX MPASS(pmap_is_la57(pmap); */
1340         pml4e = (pml4_entry_t *)PHYS_TO_DMAP(*pml5e & PG_FRAME);
1341         return (&pml4e[pmap_pml4e_index(va)]);
1342 }
1343
1344 /* Return a pointer to the PML4 slot that corresponds to a VA */
1345 static __inline pml4_entry_t *
1346 pmap_pml4e(pmap_t pmap, vm_offset_t va)
1347 {
1348         pml5_entry_t *pml5e;
1349         pml4_entry_t *pml4e;
1350         pt_entry_t PG_V;
1351
1352         if (pmap_is_la57(pmap)) {
1353                 pml5e = pmap_pml5e(pmap, va);
1354                 PG_V = pmap_valid_bit(pmap);
1355                 if ((*pml5e & PG_V) == 0)
1356                         return (NULL);
1357                 pml4e = (pml4_entry_t *)PHYS_TO_DMAP(*pml5e & PG_FRAME);
1358         } else {
1359                 pml4e = pmap->pm_pmltop;
1360         }
1361         return (&pml4e[pmap_pml4e_index(va)]);
1362 }
1363
1364 static __inline pml4_entry_t *
1365 pmap_pml4e_u(pmap_t pmap, vm_offset_t va)
1366 {
1367         MPASS(!pmap_is_la57(pmap));
1368         return (&pmap->pm_pmltopu[pmap_pml4e_index(va)]);
1369 }
1370
1371 /* Return a pointer to the PDP slot that corresponds to a VA */
1372 static __inline pdp_entry_t *
1373 pmap_pml4e_to_pdpe(pml4_entry_t *pml4e, vm_offset_t va)
1374 {
1375         pdp_entry_t *pdpe;
1376
1377         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(*pml4e & PG_FRAME);
1378         return (&pdpe[pmap_pdpe_index(va)]);
1379 }
1380
1381 /* Return a pointer to the PDP slot that corresponds to a VA */
1382 static __inline pdp_entry_t *
1383 pmap_pdpe(pmap_t pmap, vm_offset_t va)
1384 {
1385         pml4_entry_t *pml4e;
1386         pt_entry_t PG_V;
1387
1388         PG_V = pmap_valid_bit(pmap);
1389         pml4e = pmap_pml4e(pmap, va);
1390         if (pml4e == NULL || (*pml4e & PG_V) == 0)
1391                 return (NULL);
1392         return (pmap_pml4e_to_pdpe(pml4e, va));
1393 }
1394
1395 /* Return a pointer to the PD slot that corresponds to a VA */
1396 static __inline pd_entry_t *
1397 pmap_pdpe_to_pde(pdp_entry_t *pdpe, vm_offset_t va)
1398 {
1399         pd_entry_t *pde;
1400
1401         KASSERT((*pdpe & PG_PS) == 0,
1402             ("%s: pdpe %#lx is a leaf", __func__, *pdpe));
1403         pde = (pd_entry_t *)PHYS_TO_DMAP(*pdpe & PG_FRAME);
1404         return (&pde[pmap_pde_index(va)]);
1405 }
1406
1407 /* Return a pointer to the PD slot that corresponds to a VA */
1408 static __inline pd_entry_t *
1409 pmap_pde(pmap_t pmap, vm_offset_t va)
1410 {
1411         pdp_entry_t *pdpe;
1412         pt_entry_t PG_V;
1413
1414         PG_V = pmap_valid_bit(pmap);
1415         pdpe = pmap_pdpe(pmap, va);
1416         if (pdpe == NULL || (*pdpe & PG_V) == 0)
1417                 return (NULL);
1418         KASSERT((*pdpe & PG_PS) == 0,
1419             ("pmap_pde for 1G page, pmap %p va %#lx", pmap, va));
1420         return (pmap_pdpe_to_pde(pdpe, va));
1421 }
1422
1423 /* Return a pointer to the PT slot that corresponds to a VA */
1424 static __inline pt_entry_t *
1425 pmap_pde_to_pte(pd_entry_t *pde, vm_offset_t va)
1426 {
1427         pt_entry_t *pte;
1428
1429         KASSERT((*pde & PG_PS) == 0,
1430             ("%s: pde %#lx is a leaf", __func__, *pde));
1431         pte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
1432         return (&pte[pmap_pte_index(va)]);
1433 }
1434
1435 /* Return a pointer to the PT slot that corresponds to a VA */
1436 static __inline pt_entry_t *
1437 pmap_pte(pmap_t pmap, vm_offset_t va)
1438 {
1439         pd_entry_t *pde;
1440         pt_entry_t PG_V;
1441
1442         PG_V = pmap_valid_bit(pmap);
1443         pde = pmap_pde(pmap, va);
1444         if (pde == NULL || (*pde & PG_V) == 0)
1445                 return (NULL);
1446         if ((*pde & PG_PS) != 0)        /* compat with i386 pmap_pte() */
1447                 return ((pt_entry_t *)pde);
1448         return (pmap_pde_to_pte(pde, va));
1449 }
1450
1451 static __inline void
1452 pmap_resident_count_inc(pmap_t pmap, int count)
1453 {
1454
1455         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1456         pmap->pm_stats.resident_count += count;
1457 }
1458
1459 static __inline void
1460 pmap_resident_count_dec(pmap_t pmap, int count)
1461 {
1462
1463         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1464         KASSERT(pmap->pm_stats.resident_count >= count,
1465             ("pmap %p resident count underflow %ld %d", pmap,
1466             pmap->pm_stats.resident_count, count));
1467         pmap->pm_stats.resident_count -= count;
1468 }
1469
1470 PMAP_INLINE pt_entry_t *
1471 vtopte(vm_offset_t va)
1472 {
1473         u_int64_t mask;
1474
1475         KASSERT(va >= VM_MAXUSER_ADDRESS, ("vtopte on a uva/gpa 0x%0lx", va));
1476
1477         if (la57) {
1478                 mask = ((1ul << (NPTEPGSHIFT + NPDEPGSHIFT + NPDPEPGSHIFT +
1479                     NPML4EPGSHIFT + NPML5EPGSHIFT)) - 1);
1480                 return (P5Tmap + ((va >> PAGE_SHIFT) & mask));
1481         } else {
1482                 mask = ((1ul << (NPTEPGSHIFT + NPDEPGSHIFT + NPDPEPGSHIFT +
1483                     NPML4EPGSHIFT)) - 1);
1484                 return (P4Tmap + ((va >> PAGE_SHIFT) & mask));
1485         }
1486 }
1487
1488 static __inline pd_entry_t *
1489 vtopde(vm_offset_t va)
1490 {
1491         u_int64_t mask;
1492
1493         KASSERT(va >= VM_MAXUSER_ADDRESS, ("vtopde on a uva/gpa 0x%0lx", va));
1494
1495         if (la57) {
1496                 mask = ((1ul << (NPDEPGSHIFT + NPDPEPGSHIFT +
1497                     NPML4EPGSHIFT + NPML5EPGSHIFT)) - 1);
1498                 return (P5Dmap + ((va >> PDRSHIFT) & mask));
1499         } else {
1500                 mask = ((1ul << (NPDEPGSHIFT + NPDPEPGSHIFT +
1501                     NPML4EPGSHIFT)) - 1);
1502                 return (P4Dmap + ((va >> PDRSHIFT) & mask));
1503         }
1504 }
1505
1506 static u_int64_t
1507 allocpages(vm_paddr_t *firstaddr, int n)
1508 {
1509         u_int64_t ret;
1510
1511         ret = *firstaddr;
1512         bzero((void *)ret, n * PAGE_SIZE);
1513         *firstaddr += n * PAGE_SIZE;
1514         return (ret);
1515 }
1516
1517 CTASSERT(powerof2(NDMPML4E));
1518
1519 /* number of kernel PDP slots */
1520 #define NKPDPE(ptpgs)           howmany(ptpgs, NPDEPG)
1521
1522 static void
1523 nkpt_init(vm_paddr_t addr)
1524 {
1525         int pt_pages;
1526
1527 #ifdef NKPT
1528         pt_pages = NKPT;
1529 #else
1530         pt_pages = howmany(addr, 1 << PDRSHIFT);
1531         pt_pages += NKPDPE(pt_pages);
1532
1533         /*
1534          * Add some slop beyond the bare minimum required for bootstrapping
1535          * the kernel.
1536          *
1537          * This is quite important when allocating KVA for kernel modules.
1538          * The modules are required to be linked in the negative 2GB of
1539          * the address space.  If we run out of KVA in this region then
1540          * pmap_growkernel() will need to allocate page table pages to map
1541          * the entire 512GB of KVA space which is an unnecessary tax on
1542          * physical memory.
1543          *
1544          * Secondly, device memory mapped as part of setting up the low-
1545          * level console(s) is taken from KVA, starting at virtual_avail.
1546          * This is because cninit() is called after pmap_bootstrap() but
1547          * before vm_init() and pmap_init(). 20MB for a frame buffer is
1548          * not uncommon.
1549          */
1550         pt_pages += 32;         /* 64MB additional slop. */
1551 #endif
1552         nkpt = pt_pages;
1553 }
1554
1555 /*
1556  * Returns the proper write/execute permission for a physical page that is
1557  * part of the initial boot allocations.
1558  *
1559  * If the page has kernel text, it is marked as read-only. If the page has
1560  * kernel read-only data, it is marked as read-only/not-executable. If the
1561  * page has only read-write data, it is marked as read-write/not-executable.
1562  * If the page is below/above the kernel range, it is marked as read-write.
1563  *
1564  * This function operates on 2M pages, since we map the kernel space that
1565  * way.
1566  */
1567 static inline pt_entry_t
1568 bootaddr_rwx(vm_paddr_t pa)
1569 {
1570
1571         /*
1572          * The kernel is loaded at a 2MB-aligned address, and memory below that
1573          * need not be executable.  The .bss section is padded to a 2MB
1574          * boundary, so memory following the kernel need not be executable
1575          * either.  Preloaded kernel modules have their mapping permissions
1576          * fixed up by the linker.
1577          */
1578         if (pa < trunc_2mpage(btext - KERNBASE) ||
1579             pa >= trunc_2mpage(_end - KERNBASE))
1580                 return (X86_PG_RW | pg_nx);
1581
1582         /*
1583          * The linker should ensure that the read-only and read-write
1584          * portions don't share the same 2M page, so this shouldn't
1585          * impact read-only data. However, in any case, any page with
1586          * read-write data needs to be read-write.
1587          */
1588         if (pa >= trunc_2mpage(brwsection - KERNBASE))
1589                 return (X86_PG_RW | pg_nx);
1590
1591         /*
1592          * Mark any 2M page containing kernel text as read-only. Mark
1593          * other pages with read-only data as read-only and not executable.
1594          * (It is likely a small portion of the read-only data section will
1595          * be marked as read-only, but executable. This should be acceptable
1596          * since the read-only protection will keep the data from changing.)
1597          * Note that fixups to the .text section will still work until we
1598          * set CR0.WP.
1599          */
1600         if (pa < round_2mpage(etext - KERNBASE))
1601                 return (0);
1602         return (pg_nx);
1603 }
1604
1605 static void
1606 create_pagetables(vm_paddr_t *firstaddr)
1607 {
1608         int i, j, ndm1g, nkpdpe, nkdmpde;
1609         pd_entry_t *pd_p;
1610         pdp_entry_t *pdp_p;
1611         pml4_entry_t *p4_p;
1612         uint64_t DMPDkernphys;
1613
1614         /* Allocate page table pages for the direct map */
1615         ndmpdp = howmany(ptoa(Maxmem), NBPDP);
1616         if (ndmpdp < 4)         /* Minimum 4GB of dirmap */
1617                 ndmpdp = 4;
1618         ndmpdpphys = howmany(ndmpdp, NPDPEPG);
1619         if (ndmpdpphys > NDMPML4E) {
1620                 /*
1621                  * Each NDMPML4E allows 512 GB, so limit to that,
1622                  * and then readjust ndmpdp and ndmpdpphys.
1623                  */
1624                 printf("NDMPML4E limits system to %d GB\n", NDMPML4E * 512);
1625                 Maxmem = atop(NDMPML4E * NBPML4);
1626                 ndmpdpphys = NDMPML4E;
1627                 ndmpdp = NDMPML4E * NPDEPG;
1628         }
1629         DMPDPphys = allocpages(firstaddr, ndmpdpphys);
1630         ndm1g = 0;
1631         if ((amd_feature & AMDID_PAGE1GB) != 0) {
1632                 /*
1633                  * Calculate the number of 1G pages that will fully fit in
1634                  * Maxmem.
1635                  */
1636                 ndm1g = ptoa(Maxmem) >> PDPSHIFT;
1637
1638                 /*
1639                  * Allocate 2M pages for the kernel. These will be used in
1640                  * place of the first one or more 1G pages from ndm1g.
1641                  */
1642                 nkdmpde = howmany((vm_offset_t)(brwsection - KERNBASE), NBPDP);
1643                 DMPDkernphys = allocpages(firstaddr, nkdmpde);
1644         }
1645         if (ndm1g < ndmpdp)
1646                 DMPDphys = allocpages(firstaddr, ndmpdp - ndm1g);
1647         dmaplimit = (vm_paddr_t)ndmpdp << PDPSHIFT;
1648
1649         /* Allocate pages */
1650         KPML4phys = allocpages(firstaddr, 1);
1651         KPDPphys = allocpages(firstaddr, NKPML4E);
1652
1653         /*
1654          * Allocate the initial number of kernel page table pages required to
1655          * bootstrap.  We defer this until after all memory-size dependent
1656          * allocations are done (e.g. direct map), so that we don't have to
1657          * build in too much slop in our estimate.
1658          *
1659          * Note that when NKPML4E > 1, we have an empty page underneath
1660          * all but the KPML4I'th one, so we need NKPML4E-1 extra (zeroed)
1661          * pages.  (pmap_enter requires a PD page to exist for each KPML4E.)
1662          */
1663         nkpt_init(*firstaddr);
1664         nkpdpe = NKPDPE(nkpt);
1665
1666         KPTphys = allocpages(firstaddr, nkpt);
1667         KPDphys = allocpages(firstaddr, nkpdpe);
1668
1669         /*
1670          * Connect the zero-filled PT pages to their PD entries.  This
1671          * implicitly maps the PT pages at their correct locations within
1672          * the PTmap.
1673          */
1674         pd_p = (pd_entry_t *)KPDphys;
1675         for (i = 0; i < nkpt; i++)
1676                 pd_p[i] = (KPTphys + ptoa(i)) | X86_PG_RW | X86_PG_V;
1677
1678         /*
1679          * Map from physical address zero to the end of loader preallocated
1680          * memory using 2MB pages.  This replaces some of the PD entries
1681          * created above.
1682          */
1683         for (i = 0; (i << PDRSHIFT) < KERNend; i++)
1684                 /* Preset PG_M and PG_A because demotion expects it. */
1685                 pd_p[i] = (i << PDRSHIFT) | X86_PG_V | PG_PS | pg_g |
1686                     X86_PG_M | X86_PG_A | bootaddr_rwx(i << PDRSHIFT);
1687
1688         /*
1689          * Because we map the physical blocks in 2M pages, adjust firstaddr
1690          * to record the physical blocks we've actually mapped into kernel
1691          * virtual address space.
1692          */
1693         if (*firstaddr < round_2mpage(KERNend))
1694                 *firstaddr = round_2mpage(KERNend);
1695
1696         /* And connect up the PD to the PDP (leaving room for L4 pages) */
1697         pdp_p = (pdp_entry_t *)(KPDPphys + ptoa(KPML4I - KPML4BASE));
1698         for (i = 0; i < nkpdpe; i++)
1699                 pdp_p[i + KPDPI] = (KPDphys + ptoa(i)) | X86_PG_RW | X86_PG_V;
1700
1701         /*
1702          * Now, set up the direct map region using 2MB and/or 1GB pages.  If
1703          * the end of physical memory is not aligned to a 1GB page boundary,
1704          * then the residual physical memory is mapped with 2MB pages.  Later,
1705          * if pmap_mapdev{_attr}() uses the direct map for non-write-back
1706          * memory, pmap_change_attr() will demote any 2MB or 1GB page mappings
1707          * that are partially used.
1708          */
1709         pd_p = (pd_entry_t *)DMPDphys;
1710         for (i = NPDEPG * ndm1g, j = 0; i < NPDEPG * ndmpdp; i++, j++) {
1711                 pd_p[j] = (vm_paddr_t)i << PDRSHIFT;
1712                 /* Preset PG_M and PG_A because demotion expects it. */
1713                 pd_p[j] |= X86_PG_RW | X86_PG_V | PG_PS | pg_g |
1714                     X86_PG_M | X86_PG_A | pg_nx;
1715         }
1716         pdp_p = (pdp_entry_t *)DMPDPphys;
1717         for (i = 0; i < ndm1g; i++) {
1718                 pdp_p[i] = (vm_paddr_t)i << PDPSHIFT;
1719                 /* Preset PG_M and PG_A because demotion expects it. */
1720                 pdp_p[i] |= X86_PG_RW | X86_PG_V | PG_PS | pg_g |
1721                     X86_PG_M | X86_PG_A | pg_nx;
1722         }
1723         for (j = 0; i < ndmpdp; i++, j++) {
1724                 pdp_p[i] = DMPDphys + ptoa(j);
1725                 pdp_p[i] |= X86_PG_RW | X86_PG_V | pg_nx;
1726         }
1727
1728         /*
1729          * Instead of using a 1G page for the memory containing the kernel,
1730          * use 2M pages with read-only and no-execute permissions.  (If using 1G
1731          * pages, this will partially overwrite the PDPEs above.)
1732          */
1733         if (ndm1g) {
1734                 pd_p = (pd_entry_t *)DMPDkernphys;
1735                 for (i = 0; i < (NPDEPG * nkdmpde); i++)
1736                         pd_p[i] = (i << PDRSHIFT) | X86_PG_V | PG_PS | pg_g |
1737                             X86_PG_M | X86_PG_A | pg_nx |
1738                             bootaddr_rwx(i << PDRSHIFT);
1739                 for (i = 0; i < nkdmpde; i++)
1740                         pdp_p[i] = (DMPDkernphys + ptoa(i)) | X86_PG_RW |
1741                             X86_PG_V | pg_nx;
1742         }
1743
1744         /* And recursively map PML4 to itself in order to get PTmap */
1745         p4_p = (pml4_entry_t *)KPML4phys;
1746         p4_p[PML4PML4I] = KPML4phys;
1747         p4_p[PML4PML4I] |= X86_PG_RW | X86_PG_V | pg_nx;
1748
1749         /* Connect the Direct Map slot(s) up to the PML4. */
1750         for (i = 0; i < ndmpdpphys; i++) {
1751                 p4_p[DMPML4I + i] = DMPDPphys + ptoa(i);
1752                 p4_p[DMPML4I + i] |= X86_PG_RW | X86_PG_V | pg_nx;
1753         }
1754
1755         /* Connect the KVA slots up to the PML4 */
1756         for (i = 0; i < NKPML4E; i++) {
1757                 p4_p[KPML4BASE + i] = KPDPphys + ptoa(i);
1758                 p4_p[KPML4BASE + i] |= X86_PG_RW | X86_PG_V;
1759         }
1760
1761         kernel_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(KPML4phys);
1762 }
1763
1764 /*
1765  *      Bootstrap the system enough to run with virtual memory.
1766  *
1767  *      On amd64 this is called after mapping has already been enabled
1768  *      and just syncs the pmap module with what has already been done.
1769  *      [We can't call it easily with mapping off since the kernel is not
1770  *      mapped with PA == VA, hence we would have to relocate every address
1771  *      from the linked base (virtual) address "KERNBASE" to the actual
1772  *      (physical) address starting relative to 0]
1773  */
1774 void
1775 pmap_bootstrap(vm_paddr_t *firstaddr)
1776 {
1777         vm_offset_t va;
1778         pt_entry_t *pte, *pcpu_pte;
1779         struct region_descriptor r_gdt;
1780         uint64_t cr4, pcpu_phys;
1781         u_long res;
1782         int i;
1783
1784         KERNend = *firstaddr;
1785         res = atop(KERNend - (vm_paddr_t)kernphys);
1786
1787         if (!pti)
1788                 pg_g = X86_PG_G;
1789
1790         /*
1791          * Create an initial set of page tables to run the kernel in.
1792          */
1793         create_pagetables(firstaddr);
1794
1795         pcpu_phys = allocpages(firstaddr, MAXCPU);
1796
1797         /*
1798          * Add a physical memory segment (vm_phys_seg) corresponding to the
1799          * preallocated kernel page table pages so that vm_page structures
1800          * representing these pages will be created.  The vm_page structures
1801          * are required for promotion of the corresponding kernel virtual
1802          * addresses to superpage mappings.
1803          */
1804         vm_phys_early_add_seg(KPTphys, KPTphys + ptoa(nkpt));
1805
1806         /*
1807          * Account for the virtual addresses mapped by create_pagetables().
1808          */
1809         virtual_avail = (vm_offset_t)KERNBASE + round_2mpage(KERNend);
1810         virtual_end = VM_MAX_KERNEL_ADDRESS;
1811
1812         /*
1813          * Enable PG_G global pages, then switch to the kernel page
1814          * table from the bootstrap page table.  After the switch, it
1815          * is possible to enable SMEP and SMAP since PG_U bits are
1816          * correct now.
1817          */
1818         cr4 = rcr4();
1819         cr4 |= CR4_PGE;
1820         load_cr4(cr4);
1821         load_cr3(KPML4phys);
1822         if (cpu_stdext_feature & CPUID_STDEXT_SMEP)
1823                 cr4 |= CR4_SMEP;
1824         if (cpu_stdext_feature & CPUID_STDEXT_SMAP)
1825                 cr4 |= CR4_SMAP;
1826         load_cr4(cr4);
1827
1828         /*
1829          * Initialize the kernel pmap (which is statically allocated).
1830          * Count bootstrap data as being resident in case any of this data is
1831          * later unmapped (using pmap_remove()) and freed.
1832          */
1833         PMAP_LOCK_INIT(kernel_pmap);
1834         kernel_pmap->pm_pmltop = kernel_pml4;
1835         kernel_pmap->pm_cr3 = KPML4phys;
1836         kernel_pmap->pm_ucr3 = PMAP_NO_CR3;
1837         CPU_FILL(&kernel_pmap->pm_active);      /* don't allow deactivation */
1838         TAILQ_INIT(&kernel_pmap->pm_pvchunk);
1839         kernel_pmap->pm_stats.resident_count = res;
1840         kernel_pmap->pm_flags = pmap_flags;
1841
1842         /*
1843          * Initialize the TLB invalidations generation number lock.
1844          */
1845         mtx_init(&invl_gen_mtx, "invlgn", NULL, MTX_DEF);
1846
1847         /*
1848          * Reserve some special page table entries/VA space for temporary
1849          * mapping of pages.
1850          */
1851 #define SYSMAP(c, p, v, n)      \
1852         v = (c)va; va += ((n)*PAGE_SIZE); p = pte; pte += (n);
1853
1854         va = virtual_avail;
1855         pte = vtopte(va);
1856
1857         /*
1858          * Crashdump maps.  The first page is reused as CMAP1 for the
1859          * memory test.
1860          */
1861         SYSMAP(caddr_t, CMAP1, crashdumpmap, MAXDUMPPGS)
1862         CADDR1 = crashdumpmap;
1863
1864         SYSMAP(struct pcpu *, pcpu_pte, __pcpu, MAXCPU);
1865         virtual_avail = va;
1866
1867         for (i = 0; i < MAXCPU; i++) {
1868                 pcpu_pte[i] = (pcpu_phys + ptoa(i)) | X86_PG_V | X86_PG_RW |
1869                     pg_g | pg_nx | X86_PG_M | X86_PG_A;
1870         }
1871
1872         /*
1873          * Re-initialize PCPU area for BSP after switching.
1874          * Make hardware use gdt and common_tss from the new PCPU.
1875          */
1876         STAILQ_INIT(&cpuhead);
1877         wrmsr(MSR_GSBASE, (uint64_t)&__pcpu[0]);
1878         pcpu_init(&__pcpu[0], 0, sizeof(struct pcpu));
1879         amd64_bsp_pcpu_init1(&__pcpu[0]);
1880         amd64_bsp_ist_init(&__pcpu[0]);
1881         __pcpu[0].pc_common_tss.tss_iobase = sizeof(struct amd64tss) +
1882             IOPERM_BITMAP_SIZE;
1883         memcpy(__pcpu[0].pc_gdt, temp_bsp_pcpu.pc_gdt, NGDT *
1884             sizeof(struct user_segment_descriptor));
1885         gdt_segs[GPROC0_SEL].ssd_base = (uintptr_t)&__pcpu[0].pc_common_tss;
1886         ssdtosyssd(&gdt_segs[GPROC0_SEL],
1887             (struct system_segment_descriptor *)&__pcpu[0].pc_gdt[GPROC0_SEL]);
1888         r_gdt.rd_limit = NGDT * sizeof(struct user_segment_descriptor) - 1;
1889         r_gdt.rd_base = (long)__pcpu[0].pc_gdt;
1890         lgdt(&r_gdt);
1891         wrmsr(MSR_GSBASE, (uint64_t)&__pcpu[0]);
1892         ltr(GSEL(GPROC0_SEL, SEL_KPL));
1893         __pcpu[0].pc_dynamic = temp_bsp_pcpu.pc_dynamic;
1894         __pcpu[0].pc_acpi_id = temp_bsp_pcpu.pc_acpi_id;
1895
1896         /*
1897          * Initialize the PAT MSR.
1898          * pmap_init_pat() clears and sets CR4_PGE, which, as a
1899          * side-effect, invalidates stale PG_G TLB entries that might
1900          * have been created in our pre-boot environment.
1901          */
1902         pmap_init_pat();
1903
1904         /* Initialize TLB Context Id. */
1905         if (pmap_pcid_enabled) {
1906                 for (i = 0; i < MAXCPU; i++) {
1907                         kernel_pmap->pm_pcids[i].pm_pcid = PMAP_PCID_KERN;
1908                         kernel_pmap->pm_pcids[i].pm_gen = 1;
1909                 }
1910
1911                 /*
1912                  * PMAP_PCID_KERN + 1 is used for initialization of
1913                  * proc0 pmap.  The pmap' pcid state might be used by
1914                  * EFIRT entry before first context switch, so it
1915                  * needs to be valid.
1916                  */
1917                 PCPU_SET(pcid_next, PMAP_PCID_KERN + 2);
1918                 PCPU_SET(pcid_gen, 1);
1919
1920                 /*
1921                  * pcpu area for APs is zeroed during AP startup.
1922                  * pc_pcid_next and pc_pcid_gen are initialized by AP
1923                  * during pcpu setup.
1924                  */
1925                 load_cr4(rcr4() | CR4_PCIDE);
1926         }
1927 }
1928
1929 /*
1930  * Setup the PAT MSR.
1931  */
1932 void
1933 pmap_init_pat(void)
1934 {
1935         uint64_t pat_msr;
1936         u_long cr0, cr4;
1937         int i;
1938
1939         /* Bail if this CPU doesn't implement PAT. */
1940         if ((cpu_feature & CPUID_PAT) == 0)
1941                 panic("no PAT??");
1942
1943         /* Set default PAT index table. */
1944         for (i = 0; i < PAT_INDEX_SIZE; i++)
1945                 pat_index[i] = -1;
1946         pat_index[PAT_WRITE_BACK] = 0;
1947         pat_index[PAT_WRITE_THROUGH] = 1;
1948         pat_index[PAT_UNCACHEABLE] = 3;
1949         pat_index[PAT_WRITE_COMBINING] = 6;
1950         pat_index[PAT_WRITE_PROTECTED] = 5;
1951         pat_index[PAT_UNCACHED] = 2;
1952
1953         /*
1954          * Initialize default PAT entries.
1955          * Leave the indices 0-3 at the default of WB, WT, UC-, and UC.
1956          * Program 5 and 6 as WP and WC.
1957          *
1958          * Leave 4 and 7 as WB and UC.  Note that a recursive page table
1959          * mapping for a 2M page uses a PAT value with the bit 3 set due
1960          * to its overload with PG_PS.
1961          */
1962         pat_msr = PAT_VALUE(0, PAT_WRITE_BACK) |
1963             PAT_VALUE(1, PAT_WRITE_THROUGH) |
1964             PAT_VALUE(2, PAT_UNCACHED) |
1965             PAT_VALUE(3, PAT_UNCACHEABLE) |
1966             PAT_VALUE(4, PAT_WRITE_BACK) |
1967             PAT_VALUE(5, PAT_WRITE_PROTECTED) |
1968             PAT_VALUE(6, PAT_WRITE_COMBINING) |
1969             PAT_VALUE(7, PAT_UNCACHEABLE);
1970
1971         /* Disable PGE. */
1972         cr4 = rcr4();
1973         load_cr4(cr4 & ~CR4_PGE);
1974
1975         /* Disable caches (CD = 1, NW = 0). */
1976         cr0 = rcr0();
1977         load_cr0((cr0 & ~CR0_NW) | CR0_CD);
1978
1979         /* Flushes caches and TLBs. */
1980         wbinvd();
1981         invltlb();
1982
1983         /* Update PAT and index table. */
1984         wrmsr(MSR_PAT, pat_msr);
1985
1986         /* Flush caches and TLBs again. */
1987         wbinvd();
1988         invltlb();
1989
1990         /* Restore caches and PGE. */
1991         load_cr0(cr0);
1992         load_cr4(cr4);
1993 }
1994
1995 extern const char la57_trampoline[], la57_trampoline_gdt_desc[],
1996     la57_trampoline_gdt[], la57_trampoline_end[];
1997
1998 static void
1999 pmap_bootstrap_la57(void *arg __unused)
2000 {
2001         char *v_code;
2002         pml5_entry_t *v_pml5;
2003         pml4_entry_t *v_pml4;
2004         pdp_entry_t *v_pdp;
2005         pd_entry_t *v_pd;
2006         pt_entry_t *v_pt;
2007         vm_page_t m_code, m_pml4, m_pdp, m_pd, m_pt, m_pml5;
2008         void (*la57_tramp)(uint64_t pml5);
2009         struct region_descriptor r_gdt;
2010
2011         if ((cpu_stdext_feature2 & CPUID_STDEXT2_LA57) == 0)
2012                 return;
2013         if (!TUNABLE_INT_FETCH("vm.pmap.la57", &la57))
2014                 la57 = 1;
2015         if (!la57)
2016                 return;
2017
2018         r_gdt.rd_limit = NGDT * sizeof(struct user_segment_descriptor) - 1;
2019         r_gdt.rd_base = (long)__pcpu[0].pc_gdt;
2020
2021         m_code = vm_page_alloc_contig(NULL, 0,
2022             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2023             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2024         if ((m_code->flags & PG_ZERO) == 0)
2025                 pmap_zero_page(m_code);
2026         v_code = (char *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_code));
2027         m_pml5 = vm_page_alloc_contig(NULL, 0,
2028             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2029             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2030         if ((m_pml5->flags & PG_ZERO) == 0)
2031                 pmap_zero_page(m_pml5);
2032         KPML5phys = VM_PAGE_TO_PHYS(m_pml5);
2033         v_pml5 = (pml5_entry_t *)PHYS_TO_DMAP(KPML5phys);
2034         m_pml4 = vm_page_alloc_contig(NULL, 0,
2035             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2036             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2037         if ((m_pml4->flags & PG_ZERO) == 0)
2038                 pmap_zero_page(m_pml4);
2039         v_pml4 = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pml4));
2040         m_pdp = vm_page_alloc_contig(NULL, 0,
2041             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2042             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2043         if ((m_pdp->flags & PG_ZERO) == 0)
2044                 pmap_zero_page(m_pdp);
2045         v_pdp = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pdp));
2046         m_pd = vm_page_alloc_contig(NULL, 0,
2047             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2048             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2049         if ((m_pd->flags & PG_ZERO) == 0)
2050                 pmap_zero_page(m_pd);
2051         v_pd = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pd));
2052         m_pt = vm_page_alloc_contig(NULL, 0,
2053             VM_ALLOC_NORMAL | VM_ALLOC_NOBUSY | VM_ALLOC_ZERO | VM_ALLOC_NOOBJ,
2054             1, 0, (1ULL << 32), PAGE_SIZE, 0, VM_MEMATTR_DEFAULT);
2055         if ((m_pt->flags & PG_ZERO) == 0)
2056                 pmap_zero_page(m_pt);
2057         v_pt = (pt_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m_pt));
2058
2059         /*
2060          * Map m_code 1:1, it appears below 4G in KVA due to physical
2061          * address being below 4G.  Since kernel KVA is in upper half,
2062          * the pml4e should be zero and free for temporary use.
2063          */
2064         kernel_pmap->pm_pmltop[pmap_pml4e_index(VM_PAGE_TO_PHYS(m_code))] =
2065             VM_PAGE_TO_PHYS(m_pdp) | X86_PG_V | X86_PG_RW | X86_PG_A |
2066             X86_PG_M;
2067         v_pdp[pmap_pdpe_index(VM_PAGE_TO_PHYS(m_code))] =
2068             VM_PAGE_TO_PHYS(m_pd) | X86_PG_V | X86_PG_RW | X86_PG_A |
2069             X86_PG_M;
2070         v_pd[pmap_pde_index(VM_PAGE_TO_PHYS(m_code))] =
2071             VM_PAGE_TO_PHYS(m_pt) | X86_PG_V | X86_PG_RW | X86_PG_A |
2072             X86_PG_M;
2073         v_pt[pmap_pte_index(VM_PAGE_TO_PHYS(m_code))] =
2074             VM_PAGE_TO_PHYS(m_code) | X86_PG_V | X86_PG_RW | X86_PG_A |
2075             X86_PG_M;
2076
2077         /*
2078          * Add pml5 entry at top of KVA pointing to existing pml4 table,
2079          * entering all existing kernel mappings into level 5 table.
2080          */
2081         v_pml5[pmap_pml5e_index(UPT_MAX_ADDRESS)] = KPML4phys | X86_PG_V |
2082             X86_PG_RW | X86_PG_A | X86_PG_M | pg_g;
2083
2084         /*
2085          * Add pml5 entry for 1:1 trampoline mapping after LA57 is turned on.
2086          */
2087         v_pml5[pmap_pml5e_index(VM_PAGE_TO_PHYS(m_code))] =
2088             VM_PAGE_TO_PHYS(m_pml4) | X86_PG_V | X86_PG_RW | X86_PG_A |
2089             X86_PG_M;
2090         v_pml4[pmap_pml4e_index(VM_PAGE_TO_PHYS(m_code))] =
2091             VM_PAGE_TO_PHYS(m_pdp) | X86_PG_V | X86_PG_RW | X86_PG_A |
2092             X86_PG_M;
2093
2094         /*
2095          * Copy and call the 48->57 trampoline, hope we return there, alive.
2096          */
2097         bcopy(la57_trampoline, v_code, la57_trampoline_end - la57_trampoline);
2098         *(u_long *)(v_code + 2 + (la57_trampoline_gdt_desc - la57_trampoline)) =
2099             la57_trampoline_gdt - la57_trampoline + VM_PAGE_TO_PHYS(m_code);
2100         la57_tramp = (void (*)(uint64_t))VM_PAGE_TO_PHYS(m_code);
2101         la57_tramp(KPML5phys);
2102
2103         /*
2104          * gdt was necessary reset, switch back to our gdt.
2105          */
2106         lgdt(&r_gdt);
2107         wrmsr(MSR_GSBASE, (uint64_t)&__pcpu[0]);
2108         load_ds(_udatasel);
2109         load_es(_udatasel);
2110         load_fs(_ufssel);
2111         ssdtosyssd(&gdt_segs[GPROC0_SEL],
2112             (struct system_segment_descriptor *)&__pcpu[0].pc_gdt[GPROC0_SEL]);
2113         ltr(GSEL(GPROC0_SEL, SEL_KPL));
2114
2115         /*
2116          * Now unmap the trampoline, and free the pages.
2117          * Clear pml5 entry used for 1:1 trampoline mapping.
2118          */
2119         pte_clear(&v_pml5[pmap_pml5e_index(VM_PAGE_TO_PHYS(m_code))]);
2120         invlpg((vm_offset_t)v_code);
2121         vm_page_free(m_code);
2122         vm_page_free(m_pdp);
2123         vm_page_free(m_pd);
2124         vm_page_free(m_pt);
2125
2126         /*
2127          * Recursively map PML5 to itself in order to get PTmap and
2128          * PDmap.
2129          */
2130         v_pml5[PML5PML5I] = KPML5phys | X86_PG_RW | X86_PG_V | pg_nx;
2131
2132         kernel_pmap->pm_cr3 = KPML5phys;
2133         kernel_pmap->pm_pmltop = v_pml5;
2134 }
2135 SYSINIT(la57, SI_SUB_KMEM, SI_ORDER_ANY, pmap_bootstrap_la57, NULL);
2136
2137 /*
2138  *      Initialize a vm_page's machine-dependent fields.
2139  */
2140 void
2141 pmap_page_init(vm_page_t m)
2142 {
2143
2144         TAILQ_INIT(&m->md.pv_list);
2145         m->md.pat_mode = PAT_WRITE_BACK;
2146 }
2147
2148 static int pmap_allow_2m_x_ept;
2149 SYSCTL_INT(_vm_pmap, OID_AUTO, allow_2m_x_ept, CTLFLAG_RWTUN | CTLFLAG_NOFETCH,
2150     &pmap_allow_2m_x_ept, 0,
2151     "Allow executable superpage mappings in EPT");
2152
2153 void
2154 pmap_allow_2m_x_ept_recalculate(void)
2155 {
2156         /*
2157          * SKL002, SKL012S.  Since the EPT format is only used by
2158          * Intel CPUs, the vendor check is merely a formality.
2159          */
2160         if (!(cpu_vendor_id != CPU_VENDOR_INTEL ||
2161             (cpu_ia32_arch_caps & IA32_ARCH_CAP_IF_PSCHANGE_MC_NO) != 0 ||
2162             (CPUID_TO_FAMILY(cpu_id) == 0x6 &&
2163             (CPUID_TO_MODEL(cpu_id) == 0x26 ||  /* Atoms */
2164             CPUID_TO_MODEL(cpu_id) == 0x27 ||
2165             CPUID_TO_MODEL(cpu_id) == 0x35 ||
2166             CPUID_TO_MODEL(cpu_id) == 0x36 ||
2167             CPUID_TO_MODEL(cpu_id) == 0x37 ||
2168             CPUID_TO_MODEL(cpu_id) == 0x86 ||
2169             CPUID_TO_MODEL(cpu_id) == 0x1c ||
2170             CPUID_TO_MODEL(cpu_id) == 0x4a ||
2171             CPUID_TO_MODEL(cpu_id) == 0x4c ||
2172             CPUID_TO_MODEL(cpu_id) == 0x4d ||
2173             CPUID_TO_MODEL(cpu_id) == 0x5a ||
2174             CPUID_TO_MODEL(cpu_id) == 0x5c ||
2175             CPUID_TO_MODEL(cpu_id) == 0x5d ||
2176             CPUID_TO_MODEL(cpu_id) == 0x5f ||
2177             CPUID_TO_MODEL(cpu_id) == 0x6e ||
2178             CPUID_TO_MODEL(cpu_id) == 0x7a ||
2179             CPUID_TO_MODEL(cpu_id) == 0x57 ||   /* Knights */
2180             CPUID_TO_MODEL(cpu_id) == 0x85))))
2181                 pmap_allow_2m_x_ept = 1;
2182         TUNABLE_INT_FETCH("hw.allow_2m_x_ept", &pmap_allow_2m_x_ept);
2183 }
2184
2185 static bool
2186 pmap_allow_2m_x_page(pmap_t pmap, bool executable)
2187 {
2188
2189         return (pmap->pm_type != PT_EPT || !executable ||
2190             !pmap_allow_2m_x_ept);
2191 }
2192
2193 #ifdef NUMA
2194 static void
2195 pmap_init_pv_table(void)
2196 {
2197         struct pmap_large_md_page *pvd;
2198         vm_size_t s;
2199         long start, end, highest, pv_npg;
2200         int domain, i, j, pages;
2201
2202         /*
2203          * We strongly depend on the size being a power of two, so the assert
2204          * is overzealous. However, should the struct be resized to a
2205          * different power of two, the code below needs to be revisited.
2206          */
2207         CTASSERT((sizeof(*pvd) == 64));
2208
2209         /*
2210          * Calculate the size of the array.
2211          */
2212         pmap_last_pa = vm_phys_segs[vm_phys_nsegs - 1].end;
2213         pv_npg = howmany(pmap_last_pa, NBPDR);
2214         s = (vm_size_t)pv_npg * sizeof(struct pmap_large_md_page);
2215         s = round_page(s);
2216         pv_table = (struct pmap_large_md_page *)kva_alloc(s);
2217         if (pv_table == NULL)
2218                 panic("%s: kva_alloc failed\n", __func__);
2219
2220         /*
2221          * Iterate physical segments to allocate space for respective pages.
2222          */
2223         highest = -1;
2224         s = 0;
2225         for (i = 0; i < vm_phys_nsegs; i++) {
2226                 end = vm_phys_segs[i].end / NBPDR;
2227                 domain = vm_phys_segs[i].domain;
2228
2229                 if (highest >= end)
2230                         continue;
2231
2232                 start = highest + 1;
2233                 pvd = &pv_table[start];
2234
2235                 pages = end - start + 1;
2236                 s = round_page(pages * sizeof(*pvd));
2237                 highest = start + (s / sizeof(*pvd)) - 1;
2238
2239                 for (j = 0; j < s; j += PAGE_SIZE) {
2240                         vm_page_t m = vm_page_alloc_domain(NULL, 0,
2241                             domain, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ);
2242                         if (m == NULL)
2243                                 panic("vm_page_alloc_domain failed for %lx\n", (vm_offset_t)pvd + j);
2244                         pmap_qenter((vm_offset_t)pvd + j, &m, 1);
2245                 }
2246
2247                 for (j = 0; j < s / sizeof(*pvd); j++) {
2248                         rw_init_flags(&pvd->pv_lock, "pmap pv list", RW_NEW);
2249                         TAILQ_INIT(&pvd->pv_page.pv_list);
2250                         pvd->pv_page.pv_gen = 0;
2251                         pvd->pv_page.pat_mode = 0;
2252                         pvd->pv_invl_gen = 0;
2253                         pvd++;
2254                 }
2255         }
2256         pvd = &pv_dummy_large;
2257         rw_init_flags(&pvd->pv_lock, "pmap pv list dummy", RW_NEW);
2258         TAILQ_INIT(&pvd->pv_page.pv_list);
2259         pvd->pv_page.pv_gen = 0;
2260         pvd->pv_page.pat_mode = 0;
2261         pvd->pv_invl_gen = 0;
2262 }
2263 #else
2264 static void
2265 pmap_init_pv_table(void)
2266 {
2267         vm_size_t s;
2268         long i, pv_npg;
2269
2270         /*
2271          * Initialize the pool of pv list locks.
2272          */
2273         for (i = 0; i < NPV_LIST_LOCKS; i++)
2274                 rw_init(&pv_list_locks[i], "pmap pv list");
2275
2276         /*
2277          * Calculate the size of the pv head table for superpages.
2278          */
2279         pv_npg = howmany(vm_phys_segs[vm_phys_nsegs - 1].end, NBPDR);
2280
2281         /*
2282          * Allocate memory for the pv head table for superpages.
2283          */
2284         s = (vm_size_t)pv_npg * sizeof(struct md_page);
2285         s = round_page(s);
2286         pv_table = (struct md_page *)kmem_malloc(s, M_WAITOK | M_ZERO);
2287         for (i = 0; i < pv_npg; i++)
2288                 TAILQ_INIT(&pv_table[i].pv_list);
2289         TAILQ_INIT(&pv_dummy.pv_list);
2290 }
2291 #endif
2292
2293 /*
2294  *      Initialize the pmap module.
2295  *      Called by vm_init, to initialize any structures that the pmap
2296  *      system needs to map virtual memory.
2297  */
2298 void
2299 pmap_init(void)
2300 {
2301         struct pmap_preinit_mapping *ppim;
2302         vm_page_t m, mpte;
2303         int error, i, ret, skz63;
2304
2305         /* L1TF, reserve page @0 unconditionally */
2306         vm_page_blacklist_add(0, bootverbose);
2307
2308         /* Detect bare-metal Skylake Server and Skylake-X. */
2309         if (vm_guest == VM_GUEST_NO && cpu_vendor_id == CPU_VENDOR_INTEL &&
2310             CPUID_TO_FAMILY(cpu_id) == 0x6 && CPUID_TO_MODEL(cpu_id) == 0x55) {
2311                 /*
2312                  * Skylake-X errata SKZ63. Processor May Hang When
2313                  * Executing Code In an HLE Transaction Region between
2314                  * 40000000H and 403FFFFFH.
2315                  *
2316                  * Mark the pages in the range as preallocated.  It
2317                  * seems to be impossible to distinguish between
2318                  * Skylake Server and Skylake X.
2319                  */
2320                 skz63 = 1;
2321                 TUNABLE_INT_FETCH("hw.skz63_enable", &skz63);
2322                 if (skz63 != 0) {
2323                         if (bootverbose)
2324                                 printf("SKZ63: skipping 4M RAM starting "
2325                                     "at physical 1G\n");
2326                         for (i = 0; i < atop(0x400000); i++) {
2327                                 ret = vm_page_blacklist_add(0x40000000 +
2328                                     ptoa(i), FALSE);
2329                                 if (!ret && bootverbose)
2330                                         printf("page at %#lx already used\n",
2331                                             0x40000000 + ptoa(i));
2332                         }
2333                 }
2334         }
2335
2336         /* IFU */
2337         pmap_allow_2m_x_ept_recalculate();
2338
2339         /*
2340          * Initialize the vm page array entries for the kernel pmap's
2341          * page table pages.
2342          */
2343         PMAP_LOCK(kernel_pmap);
2344         for (i = 0; i < nkpt; i++) {
2345                 mpte = PHYS_TO_VM_PAGE(KPTphys + (i << PAGE_SHIFT));
2346                 KASSERT(mpte >= vm_page_array &&
2347                     mpte < &vm_page_array[vm_page_array_size],
2348                     ("pmap_init: page table page is out of range"));
2349                 mpte->pindex = pmap_pde_pindex(KERNBASE) + i;
2350                 mpte->phys_addr = KPTphys + (i << PAGE_SHIFT);
2351                 mpte->ref_count = 1;
2352
2353                 /*
2354                  * Collect the page table pages that were replaced by a 2MB
2355                  * page in create_pagetables().  They are zero filled.
2356                  */
2357                 if ((vm_paddr_t)i << PDRSHIFT < KERNend &&
2358                     pmap_insert_pt_page(kernel_pmap, mpte, false))
2359                         panic("pmap_init: pmap_insert_pt_page failed");
2360         }
2361         PMAP_UNLOCK(kernel_pmap);
2362         vm_wire_add(nkpt);
2363
2364         /*
2365          * If the kernel is running on a virtual machine, then it must assume
2366          * that MCA is enabled by the hypervisor.  Moreover, the kernel must
2367          * be prepared for the hypervisor changing the vendor and family that
2368          * are reported by CPUID.  Consequently, the workaround for AMD Family
2369          * 10h Erratum 383 is enabled if the processor's feature set does not
2370          * include at least one feature that is only supported by older Intel
2371          * or newer AMD processors.
2372          */
2373         if (vm_guest != VM_GUEST_NO && (cpu_feature & CPUID_SS) == 0 &&
2374             (cpu_feature2 & (CPUID2_SSSE3 | CPUID2_SSE41 | CPUID2_AESNI |
2375             CPUID2_AVX | CPUID2_XSAVE)) == 0 && (amd_feature2 & (AMDID2_XOP |
2376             AMDID2_FMA4)) == 0)
2377                 workaround_erratum383 = 1;
2378
2379         /*
2380          * Are large page mappings enabled?
2381          */
2382         TUNABLE_INT_FETCH("vm.pmap.pg_ps_enabled", &pg_ps_enabled);
2383         if (pg_ps_enabled) {
2384                 KASSERT(MAXPAGESIZES > 1 && pagesizes[1] == 0,
2385                     ("pmap_init: can't assign to pagesizes[1]"));
2386                 pagesizes[1] = NBPDR;
2387                 if ((amd_feature & AMDID_PAGE1GB) != 0) {
2388                         KASSERT(MAXPAGESIZES > 2 && pagesizes[2] == 0,
2389                             ("pmap_init: can't assign to pagesizes[2]"));
2390                         pagesizes[2] = NBPDP;
2391                 }
2392         }
2393
2394         /*
2395          * Initialize pv chunk lists.
2396          */
2397         for (i = 0; i < PMAP_MEMDOM; i++) {
2398                 mtx_init(&pv_chunks[i].pvc_lock, "pmap pv chunk list", NULL, MTX_DEF);
2399                 TAILQ_INIT(&pv_chunks[i].pvc_list);
2400         }
2401         pmap_init_pv_table();
2402
2403         pmap_initialized = 1;
2404         for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
2405                 ppim = pmap_preinit_mapping + i;
2406                 if (ppim->va == 0)
2407                         continue;
2408                 /* Make the direct map consistent */
2409                 if (ppim->pa < dmaplimit && ppim->pa + ppim->sz <= dmaplimit) {
2410                         (void)pmap_change_attr(PHYS_TO_DMAP(ppim->pa),
2411                             ppim->sz, ppim->mode);
2412                 }
2413                 if (!bootverbose)
2414                         continue;
2415                 printf("PPIM %u: PA=%#lx, VA=%#lx, size=%#lx, mode=%#x\n", i,
2416                     ppim->pa, ppim->va, ppim->sz, ppim->mode);
2417         }
2418
2419         mtx_init(&qframe_mtx, "qfrmlk", NULL, MTX_SPIN);
2420         error = vmem_alloc(kernel_arena, PAGE_SIZE, M_BESTFIT | M_WAITOK,
2421             (vmem_addr_t *)&qframe);
2422         if (error != 0)
2423                 panic("qframe allocation failed");
2424
2425         lm_ents = 8;
2426         TUNABLE_INT_FETCH("vm.pmap.large_map_pml4_entries", &lm_ents);
2427         if (lm_ents > LMEPML4I - LMSPML4I + 1)
2428                 lm_ents = LMEPML4I - LMSPML4I + 1;
2429         if (bootverbose)
2430                 printf("pmap: large map %u PML4 slots (%lu GB)\n",
2431                     lm_ents, (u_long)lm_ents * (NBPML4 / 1024 / 1024 / 1024));
2432         if (lm_ents != 0) {
2433                 large_vmem = vmem_create("large", LARGEMAP_MIN_ADDRESS,
2434                     (vmem_size_t)lm_ents * NBPML4, PAGE_SIZE, 0, M_WAITOK);
2435                 if (large_vmem == NULL) {
2436                         printf("pmap: cannot create large map\n");
2437                         lm_ents = 0;
2438                 }
2439                 for (i = 0; i < lm_ents; i++) {
2440                         m = pmap_large_map_getptp_unlocked();
2441                         /* XXXKIB la57 */
2442                         kernel_pml4[LMSPML4I + i] = X86_PG_V |
2443                             X86_PG_RW | X86_PG_A | X86_PG_M | pg_nx |
2444                             VM_PAGE_TO_PHYS(m);
2445                 }
2446         }
2447 }
2448
2449 SYSCTL_UINT(_vm_pmap, OID_AUTO, large_map_pml4_entries,
2450     CTLFLAG_RDTUN | CTLFLAG_NOFETCH, &lm_ents, 0,
2451     "Maximum number of PML4 entries for use by large map (tunable).  "
2452     "Each entry corresponds to 512GB of address space.");
2453
2454 static SYSCTL_NODE(_vm_pmap, OID_AUTO, pde, CTLFLAG_RD | CTLFLAG_MPSAFE, 0,
2455     "2MB page mapping counters");
2456
2457 static u_long pmap_pde_demotions;
2458 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, demotions, CTLFLAG_RD,
2459     &pmap_pde_demotions, 0, "2MB page demotions");
2460
2461 static u_long pmap_pde_mappings;
2462 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, mappings, CTLFLAG_RD,
2463     &pmap_pde_mappings, 0, "2MB page mappings");
2464
2465 static u_long pmap_pde_p_failures;
2466 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, p_failures, CTLFLAG_RD,
2467     &pmap_pde_p_failures, 0, "2MB page promotion failures");
2468
2469 static u_long pmap_pde_promotions;
2470 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, promotions, CTLFLAG_RD,
2471     &pmap_pde_promotions, 0, "2MB page promotions");
2472
2473 static SYSCTL_NODE(_vm_pmap, OID_AUTO, pdpe, CTLFLAG_RD | CTLFLAG_MPSAFE, 0,
2474     "1GB page mapping counters");
2475
2476 static u_long pmap_pdpe_demotions;
2477 SYSCTL_ULONG(_vm_pmap_pdpe, OID_AUTO, demotions, CTLFLAG_RD,
2478     &pmap_pdpe_demotions, 0, "1GB page demotions");
2479
2480 /***************************************************
2481  * Low level helper routines.....
2482  ***************************************************/
2483
2484 static pt_entry_t
2485 pmap_swap_pat(pmap_t pmap, pt_entry_t entry)
2486 {
2487         int x86_pat_bits = X86_PG_PTE_PAT | X86_PG_PDE_PAT;
2488
2489         switch (pmap->pm_type) {
2490         case PT_X86:
2491         case PT_RVI:
2492                 /* Verify that both PAT bits are not set at the same time */
2493                 KASSERT((entry & x86_pat_bits) != x86_pat_bits,
2494                     ("Invalid PAT bits in entry %#lx", entry));
2495
2496                 /* Swap the PAT bits if one of them is set */
2497                 if ((entry & x86_pat_bits) != 0)
2498                         entry ^= x86_pat_bits;
2499                 break;
2500         case PT_EPT:
2501                 /*
2502                  * Nothing to do - the memory attributes are represented
2503                  * the same way for regular pages and superpages.
2504                  */
2505                 break;
2506         default:
2507                 panic("pmap_switch_pat_bits: bad pm_type %d", pmap->pm_type);
2508         }
2509
2510         return (entry);
2511 }
2512
2513 boolean_t
2514 pmap_is_valid_memattr(pmap_t pmap __unused, vm_memattr_t mode)
2515 {
2516
2517         return (mode >= 0 && mode < PAT_INDEX_SIZE &&
2518             pat_index[(int)mode] >= 0);
2519 }
2520
2521 /*
2522  * Determine the appropriate bits to set in a PTE or PDE for a specified
2523  * caching mode.
2524  */
2525 int
2526 pmap_cache_bits(pmap_t pmap, int mode, boolean_t is_pde)
2527 {
2528         int cache_bits, pat_flag, pat_idx;
2529
2530         if (!pmap_is_valid_memattr(pmap, mode))
2531                 panic("Unknown caching mode %d\n", mode);
2532
2533         switch (pmap->pm_type) {
2534         case PT_X86:
2535         case PT_RVI:
2536                 /* The PAT bit is different for PTE's and PDE's. */
2537                 pat_flag = is_pde ? X86_PG_PDE_PAT : X86_PG_PTE_PAT;
2538
2539                 /* Map the caching mode to a PAT index. */
2540                 pat_idx = pat_index[mode];
2541
2542                 /* Map the 3-bit index value into the PAT, PCD, and PWT bits. */
2543                 cache_bits = 0;
2544                 if (pat_idx & 0x4)
2545                         cache_bits |= pat_flag;
2546                 if (pat_idx & 0x2)
2547                         cache_bits |= PG_NC_PCD;
2548                 if (pat_idx & 0x1)
2549                         cache_bits |= PG_NC_PWT;
2550                 break;
2551
2552         case PT_EPT:
2553                 cache_bits = EPT_PG_IGNORE_PAT | EPT_PG_MEMORY_TYPE(mode);
2554                 break;
2555
2556         default:
2557                 panic("unsupported pmap type %d", pmap->pm_type);
2558         }
2559
2560         return (cache_bits);
2561 }
2562
2563 static int
2564 pmap_cache_mask(pmap_t pmap, boolean_t is_pde)
2565 {
2566         int mask;
2567
2568         switch (pmap->pm_type) {
2569         case PT_X86:
2570         case PT_RVI:
2571                 mask = is_pde ? X86_PG_PDE_CACHE : X86_PG_PTE_CACHE;
2572                 break;
2573         case PT_EPT:
2574                 mask = EPT_PG_IGNORE_PAT | EPT_PG_MEMORY_TYPE(0x7);
2575                 break;
2576         default:
2577                 panic("pmap_cache_mask: invalid pm_type %d", pmap->pm_type);
2578         }
2579
2580         return (mask);
2581 }
2582
2583 static int
2584 pmap_pat_index(pmap_t pmap, pt_entry_t pte, bool is_pde)
2585 {
2586         int pat_flag, pat_idx;
2587
2588         pat_idx = 0;
2589         switch (pmap->pm_type) {
2590         case PT_X86:
2591         case PT_RVI:
2592                 /* The PAT bit is different for PTE's and PDE's. */
2593                 pat_flag = is_pde ? X86_PG_PDE_PAT : X86_PG_PTE_PAT;
2594
2595                 if ((pte & pat_flag) != 0)
2596                         pat_idx |= 0x4;
2597                 if ((pte & PG_NC_PCD) != 0)
2598                         pat_idx |= 0x2;
2599                 if ((pte & PG_NC_PWT) != 0)
2600                         pat_idx |= 0x1;
2601                 break;
2602         case PT_EPT:
2603                 if ((pte & EPT_PG_IGNORE_PAT) != 0)
2604                         panic("EPT PTE %#lx has no PAT memory type", pte);
2605                 pat_idx = (pte & EPT_PG_MEMORY_TYPE(0x7)) >> 3;
2606                 break;
2607         }
2608
2609         /* See pmap_init_pat(). */
2610         if (pat_idx == 4)
2611                 pat_idx = 0;
2612         if (pat_idx == 7)
2613                 pat_idx = 3;
2614
2615         return (pat_idx);
2616 }
2617
2618 bool
2619 pmap_ps_enabled(pmap_t pmap)
2620 {
2621
2622         return (pg_ps_enabled && (pmap->pm_flags & PMAP_PDE_SUPERPAGE) != 0);
2623 }
2624
2625 static void
2626 pmap_update_pde_store(pmap_t pmap, pd_entry_t *pde, pd_entry_t newpde)
2627 {
2628
2629         switch (pmap->pm_type) {
2630         case PT_X86:
2631                 break;
2632         case PT_RVI:
2633         case PT_EPT:
2634                 /*
2635                  * XXX
2636                  * This is a little bogus since the generation number is
2637                  * supposed to be bumped up when a region of the address
2638                  * space is invalidated in the page tables.
2639                  *
2640                  * In this case the old PDE entry is valid but yet we want
2641                  * to make sure that any mappings using the old entry are
2642                  * invalidated in the TLB.
2643                  *
2644                  * The reason this works as expected is because we rendezvous
2645                  * "all" host cpus and force any vcpu context to exit as a
2646                  * side-effect.
2647                  */
2648                 atomic_add_acq_long(&pmap->pm_eptgen, 1);
2649                 break;
2650         default:
2651                 panic("pmap_update_pde_store: bad pm_type %d", pmap->pm_type);
2652         }
2653         pde_store(pde, newpde);
2654 }
2655
2656 /*
2657  * After changing the page size for the specified virtual address in the page
2658  * table, flush the corresponding entries from the processor's TLB.  Only the
2659  * calling processor's TLB is affected.
2660  *
2661  * The calling thread must be pinned to a processor.
2662  */
2663 static void
2664 pmap_update_pde_invalidate(pmap_t pmap, vm_offset_t va, pd_entry_t newpde)
2665 {
2666         pt_entry_t PG_G;
2667
2668         if (pmap_type_guest(pmap))
2669                 return;
2670
2671         KASSERT(pmap->pm_type == PT_X86,
2672             ("pmap_update_pde_invalidate: invalid type %d", pmap->pm_type));
2673
2674         PG_G = pmap_global_bit(pmap);
2675
2676         if ((newpde & PG_PS) == 0)
2677                 /* Demotion: flush a specific 2MB page mapping. */
2678                 invlpg(va);
2679         else if ((newpde & PG_G) == 0)
2680                 /*
2681                  * Promotion: flush every 4KB page mapping from the TLB
2682                  * because there are too many to flush individually.
2683                  */
2684                 invltlb();
2685         else {
2686                 /*
2687                  * Promotion: flush every 4KB page mapping from the TLB,
2688                  * including any global (PG_G) mappings.
2689                  */
2690                 invltlb_glob();
2691         }
2692 }
2693 #ifdef SMP
2694
2695 /*
2696  * For SMP, these functions have to use the IPI mechanism for coherence.
2697  *
2698  * N.B.: Before calling any of the following TLB invalidation functions,
2699  * the calling processor must ensure that all stores updating a non-
2700  * kernel page table are globally performed.  Otherwise, another
2701  * processor could cache an old, pre-update entry without being
2702  * invalidated.  This can happen one of two ways: (1) The pmap becomes
2703  * active on another processor after its pm_active field is checked by
2704  * one of the following functions but before a store updating the page
2705  * table is globally performed. (2) The pmap becomes active on another
2706  * processor before its pm_active field is checked but due to
2707  * speculative loads one of the following functions stills reads the
2708  * pmap as inactive on the other processor.
2709  *
2710  * The kernel page table is exempt because its pm_active field is
2711  * immutable.  The kernel page table is always active on every
2712  * processor.
2713  */
2714
2715 /*
2716  * Interrupt the cpus that are executing in the guest context.
2717  * This will force the vcpu to exit and the cached EPT mappings
2718  * will be invalidated by the host before the next vmresume.
2719  */
2720 static __inline void
2721 pmap_invalidate_ept(pmap_t pmap)
2722 {
2723         int ipinum;
2724
2725         sched_pin();
2726         KASSERT(!CPU_ISSET(curcpu, &pmap->pm_active),
2727             ("pmap_invalidate_ept: absurd pm_active"));
2728
2729         /*
2730          * The TLB mappings associated with a vcpu context are not
2731          * flushed each time a different vcpu is chosen to execute.
2732          *
2733          * This is in contrast with a process's vtop mappings that
2734          * are flushed from the TLB on each context switch.
2735          *
2736          * Therefore we need to do more than just a TLB shootdown on
2737          * the active cpus in 'pmap->pm_active'. To do this we keep
2738          * track of the number of invalidations performed on this pmap.
2739          *
2740          * Each vcpu keeps a cache of this counter and compares it
2741          * just before a vmresume. If the counter is out-of-date an
2742          * invept will be done to flush stale mappings from the TLB.
2743          */
2744         atomic_add_acq_long(&pmap->pm_eptgen, 1);
2745
2746         /*
2747          * Force the vcpu to exit and trap back into the hypervisor.
2748          */
2749         ipinum = pmap->pm_flags & PMAP_NESTED_IPIMASK;
2750         ipi_selected(pmap->pm_active, ipinum);
2751         sched_unpin();
2752 }
2753
2754 static cpuset_t
2755 pmap_invalidate_cpu_mask(pmap_t pmap)
2756 {
2757
2758         return (pmap == kernel_pmap ? all_cpus : pmap->pm_active);
2759 }
2760
2761 static inline void
2762 pmap_invalidate_page_pcid(pmap_t pmap, vm_offset_t va,
2763     const bool invpcid_works1)
2764 {
2765         struct invpcid_descr d;
2766         uint64_t kcr3, ucr3;
2767         uint32_t pcid;
2768         u_int cpuid, i;
2769
2770         cpuid = PCPU_GET(cpuid);
2771         if (pmap == PCPU_GET(curpmap)) {
2772                 if (pmap->pm_ucr3 != PMAP_NO_CR3 &&
2773                     /*
2774                      * If we context-switched right after
2775                      * PCPU_GET(ucr3_load_mask), we could read the
2776                      * ~CR3_PCID_SAVE mask, which causes us to skip
2777                      * the code below to invalidate user pages.  This
2778                      * is handled in pmap_activate_sw_pcid_pti() by
2779                      * clearing pm_gen if ucr3_load_mask is ~CR3_PCID_SAVE.
2780                      */
2781                     PCPU_GET(ucr3_load_mask) == PMAP_UCR3_NOMASK) {
2782                         /*
2783                          * Because pm_pcid is recalculated on a
2784                          * context switch, we must disable switching.
2785                          * Otherwise, we might use a stale value
2786                          * below.
2787                          */
2788                         critical_enter();
2789                         pcid = pmap->pm_pcids[cpuid].pm_pcid;
2790                         if (invpcid_works1) {
2791                                 d.pcid = pcid | PMAP_PCID_USER_PT;
2792                                 d.pad = 0;
2793                                 d.addr = va;
2794                                 invpcid(&d, INVPCID_ADDR);
2795                         } else {
2796                                 kcr3 = pmap->pm_cr3 | pcid | CR3_PCID_SAVE;
2797                                 ucr3 = pmap->pm_ucr3 | pcid |
2798                                     PMAP_PCID_USER_PT | CR3_PCID_SAVE;
2799                                 pmap_pti_pcid_invlpg(ucr3, kcr3, va);
2800                         }
2801                         critical_exit();
2802                 }
2803         } else
2804                 pmap->pm_pcids[cpuid].pm_gen = 0;
2805
2806         CPU_FOREACH(i) {
2807                 if (cpuid != i)
2808                         pmap->pm_pcids[i].pm_gen = 0;
2809         }
2810
2811         /*
2812          * The fence is between stores to pm_gen and the read of the
2813          * pm_active mask.  We need to ensure that it is impossible
2814          * for us to miss the bit update in pm_active and
2815          * simultaneously observe a non-zero pm_gen in
2816          * pmap_activate_sw(), otherwise TLB update is missed.
2817          * Without the fence, IA32 allows such an outcome.  Note that
2818          * pm_active is updated by a locked operation, which provides
2819          * the reciprocal fence.
2820          */
2821         atomic_thread_fence_seq_cst();
2822 }
2823
2824 static void
2825 pmap_invalidate_page_pcid_invpcid(pmap_t pmap, vm_offset_t va)
2826 {
2827
2828         pmap_invalidate_page_pcid(pmap, va, true);
2829 }
2830
2831 static void
2832 pmap_invalidate_page_pcid_noinvpcid(pmap_t pmap, vm_offset_t va)
2833 {
2834
2835         pmap_invalidate_page_pcid(pmap, va, false);
2836 }
2837
2838 static void
2839 pmap_invalidate_page_nopcid(pmap_t pmap, vm_offset_t va)
2840 {
2841 }
2842
2843 DEFINE_IFUNC(static, void, pmap_invalidate_page_mode, (pmap_t, vm_offset_t))
2844 {
2845
2846         if (pmap_pcid_enabled)
2847                 return (invpcid_works ? pmap_invalidate_page_pcid_invpcid :
2848                     pmap_invalidate_page_pcid_noinvpcid);
2849         return (pmap_invalidate_page_nopcid);
2850 }
2851
2852 static void
2853 pmap_invalidate_page_curcpu_cb(pmap_t pmap, vm_offset_t va,
2854     vm_offset_t addr2 __unused)
2855 {
2856
2857         if (pmap == kernel_pmap) {
2858                 invlpg(va);
2859         } else {
2860                 if (pmap == PCPU_GET(curpmap))
2861                         invlpg(va);
2862                 pmap_invalidate_page_mode(pmap, va);
2863         }
2864 }
2865
2866 void
2867 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
2868 {
2869
2870         if (pmap_type_guest(pmap)) {
2871                 pmap_invalidate_ept(pmap);
2872                 return;
2873         }
2874
2875         KASSERT(pmap->pm_type == PT_X86,
2876             ("pmap_invalidate_page: invalid type %d", pmap->pm_type));
2877
2878         smp_masked_invlpg(pmap_invalidate_cpu_mask(pmap), va, pmap,
2879             pmap_invalidate_page_curcpu_cb);
2880 }
2881
2882 /* 4k PTEs -- Chosen to exceed the total size of Broadwell L2 TLB */
2883 #define PMAP_INVLPG_THRESHOLD   (4 * 1024 * PAGE_SIZE)
2884
2885 static void
2886 pmap_invalidate_range_pcid(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
2887     const bool invpcid_works1)
2888 {
2889         struct invpcid_descr d;
2890         uint64_t kcr3, ucr3;
2891         uint32_t pcid;
2892         u_int cpuid, i;
2893
2894         cpuid = PCPU_GET(cpuid);
2895         if (pmap == PCPU_GET(curpmap)) {
2896                 if (pmap->pm_ucr3 != PMAP_NO_CR3 &&
2897                     PCPU_GET(ucr3_load_mask) == PMAP_UCR3_NOMASK) {
2898                         critical_enter();
2899                         pcid = pmap->pm_pcids[cpuid].pm_pcid;
2900                         if (invpcid_works1) {
2901                                 d.pcid = pcid | PMAP_PCID_USER_PT;
2902                                 d.pad = 0;
2903                                 d.addr = sva;
2904                                 for (; d.addr < eva; d.addr += PAGE_SIZE)
2905                                         invpcid(&d, INVPCID_ADDR);
2906                         } else {
2907                                 kcr3 = pmap->pm_cr3 | pcid | CR3_PCID_SAVE;
2908                                 ucr3 = pmap->pm_ucr3 | pcid |
2909                                     PMAP_PCID_USER_PT | CR3_PCID_SAVE;
2910                                 pmap_pti_pcid_invlrng(ucr3, kcr3, sva, eva);
2911                         }
2912                         critical_exit();
2913                 }
2914         } else
2915                 pmap->pm_pcids[cpuid].pm_gen = 0;
2916
2917         CPU_FOREACH(i) {
2918                 if (cpuid != i)
2919                         pmap->pm_pcids[i].pm_gen = 0;
2920         }
2921         /* See the comment in pmap_invalidate_page_pcid(). */
2922         atomic_thread_fence_seq_cst();
2923 }
2924
2925 static void
2926 pmap_invalidate_range_pcid_invpcid(pmap_t pmap, vm_offset_t sva,
2927     vm_offset_t eva)
2928 {
2929
2930         pmap_invalidate_range_pcid(pmap, sva, eva, true);
2931 }
2932
2933 static void
2934 pmap_invalidate_range_pcid_noinvpcid(pmap_t pmap, vm_offset_t sva,
2935     vm_offset_t eva)
2936 {
2937
2938         pmap_invalidate_range_pcid(pmap, sva, eva, false);
2939 }
2940
2941 static void
2942 pmap_invalidate_range_nopcid(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2943 {
2944 }
2945
2946 DEFINE_IFUNC(static, void, pmap_invalidate_range_mode, (pmap_t, vm_offset_t,
2947     vm_offset_t))
2948 {
2949
2950         if (pmap_pcid_enabled)
2951                 return (invpcid_works ? pmap_invalidate_range_pcid_invpcid :
2952                     pmap_invalidate_range_pcid_noinvpcid);
2953         return (pmap_invalidate_range_nopcid);
2954 }
2955
2956 static void
2957 pmap_invalidate_range_curcpu_cb(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2958 {
2959         vm_offset_t addr;
2960
2961         if (pmap == kernel_pmap) {
2962                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
2963                         invlpg(addr);
2964         } else {
2965                 if (pmap == PCPU_GET(curpmap)) {
2966                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
2967                                 invlpg(addr);
2968                 }
2969                 pmap_invalidate_range_mode(pmap, sva, eva);
2970         }
2971 }
2972
2973 void
2974 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2975 {
2976
2977         if (eva - sva >= PMAP_INVLPG_THRESHOLD) {
2978                 pmap_invalidate_all(pmap);
2979                 return;
2980         }
2981
2982         if (pmap_type_guest(pmap)) {
2983                 pmap_invalidate_ept(pmap);
2984                 return;
2985         }
2986
2987         KASSERT(pmap->pm_type == PT_X86,
2988             ("pmap_invalidate_range: invalid type %d", pmap->pm_type));
2989
2990         smp_masked_invlpg_range(pmap_invalidate_cpu_mask(pmap), sva, eva, pmap,
2991             pmap_invalidate_range_curcpu_cb);
2992 }
2993
2994 static inline void
2995 pmap_invalidate_all_pcid(pmap_t pmap, bool invpcid_works1)
2996 {
2997         struct invpcid_descr d;
2998         uint64_t kcr3;
2999         uint32_t pcid;
3000         u_int cpuid, i;
3001
3002         if (pmap == kernel_pmap) {
3003                 if (invpcid_works1) {
3004                         bzero(&d, sizeof(d));
3005                         invpcid(&d, INVPCID_CTXGLOB);
3006                 } else {
3007                         invltlb_glob();
3008                 }
3009         } else {
3010                 cpuid = PCPU_GET(cpuid);
3011                 if (pmap == PCPU_GET(curpmap)) {
3012                         critical_enter();
3013                         pcid = pmap->pm_pcids[cpuid].pm_pcid;
3014                         if (invpcid_works1) {
3015                                 d.pcid = pcid;
3016                                 d.pad = 0;
3017                                 d.addr = 0;
3018                                 invpcid(&d, INVPCID_CTX);
3019                         } else {
3020                                 kcr3 = pmap->pm_cr3 | pcid;
3021                                 load_cr3(kcr3);
3022                         }
3023                         if (pmap->pm_ucr3 != PMAP_NO_CR3)
3024                                 PCPU_SET(ucr3_load_mask, ~CR3_PCID_SAVE);
3025                         critical_exit();
3026                 } else
3027                         pmap->pm_pcids[cpuid].pm_gen = 0;
3028                 CPU_FOREACH(i) {
3029                         if (cpuid != i)
3030                                 pmap->pm_pcids[i].pm_gen = 0;
3031                 }
3032         }
3033         /* See the comment in pmap_invalidate_page_pcid(). */
3034         atomic_thread_fence_seq_cst();
3035 }
3036
3037 static void
3038 pmap_invalidate_all_pcid_invpcid(pmap_t pmap)
3039 {
3040
3041         pmap_invalidate_all_pcid(pmap, true);
3042 }
3043
3044 static void
3045 pmap_invalidate_all_pcid_noinvpcid(pmap_t pmap)
3046 {
3047
3048         pmap_invalidate_all_pcid(pmap, false);
3049 }
3050
3051 static void
3052 pmap_invalidate_all_nopcid(pmap_t pmap)
3053 {
3054
3055         if (pmap == kernel_pmap)
3056                 invltlb_glob();
3057         else if (pmap == PCPU_GET(curpmap))
3058                 invltlb();
3059 }
3060
3061 DEFINE_IFUNC(static, void, pmap_invalidate_all_mode, (pmap_t))
3062 {
3063
3064         if (pmap_pcid_enabled)
3065                 return (invpcid_works ? pmap_invalidate_all_pcid_invpcid :
3066                     pmap_invalidate_all_pcid_noinvpcid);
3067         return (pmap_invalidate_all_nopcid);
3068 }
3069
3070 static void
3071 pmap_invalidate_all_curcpu_cb(pmap_t pmap, vm_offset_t addr1 __unused,
3072     vm_offset_t addr2 __unused)
3073 {
3074
3075         pmap_invalidate_all_mode(pmap);
3076 }
3077
3078 void
3079 pmap_invalidate_all(pmap_t pmap)
3080 {
3081
3082         if (pmap_type_guest(pmap)) {
3083                 pmap_invalidate_ept(pmap);
3084                 return;
3085         }
3086
3087         KASSERT(pmap->pm_type == PT_X86,
3088             ("pmap_invalidate_all: invalid type %d", pmap->pm_type));
3089
3090         smp_masked_invltlb(pmap_invalidate_cpu_mask(pmap), pmap,
3091             pmap_invalidate_all_curcpu_cb);
3092 }
3093
3094 static void
3095 pmap_invalidate_cache_curcpu_cb(pmap_t pmap __unused, vm_offset_t va __unused,
3096     vm_offset_t addr2 __unused)
3097 {
3098
3099         wbinvd();
3100 }
3101
3102 void
3103 pmap_invalidate_cache(void)
3104 {
3105
3106         smp_cache_flush(pmap_invalidate_cache_curcpu_cb);
3107 }
3108
3109 struct pde_action {
3110         cpuset_t invalidate;    /* processors that invalidate their TLB */
3111         pmap_t pmap;
3112         vm_offset_t va;
3113         pd_entry_t *pde;
3114         pd_entry_t newpde;
3115         u_int store;            /* processor that updates the PDE */
3116 };
3117
3118 static void
3119 pmap_update_pde_action(void *arg)
3120 {
3121         struct pde_action *act = arg;
3122
3123         if (act->store == PCPU_GET(cpuid))
3124                 pmap_update_pde_store(act->pmap, act->pde, act->newpde);
3125 }
3126
3127 static void
3128 pmap_update_pde_teardown(void *arg)
3129 {
3130         struct pde_action *act = arg;
3131
3132         if (CPU_ISSET(PCPU_GET(cpuid), &act->invalidate))
3133                 pmap_update_pde_invalidate(act->pmap, act->va, act->newpde);
3134 }
3135
3136 /*
3137  * Change the page size for the specified virtual address in a way that
3138  * prevents any possibility of the TLB ever having two entries that map the
3139  * same virtual address using different page sizes.  This is the recommended
3140  * workaround for Erratum 383 on AMD Family 10h processors.  It prevents a
3141  * machine check exception for a TLB state that is improperly diagnosed as a
3142  * hardware error.
3143  */
3144 static void
3145 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
3146 {
3147         struct pde_action act;
3148         cpuset_t active, other_cpus;
3149         u_int cpuid;
3150
3151         sched_pin();
3152         cpuid = PCPU_GET(cpuid);
3153         other_cpus = all_cpus;
3154         CPU_CLR(cpuid, &other_cpus);
3155         if (pmap == kernel_pmap || pmap_type_guest(pmap))
3156                 active = all_cpus;
3157         else {
3158                 active = pmap->pm_active;
3159         }
3160         if (CPU_OVERLAP(&active, &other_cpus)) {
3161                 act.store = cpuid;
3162                 act.invalidate = active;
3163                 act.va = va;
3164                 act.pmap = pmap;
3165                 act.pde = pde;
3166                 act.newpde = newpde;
3167                 CPU_SET(cpuid, &active);
3168                 smp_rendezvous_cpus(active,
3169                     smp_no_rendezvous_barrier, pmap_update_pde_action,
3170                     pmap_update_pde_teardown, &act);
3171         } else {
3172                 pmap_update_pde_store(pmap, pde, newpde);
3173                 if (CPU_ISSET(cpuid, &active))
3174                         pmap_update_pde_invalidate(pmap, va, newpde);
3175         }
3176         sched_unpin();
3177 }
3178 #else /* !SMP */
3179 /*
3180  * Normal, non-SMP, invalidation functions.
3181  */
3182 void
3183 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
3184 {
3185         struct invpcid_descr d;
3186         uint64_t kcr3, ucr3;
3187         uint32_t pcid;
3188
3189         if (pmap->pm_type == PT_RVI || pmap->pm_type == PT_EPT) {
3190                 pmap->pm_eptgen++;
3191                 return;
3192         }
3193         KASSERT(pmap->pm_type == PT_X86,
3194             ("pmap_invalidate_range: unknown type %d", pmap->pm_type));
3195
3196         if (pmap == kernel_pmap || pmap == PCPU_GET(curpmap)) {
3197                 invlpg(va);
3198                 if (pmap == PCPU_GET(curpmap) && pmap_pcid_enabled &&
3199                     pmap->pm_ucr3 != PMAP_NO_CR3) {
3200                         critical_enter();
3201                         pcid = pmap->pm_pcids[0].pm_pcid;
3202                         if (invpcid_works) {
3203                                 d.pcid = pcid | PMAP_PCID_USER_PT;
3204                                 d.pad = 0;
3205                                 d.addr = va;
3206                                 invpcid(&d, INVPCID_ADDR);
3207                         } else {
3208                                 kcr3 = pmap->pm_cr3 | pcid | CR3_PCID_SAVE;
3209                                 ucr3 = pmap->pm_ucr3 | pcid |
3210                                     PMAP_PCID_USER_PT | CR3_PCID_SAVE;
3211                                 pmap_pti_pcid_invlpg(ucr3, kcr3, va);
3212                         }
3213                         critical_exit();
3214                 }
3215         } else if (pmap_pcid_enabled)
3216                 pmap->pm_pcids[0].pm_gen = 0;
3217 }
3218
3219 void
3220 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
3221 {
3222         struct invpcid_descr d;
3223         vm_offset_t addr;
3224         uint64_t kcr3, ucr3;
3225
3226         if (pmap->pm_type == PT_RVI || pmap->pm_type == PT_EPT) {
3227                 pmap->pm_eptgen++;
3228                 return;
3229         }
3230         KASSERT(pmap->pm_type == PT_X86,
3231             ("pmap_invalidate_range: unknown type %d", pmap->pm_type));
3232
3233         if (pmap == kernel_pmap || pmap == PCPU_GET(curpmap)) {
3234                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
3235                         invlpg(addr);
3236                 if (pmap == PCPU_GET(curpmap) && pmap_pcid_enabled &&
3237                     pmap->pm_ucr3 != PMAP_NO_CR3) {
3238                         critical_enter();
3239                         if (invpcid_works) {
3240                                 d.pcid = pmap->pm_pcids[0].pm_pcid |
3241                                     PMAP_PCID_USER_PT;
3242                                 d.pad = 0;
3243                                 d.addr = sva;
3244                                 for (; d.addr < eva; d.addr += PAGE_SIZE)
3245                                         invpcid(&d, INVPCID_ADDR);
3246                         } else {
3247                                 kcr3 = pmap->pm_cr3 | pmap->pm_pcids[0].
3248                                     pm_pcid | CR3_PCID_SAVE;
3249                                 ucr3 = pmap->pm_ucr3 | pmap->pm_pcids[0].
3250                                     pm_pcid | PMAP_PCID_USER_PT | CR3_PCID_SAVE;
3251                                 pmap_pti_pcid_invlrng(ucr3, kcr3, sva, eva);
3252                         }
3253                         critical_exit();
3254                 }
3255         } else if (pmap_pcid_enabled) {
3256                 pmap->pm_pcids[0].pm_gen = 0;
3257         }
3258 }
3259
3260 void
3261 pmap_invalidate_all(pmap_t pmap)
3262 {
3263         struct invpcid_descr d;
3264         uint64_t kcr3, ucr3;
3265
3266         if (pmap->pm_type == PT_RVI || pmap->pm_type == PT_EPT) {
3267                 pmap->pm_eptgen++;
3268                 return;
3269         }
3270         KASSERT(pmap->pm_type == PT_X86,
3271             ("pmap_invalidate_all: unknown type %d", pmap->pm_type));
3272
3273         if (pmap == kernel_pmap) {
3274                 if (pmap_pcid_enabled && invpcid_works) {
3275                         bzero(&d, sizeof(d));
3276                         invpcid(&d, INVPCID_CTXGLOB);
3277                 } else {
3278                         invltlb_glob();
3279                 }
3280         } else if (pmap == PCPU_GET(curpmap)) {
3281                 if (pmap_pcid_enabled) {
3282                         critical_enter();
3283                         if (invpcid_works) {
3284                                 d.pcid = pmap->pm_pcids[0].pm_pcid;
3285                                 d.pad = 0;
3286                                 d.addr = 0;
3287                                 invpcid(&d, INVPCID_CTX);
3288                                 if (pmap->pm_ucr3 != PMAP_NO_CR3) {
3289                                         d.pcid |= PMAP_PCID_USER_PT;
3290                                         invpcid(&d, INVPCID_CTX);
3291                                 }
3292                         } else {
3293                                 kcr3 = pmap->pm_cr3 | pmap->pm_pcids[0].pm_pcid;
3294                                 if (pmap->pm_ucr3 != PMAP_NO_CR3) {
3295                                         ucr3 = pmap->pm_ucr3 | pmap->pm_pcids[
3296                                             0].pm_pcid | PMAP_PCID_USER_PT;
3297                                         pmap_pti_pcid_invalidate(ucr3, kcr3);
3298                                 } else
3299                                         load_cr3(kcr3);
3300                         }
3301                         critical_exit();
3302                 } else {
3303                         invltlb();
3304                 }
3305         } else if (pmap_pcid_enabled) {
3306                 pmap->pm_pcids[0].pm_gen = 0;
3307         }
3308 }
3309
3310 PMAP_INLINE void
3311 pmap_invalidate_cache(void)
3312 {
3313
3314         wbinvd();
3315 }
3316
3317 static void
3318 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
3319 {
3320
3321         pmap_update_pde_store(pmap, pde, newpde);
3322         if (pmap == kernel_pmap || pmap == PCPU_GET(curpmap))
3323                 pmap_update_pde_invalidate(pmap, va, newpde);
3324         else
3325                 pmap->pm_pcids[0].pm_gen = 0;
3326 }
3327 #endif /* !SMP */
3328
3329 static void
3330 pmap_invalidate_pde_page(pmap_t pmap, vm_offset_t va, pd_entry_t pde)
3331 {
3332
3333         /*
3334          * When the PDE has PG_PROMOTED set, the 2MB page mapping was created
3335          * by a promotion that did not invalidate the 512 4KB page mappings
3336          * that might exist in the TLB.  Consequently, at this point, the TLB
3337          * may hold both 4KB and 2MB page mappings for the address range [va,
3338          * va + NBPDR).  Therefore, the entire range must be invalidated here.
3339          * In contrast, when PG_PROMOTED is clear, the TLB will not hold any
3340          * 4KB page mappings for the address range [va, va + NBPDR), and so a
3341          * single INVLPG suffices to invalidate the 2MB page mapping from the
3342          * TLB.
3343          */
3344         if ((pde & PG_PROMOTED) != 0)
3345                 pmap_invalidate_range(pmap, va, va + NBPDR - 1);
3346         else
3347                 pmap_invalidate_page(pmap, va);
3348 }
3349
3350 DEFINE_IFUNC(, void, pmap_invalidate_cache_range,
3351     (vm_offset_t sva, vm_offset_t eva))
3352 {
3353
3354         if ((cpu_feature & CPUID_SS) != 0)
3355                 return (pmap_invalidate_cache_range_selfsnoop);
3356         if ((cpu_feature & CPUID_CLFSH) != 0)
3357                 return (pmap_force_invalidate_cache_range);
3358         return (pmap_invalidate_cache_range_all);
3359 }
3360
3361 #define PMAP_CLFLUSH_THRESHOLD   (2 * 1024 * 1024)
3362
3363 static void
3364 pmap_invalidate_cache_range_check_align(vm_offset_t sva, vm_offset_t eva)
3365 {
3366
3367         KASSERT((sva & PAGE_MASK) == 0,
3368             ("pmap_invalidate_cache_range: sva not page-aligned"));
3369         KASSERT((eva & PAGE_MASK) == 0,
3370             ("pmap_invalidate_cache_range: eva not page-aligned"));
3371 }
3372
3373 static void
3374 pmap_invalidate_cache_range_selfsnoop(vm_offset_t sva, vm_offset_t eva)
3375 {
3376
3377         pmap_invalidate_cache_range_check_align(sva, eva);
3378 }
3379
3380 void
3381 pmap_force_invalidate_cache_range(vm_offset_t sva, vm_offset_t eva)
3382 {
3383
3384         sva &= ~(vm_offset_t)(cpu_clflush_line_size - 1);
3385
3386         /*
3387          * XXX: Some CPUs fault, hang, or trash the local APIC
3388          * registers if we use CLFLUSH on the local APIC range.  The
3389          * local APIC is always uncached, so we don't need to flush
3390          * for that range anyway.
3391          */
3392         if (pmap_kextract(sva) == lapic_paddr)
3393                 return;
3394
3395         if ((cpu_stdext_feature & CPUID_STDEXT_CLFLUSHOPT) != 0) {
3396                 /*
3397                  * Do per-cache line flush.  Use a locked
3398                  * instruction to insure that previous stores are
3399                  * included in the write-back.  The processor
3400                  * propagates flush to other processors in the cache
3401                  * coherence domain.
3402                  */
3403                 atomic_thread_fence_seq_cst();
3404                 for (; sva < eva; sva += cpu_clflush_line_size)
3405                         clflushopt(sva);
3406                 atomic_thread_fence_seq_cst();
3407         } else {
3408                 /*
3409                  * Writes are ordered by CLFLUSH on Intel CPUs.
3410                  */
3411                 if (cpu_vendor_id != CPU_VENDOR_INTEL)
3412                         mfence();
3413                 for (; sva < eva; sva += cpu_clflush_line_size)
3414                         clflush(sva);
3415                 if (cpu_vendor_id != CPU_VENDOR_INTEL)
3416                         mfence();
3417         }
3418 }
3419
3420 static void
3421 pmap_invalidate_cache_range_all(vm_offset_t sva, vm_offset_t eva)
3422 {
3423
3424         pmap_invalidate_cache_range_check_align(sva, eva);
3425         pmap_invalidate_cache();
3426 }
3427
3428 /*
3429  * Remove the specified set of pages from the data and instruction caches.
3430  *
3431  * In contrast to pmap_invalidate_cache_range(), this function does not
3432  * rely on the CPU's self-snoop feature, because it is intended for use
3433  * when moving pages into a different cache domain.
3434  */
3435 void
3436 pmap_invalidate_cache_pages(vm_page_t *pages, int count)
3437 {
3438         vm_offset_t daddr, eva;
3439         int i;
3440         bool useclflushopt;
3441
3442         useclflushopt = (cpu_stdext_feature & CPUID_STDEXT_CLFLUSHOPT) != 0;
3443         if (count >= PMAP_CLFLUSH_THRESHOLD / PAGE_SIZE ||
3444             ((cpu_feature & CPUID_CLFSH) == 0 && !useclflushopt))
3445                 pmap_invalidate_cache();
3446         else {
3447                 if (useclflushopt)
3448                         atomic_thread_fence_seq_cst();
3449                 else if (cpu_vendor_id != CPU_VENDOR_INTEL)
3450                         mfence();
3451                 for (i = 0; i < count; i++) {
3452                         daddr = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pages[i]));
3453                         eva = daddr + PAGE_SIZE;
3454                         for (; daddr < eva; daddr += cpu_clflush_line_size) {
3455                                 if (useclflushopt)
3456                                         clflushopt(daddr);
3457                                 else
3458                                         clflush(daddr);
3459                         }
3460                 }
3461                 if (useclflushopt)
3462                         atomic_thread_fence_seq_cst();
3463                 else if (cpu_vendor_id != CPU_VENDOR_INTEL)
3464                         mfence();
3465         }
3466 }
3467
3468 void
3469 pmap_flush_cache_range(vm_offset_t sva, vm_offset_t eva)
3470 {
3471
3472         pmap_invalidate_cache_range_check_align(sva, eva);
3473
3474         if ((cpu_stdext_feature & CPUID_STDEXT_CLWB) == 0) {
3475                 pmap_force_invalidate_cache_range(sva, eva);
3476                 return;
3477         }
3478
3479         /* See comment in pmap_force_invalidate_cache_range(). */
3480         if (pmap_kextract(sva) == lapic_paddr)
3481                 return;
3482
3483         atomic_thread_fence_seq_cst();
3484         for (; sva < eva; sva += cpu_clflush_line_size)
3485                 clwb(sva);
3486         atomic_thread_fence_seq_cst();
3487 }
3488
3489 void
3490 pmap_flush_cache_phys_range(vm_paddr_t spa, vm_paddr_t epa, vm_memattr_t mattr)
3491 {
3492         pt_entry_t *pte;
3493         vm_offset_t vaddr;
3494         int error, pte_bits;
3495
3496         KASSERT((spa & PAGE_MASK) == 0,
3497             ("pmap_flush_cache_phys_range: spa not page-aligned"));
3498         KASSERT((epa & PAGE_MASK) == 0,
3499             ("pmap_flush_cache_phys_range: epa not page-aligned"));
3500
3501         if (spa < dmaplimit) {
3502                 pmap_flush_cache_range(PHYS_TO_DMAP(spa), PHYS_TO_DMAP(MIN(
3503                     dmaplimit, epa)));
3504                 if (dmaplimit >= epa)
3505                         return;
3506                 spa = dmaplimit;
3507         }
3508
3509         pte_bits = pmap_cache_bits(kernel_pmap, mattr, 0) | X86_PG_RW |
3510             X86_PG_V;
3511         error = vmem_alloc(kernel_arena, PAGE_SIZE, M_BESTFIT | M_WAITOK,
3512             &vaddr);
3513         KASSERT(error == 0, ("vmem_alloc failed: %d", error));
3514         pte = vtopte(vaddr);
3515         for (; spa < epa; spa += PAGE_SIZE) {
3516                 sched_pin();
3517                 pte_store(pte, spa | pte_bits);
3518                 invlpg(vaddr);
3519                 /* XXXKIB atomic inside flush_cache_range are excessive */
3520                 pmap_flush_cache_range(vaddr, vaddr + PAGE_SIZE);
3521                 sched_unpin();
3522         }
3523         vmem_free(kernel_arena, vaddr, PAGE_SIZE);
3524 }
3525
3526 /*
3527  *      Routine:        pmap_extract
3528  *      Function:
3529  *              Extract the physical page address associated
3530  *              with the given map/virtual_address pair.
3531  */
3532 vm_paddr_t
3533 pmap_extract(pmap_t pmap, vm_offset_t va)
3534 {
3535         pdp_entry_t *pdpe;
3536         pd_entry_t *pde;
3537         pt_entry_t *pte, PG_V;
3538         vm_paddr_t pa;
3539
3540         pa = 0;
3541         PG_V = pmap_valid_bit(pmap);
3542         PMAP_LOCK(pmap);
3543         pdpe = pmap_pdpe(pmap, va);
3544         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
3545                 if ((*pdpe & PG_PS) != 0)
3546                         pa = (*pdpe & PG_PS_FRAME) | (va & PDPMASK);
3547                 else {
3548                         pde = pmap_pdpe_to_pde(pdpe, va);
3549                         if ((*pde & PG_V) != 0) {
3550                                 if ((*pde & PG_PS) != 0) {
3551                                         pa = (*pde & PG_PS_FRAME) |
3552                                             (va & PDRMASK);
3553                                 } else {
3554                                         pte = pmap_pde_to_pte(pde, va);
3555                                         pa = (*pte & PG_FRAME) |
3556                                             (va & PAGE_MASK);
3557                                 }
3558                         }
3559                 }
3560         }
3561         PMAP_UNLOCK(pmap);
3562         return (pa);
3563 }
3564
3565 /*
3566  *      Routine:        pmap_extract_and_hold
3567  *      Function:
3568  *              Atomically extract and hold the physical page
3569  *              with the given pmap and virtual address pair
3570  *              if that mapping permits the given protection.
3571  */
3572 vm_page_t
3573 pmap_extract_and_hold(pmap_t pmap, vm_offset_t va, vm_prot_t prot)
3574 {
3575         pdp_entry_t pdpe, *pdpep;
3576         pd_entry_t pde, *pdep;
3577         pt_entry_t pte, PG_RW, PG_V;
3578         vm_page_t m;
3579
3580         m = NULL;
3581         PG_RW = pmap_rw_bit(pmap);
3582         PG_V = pmap_valid_bit(pmap);
3583         PMAP_LOCK(pmap);
3584
3585         pdpep = pmap_pdpe(pmap, va);
3586         if (pdpep == NULL || ((pdpe = *pdpep) & PG_V) == 0)
3587                 goto out;
3588         if ((pdpe & PG_PS) != 0) {
3589                 if ((pdpe & PG_RW) == 0 && (prot & VM_PROT_WRITE) != 0)
3590                         goto out;
3591                 m = PHYS_TO_VM_PAGE((pdpe & PG_PS_FRAME) | (va & PDPMASK));
3592                 goto check_page;
3593         }
3594
3595         pdep = pmap_pdpe_to_pde(pdpep, va);
3596         if (pdep == NULL || ((pde = *pdep) & PG_V) == 0)
3597                 goto out;
3598         if ((pde & PG_PS) != 0) {
3599                 if ((pde & PG_RW) == 0 && (prot & VM_PROT_WRITE) != 0)
3600                         goto out;
3601                 m = PHYS_TO_VM_PAGE((pde & PG_PS_FRAME) | (va & PDRMASK));
3602                 goto check_page;
3603         }
3604
3605         pte = *pmap_pde_to_pte(pdep, va);
3606         if ((pte & PG_V) == 0 ||
3607             ((pte & PG_RW) == 0 && (prot & VM_PROT_WRITE) != 0))
3608                 goto out;
3609         m = PHYS_TO_VM_PAGE(pte & PG_FRAME);
3610
3611 check_page:
3612         if (m != NULL && !vm_page_wire_mapped(m))
3613                 m = NULL;
3614 out:
3615         PMAP_UNLOCK(pmap);
3616         return (m);
3617 }
3618
3619 vm_paddr_t
3620 pmap_kextract(vm_offset_t va)
3621 {
3622         pd_entry_t pde;
3623         vm_paddr_t pa;
3624
3625         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS) {
3626                 pa = DMAP_TO_PHYS(va);
3627         } else if (PMAP_ADDRESS_IN_LARGEMAP(va)) {
3628                 pa = pmap_large_map_kextract(va);
3629         } else {
3630                 pde = *vtopde(va);
3631                 if (pde & PG_PS) {
3632                         pa = (pde & PG_PS_FRAME) | (va & PDRMASK);
3633                 } else {
3634                         /*
3635                          * Beware of a concurrent promotion that changes the
3636                          * PDE at this point!  For example, vtopte() must not
3637                          * be used to access the PTE because it would use the
3638                          * new PDE.  It is, however, safe to use the old PDE
3639                          * because the page table page is preserved by the
3640                          * promotion.
3641                          */
3642                         pa = *pmap_pde_to_pte(&pde, va);
3643                         pa = (pa & PG_FRAME) | (va & PAGE_MASK);
3644                 }
3645         }
3646         return (pa);
3647 }
3648
3649 /***************************************************
3650  * Low level mapping routines.....
3651  ***************************************************/
3652
3653 /*
3654  * Add a wired page to the kva.
3655  * Note: not SMP coherent.
3656  */
3657 PMAP_INLINE void
3658 pmap_kenter(vm_offset_t va, vm_paddr_t pa)
3659 {
3660         pt_entry_t *pte;
3661
3662         pte = vtopte(va);
3663         pte_store(pte, pa | X86_PG_RW | X86_PG_V | pg_g | pg_nx);
3664 }
3665
3666 static __inline void
3667 pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode)
3668 {
3669         pt_entry_t *pte;
3670         int cache_bits;
3671
3672         pte = vtopte(va);
3673         cache_bits = pmap_cache_bits(kernel_pmap, mode, 0);
3674         pte_store(pte, pa | X86_PG_RW | X86_PG_V | pg_g | pg_nx | cache_bits);
3675 }
3676
3677 /*
3678  * Remove a page from the kernel pagetables.
3679  * Note: not SMP coherent.
3680  */
3681 PMAP_INLINE void
3682 pmap_kremove(vm_offset_t va)
3683 {
3684         pt_entry_t *pte;
3685
3686         pte = vtopte(va);
3687         pte_clear(pte);
3688 }
3689
3690 /*
3691  *      Used to map a range of physical addresses into kernel
3692  *      virtual address space.
3693  *
3694  *      The value passed in '*virt' is a suggested virtual address for
3695  *      the mapping. Architectures which can support a direct-mapped
3696  *      physical to virtual region can return the appropriate address
3697  *      within that region, leaving '*virt' unchanged. Other
3698  *      architectures should map the pages starting at '*virt' and
3699  *      update '*virt' with the first usable address after the mapped
3700  *      region.
3701  */
3702 vm_offset_t
3703 pmap_map(vm_offset_t *virt, vm_paddr_t start, vm_paddr_t end, int prot)
3704 {
3705         return PHYS_TO_DMAP(start);
3706 }
3707
3708 /*
3709  * Add a list of wired pages to the kva
3710  * this routine is only used for temporary
3711  * kernel mappings that do not need to have
3712  * page modification or references recorded.
3713  * Note that old mappings are simply written
3714  * over.  The page *must* be wired.
3715  * Note: SMP coherent.  Uses a ranged shootdown IPI.
3716  */
3717 void
3718 pmap_qenter(vm_offset_t sva, vm_page_t *ma, int count)
3719 {
3720         pt_entry_t *endpte, oldpte, pa, *pte;
3721         vm_page_t m;
3722         int cache_bits;
3723
3724         oldpte = 0;
3725         pte = vtopte(sva);
3726         endpte = pte + count;
3727         while (pte < endpte) {
3728                 m = *ma++;
3729                 cache_bits = pmap_cache_bits(kernel_pmap, m->md.pat_mode, 0);
3730                 pa = VM_PAGE_TO_PHYS(m) | cache_bits;
3731                 if ((*pte & (PG_FRAME | X86_PG_PTE_CACHE)) != pa) {
3732                         oldpte |= *pte;
3733                         pte_store(pte, pa | pg_g | pg_nx | X86_PG_RW | X86_PG_V);
3734                 }
3735                 pte++;
3736         }
3737         if (__predict_false((oldpte & X86_PG_V) != 0))
3738                 pmap_invalidate_range(kernel_pmap, sva, sva + count *
3739                     PAGE_SIZE);
3740 }
3741
3742 /*
3743  * This routine tears out page mappings from the
3744  * kernel -- it is meant only for temporary mappings.
3745  * Note: SMP coherent.  Uses a ranged shootdown IPI.
3746  */
3747 void
3748 pmap_qremove(vm_offset_t sva, int count)
3749 {
3750         vm_offset_t va;
3751
3752         va = sva;
3753         while (count-- > 0) {
3754                 KASSERT(va >= VM_MIN_KERNEL_ADDRESS, ("usermode va %lx", va));
3755                 pmap_kremove(va);
3756                 va += PAGE_SIZE;
3757         }
3758         pmap_invalidate_range(kernel_pmap, sva, va);
3759 }
3760
3761 /***************************************************
3762  * Page table page management routines.....
3763  ***************************************************/
3764 /*
3765  * Schedule the specified unused page table page to be freed.  Specifically,
3766  * add the page to the specified list of pages that will be released to the
3767  * physical memory manager after the TLB has been updated.
3768  */
3769 static __inline void
3770 pmap_add_delayed_free_list(vm_page_t m, struct spglist *free,
3771     boolean_t set_PG_ZERO)
3772 {
3773
3774         if (set_PG_ZERO)
3775                 m->flags |= PG_ZERO;
3776         else
3777                 m->flags &= ~PG_ZERO;
3778         SLIST_INSERT_HEAD(free, m, plinks.s.ss);
3779 }
3780
3781 /*
3782  * Inserts the specified page table page into the specified pmap's collection
3783  * of idle page table pages.  Each of a pmap's page table pages is responsible
3784  * for mapping a distinct range of virtual addresses.  The pmap's collection is
3785  * ordered by this virtual address range.
3786  *
3787  * If "promoted" is false, then the page table page "mpte" must be zero filled.
3788  */
3789 static __inline int
3790 pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte, bool promoted)
3791 {
3792
3793         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3794         mpte->valid = promoted ? VM_PAGE_BITS_ALL : 0;
3795         return (vm_radix_insert(&pmap->pm_root, mpte));
3796 }
3797
3798 /*
3799  * Removes the page table page mapping the specified virtual address from the
3800  * specified pmap's collection of idle page table pages, and returns it.
3801  * Otherwise, returns NULL if there is no page table page corresponding to the
3802  * specified virtual address.
3803  */
3804 static __inline vm_page_t
3805 pmap_remove_pt_page(pmap_t pmap, vm_offset_t va)
3806 {
3807
3808         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3809         return (vm_radix_remove(&pmap->pm_root, pmap_pde_pindex(va)));
3810 }
3811
3812 /*
3813  * Decrements a page table page's reference count, which is used to record the
3814  * number of valid page table entries within the page.  If the reference count
3815  * drops to zero, then the page table page is unmapped.  Returns TRUE if the
3816  * page table page was unmapped and FALSE otherwise.
3817  */
3818 static inline boolean_t
3819 pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m, struct spglist *free)
3820 {
3821
3822         --m->ref_count;
3823         if (m->ref_count == 0) {
3824                 _pmap_unwire_ptp(pmap, va, m, free);
3825                 return (TRUE);
3826         } else
3827                 return (FALSE);
3828 }
3829
3830 static void
3831 _pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m, struct spglist *free)
3832 {
3833         pml5_entry_t *pml5;
3834         pml4_entry_t *pml4;
3835         pdp_entry_t *pdp;
3836         pd_entry_t *pd;
3837         vm_page_t pdpg, pdppg, pml4pg;
3838
3839         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3840
3841         /*
3842          * unmap the page table page
3843          */
3844         if (m->pindex >= NUPDE + NUPDPE + NUPML4E) {
3845                 /* PML4 page */
3846                 MPASS(pmap_is_la57(pmap));
3847                 pml5 = pmap_pml5e(pmap, va);
3848                 *pml5 = 0;
3849                 if (pmap->pm_pmltopu != NULL && va <= VM_MAXUSER_ADDRESS) {
3850                         pml5 = pmap_pml5e_u(pmap, va);
3851                         *pml5 = 0;
3852                 }
3853         } else if (m->pindex >= NUPDE + NUPDPE) {
3854                 /* PDP page */
3855                 pml4 = pmap_pml4e(pmap, va);
3856                 *pml4 = 0;
3857                 if (!pmap_is_la57(pmap) && pmap->pm_pmltopu != NULL &&
3858                     va <= VM_MAXUSER_ADDRESS) {
3859                         pml4 = pmap_pml4e_u(pmap, va);
3860                         *pml4 = 0;
3861                 }
3862         } else if (m->pindex >= NUPDE) {
3863                 /* PD page */
3864                 pdp = pmap_pdpe(pmap, va);
3865                 *pdp = 0;
3866         } else {
3867                 /* PTE page */
3868                 pd = pmap_pde(pmap, va);
3869                 *pd = 0;
3870         }
3871         pmap_resident_count_dec(pmap, 1);
3872         if (m->pindex < NUPDE) {
3873                 /* We just released a PT, unhold the matching PD */
3874                 pdpg = PHYS_TO_VM_PAGE(*pmap_pdpe(pmap, va) & PG_FRAME);
3875                 pmap_unwire_ptp(pmap, va, pdpg, free);
3876         } else if (m->pindex < NUPDE + NUPDPE) {
3877                 /* We just released a PD, unhold the matching PDP */
3878                 pdppg = PHYS_TO_VM_PAGE(*pmap_pml4e(pmap, va) & PG_FRAME);
3879                 pmap_unwire_ptp(pmap, va, pdppg, free);
3880         } else if (m->pindex < NUPDE + NUPDPE + NUPML4E && pmap_is_la57(pmap)) {
3881                 /* We just released a PDP, unhold the matching PML4 */
3882                 pml4pg = PHYS_TO_VM_PAGE(*pmap_pml5e(pmap, va) & PG_FRAME);
3883                 pmap_unwire_ptp(pmap, va, pml4pg, free);
3884         }
3885
3886         /*
3887          * Put page on a list so that it is released after
3888          * *ALL* TLB shootdown is done
3889          */
3890         pmap_add_delayed_free_list(m, free, TRUE);
3891 }
3892
3893 /*
3894  * After removing a page table entry, this routine is used to
3895  * conditionally free the page, and manage the reference count.
3896  */
3897 static int
3898 pmap_unuse_pt(pmap_t pmap, vm_offset_t va, pd_entry_t ptepde,
3899     struct spglist *free)
3900 {
3901         vm_page_t mpte;
3902
3903         if (va >= VM_MAXUSER_ADDRESS)
3904                 return (0);
3905         KASSERT(ptepde != 0, ("pmap_unuse_pt: ptepde != 0"));
3906         mpte = PHYS_TO_VM_PAGE(ptepde & PG_FRAME);
3907         return (pmap_unwire_ptp(pmap, va, mpte, free));
3908 }
3909
3910 /*
3911  * Release a page table page reference after a failed attempt to create a
3912  * mapping.
3913  */
3914 static void
3915 pmap_abort_ptp(pmap_t pmap, vm_offset_t va, vm_page_t mpte)
3916 {
3917         struct spglist free;
3918
3919         SLIST_INIT(&free);
3920         if (pmap_unwire_ptp(pmap, va, mpte, &free)) {
3921                 /*
3922                  * Although "va" was never mapped, paging-structure caches
3923                  * could nonetheless have entries that refer to the freed
3924                  * page table pages.  Invalidate those entries.
3925                  */
3926                 pmap_invalidate_page(pmap, va);
3927                 vm_page_free_pages_toq(&free, true);
3928         }
3929 }
3930
3931 void
3932 pmap_pinit0(pmap_t pmap)
3933 {
3934         struct proc *p;
3935         struct thread *td;
3936         int i;
3937
3938         PMAP_LOCK_INIT(pmap);
3939         pmap->pm_pmltop = kernel_pmap->pm_pmltop;
3940         pmap->pm_pmltopu = NULL;
3941         pmap->pm_cr3 = kernel_pmap->pm_cr3;
3942         /* hack to keep pmap_pti_pcid_invalidate() alive */
3943         pmap->pm_ucr3 = PMAP_NO_CR3;
3944         pmap->pm_root.rt_root = 0;
3945         CPU_ZERO(&pmap->pm_active);
3946         TAILQ_INIT(&pmap->pm_pvchunk);
3947         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
3948         pmap->pm_flags = pmap_flags;
3949         CPU_FOREACH(i) {
3950                 pmap->pm_pcids[i].pm_pcid = PMAP_PCID_KERN + 1;
3951                 pmap->pm_pcids[i].pm_gen = 1;
3952         }
3953         pmap_activate_boot(pmap);
3954         td = curthread;
3955         if (pti) {
3956                 p = td->td_proc;
3957                 PROC_LOCK(p);
3958                 p->p_md.md_flags |= P_MD_KPTI;
3959                 PROC_UNLOCK(p);
3960         }
3961         pmap_thread_init_invl_gen(td);
3962
3963         if ((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0) {
3964                 pmap_pkru_ranges_zone = uma_zcreate("pkru ranges",
3965                     sizeof(struct pmap_pkru_range), NULL, NULL, NULL, NULL,
3966                     UMA_ALIGN_PTR, 0);
3967         }
3968 }
3969
3970 void
3971 pmap_pinit_pml4(vm_page_t pml4pg)
3972 {
3973         pml4_entry_t *pm_pml4;
3974         int i;
3975
3976         pm_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4pg));
3977
3978         /* Wire in kernel global address entries. */
3979         for (i = 0; i < NKPML4E; i++) {
3980                 pm_pml4[KPML4BASE + i] = (KPDPphys + ptoa(i)) | X86_PG_RW |
3981                     X86_PG_V;
3982         }
3983         for (i = 0; i < ndmpdpphys; i++) {
3984                 pm_pml4[DMPML4I + i] = (DMPDPphys + ptoa(i)) | X86_PG_RW |
3985                     X86_PG_V;
3986         }
3987
3988         /* install self-referential address mapping entry(s) */
3989         pm_pml4[PML4PML4I] = VM_PAGE_TO_PHYS(pml4pg) | X86_PG_V | X86_PG_RW |
3990             X86_PG_A | X86_PG_M;
3991
3992         /* install large map entries if configured */
3993         for (i = 0; i < lm_ents; i++)
3994                 pm_pml4[LMSPML4I + i] = kernel_pmap->pm_pmltop[LMSPML4I + i];
3995 }
3996
3997 void
3998 pmap_pinit_pml5(vm_page_t pml5pg)
3999 {
4000         pml5_entry_t *pm_pml5;
4001
4002         pm_pml5 = (pml5_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml5pg));
4003
4004         /*
4005          * Add pml5 entry at top of KVA pointing to existing pml4 table,
4006          * entering all existing kernel mappings into level 5 table.
4007          */
4008         pm_pml5[pmap_pml5e_index(UPT_MAX_ADDRESS)] = KPML4phys | X86_PG_V |
4009             X86_PG_RW | X86_PG_A | X86_PG_M | pg_g |
4010             pmap_cache_bits(kernel_pmap, VM_MEMATTR_DEFAULT, FALSE);
4011
4012         /*
4013          * Install self-referential address mapping entry.
4014          */
4015         pm_pml5[PML5PML5I] = VM_PAGE_TO_PHYS(pml5pg) |
4016             X86_PG_RW | X86_PG_V | X86_PG_M | X86_PG_A |
4017             pmap_cache_bits(kernel_pmap, VM_MEMATTR_DEFAULT, FALSE);
4018 }
4019
4020 static void
4021 pmap_pinit_pml4_pti(vm_page_t pml4pgu)
4022 {
4023         pml4_entry_t *pm_pml4u;
4024         int i;
4025
4026         pm_pml4u = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4pgu));
4027         for (i = 0; i < NPML4EPG; i++)
4028                 pm_pml4u[i] = pti_pml4[i];
4029 }
4030
4031 static void
4032 pmap_pinit_pml5_pti(vm_page_t pml5pgu)
4033 {
4034         pml5_entry_t *pm_pml5u;
4035
4036         pm_pml5u = (pml5_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml5pgu));
4037
4038         /*
4039          * Add pml5 entry at top of KVA pointing to existing pml4 pti
4040          * table, entering all kernel mappings needed for usermode
4041          * into level 5 table.
4042          */
4043         pm_pml5u[pmap_pml5e_index(UPT_MAX_ADDRESS)] =
4044             pmap_kextract((vm_offset_t)pti_pml4) |
4045             X86_PG_V | X86_PG_RW | X86_PG_A | X86_PG_M | pg_g |
4046             pmap_cache_bits(kernel_pmap, VM_MEMATTR_DEFAULT, FALSE);
4047 }
4048
4049 /*
4050  * Initialize a preallocated and zeroed pmap structure,
4051  * such as one in a vmspace structure.
4052  */
4053 int
4054 pmap_pinit_type(pmap_t pmap, enum pmap_type pm_type, int flags)
4055 {
4056         vm_page_t pmltop_pg, pmltop_pgu;
4057         vm_paddr_t pmltop_phys;
4058         int i;
4059
4060         /*
4061          * allocate the page directory page
4062          */
4063         pmltop_pg = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
4064             VM_ALLOC_WIRED | VM_ALLOC_ZERO | VM_ALLOC_WAITOK);
4065
4066         pmltop_phys = VM_PAGE_TO_PHYS(pmltop_pg);
4067         pmap->pm_pmltop = (pml5_entry_t *)PHYS_TO_DMAP(pmltop_phys);
4068
4069         CPU_FOREACH(i) {
4070                 pmap->pm_pcids[i].pm_pcid = PMAP_PCID_NONE;
4071                 pmap->pm_pcids[i].pm_gen = 0;
4072         }
4073         pmap->pm_cr3 = PMAP_NO_CR3;     /* initialize to an invalid value */
4074         pmap->pm_ucr3 = PMAP_NO_CR3;
4075         pmap->pm_pmltopu = NULL;
4076
4077         pmap->pm_type = pm_type;
4078         if ((pmltop_pg->flags & PG_ZERO) == 0)
4079                 pagezero(pmap->pm_pmltop);
4080
4081         /*
4082          * Do not install the host kernel mappings in the nested page
4083          * tables. These mappings are meaningless in the guest physical
4084          * address space.
4085          * Install minimal kernel mappings in PTI case.
4086          */
4087         if (pm_type == PT_X86) {
4088                 pmap->pm_cr3 = pmltop_phys;
4089                 if (pmap_is_la57(pmap))
4090                         pmap_pinit_pml5(pmltop_pg);
4091                 else
4092                         pmap_pinit_pml4(pmltop_pg);
4093                 if ((curproc->p_md.md_flags & P_MD_KPTI) != 0) {
4094                         pmltop_pgu = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL |
4095                             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED | VM_ALLOC_WAITOK);
4096                         pmap->pm_pmltopu = (pml4_entry_t *)PHYS_TO_DMAP(
4097                             VM_PAGE_TO_PHYS(pmltop_pgu));
4098                         if (pmap_is_la57(pmap))
4099                                 pmap_pinit_pml5_pti(pmltop_pgu);
4100                         else
4101                                 pmap_pinit_pml4_pti(pmltop_pgu);
4102                         pmap->pm_ucr3 = VM_PAGE_TO_PHYS(pmltop_pgu);
4103                 }
4104                 if ((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0) {
4105                         rangeset_init(&pmap->pm_pkru, pkru_dup_range,
4106                             pkru_free_range, pmap, M_NOWAIT);
4107                 }
4108         }
4109
4110         pmap->pm_root.rt_root = 0;
4111         CPU_ZERO(&pmap->pm_active);
4112         TAILQ_INIT(&pmap->pm_pvchunk);
4113         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
4114         pmap->pm_flags = flags;
4115         pmap->pm_eptgen = 0;
4116
4117         return (1);
4118 }
4119
4120 int
4121 pmap_pinit(pmap_t pmap)
4122 {
4123
4124         return (pmap_pinit_type(pmap, PT_X86, pmap_flags));
4125 }
4126
4127 static void
4128 pmap_allocpte_free_unref(pmap_t pmap, vm_offset_t va, pt_entry_t *pte)
4129 {
4130         vm_page_t mpg;
4131         struct spglist free;
4132
4133         mpg = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
4134         if (mpg->ref_count != 0)
4135                 return;
4136         SLIST_INIT(&free);
4137         _pmap_unwire_ptp(pmap, va, mpg, &free);
4138         pmap_invalidate_page(pmap, va);
4139         vm_page_free_pages_toq(&free, true);
4140 }
4141
4142 static pml4_entry_t *
4143 pmap_allocpte_getpml4(pmap_t pmap, struct rwlock **lockp, vm_offset_t va,
4144     bool addref)
4145 {
4146         vm_pindex_t pml5index;
4147         pml5_entry_t *pml5;
4148         pml4_entry_t *pml4;
4149         vm_page_t pml4pg;
4150         pt_entry_t PG_V;
4151         bool allocated;
4152
4153         if (!pmap_is_la57(pmap))
4154                 return (&pmap->pm_pmltop[pmap_pml4e_index(va)]);
4155
4156         PG_V = pmap_valid_bit(pmap);
4157         pml5index = pmap_pml5e_index(va);
4158         pml5 = &pmap->pm_pmltop[pml5index];
4159         if ((*pml5 & PG_V) == 0) {
4160                 if (_pmap_allocpte(pmap, pmap_pml5e_pindex(va), lockp, va) ==
4161                     NULL)
4162                         return (NULL);
4163                 allocated = true;
4164         } else {
4165                 allocated = false;
4166         }
4167         pml4 = (pml4_entry_t *)PHYS_TO_DMAP(*pml5 & PG_FRAME);
4168         pml4 = &pml4[pmap_pml4e_index(va)];
4169         if ((*pml4 & PG_V) == 0) {
4170                 pml4pg = PHYS_TO_VM_PAGE(*pml5 & PG_FRAME);
4171                 if (allocated && !addref)
4172                         pml4pg->ref_count--;
4173                 else if (!allocated && addref)
4174                         pml4pg->ref_count++;
4175         }
4176         return (pml4);
4177 }
4178
4179 static pdp_entry_t *
4180 pmap_allocpte_getpdp(pmap_t pmap, struct rwlock **lockp, vm_offset_t va,
4181     bool addref)
4182 {
4183         vm_page_t pdppg;
4184         pml4_entry_t *pml4;
4185         pdp_entry_t *pdp;
4186         pt_entry_t PG_V;
4187         bool allocated;
4188
4189         PG_V = pmap_valid_bit(pmap);
4190
4191         pml4 = pmap_allocpte_getpml4(pmap, lockp, va, false);
4192         if (pml4 == NULL)
4193                 return (NULL);
4194
4195         if ((*pml4 & PG_V) == 0) {
4196                 /* Have to allocate a new pdp, recurse */
4197                 if (_pmap_allocpte(pmap, pmap_pml4e_pindex(va), lockp, va) ==
4198                     NULL) {
4199                         if (pmap_is_la57(pmap))
4200                                 pmap_allocpte_free_unref(pmap, va,
4201                                     pmap_pml5e(pmap, va));
4202                         return (NULL);
4203                 }
4204                 allocated = true;
4205         } else {
4206                 allocated = false;
4207         }
4208         pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
4209         pdp = &pdp[pmap_pdpe_index(va)];
4210         if ((*pdp & PG_V) == 0) {
4211                 pdppg = PHYS_TO_VM_PAGE(*pml4 & PG_FRAME);
4212                 if (allocated && !addref)
4213                         pdppg->ref_count--;
4214                 else if (!allocated && addref)
4215                         pdppg->ref_count++;
4216         }
4217         return (pdp);
4218 }
4219
4220 /*
4221  * This routine is called if the desired page table page does not exist.
4222  *
4223  * If page table page allocation fails, this routine may sleep before
4224  * returning NULL.  It sleeps only if a lock pointer was given.
4225  *
4226  * Note: If a page allocation fails at page table level two, three, or four,
4227  * up to three pages may be held during the wait, only to be released
4228  * afterwards.  This conservative approach is easily argued to avoid
4229  * race conditions.
4230  *
4231  * The ptepindexes, i.e. page indices, of the page table pages encountered
4232  * while translating virtual address va are defined as follows:
4233  * - for the page table page (last level),
4234  *      ptepindex = pmap_pde_pindex(va) = va >> PDRSHIFT,
4235  *   in other words, it is just the index of the PDE that maps the page
4236  *   table page.
4237  * - for the page directory page,
4238  *      ptepindex = NUPDE (number of userland PD entries) +
4239  *          (pmap_pde_index(va) >> NPDEPGSHIFT)
4240  *   i.e. index of PDPE is put after the last index of PDE,
4241  * - for the page directory pointer page,
4242  *      ptepindex = NUPDE + NUPDPE + (pmap_pde_index(va) >> (NPDEPGSHIFT +
4243  *          NPML4EPGSHIFT),
4244  *   i.e. index of pml4e is put after the last index of PDPE,
4245  * - for the PML4 page (if LA57 mode is enabled),
4246  *      ptepindex = NUPDE + NUPDPE + NUPML4E + (pmap_pde_index(va) >>
4247  *          (NPDEPGSHIFT + NPML4EPGSHIFT + NPML5EPGSHIFT),
4248  *   i.e. index of pml5e is put after the last index of PML4E.
4249  *
4250  * Define an order on the paging entries, where all entries of the
4251  * same height are put together, then heights are put from deepest to
4252  * root.  Then ptexpindex is the sequential number of the
4253  * corresponding paging entry in this order.
4254  *
4255  * The values of NUPDE, NUPDPE, and NUPML4E are determined by the size of
4256  * LA57 paging structures even in LA48 paging mode. Moreover, the
4257  * ptepindexes are calculated as if the paging structures were 5-level
4258  * regardless of the actual mode of operation.
4259  *
4260  * The root page at PML4/PML5 does not participate in this indexing scheme,
4261  * since it is statically allocated by pmap_pinit() and not by _pmap_allocpte().
4262  */
4263 static vm_page_t
4264 _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex, struct rwlock **lockp,
4265     vm_offset_t va __unused)
4266 {
4267         vm_pindex_t pml5index, pml4index;
4268         pml5_entry_t *pml5, *pml5u;
4269         pml4_entry_t *pml4, *pml4u;
4270         pdp_entry_t *pdp;
4271         pd_entry_t *pd;
4272         vm_page_t m, pdpg;
4273         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
4274
4275         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
4276
4277         PG_A = pmap_accessed_bit(pmap);
4278         PG_M = pmap_modified_bit(pmap);
4279         PG_V = pmap_valid_bit(pmap);
4280         PG_RW = pmap_rw_bit(pmap);
4281
4282         /*
4283          * Allocate a page table page.
4284          */
4285         if ((m = vm_page_alloc(NULL, ptepindex, VM_ALLOC_NOOBJ |
4286             VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL) {
4287                 if (lockp != NULL) {
4288                         RELEASE_PV_LIST_LOCK(lockp);
4289                         PMAP_UNLOCK(pmap);
4290                         PMAP_ASSERT_NOT_IN_DI();
4291                         vm_wait(NULL);
4292                         PMAP_LOCK(pmap);
4293                 }
4294
4295                 /*
4296                  * Indicate the need to retry.  While waiting, the page table
4297                  * page may have been allocated.
4298                  */
4299                 return (NULL);
4300         }
4301         if ((m->flags & PG_ZERO) == 0)
4302                 pmap_zero_page(m);
4303
4304         /*
4305          * Map the pagetable page into the process address space, if
4306          * it isn't already there.
4307          */
4308         if (ptepindex >= NUPDE + NUPDPE + NUPML4E) {
4309                 MPASS(pmap_is_la57(pmap));
4310
4311                 pml5index = pmap_pml5e_index(va);
4312                 pml5 = &pmap->pm_pmltop[pml5index];
4313                 KASSERT((*pml5 & PG_V) == 0,
4314                     ("pmap %p va %#lx pml5 %#lx", pmap, va, *pml5));
4315                 *pml5 = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4316
4317                 if (pmap->pm_pmltopu != NULL && pml5index < NUPML5E) {
4318                         if (pmap->pm_ucr3 != PMAP_NO_CR3)
4319                                 *pml5 |= pg_nx;
4320
4321                         pml5u = &pmap->pm_pmltopu[pml5index];
4322                         *pml5u = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V |
4323                             PG_A | PG_M;
4324                 }
4325         } else if (ptepindex >= NUPDE + NUPDPE) {
4326                 pml4index = pmap_pml4e_index(va);
4327                 /* Wire up a new PDPE page */
4328                 pml4 = pmap_allocpte_getpml4(pmap, lockp, va, true);
4329                 if (pml4 == NULL) {
4330                         vm_page_unwire_noq(m);
4331                         vm_page_free_zero(m);
4332                         return (NULL);
4333                 }
4334                 KASSERT((*pml4 & PG_V) == 0,
4335                     ("pmap %p va %#lx pml4 %#lx", pmap, va, *pml4));
4336                 *pml4 = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4337
4338                 if (!pmap_is_la57(pmap) && pmap->pm_pmltopu != NULL &&
4339                     pml4index < NUPML4E) {
4340                         /*
4341                          * PTI: Make all user-space mappings in the
4342                          * kernel-mode page table no-execute so that
4343                          * we detect any programming errors that leave
4344                          * the kernel-mode page table active on return
4345                          * to user space.
4346                          */
4347                         if (pmap->pm_ucr3 != PMAP_NO_CR3)
4348                                 *pml4 |= pg_nx;
4349
4350                         pml4u = &pmap->pm_pmltopu[pml4index];
4351                         *pml4u = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V |
4352                             PG_A | PG_M;
4353                 }
4354         } else if (ptepindex >= NUPDE) {
4355                 /* Wire up a new PDE page */
4356                 pdp = pmap_allocpte_getpdp(pmap, lockp, va, true);
4357                 if (pdp == NULL) {
4358                         vm_page_unwire_noq(m);
4359                         vm_page_free_zero(m);
4360                         return (NULL);
4361                 }
4362                 KASSERT((*pdp & PG_V) == 0,
4363                     ("pmap %p va %#lx pdp %#lx", pmap, va, *pdp));
4364                 *pdp = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4365         } else {
4366                 /* Wire up a new PTE page */
4367                 pdp = pmap_allocpte_getpdp(pmap, lockp, va, false);
4368                 if (pdp == NULL) {
4369                         vm_page_unwire_noq(m);
4370                         vm_page_free_zero(m);
4371                         return (NULL);
4372                 }
4373                 if ((*pdp & PG_V) == 0) {
4374                         /* Have to allocate a new pd, recurse */
4375                         if (_pmap_allocpte(pmap, pmap_pdpe_pindex(va),
4376                             lockp, va) == NULL) {
4377                                 pmap_allocpte_free_unref(pmap, va,
4378                                     pmap_pml4e(pmap, va));
4379                                 vm_page_unwire_noq(m);
4380                                 vm_page_free_zero(m);
4381                                 return (NULL);
4382                         }
4383                 } else {
4384                         /* Add reference to the pd page */
4385                         pdpg = PHYS_TO_VM_PAGE(*pdp & PG_FRAME);
4386                         pdpg->ref_count++;
4387                 }
4388                 pd = (pd_entry_t *)PHYS_TO_DMAP(*pdp & PG_FRAME);
4389
4390                 /* Now we know where the page directory page is */
4391                 pd = &pd[pmap_pde_index(va)];
4392                 KASSERT((*pd & PG_V) == 0,
4393                     ("pmap %p va %#lx pd %#lx", pmap, va, *pd));
4394                 *pd = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
4395         }
4396
4397         pmap_resident_count_inc(pmap, 1);
4398
4399         return (m);
4400 }
4401
4402 static pd_entry_t *
4403 pmap_alloc_pde(pmap_t pmap, vm_offset_t va, vm_page_t *pdpgp,
4404     struct rwlock **lockp)
4405 {
4406         pdp_entry_t *pdpe, PG_V;
4407         pd_entry_t *pde;
4408         vm_page_t pdpg;
4409         vm_pindex_t pdpindex;
4410
4411         PG_V = pmap_valid_bit(pmap);
4412
4413 retry:
4414         pdpe = pmap_pdpe(pmap, va);
4415         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
4416                 pde = pmap_pdpe_to_pde(pdpe, va);
4417                 if (va < VM_MAXUSER_ADDRESS) {
4418                         /* Add a reference to the pd page. */
4419                         pdpg = PHYS_TO_VM_PAGE(*pdpe & PG_FRAME);
4420                         pdpg->ref_count++;
4421                 } else
4422                         pdpg = NULL;
4423         } else if (va < VM_MAXUSER_ADDRESS) {
4424                 /* Allocate a pd page. */
4425                 pdpindex = pmap_pde_pindex(va) >> NPDPEPGSHIFT;
4426                 pdpg = _pmap_allocpte(pmap, NUPDE + pdpindex, lockp, va);
4427                 if (pdpg == NULL) {
4428                         if (lockp != NULL)
4429                                 goto retry;
4430                         else
4431                                 return (NULL);
4432                 }
4433                 pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pdpg));
4434                 pde = &pde[pmap_pde_index(va)];
4435         } else
4436                 panic("pmap_alloc_pde: missing page table page for va %#lx",
4437                     va);
4438         *pdpgp = pdpg;
4439         return (pde);
4440 }
4441
4442 static vm_page_t
4443 pmap_allocpte(pmap_t pmap, vm_offset_t va, struct rwlock **lockp)
4444 {
4445         vm_pindex_t ptepindex;
4446         pd_entry_t *pd, PG_V;
4447         vm_page_t m;
4448
4449         PG_V = pmap_valid_bit(pmap);
4450
4451         /*
4452          * Calculate pagetable page index
4453          */
4454         ptepindex = pmap_pde_pindex(va);
4455 retry:
4456         /*
4457          * Get the page directory entry
4458          */
4459         pd = pmap_pde(pmap, va);
4460
4461         /*
4462          * This supports switching from a 2MB page to a
4463          * normal 4K page.
4464          */
4465         if (pd != NULL && (*pd & (PG_PS | PG_V)) == (PG_PS | PG_V)) {
4466                 if (!pmap_demote_pde_locked(pmap, pd, va, lockp)) {
4467                         /*
4468                          * Invalidation of the 2MB page mapping may have caused
4469                          * the deallocation of the underlying PD page.
4470                          */
4471                         pd = NULL;
4472                 }
4473         }
4474
4475         /*
4476          * If the page table page is mapped, we just increment the
4477          * hold count, and activate it.
4478          */
4479         if (pd != NULL && (*pd & PG_V) != 0) {
4480                 m = PHYS_TO_VM_PAGE(*pd & PG_FRAME);
4481                 m->ref_count++;
4482         } else {
4483                 /*
4484                  * Here if the pte page isn't mapped, or if it has been
4485                  * deallocated.
4486                  */
4487                 m = _pmap_allocpte(pmap, ptepindex, lockp, va);
4488                 if (m == NULL && lockp != NULL)
4489                         goto retry;
4490         }
4491         return (m);
4492 }
4493
4494 /***************************************************
4495  * Pmap allocation/deallocation routines.
4496  ***************************************************/
4497
4498 /*
4499  * Release any resources held by the given physical map.
4500  * Called when a pmap initialized by pmap_pinit is being released.
4501  * Should only be called if the map contains no valid mappings.
4502  */
4503 void
4504 pmap_release(pmap_t pmap)
4505 {
4506         vm_page_t m;
4507         int i;
4508
4509         KASSERT(pmap->pm_stats.resident_count == 0,
4510             ("pmap_release: pmap %p resident count %ld != 0",
4511             pmap, pmap->pm_stats.resident_count));
4512         KASSERT(vm_radix_is_empty(&pmap->pm_root),
4513             ("pmap_release: pmap %p has reserved page table page(s)",
4514             pmap));
4515         KASSERT(CPU_EMPTY(&pmap->pm_active),
4516             ("releasing active pmap %p", pmap));
4517
4518         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pmap->pm_pmltop));
4519
4520         if (pmap_is_la57(pmap)) {
4521                 pmap->pm_pmltop[pmap_pml5e_index(UPT_MAX_ADDRESS)] = 0;
4522                 pmap->pm_pmltop[PML5PML5I] = 0;
4523         } else {
4524                 for (i = 0; i < NKPML4E; i++)   /* KVA */
4525                         pmap->pm_pmltop[KPML4BASE + i] = 0;
4526                 for (i = 0; i < ndmpdpphys; i++)/* Direct Map */
4527                         pmap->pm_pmltop[DMPML4I + i] = 0;
4528                 pmap->pm_pmltop[PML4PML4I] = 0; /* Recursive Mapping */
4529                 for (i = 0; i < lm_ents; i++)   /* Large Map */
4530                         pmap->pm_pmltop[LMSPML4I + i] = 0;
4531         }
4532
4533         vm_page_unwire_noq(m);
4534         vm_page_free_zero(m);
4535
4536         if (pmap->pm_pmltopu != NULL) {
4537                 m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pmap->
4538                     pm_pmltopu));
4539                 vm_page_unwire_noq(m);
4540                 vm_page_free(m);
4541         }
4542         if (pmap->pm_type == PT_X86 &&
4543             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0)
4544                 rangeset_fini(&pmap->pm_pkru);
4545 }
4546
4547 static int
4548 kvm_size(SYSCTL_HANDLER_ARGS)
4549 {
4550         unsigned long ksize = VM_MAX_KERNEL_ADDRESS - VM_MIN_KERNEL_ADDRESS;
4551
4552         return sysctl_handle_long(oidp, &ksize, 0, req);
4553 }
4554 SYSCTL_PROC(_vm, OID_AUTO, kvm_size, CTLTYPE_LONG | CTLFLAG_RD | CTLFLAG_MPSAFE,
4555     0, 0, kvm_size, "LU",
4556     "Size of KVM");
4557
4558 static int
4559 kvm_free(SYSCTL_HANDLER_ARGS)
4560 {
4561         unsigned long kfree = VM_MAX_KERNEL_ADDRESS - kernel_vm_end;
4562
4563         return sysctl_handle_long(oidp, &kfree, 0, req);
4564 }
4565 SYSCTL_PROC(_vm, OID_AUTO, kvm_free, CTLTYPE_LONG | CTLFLAG_RD | CTLFLAG_MPSAFE,
4566     0, 0, kvm_free, "LU",
4567     "Amount of KVM free");
4568
4569 /*
4570  * Allocate physical memory for the vm_page array and map it into KVA,
4571  * attempting to back the vm_pages with domain-local memory.
4572  */
4573 void
4574 pmap_page_array_startup(long pages)
4575 {
4576         pdp_entry_t *pdpe;
4577         pd_entry_t *pde, newpdir;
4578         vm_offset_t va, start, end;
4579         vm_paddr_t pa;
4580         long pfn;
4581         int domain, i;
4582
4583         vm_page_array_size = pages;
4584
4585         start = VM_MIN_KERNEL_ADDRESS;
4586         end = start + pages * sizeof(struct vm_page);
4587         for (va = start; va < end; va += NBPDR) {
4588                 pfn = first_page + (va - start) / sizeof(struct vm_page);
4589                 domain = _vm_phys_domain(ptoa(pfn));
4590                 pdpe = pmap_pdpe(kernel_pmap, va);
4591                 if ((*pdpe & X86_PG_V) == 0) {
4592                         pa = vm_phys_early_alloc(domain, PAGE_SIZE);
4593                         dump_add_page(pa);
4594                         pagezero((void *)PHYS_TO_DMAP(pa));
4595                         *pdpe = (pdp_entry_t)(pa | X86_PG_V | X86_PG_RW |
4596                             X86_PG_A | X86_PG_M);
4597                 }
4598                 pde = pmap_pdpe_to_pde(pdpe, va);
4599                 if ((*pde & X86_PG_V) != 0)
4600                         panic("Unexpected pde");
4601                 pa = vm_phys_early_alloc(domain, NBPDR);
4602                 for (i = 0; i < NPDEPG; i++)
4603                         dump_add_page(pa + i * PAGE_SIZE);
4604                 newpdir = (pd_entry_t)(pa | X86_PG_V | X86_PG_RW | X86_PG_A |
4605                     X86_PG_M | PG_PS | pg_g | pg_nx);
4606                 pde_store(pde, newpdir);
4607         }
4608         vm_page_array = (vm_page_t)start;
4609 }
4610
4611 /*
4612  * grow the number of kernel page table entries, if needed
4613  */
4614 void
4615 pmap_growkernel(vm_offset_t addr)
4616 {
4617         vm_paddr_t paddr;
4618         vm_page_t nkpg;
4619         pd_entry_t *pde, newpdir;
4620         pdp_entry_t *pdpe;
4621
4622         mtx_assert(&kernel_map->system_mtx, MA_OWNED);
4623
4624         /*
4625          * Return if "addr" is within the range of kernel page table pages
4626          * that were preallocated during pmap bootstrap.  Moreover, leave
4627          * "kernel_vm_end" and the kernel page table as they were.
4628          *
4629          * The correctness of this action is based on the following
4630          * argument: vm_map_insert() allocates contiguous ranges of the
4631          * kernel virtual address space.  It calls this function if a range
4632          * ends after "kernel_vm_end".  If the kernel is mapped between
4633          * "kernel_vm_end" and "addr", then the range cannot begin at
4634          * "kernel_vm_end".  In fact, its beginning address cannot be less
4635          * than the kernel.  Thus, there is no immediate need to allocate
4636          * any new kernel page table pages between "kernel_vm_end" and
4637          * "KERNBASE".
4638          */
4639         if (KERNBASE < addr && addr <= KERNBASE + nkpt * NBPDR)
4640                 return;
4641
4642         addr = roundup2(addr, NBPDR);
4643         if (addr - 1 >= vm_map_max(kernel_map))
4644                 addr = vm_map_max(kernel_map);
4645         while (kernel_vm_end < addr) {
4646                 pdpe = pmap_pdpe(kernel_pmap, kernel_vm_end);
4647                 if ((*pdpe & X86_PG_V) == 0) {
4648                         /* We need a new PDP entry */
4649                         nkpg = vm_page_alloc(NULL, kernel_vm_end >> PDPSHIFT,
4650                             VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ |
4651                             VM_ALLOC_WIRED | VM_ALLOC_ZERO);
4652                         if (nkpg == NULL)
4653                                 panic("pmap_growkernel: no memory to grow kernel");
4654                         if ((nkpg->flags & PG_ZERO) == 0)
4655                                 pmap_zero_page(nkpg);
4656                         paddr = VM_PAGE_TO_PHYS(nkpg);
4657                         *pdpe = (pdp_entry_t)(paddr | X86_PG_V | X86_PG_RW |
4658                             X86_PG_A | X86_PG_M);
4659                         continue; /* try again */
4660                 }
4661                 pde = pmap_pdpe_to_pde(pdpe, kernel_vm_end);
4662                 if ((*pde & X86_PG_V) != 0) {
4663                         kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
4664                         if (kernel_vm_end - 1 >= vm_map_max(kernel_map)) {
4665                                 kernel_vm_end = vm_map_max(kernel_map);
4666                                 break;
4667                         }
4668                         continue;
4669                 }
4670
4671                 nkpg = vm_page_alloc(NULL, pmap_pde_pindex(kernel_vm_end),
4672                     VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ | VM_ALLOC_WIRED |
4673                     VM_ALLOC_ZERO);
4674                 if (nkpg == NULL)
4675                         panic("pmap_growkernel: no memory to grow kernel");
4676                 if ((nkpg->flags & PG_ZERO) == 0)
4677                         pmap_zero_page(nkpg);
4678                 paddr = VM_PAGE_TO_PHYS(nkpg);
4679                 newpdir = paddr | X86_PG_V | X86_PG_RW | X86_PG_A | X86_PG_M;
4680                 pde_store(pde, newpdir);
4681
4682                 kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
4683                 if (kernel_vm_end - 1 >= vm_map_max(kernel_map)) {
4684                         kernel_vm_end = vm_map_max(kernel_map);
4685                         break;
4686                 }
4687         }
4688 }
4689
4690 /***************************************************
4691  * page management routines.
4692  ***************************************************/
4693
4694 CTASSERT(sizeof(struct pv_chunk) == PAGE_SIZE);
4695 CTASSERT(_NPCM == 3);
4696 CTASSERT(_NPCPV == 168);
4697
4698 static __inline struct pv_chunk *
4699 pv_to_chunk(pv_entry_t pv)
4700 {
4701
4702         return ((struct pv_chunk *)((uintptr_t)pv & ~(uintptr_t)PAGE_MASK));
4703 }
4704
4705 #define PV_PMAP(pv) (pv_to_chunk(pv)->pc_pmap)
4706
4707 #define PC_FREE0        0xfffffffffffffffful
4708 #define PC_FREE1        0xfffffffffffffffful
4709 #define PC_FREE2        0x000000fffffffffful
4710
4711 static const uint64_t pc_freemask[_NPCM] = { PC_FREE0, PC_FREE1, PC_FREE2 };
4712
4713 #ifdef PV_STATS
4714 static int pc_chunk_count, pc_chunk_allocs, pc_chunk_frees, pc_chunk_tryfail;
4715
4716 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_count, CTLFLAG_RD, &pc_chunk_count, 0,
4717         "Current number of pv entry chunks");
4718 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_allocs, CTLFLAG_RD, &pc_chunk_allocs, 0,
4719         "Current number of pv entry chunks allocated");
4720 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_frees, CTLFLAG_RD, &pc_chunk_frees, 0,
4721         "Current number of pv entry chunks frees");
4722 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_tryfail, CTLFLAG_RD, &pc_chunk_tryfail, 0,
4723         "Number of times tried to get a chunk page but failed.");
4724
4725 static long pv_entry_frees, pv_entry_allocs, pv_entry_count;
4726 static int pv_entry_spare;
4727
4728 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_frees, CTLFLAG_RD, &pv_entry_frees, 0,
4729         "Current number of pv entry frees");
4730 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_allocs, CTLFLAG_RD, &pv_entry_allocs, 0,
4731         "Current number of pv entry allocs");
4732 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_count, CTLFLAG_RD, &pv_entry_count, 0,
4733         "Current number of pv entries");
4734 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_spare, CTLFLAG_RD, &pv_entry_spare, 0,
4735         "Current number of spare pv entries");
4736 #endif
4737
4738 static void
4739 reclaim_pv_chunk_leave_pmap(pmap_t pmap, pmap_t locked_pmap, bool start_di)
4740 {
4741
4742         if (pmap == NULL)
4743                 return;
4744         pmap_invalidate_all(pmap);
4745         if (pmap != locked_pmap)
4746                 PMAP_UNLOCK(pmap);
4747         if (start_di)
4748                 pmap_delayed_invl_finish();
4749 }
4750
4751 /*
4752  * We are in a serious low memory condition.  Resort to
4753  * drastic measures to free some pages so we can allocate
4754  * another pv entry chunk.
4755  *
4756  * Returns NULL if PV entries were reclaimed from the specified pmap.
4757  *
4758  * We do not, however, unmap 2mpages because subsequent accesses will
4759  * allocate per-page pv entries until repromotion occurs, thereby
4760  * exacerbating the shortage of free pv entries.
4761  */
4762 static vm_page_t
4763 reclaim_pv_chunk_domain(pmap_t locked_pmap, struct rwlock **lockp, int domain)
4764 {
4765         struct pv_chunks_list *pvc;
4766         struct pv_chunk *pc, *pc_marker, *pc_marker_end;
4767         struct pv_chunk_header pc_marker_b, pc_marker_end_b;
4768         struct md_page *pvh;
4769         pd_entry_t *pde;
4770         pmap_t next_pmap, pmap;
4771         pt_entry_t *pte, tpte;
4772         pt_entry_t PG_G, PG_A, PG_M, PG_RW;
4773         pv_entry_t pv;
4774         vm_offset_t va;
4775         vm_page_t m, m_pc;
4776         struct spglist free;
4777         uint64_t inuse;
4778         int bit, field, freed;
4779         bool start_di, restart;
4780
4781         PMAP_LOCK_ASSERT(locked_pmap, MA_OWNED);
4782         KASSERT(lockp != NULL, ("reclaim_pv_chunk: lockp is NULL"));
4783         pmap = NULL;
4784         m_pc = NULL;
4785         PG_G = PG_A = PG_M = PG_RW = 0;
4786         SLIST_INIT(&free);
4787         bzero(&pc_marker_b, sizeof(pc_marker_b));
4788         bzero(&pc_marker_end_b, sizeof(pc_marker_end_b));
4789         pc_marker = (struct pv_chunk *)&pc_marker_b;
4790         pc_marker_end = (struct pv_chunk *)&pc_marker_end_b;
4791
4792         /*
4793          * A delayed invalidation block should already be active if
4794          * pmap_advise() or pmap_remove() called this function by way
4795          * of pmap_demote_pde_locked().
4796          */
4797         start_di = pmap_not_in_di();
4798
4799         pvc = &pv_chunks[domain];
4800         mtx_lock(&pvc->pvc_lock);
4801         pvc->active_reclaims++;
4802         TAILQ_INSERT_HEAD(&pvc->pvc_list, pc_marker, pc_lru);
4803         TAILQ_INSERT_TAIL(&pvc->pvc_list, pc_marker_end, pc_lru);
4804         while ((pc = TAILQ_NEXT(pc_marker, pc_lru)) != pc_marker_end &&
4805             SLIST_EMPTY(&free)) {
4806                 next_pmap = pc->pc_pmap;
4807                 if (next_pmap == NULL) {
4808                         /*
4809                          * The next chunk is a marker.  However, it is
4810                          * not our marker, so active_reclaims must be
4811                          * > 1.  Consequently, the next_chunk code
4812                          * will not rotate the pv_chunks list.
4813                          */
4814                         goto next_chunk;
4815                 }
4816                 mtx_unlock(&pvc->pvc_lock);
4817
4818                 /*
4819                  * A pv_chunk can only be removed from the pc_lru list
4820                  * when both pc_chunks_mutex is owned and the
4821                  * corresponding pmap is locked.
4822                  */
4823                 if (pmap != next_pmap) {
4824                         restart = false;
4825                         reclaim_pv_chunk_leave_pmap(pmap, locked_pmap,
4826                             start_di);
4827                         pmap = next_pmap;
4828                         /* Avoid deadlock and lock recursion. */
4829                         if (pmap > locked_pmap) {
4830                                 RELEASE_PV_LIST_LOCK(lockp);
4831                                 PMAP_LOCK(pmap);
4832                                 if (start_di)
4833                                         pmap_delayed_invl_start();
4834                                 mtx_lock(&pvc->pvc_lock);
4835                                 restart = true;
4836                         } else if (pmap != locked_pmap) {
4837                                 if (PMAP_TRYLOCK(pmap)) {
4838                                         if (start_di)
4839                                                 pmap_delayed_invl_start();
4840                                         mtx_lock(&pvc->pvc_lock);
4841                                         restart = true;
4842                                 } else {
4843                                         pmap = NULL; /* pmap is not locked */
4844                                         mtx_lock(&pvc->pvc_lock);
4845                                         pc = TAILQ_NEXT(pc_marker, pc_lru);
4846                                         if (pc == NULL ||
4847                                             pc->pc_pmap != next_pmap)
4848                                                 continue;
4849                                         goto next_chunk;
4850                                 }
4851                         } else if (start_di)
4852                                 pmap_delayed_invl_start();
4853                         PG_G = pmap_global_bit(pmap);
4854                         PG_A = pmap_accessed_bit(pmap);
4855                         PG_M = pmap_modified_bit(pmap);
4856                         PG_RW = pmap_rw_bit(pmap);
4857                         if (restart)
4858                                 continue;
4859                 }
4860
4861                 /*
4862                  * Destroy every non-wired, 4 KB page mapping in the chunk.
4863                  */
4864                 freed = 0;
4865                 for (field = 0; field < _NPCM; field++) {
4866                         for (inuse = ~pc->pc_map[field] & pc_freemask[field];
4867                             inuse != 0; inuse &= ~(1UL << bit)) {
4868                                 bit = bsfq(inuse);
4869                                 pv = &pc->pc_pventry[field * 64 + bit];
4870                                 va = pv->pv_va;
4871                                 pde = pmap_pde(pmap, va);
4872                                 if ((*pde & PG_PS) != 0)
4873                                         continue;
4874                                 pte = pmap_pde_to_pte(pde, va);
4875                                 if ((*pte & PG_W) != 0)
4876                                         continue;
4877                                 tpte = pte_load_clear(pte);
4878                                 if ((tpte & PG_G) != 0)
4879                                         pmap_invalidate_page(pmap, va);
4880                                 m = PHYS_TO_VM_PAGE(tpte & PG_FRAME);
4881                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
4882                                         vm_page_dirty(m);
4883                                 if ((tpte & PG_A) != 0)
4884                                         vm_page_aflag_set(m, PGA_REFERENCED);
4885                                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
4886                                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
4887                                 m->md.pv_gen++;
4888                                 if (TAILQ_EMPTY(&m->md.pv_list) &&
4889                                     (m->flags & PG_FICTITIOUS) == 0) {
4890                                         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4891                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
4892                                                 vm_page_aflag_clear(m,
4893                                                     PGA_WRITEABLE);
4894                                         }
4895                                 }
4896                                 pmap_delayed_invl_page(m);
4897                                 pc->pc_map[field] |= 1UL << bit;
4898                                 pmap_unuse_pt(pmap, va, *pde, &free);
4899                                 freed++;
4900                         }
4901                 }
4902                 if (freed == 0) {
4903                         mtx_lock(&pvc->pvc_lock);
4904                         goto next_chunk;
4905                 }
4906                 /* Every freed mapping is for a 4 KB page. */
4907                 pmap_resident_count_dec(pmap, freed);
4908                 PV_STAT(atomic_add_long(&pv_entry_frees, freed));
4909                 PV_STAT(atomic_add_int(&pv_entry_spare, freed));
4910                 PV_STAT(atomic_subtract_long(&pv_entry_count, freed));
4911                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
4912                 if (pc->pc_map[0] == PC_FREE0 && pc->pc_map[1] == PC_FREE1 &&
4913                     pc->pc_map[2] == PC_FREE2) {
4914                         PV_STAT(atomic_subtract_int(&pv_entry_spare, _NPCPV));
4915                         PV_STAT(atomic_subtract_int(&pc_chunk_count, 1));
4916                         PV_STAT(atomic_add_int(&pc_chunk_frees, 1));
4917                         /* Entire chunk is free; return it. */
4918                         m_pc = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
4919                         dump_drop_page(m_pc->phys_addr);
4920                         mtx_lock(&pvc->pvc_lock);
4921                         TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
4922                         break;
4923                 }
4924                 TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
4925                 mtx_lock(&pvc->pvc_lock);
4926                 /* One freed pv entry in locked_pmap is sufficient. */
4927                 if (pmap == locked_pmap)
4928                         break;
4929 next_chunk:
4930                 TAILQ_REMOVE(&pvc->pvc_list, pc_marker, pc_lru);
4931                 TAILQ_INSERT_AFTER(&pvc->pvc_list, pc, pc_marker, pc_lru);
4932                 if (pvc->active_reclaims == 1 && pmap != NULL) {
4933                         /*
4934                          * Rotate the pv chunks list so that we do not
4935                          * scan the same pv chunks that could not be
4936                          * freed (because they contained a wired
4937                          * and/or superpage mapping) on every
4938                          * invocation of reclaim_pv_chunk().
4939                          */
4940                         while ((pc = TAILQ_FIRST(&pvc->pvc_list)) != pc_marker) {
4941                                 MPASS(pc->pc_pmap != NULL);
4942                                 TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
4943                                 TAILQ_INSERT_TAIL(&pvc->pvc_list, pc, pc_lru);
4944                         }
4945                 }
4946         }
4947         TAILQ_REMOVE(&pvc->pvc_list, pc_marker, pc_lru);
4948         TAILQ_REMOVE(&pvc->pvc_list, pc_marker_end, pc_lru);
4949         pvc->active_reclaims--;
4950         mtx_unlock(&pvc->pvc_lock);
4951         reclaim_pv_chunk_leave_pmap(pmap, locked_pmap, start_di);
4952         if (m_pc == NULL && !SLIST_EMPTY(&free)) {
4953                 m_pc = SLIST_FIRST(&free);
4954                 SLIST_REMOVE_HEAD(&free, plinks.s.ss);
4955                 /* Recycle a freed page table page. */
4956                 m_pc->ref_count = 1;
4957         }
4958         vm_page_free_pages_toq(&free, true);
4959         return (m_pc);
4960 }
4961
4962 static vm_page_t
4963 reclaim_pv_chunk(pmap_t locked_pmap, struct rwlock **lockp)
4964 {
4965         vm_page_t m;
4966         int i, domain;
4967
4968         domain = PCPU_GET(domain);
4969         for (i = 0; i < vm_ndomains; i++) {
4970                 m = reclaim_pv_chunk_domain(locked_pmap, lockp, domain);
4971                 if (m != NULL)
4972                         break;
4973                 domain = (domain + 1) % vm_ndomains;
4974         }
4975
4976         return (m);
4977 }
4978
4979 /*
4980  * free the pv_entry back to the free list
4981  */
4982 static void
4983 free_pv_entry(pmap_t pmap, pv_entry_t pv)
4984 {
4985         struct pv_chunk *pc;
4986         int idx, field, bit;
4987
4988         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
4989         PV_STAT(atomic_add_long(&pv_entry_frees, 1));
4990         PV_STAT(atomic_add_int(&pv_entry_spare, 1));
4991         PV_STAT(atomic_subtract_long(&pv_entry_count, 1));
4992         pc = pv_to_chunk(pv);
4993         idx = pv - &pc->pc_pventry[0];
4994         field = idx / 64;
4995         bit = idx % 64;
4996         pc->pc_map[field] |= 1ul << bit;
4997         if (pc->pc_map[0] != PC_FREE0 || pc->pc_map[1] != PC_FREE1 ||
4998             pc->pc_map[2] != PC_FREE2) {
4999                 /* 98% of the time, pc is already at the head of the list. */
5000                 if (__predict_false(pc != TAILQ_FIRST(&pmap->pm_pvchunk))) {
5001                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5002                         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
5003                 }
5004                 return;
5005         }
5006         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5007         free_pv_chunk(pc);
5008 }
5009
5010 static void
5011 free_pv_chunk_dequeued(struct pv_chunk *pc)
5012 {
5013         vm_page_t m;
5014
5015         PV_STAT(atomic_subtract_int(&pv_entry_spare, _NPCPV));
5016         PV_STAT(atomic_subtract_int(&pc_chunk_count, 1));
5017         PV_STAT(atomic_add_int(&pc_chunk_frees, 1));
5018         /* entire chunk is free, return it */
5019         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
5020         dump_drop_page(m->phys_addr);
5021         vm_page_unwire_noq(m);
5022         vm_page_free(m);
5023 }
5024
5025 static void
5026 free_pv_chunk(struct pv_chunk *pc)
5027 {
5028         struct pv_chunks_list *pvc;
5029
5030         pvc = &pv_chunks[pc_to_domain(pc)];
5031         mtx_lock(&pvc->pvc_lock);
5032         TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
5033         mtx_unlock(&pvc->pvc_lock);
5034         free_pv_chunk_dequeued(pc);
5035 }
5036
5037 static void
5038 free_pv_chunk_batch(struct pv_chunklist *batch)
5039 {
5040         struct pv_chunks_list *pvc;
5041         struct pv_chunk *pc, *npc;
5042         int i;
5043
5044         for (i = 0; i < vm_ndomains; i++) {
5045                 if (TAILQ_EMPTY(&batch[i]))
5046                         continue;
5047                 pvc = &pv_chunks[i];
5048                 mtx_lock(&pvc->pvc_lock);
5049                 TAILQ_FOREACH(pc, &batch[i], pc_list) {
5050                         TAILQ_REMOVE(&pvc->pvc_list, pc, pc_lru);
5051                 }
5052                 mtx_unlock(&pvc->pvc_lock);
5053         }
5054
5055         for (i = 0; i < vm_ndomains; i++) {
5056                 TAILQ_FOREACH_SAFE(pc, &batch[i], pc_list, npc) {
5057                         free_pv_chunk_dequeued(pc);
5058                 }
5059         }
5060 }
5061
5062 /*
5063  * Returns a new PV entry, allocating a new PV chunk from the system when
5064  * needed.  If this PV chunk allocation fails and a PV list lock pointer was
5065  * given, a PV chunk is reclaimed from an arbitrary pmap.  Otherwise, NULL is
5066  * returned.
5067  *
5068  * The given PV list lock may be released.
5069  */
5070 static pv_entry_t
5071 get_pv_entry(pmap_t pmap, struct rwlock **lockp)
5072 {
5073         struct pv_chunks_list *pvc;
5074         int bit, field;
5075         pv_entry_t pv;
5076         struct pv_chunk *pc;
5077         vm_page_t m;
5078
5079         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5080         PV_STAT(atomic_add_long(&pv_entry_allocs, 1));
5081 retry:
5082         pc = TAILQ_FIRST(&pmap->pm_pvchunk);
5083         if (pc != NULL) {
5084                 for (field = 0; field < _NPCM; field++) {
5085                         if (pc->pc_map[field]) {
5086                                 bit = bsfq(pc->pc_map[field]);
5087                                 break;
5088                         }
5089                 }
5090                 if (field < _NPCM) {
5091                         pv = &pc->pc_pventry[field * 64 + bit];
5092                         pc->pc_map[field] &= ~(1ul << bit);
5093                         /* If this was the last item, move it to tail */
5094                         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 &&
5095                             pc->pc_map[2] == 0) {
5096                                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5097                                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc,
5098                                     pc_list);
5099                         }
5100                         PV_STAT(atomic_add_long(&pv_entry_count, 1));
5101                         PV_STAT(atomic_subtract_int(&pv_entry_spare, 1));
5102                         return (pv);
5103                 }
5104         }
5105         /* No free items, allocate another chunk */
5106         m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
5107             VM_ALLOC_WIRED);
5108         if (m == NULL) {
5109                 if (lockp == NULL) {
5110                         PV_STAT(pc_chunk_tryfail++);
5111                         return (NULL);
5112                 }
5113                 m = reclaim_pv_chunk(pmap, lockp);
5114                 if (m == NULL)
5115                         goto retry;
5116         }
5117         PV_STAT(atomic_add_int(&pc_chunk_count, 1));
5118         PV_STAT(atomic_add_int(&pc_chunk_allocs, 1));
5119         dump_add_page(m->phys_addr);
5120         pc = (void *)PHYS_TO_DMAP(m->phys_addr);
5121         pc->pc_pmap = pmap;
5122         pc->pc_map[0] = PC_FREE0 & ~1ul;        /* preallocated bit 0 */
5123         pc->pc_map[1] = PC_FREE1;
5124         pc->pc_map[2] = PC_FREE2;
5125         pvc = &pv_chunks[_vm_phys_domain(m->phys_addr)];
5126         mtx_lock(&pvc->pvc_lock);
5127         TAILQ_INSERT_TAIL(&pvc->pvc_list, pc, pc_lru);
5128         mtx_unlock(&pvc->pvc_lock);
5129         pv = &pc->pc_pventry[0];
5130         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
5131         PV_STAT(atomic_add_long(&pv_entry_count, 1));
5132         PV_STAT(atomic_add_int(&pv_entry_spare, _NPCPV - 1));
5133         return (pv);
5134 }
5135
5136 /*
5137  * Returns the number of one bits within the given PV chunk map.
5138  *
5139  * The erratas for Intel processors state that "POPCNT Instruction May
5140  * Take Longer to Execute Than Expected".  It is believed that the
5141  * issue is the spurious dependency on the destination register.
5142  * Provide a hint to the register rename logic that the destination
5143  * value is overwritten, by clearing it, as suggested in the
5144  * optimization manual.  It should be cheap for unaffected processors
5145  * as well.
5146  *
5147  * Reference numbers for erratas are
5148  * 4th Gen Core: HSD146
5149  * 5th Gen Core: BDM85
5150  * 6th Gen Core: SKL029
5151  */
5152 static int
5153 popcnt_pc_map_pq(uint64_t *map)
5154 {
5155         u_long result, tmp;
5156
5157         __asm __volatile("xorl %k0,%k0;popcntq %2,%0;"
5158             "xorl %k1,%k1;popcntq %3,%1;addl %k1,%k0;"
5159             "xorl %k1,%k1;popcntq %4,%1;addl %k1,%k0"
5160             : "=&r" (result), "=&r" (tmp)
5161             : "m" (map[0]), "m" (map[1]), "m" (map[2]));
5162         return (result);
5163 }
5164
5165 /*
5166  * Ensure that the number of spare PV entries in the specified pmap meets or
5167  * exceeds the given count, "needed".
5168  *
5169  * The given PV list lock may be released.
5170  */
5171 static void
5172 reserve_pv_entries(pmap_t pmap, int needed, struct rwlock **lockp)
5173 {
5174         struct pv_chunks_list *pvc;
5175         struct pch new_tail[PMAP_MEMDOM];
5176         struct pv_chunk *pc;
5177         vm_page_t m;
5178         int avail, free, i;
5179         bool reclaimed;
5180
5181         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5182         KASSERT(lockp != NULL, ("reserve_pv_entries: lockp is NULL"));
5183
5184         /*
5185          * Newly allocated PV chunks must be stored in a private list until
5186          * the required number of PV chunks have been allocated.  Otherwise,
5187          * reclaim_pv_chunk() could recycle one of these chunks.  In
5188          * contrast, these chunks must be added to the pmap upon allocation.
5189          */
5190         for (i = 0; i < PMAP_MEMDOM; i++)
5191                 TAILQ_INIT(&new_tail[i]);
5192 retry:
5193         avail = 0;
5194         TAILQ_FOREACH(pc, &pmap->pm_pvchunk, pc_list) {
5195 #ifndef __POPCNT__
5196                 if ((cpu_feature2 & CPUID2_POPCNT) == 0)
5197                         bit_count((bitstr_t *)pc->pc_map, 0,
5198                             sizeof(pc->pc_map) * NBBY, &free);
5199                 else
5200 #endif
5201                 free = popcnt_pc_map_pq(pc->pc_map);
5202                 if (free == 0)
5203                         break;
5204                 avail += free;
5205                 if (avail >= needed)
5206                         break;
5207         }
5208         for (reclaimed = false; avail < needed; avail += _NPCPV) {
5209                 m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
5210                     VM_ALLOC_WIRED);
5211                 if (m == NULL) {
5212                         m = reclaim_pv_chunk(pmap, lockp);
5213                         if (m == NULL)
5214                                 goto retry;
5215                         reclaimed = true;
5216                 }
5217                 PV_STAT(atomic_add_int(&pc_chunk_count, 1));
5218                 PV_STAT(atomic_add_int(&pc_chunk_allocs, 1));
5219                 dump_add_page(m->phys_addr);
5220                 pc = (void *)PHYS_TO_DMAP(m->phys_addr);
5221                 pc->pc_pmap = pmap;
5222                 pc->pc_map[0] = PC_FREE0;
5223                 pc->pc_map[1] = PC_FREE1;
5224                 pc->pc_map[2] = PC_FREE2;
5225                 TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
5226                 TAILQ_INSERT_TAIL(&new_tail[pc_to_domain(pc)], pc, pc_lru);
5227                 PV_STAT(atomic_add_int(&pv_entry_spare, _NPCPV));
5228
5229                 /*
5230                  * The reclaim might have freed a chunk from the current pmap.
5231                  * If that chunk contained available entries, we need to
5232                  * re-count the number of available entries.
5233                  */
5234                 if (reclaimed)
5235                         goto retry;
5236         }
5237         for (i = 0; i < vm_ndomains; i++) {
5238                 if (TAILQ_EMPTY(&new_tail[i]))
5239                         continue;
5240                 pvc = &pv_chunks[i];
5241                 mtx_lock(&pvc->pvc_lock);
5242                 TAILQ_CONCAT(&pvc->pvc_list, &new_tail[i], pc_lru);
5243                 mtx_unlock(&pvc->pvc_lock);
5244         }
5245 }
5246
5247 /*
5248  * First find and then remove the pv entry for the specified pmap and virtual
5249  * address from the specified pv list.  Returns the pv entry if found and NULL
5250  * otherwise.  This operation can be performed on pv lists for either 4KB or
5251  * 2MB page mappings.
5252  */
5253 static __inline pv_entry_t
5254 pmap_pvh_remove(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
5255 {
5256         pv_entry_t pv;
5257
5258         TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
5259                 if (pmap == PV_PMAP(pv) && va == pv->pv_va) {
5260                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
5261                         pvh->pv_gen++;
5262                         break;
5263                 }
5264         }
5265         return (pv);
5266 }
5267
5268 /*
5269  * After demotion from a 2MB page mapping to 512 4KB page mappings,
5270  * destroy the pv entry for the 2MB page mapping and reinstantiate the pv
5271  * entries for each of the 4KB page mappings.
5272  */
5273 static void
5274 pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
5275     struct rwlock **lockp)
5276 {
5277         struct md_page *pvh;
5278         struct pv_chunk *pc;
5279         pv_entry_t pv;
5280         vm_offset_t va_last;
5281         vm_page_t m;
5282         int bit, field;
5283
5284         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5285         KASSERT((pa & PDRMASK) == 0,
5286             ("pmap_pv_demote_pde: pa is not 2mpage aligned"));
5287         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
5288
5289         /*
5290          * Transfer the 2mpage's pv entry for this mapping to the first
5291          * page's pv list.  Once this transfer begins, the pv list lock
5292          * must not be released until the last pv entry is reinstantiated.
5293          */
5294         pvh = pa_to_pvh(pa);
5295         va = trunc_2mpage(va);
5296         pv = pmap_pvh_remove(pvh, pmap, va);
5297         KASSERT(pv != NULL, ("pmap_pv_demote_pde: pv not found"));
5298         m = PHYS_TO_VM_PAGE(pa);
5299         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5300         m->md.pv_gen++;
5301         /* Instantiate the remaining NPTEPG - 1 pv entries. */
5302         PV_STAT(atomic_add_long(&pv_entry_allocs, NPTEPG - 1));
5303         va_last = va + NBPDR - PAGE_SIZE;
5304         for (;;) {
5305                 pc = TAILQ_FIRST(&pmap->pm_pvchunk);
5306                 KASSERT(pc->pc_map[0] != 0 || pc->pc_map[1] != 0 ||
5307                     pc->pc_map[2] != 0, ("pmap_pv_demote_pde: missing spare"));
5308                 for (field = 0; field < _NPCM; field++) {
5309                         while (pc->pc_map[field]) {
5310                                 bit = bsfq(pc->pc_map[field]);
5311                                 pc->pc_map[field] &= ~(1ul << bit);
5312                                 pv = &pc->pc_pventry[field * 64 + bit];
5313                                 va += PAGE_SIZE;
5314                                 pv->pv_va = va;
5315                                 m++;
5316                                 KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5317                             ("pmap_pv_demote_pde: page %p is not managed", m));
5318                                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5319                                 m->md.pv_gen++;
5320                                 if (va == va_last)
5321                                         goto out;
5322                         }
5323                 }
5324                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5325                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
5326         }
5327 out:
5328         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 && pc->pc_map[2] == 0) {
5329                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5330                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
5331         }
5332         PV_STAT(atomic_add_long(&pv_entry_count, NPTEPG - 1));
5333         PV_STAT(atomic_subtract_int(&pv_entry_spare, NPTEPG - 1));
5334 }
5335
5336 #if VM_NRESERVLEVEL > 0
5337 /*
5338  * After promotion from 512 4KB page mappings to a single 2MB page mapping,
5339  * replace the many pv entries for the 4KB page mappings by a single pv entry
5340  * for the 2MB page mapping.
5341  */
5342 static void
5343 pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
5344     struct rwlock **lockp)
5345 {
5346         struct md_page *pvh;
5347         pv_entry_t pv;
5348         vm_offset_t va_last;
5349         vm_page_t m;
5350
5351         KASSERT((pa & PDRMASK) == 0,
5352             ("pmap_pv_promote_pde: pa is not 2mpage aligned"));
5353         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
5354
5355         /*
5356          * Transfer the first page's pv entry for this mapping to the 2mpage's
5357          * pv list.  Aside from avoiding the cost of a call to get_pv_entry(),
5358          * a transfer avoids the possibility that get_pv_entry() calls
5359          * reclaim_pv_chunk() and that reclaim_pv_chunk() removes one of the
5360          * mappings that is being promoted.
5361          */
5362         m = PHYS_TO_VM_PAGE(pa);
5363         va = trunc_2mpage(va);
5364         pv = pmap_pvh_remove(&m->md, pmap, va);
5365         KASSERT(pv != NULL, ("pmap_pv_promote_pde: pv not found"));
5366         pvh = pa_to_pvh(pa);
5367         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
5368         pvh->pv_gen++;
5369         /* Free the remaining NPTEPG - 1 pv entries. */
5370         va_last = va + NBPDR - PAGE_SIZE;
5371         do {
5372                 m++;
5373                 va += PAGE_SIZE;
5374                 pmap_pvh_free(&m->md, pmap, va);
5375         } while (va < va_last);
5376 }
5377 #endif /* VM_NRESERVLEVEL > 0 */
5378
5379 /*
5380  * First find and then destroy the pv entry for the specified pmap and virtual
5381  * address.  This operation can be performed on pv lists for either 4KB or 2MB
5382  * page mappings.
5383  */
5384 static void
5385 pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
5386 {
5387         pv_entry_t pv;
5388
5389         pv = pmap_pvh_remove(pvh, pmap, va);
5390         KASSERT(pv != NULL, ("pmap_pvh_free: pv not found"));
5391         free_pv_entry(pmap, pv);
5392 }
5393
5394 /*
5395  * Conditionally create the PV entry for a 4KB page mapping if the required
5396  * memory can be allocated without resorting to reclamation.
5397  */
5398 static boolean_t
5399 pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va, vm_page_t m,
5400     struct rwlock **lockp)
5401 {
5402         pv_entry_t pv;
5403
5404         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5405         /* Pass NULL instead of the lock pointer to disable reclamation. */
5406         if ((pv = get_pv_entry(pmap, NULL)) != NULL) {
5407                 pv->pv_va = va;
5408                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
5409                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5410                 m->md.pv_gen++;
5411                 return (TRUE);
5412         } else
5413                 return (FALSE);
5414 }
5415
5416 /*
5417  * Create the PV entry for a 2MB page mapping.  Always returns true unless the
5418  * flag PMAP_ENTER_NORECLAIM is specified.  If that flag is specified, returns
5419  * false if the PV entry cannot be allocated without resorting to reclamation.
5420  */
5421 static bool
5422 pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, pd_entry_t pde, u_int flags,
5423     struct rwlock **lockp)
5424 {
5425         struct md_page *pvh;
5426         pv_entry_t pv;
5427         vm_paddr_t pa;
5428
5429         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5430         /* Pass NULL instead of the lock pointer to disable reclamation. */
5431         if ((pv = get_pv_entry(pmap, (flags & PMAP_ENTER_NORECLAIM) != 0 ?
5432             NULL : lockp)) == NULL)
5433                 return (false);
5434         pv->pv_va = va;
5435         pa = pde & PG_PS_FRAME;
5436         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
5437         pvh = pa_to_pvh(pa);
5438         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
5439         pvh->pv_gen++;
5440         return (true);
5441 }
5442
5443 /*
5444  * Fills a page table page with mappings to consecutive physical pages.
5445  */
5446 static void
5447 pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte)
5448 {
5449         pt_entry_t *pte;
5450
5451         for (pte = firstpte; pte < firstpte + NPTEPG; pte++) {
5452                 *pte = newpte;
5453                 newpte += PAGE_SIZE;
5454         }
5455 }
5456
5457 /*
5458  * Tries to demote a 2MB page mapping.  If demotion fails, the 2MB page
5459  * mapping is invalidated.
5460  */
5461 static boolean_t
5462 pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
5463 {
5464         struct rwlock *lock;
5465         boolean_t rv;
5466
5467         lock = NULL;
5468         rv = pmap_demote_pde_locked(pmap, pde, va, &lock);
5469         if (lock != NULL)
5470                 rw_wunlock(lock);
5471         return (rv);
5472 }
5473
5474 static void
5475 pmap_demote_pde_check(pt_entry_t *firstpte __unused, pt_entry_t newpte __unused)
5476 {
5477 #ifdef INVARIANTS
5478 #ifdef DIAGNOSTIC
5479         pt_entry_t *xpte, *ypte;
5480
5481         for (xpte = firstpte; xpte < firstpte + NPTEPG;
5482             xpte++, newpte += PAGE_SIZE) {
5483                 if ((*xpte & PG_FRAME) != (newpte & PG_FRAME)) {
5484                         printf("pmap_demote_pde: xpte %zd and newpte map "
5485                             "different pages: found %#lx, expected %#lx\n",
5486                             xpte - firstpte, *xpte, newpte);
5487                         printf("page table dump\n");
5488                         for (ypte = firstpte; ypte < firstpte + NPTEPG; ypte++)
5489                                 printf("%zd %#lx\n", ypte - firstpte, *ypte);
5490                         panic("firstpte");
5491                 }
5492         }
5493 #else
5494         KASSERT((*firstpte & PG_FRAME) == (newpte & PG_FRAME),
5495             ("pmap_demote_pde: firstpte and newpte map different physical"
5496             " addresses"));
5497 #endif
5498 #endif
5499 }
5500
5501 static void
5502 pmap_demote_pde_abort(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
5503     pd_entry_t oldpde, struct rwlock **lockp)
5504 {
5505         struct spglist free;
5506         vm_offset_t sva;
5507
5508         SLIST_INIT(&free);
5509         sva = trunc_2mpage(va);
5510         pmap_remove_pde(pmap, pde, sva, &free, lockp);
5511         if ((oldpde & pmap_global_bit(pmap)) == 0)
5512                 pmap_invalidate_pde_page(pmap, sva, oldpde);
5513         vm_page_free_pages_toq(&free, true);
5514         CTR2(KTR_PMAP, "pmap_demote_pde: failure for va %#lx in pmap %p",
5515             va, pmap);
5516 }
5517
5518 static boolean_t
5519 pmap_demote_pde_locked(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
5520     struct rwlock **lockp)
5521 {
5522         pd_entry_t newpde, oldpde;
5523         pt_entry_t *firstpte, newpte;
5524         pt_entry_t PG_A, PG_G, PG_M, PG_PKU_MASK, PG_RW, PG_V;
5525         vm_paddr_t mptepa;
5526         vm_page_t mpte;
5527         int PG_PTE_CACHE;
5528         bool in_kernel;
5529
5530         PG_A = pmap_accessed_bit(pmap);
5531         PG_G = pmap_global_bit(pmap);
5532         PG_M = pmap_modified_bit(pmap);
5533         PG_RW = pmap_rw_bit(pmap);
5534         PG_V = pmap_valid_bit(pmap);
5535         PG_PTE_CACHE = pmap_cache_mask(pmap, 0);
5536         PG_PKU_MASK = pmap_pku_mask_bit(pmap);
5537
5538         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5539         in_kernel = va >= VM_MAXUSER_ADDRESS;
5540         oldpde = *pde;
5541         KASSERT((oldpde & (PG_PS | PG_V)) == (PG_PS | PG_V),
5542             ("pmap_demote_pde: oldpde is missing PG_PS and/or PG_V"));
5543
5544         /*
5545          * Invalidate the 2MB page mapping and return "failure" if the
5546          * mapping was never accessed.
5547          */
5548         if ((oldpde & PG_A) == 0) {
5549                 KASSERT((oldpde & PG_W) == 0,
5550                     ("pmap_demote_pde: a wired mapping is missing PG_A"));
5551                 pmap_demote_pde_abort(pmap, va, pde, oldpde, lockp);
5552                 return (FALSE);
5553         }
5554
5555         mpte = pmap_remove_pt_page(pmap, va);
5556         if (mpte == NULL) {
5557                 KASSERT((oldpde & PG_W) == 0,
5558                     ("pmap_demote_pde: page table page for a wired mapping"
5559                     " is missing"));
5560
5561                 /*
5562                  * If the page table page is missing and the mapping
5563                  * is for a kernel address, the mapping must belong to
5564                  * the direct map.  Page table pages are preallocated
5565                  * for every other part of the kernel address space,
5566                  * so the direct map region is the only part of the
5567                  * kernel address space that must be handled here.
5568                  */
5569                 KASSERT(!in_kernel || (va >= DMAP_MIN_ADDRESS &&
5570                     va < DMAP_MAX_ADDRESS),
5571                     ("pmap_demote_pde: No saved mpte for va %#lx", va));
5572
5573                 /*
5574                  * If the 2MB page mapping belongs to the direct map
5575                  * region of the kernel's address space, then the page
5576                  * allocation request specifies the highest possible
5577                  * priority (VM_ALLOC_INTERRUPT).  Otherwise, the
5578                  * priority is normal.
5579                  */
5580                 mpte = vm_page_alloc(NULL, pmap_pde_pindex(va),
5581                     (in_kernel ? VM_ALLOC_INTERRUPT : VM_ALLOC_NORMAL) |
5582                     VM_ALLOC_NOOBJ | VM_ALLOC_WIRED);
5583
5584                 /*
5585                  * If the allocation of the new page table page fails,
5586                  * invalidate the 2MB page mapping and return "failure".
5587                  */
5588                 if (mpte == NULL) {
5589                         pmap_demote_pde_abort(pmap, va, pde, oldpde, lockp);
5590                         return (FALSE);
5591                 }
5592
5593                 if (!in_kernel) {
5594                         mpte->ref_count = NPTEPG;
5595                         pmap_resident_count_inc(pmap, 1);
5596                 }
5597         }
5598         mptepa = VM_PAGE_TO_PHYS(mpte);
5599         firstpte = (pt_entry_t *)PHYS_TO_DMAP(mptepa);
5600         newpde = mptepa | PG_M | PG_A | (oldpde & PG_U) | PG_RW | PG_V;
5601         KASSERT((oldpde & (PG_M | PG_RW)) != PG_RW,
5602             ("pmap_demote_pde: oldpde is missing PG_M"));
5603         newpte = oldpde & ~PG_PS;
5604         newpte = pmap_swap_pat(pmap, newpte);
5605
5606         /*
5607          * If the page table page is not leftover from an earlier promotion,
5608          * initialize it.
5609          */
5610         if (mpte->valid == 0)
5611                 pmap_fill_ptp(firstpte, newpte);
5612
5613         pmap_demote_pde_check(firstpte, newpte);
5614
5615         /*
5616          * If the mapping has changed attributes, update the page table
5617          * entries.
5618          */
5619         if ((*firstpte & PG_PTE_PROMOTE) != (newpte & PG_PTE_PROMOTE))
5620                 pmap_fill_ptp(firstpte, newpte);
5621
5622         /*
5623          * The spare PV entries must be reserved prior to demoting the
5624          * mapping, that is, prior to changing the PDE.  Otherwise, the state
5625          * of the PDE and the PV lists will be inconsistent, which can result
5626          * in reclaim_pv_chunk() attempting to remove a PV entry from the
5627          * wrong PV list and pmap_pv_demote_pde() failing to find the expected
5628          * PV entry for the 2MB page mapping that is being demoted.
5629          */
5630         if ((oldpde & PG_MANAGED) != 0)
5631                 reserve_pv_entries(pmap, NPTEPG - 1, lockp);
5632
5633         /*
5634          * Demote the mapping.  This pmap is locked.  The old PDE has
5635          * PG_A set.  If the old PDE has PG_RW set, it also has PG_M
5636          * set.  Thus, there is no danger of a race with another
5637          * processor changing the setting of PG_A and/or PG_M between
5638          * the read above and the store below.
5639          */
5640         if (workaround_erratum383)
5641                 pmap_update_pde(pmap, va, pde, newpde);
5642         else
5643                 pde_store(pde, newpde);
5644
5645         /*
5646          * Invalidate a stale recursive mapping of the page table page.
5647          */
5648         if (in_kernel)
5649                 pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
5650
5651         /*
5652          * Demote the PV entry.
5653          */
5654         if ((oldpde & PG_MANAGED) != 0)
5655                 pmap_pv_demote_pde(pmap, va, oldpde & PG_PS_FRAME, lockp);
5656
5657         atomic_add_long(&pmap_pde_demotions, 1);
5658         CTR2(KTR_PMAP, "pmap_demote_pde: success for va %#lx in pmap %p",
5659             va, pmap);
5660         return (TRUE);
5661 }
5662
5663 /*
5664  * pmap_remove_kernel_pde: Remove a kernel superpage mapping.
5665  */
5666 static void
5667 pmap_remove_kernel_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
5668 {
5669         pd_entry_t newpde;
5670         vm_paddr_t mptepa;
5671         vm_page_t mpte;
5672
5673         KASSERT(pmap == kernel_pmap, ("pmap %p is not kernel_pmap", pmap));
5674         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5675         mpte = pmap_remove_pt_page(pmap, va);
5676         if (mpte == NULL)
5677                 panic("pmap_remove_kernel_pde: Missing pt page.");
5678
5679         mptepa = VM_PAGE_TO_PHYS(mpte);
5680         newpde = mptepa | X86_PG_M | X86_PG_A | X86_PG_RW | X86_PG_V;
5681
5682         /*
5683          * If this page table page was unmapped by a promotion, then it
5684          * contains valid mappings.  Zero it to invalidate those mappings.
5685          */
5686         if (mpte->valid != 0)
5687                 pagezero((void *)PHYS_TO_DMAP(mptepa));
5688
5689         /*
5690          * Demote the mapping.
5691          */
5692         if (workaround_erratum383)
5693                 pmap_update_pde(pmap, va, pde, newpde);
5694         else
5695                 pde_store(pde, newpde);
5696
5697         /*
5698          * Invalidate a stale recursive mapping of the page table page.
5699          */
5700         pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
5701 }
5702
5703 /*
5704  * pmap_remove_pde: do the things to unmap a superpage in a process
5705  */
5706 static int
5707 pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
5708     struct spglist *free, struct rwlock **lockp)
5709 {
5710         struct md_page *pvh;
5711         pd_entry_t oldpde;
5712         vm_offset_t eva, va;
5713         vm_page_t m, mpte;
5714         pt_entry_t PG_G, PG_A, PG_M, PG_RW;
5715
5716         PG_G = pmap_global_bit(pmap);
5717         PG_A = pmap_accessed_bit(pmap);
5718         PG_M = pmap_modified_bit(pmap);
5719         PG_RW = pmap_rw_bit(pmap);
5720
5721         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5722         KASSERT((sva & PDRMASK) == 0,
5723             ("pmap_remove_pde: sva is not 2mpage aligned"));
5724         oldpde = pte_load_clear(pdq);
5725         if (oldpde & PG_W)
5726                 pmap->pm_stats.wired_count -= NBPDR / PAGE_SIZE;
5727         if ((oldpde & PG_G) != 0)
5728                 pmap_invalidate_pde_page(kernel_pmap, sva, oldpde);
5729         pmap_resident_count_dec(pmap, NBPDR / PAGE_SIZE);
5730         if (oldpde & PG_MANAGED) {
5731                 CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, oldpde & PG_PS_FRAME);
5732                 pvh = pa_to_pvh(oldpde & PG_PS_FRAME);
5733                 pmap_pvh_free(pvh, pmap, sva);
5734                 eva = sva + NBPDR;
5735                 for (va = sva, m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
5736                     va < eva; va += PAGE_SIZE, m++) {
5737                         if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW))
5738                                 vm_page_dirty(m);
5739                         if (oldpde & PG_A)
5740                                 vm_page_aflag_set(m, PGA_REFERENCED);
5741                         if (TAILQ_EMPTY(&m->md.pv_list) &&
5742                             TAILQ_EMPTY(&pvh->pv_list))
5743                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
5744                         pmap_delayed_invl_page(m);
5745                 }
5746         }
5747         if (pmap == kernel_pmap) {
5748                 pmap_remove_kernel_pde(pmap, pdq, sva);
5749         } else {
5750                 mpte = pmap_remove_pt_page(pmap, sva);
5751                 if (mpte != NULL) {
5752                         KASSERT(mpte->valid == VM_PAGE_BITS_ALL,
5753                             ("pmap_remove_pde: pte page not promoted"));
5754                         pmap_resident_count_dec(pmap, 1);
5755                         KASSERT(mpte->ref_count == NPTEPG,
5756                             ("pmap_remove_pde: pte page ref count error"));
5757                         mpte->ref_count = 0;
5758                         pmap_add_delayed_free_list(mpte, free, FALSE);
5759                 }
5760         }
5761         return (pmap_unuse_pt(pmap, sva, *pmap_pdpe(pmap, sva), free));
5762 }
5763
5764 /*
5765  * pmap_remove_pte: do the things to unmap a page in a process
5766  */
5767 static int
5768 pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t va,
5769     pd_entry_t ptepde, struct spglist *free, struct rwlock **lockp)
5770 {
5771         struct md_page *pvh;
5772         pt_entry_t oldpte, PG_A, PG_M, PG_RW;
5773         vm_page_t m;
5774
5775         PG_A = pmap_accessed_bit(pmap);
5776         PG_M = pmap_modified_bit(pmap);
5777         PG_RW = pmap_rw_bit(pmap);
5778
5779         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5780         oldpte = pte_load_clear(ptq);
5781         if (oldpte & PG_W)
5782                 pmap->pm_stats.wired_count -= 1;
5783         pmap_resident_count_dec(pmap, 1);
5784         if (oldpte & PG_MANAGED) {
5785                 m = PHYS_TO_VM_PAGE(oldpte & PG_FRAME);
5786                 if ((oldpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
5787                         vm_page_dirty(m);
5788                 if (oldpte & PG_A)
5789                         vm_page_aflag_set(m, PGA_REFERENCED);
5790                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
5791                 pmap_pvh_free(&m->md, pmap, va);
5792                 if (TAILQ_EMPTY(&m->md.pv_list) &&
5793                     (m->flags & PG_FICTITIOUS) == 0) {
5794                         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5795                         if (TAILQ_EMPTY(&pvh->pv_list))
5796                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
5797                 }
5798                 pmap_delayed_invl_page(m);
5799         }
5800         return (pmap_unuse_pt(pmap, va, ptepde, free));
5801 }
5802
5803 /*
5804  * Remove a single page from a process address space
5805  */
5806 static void
5807 pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
5808     struct spglist *free)
5809 {
5810         struct rwlock *lock;
5811         pt_entry_t *pte, PG_V;
5812
5813         PG_V = pmap_valid_bit(pmap);
5814         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5815         if ((*pde & PG_V) == 0)
5816                 return;
5817         pte = pmap_pde_to_pte(pde, va);
5818         if ((*pte & PG_V) == 0)
5819                 return;
5820         lock = NULL;
5821         pmap_remove_pte(pmap, pte, va, *pde, free, &lock);
5822         if (lock != NULL)
5823                 rw_wunlock(lock);
5824         pmap_invalidate_page(pmap, va);
5825 }
5826
5827 /*
5828  * Removes the specified range of addresses from the page table page.
5829  */
5830 static bool
5831 pmap_remove_ptes(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
5832     pd_entry_t *pde, struct spglist *free, struct rwlock **lockp)
5833 {
5834         pt_entry_t PG_G, *pte;
5835         vm_offset_t va;
5836         bool anyvalid;
5837
5838         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
5839         PG_G = pmap_global_bit(pmap);
5840         anyvalid = false;
5841         va = eva;
5842         for (pte = pmap_pde_to_pte(pde, sva); sva != eva; pte++,
5843             sva += PAGE_SIZE) {
5844                 if (*pte == 0) {
5845                         if (va != eva) {
5846                                 pmap_invalidate_range(pmap, va, sva);
5847                                 va = eva;
5848                         }
5849                         continue;
5850                 }
5851                 if ((*pte & PG_G) == 0)
5852                         anyvalid = true;
5853                 else if (va == eva)
5854                         va = sva;
5855                 if (pmap_remove_pte(pmap, pte, sva, *pde, free, lockp)) {
5856                         sva += PAGE_SIZE;
5857                         break;
5858                 }
5859         }
5860         if (va != eva)
5861                 pmap_invalidate_range(pmap, va, sva);
5862         return (anyvalid);
5863 }
5864
5865 /*
5866  *      Remove the given range of addresses from the specified map.
5867  *
5868  *      It is assumed that the start and end are properly
5869  *      rounded to the page size.
5870  */
5871 void
5872 pmap_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
5873 {
5874         struct rwlock *lock;
5875         vm_page_t mt;
5876         vm_offset_t va_next;
5877         pml5_entry_t *pml5e;
5878         pml4_entry_t *pml4e;
5879         pdp_entry_t *pdpe;
5880         pd_entry_t ptpaddr, *pde;
5881         pt_entry_t PG_G, PG_V;
5882         struct spglist free;
5883         int anyvalid;
5884
5885         PG_G = pmap_global_bit(pmap);
5886         PG_V = pmap_valid_bit(pmap);
5887
5888         /*
5889          * Perform an unsynchronized read.  This is, however, safe.
5890          */
5891         if (pmap->pm_stats.resident_count == 0)
5892                 return;
5893
5894         anyvalid = 0;
5895         SLIST_INIT(&free);
5896
5897         pmap_delayed_invl_start();
5898         PMAP_LOCK(pmap);
5899         pmap_pkru_on_remove(pmap, sva, eva);
5900
5901         /*
5902          * special handling of removing one page.  a very
5903          * common operation and easy to short circuit some
5904          * code.
5905          */
5906         if (sva + PAGE_SIZE == eva) {
5907                 pde = pmap_pde(pmap, sva);
5908                 if (pde && (*pde & PG_PS) == 0) {
5909                         pmap_remove_page(pmap, sva, pde, &free);
5910                         goto out;
5911                 }
5912         }
5913
5914         lock = NULL;
5915         for (; sva < eva; sva = va_next) {
5916                 if (pmap->pm_stats.resident_count == 0)
5917                         break;
5918
5919                 if (pmap_is_la57(pmap)) {
5920                         pml5e = pmap_pml5e(pmap, sva);
5921                         if ((*pml5e & PG_V) == 0) {
5922                                 va_next = (sva + NBPML5) & ~PML5MASK;
5923                                 if (va_next < sva)
5924                                         va_next = eva;
5925                                 continue;
5926                         }
5927                         pml4e = pmap_pml5e_to_pml4e(pml5e, sva);
5928                 } else {
5929                         pml4e = pmap_pml4e(pmap, sva);
5930                 }
5931                 if ((*pml4e & PG_V) == 0) {
5932                         va_next = (sva + NBPML4) & ~PML4MASK;
5933                         if (va_next < sva)
5934                                 va_next = eva;
5935                         continue;
5936                 }
5937
5938                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
5939                 va_next = (sva + NBPDP) & ~PDPMASK;
5940                 if ((*pdpe & PG_V) == 0) {
5941                         if (va_next < sva)
5942                                 va_next = eva;
5943                         continue;
5944                 }
5945
5946                 KASSERT((*pdpe & PG_PS) == 0 || va_next <= eva,
5947                     ("pmap_remove of non-transient 1G page "
5948                     "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
5949                     *pdpe, sva, eva, va_next));
5950                 if ((*pdpe & PG_PS) != 0) {
5951                         MPASS(pmap != kernel_pmap); /* XXXKIB */
5952                         MPASS((*pdpe & (PG_MANAGED | PG_G)) == 0);
5953                         anyvalid =  1;
5954                         *pdpe = 0;
5955                         pmap_resident_count_dec(pmap, NBPDP / PAGE_SIZE);
5956                         mt = PHYS_TO_VM_PAGE(*pmap_pml4e(pmap, sva) & PG_FRAME);
5957                         pmap_unwire_ptp(pmap, sva, mt, &free);
5958                         continue;
5959                 }
5960
5961                 /*
5962                  * Calculate index for next page table.
5963                  */
5964                 va_next = (sva + NBPDR) & ~PDRMASK;
5965                 if (va_next < sva)
5966                         va_next = eva;
5967
5968                 pde = pmap_pdpe_to_pde(pdpe, sva);
5969                 ptpaddr = *pde;
5970
5971                 /*
5972                  * Weed out invalid mappings.
5973                  */
5974                 if (ptpaddr == 0)
5975                         continue;
5976
5977                 /*
5978                  * Check for large page.
5979                  */
5980                 if ((ptpaddr & PG_PS) != 0) {
5981                         /*
5982                          * Are we removing the entire large page?  If not,
5983                          * demote the mapping and fall through.
5984                          */
5985                         if (sva + NBPDR == va_next && eva >= va_next) {
5986                                 /*
5987                                  * The TLB entry for a PG_G mapping is
5988                                  * invalidated by pmap_remove_pde().
5989                                  */
5990                                 if ((ptpaddr & PG_G) == 0)
5991                                         anyvalid = 1;
5992                                 pmap_remove_pde(pmap, pde, sva, &free, &lock);
5993                                 continue;
5994                         } else if (!pmap_demote_pde_locked(pmap, pde, sva,
5995                             &lock)) {
5996                                 /* The large page mapping was destroyed. */
5997                                 continue;
5998                         } else
5999                                 ptpaddr = *pde;
6000                 }
6001
6002                 /*
6003                  * Limit our scan to either the end of the va represented
6004                  * by the current page table page, or to the end of the
6005                  * range being removed.
6006                  */
6007                 if (va_next > eva)
6008                         va_next = eva;
6009
6010                 if (pmap_remove_ptes(pmap, sva, va_next, pde, &free, &lock))
6011                         anyvalid = 1;
6012         }
6013         if (lock != NULL)
6014                 rw_wunlock(lock);
6015 out:
6016         if (anyvalid)
6017                 pmap_invalidate_all(pmap);
6018         PMAP_UNLOCK(pmap);
6019         pmap_delayed_invl_finish();
6020         vm_page_free_pages_toq(&free, true);
6021 }
6022
6023 /*
6024  *      Routine:        pmap_remove_all
6025  *      Function:
6026  *              Removes this physical page from
6027  *              all physical maps in which it resides.
6028  *              Reflects back modify bits to the pager.
6029  *
6030  *      Notes:
6031  *              Original versions of this routine were very
6032  *              inefficient because they iteratively called
6033  *              pmap_remove (slow...)
6034  */
6035
6036 void
6037 pmap_remove_all(vm_page_t m)
6038 {
6039         struct md_page *pvh;
6040         pv_entry_t pv;
6041         pmap_t pmap;
6042         struct rwlock *lock;
6043         pt_entry_t *pte, tpte, PG_A, PG_M, PG_RW;
6044         pd_entry_t *pde;
6045         vm_offset_t va;
6046         struct spglist free;
6047         int pvh_gen, md_gen;
6048
6049         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
6050             ("pmap_remove_all: page %p is not managed", m));
6051         SLIST_INIT(&free);
6052         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
6053         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy :
6054             pa_to_pvh(VM_PAGE_TO_PHYS(m));
6055 retry:
6056         rw_wlock(lock);
6057         while ((pv = TAILQ_FIRST(&pvh->pv_list)) != NULL) {
6058                 pmap = PV_PMAP(pv);
6059                 if (!PMAP_TRYLOCK(pmap)) {
6060                         pvh_gen = pvh->pv_gen;
6061                         rw_wunlock(lock);
6062                         PMAP_LOCK(pmap);
6063                         rw_wlock(lock);
6064                         if (pvh_gen != pvh->pv_gen) {
6065                                 rw_wunlock(lock);
6066                                 PMAP_UNLOCK(pmap);
6067                                 goto retry;
6068                         }
6069                 }
6070                 va = pv->pv_va;
6071                 pde = pmap_pde(pmap, va);
6072                 (void)pmap_demote_pde_locked(pmap, pde, va, &lock);
6073                 PMAP_UNLOCK(pmap);
6074         }
6075         while ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
6076                 pmap = PV_PMAP(pv);
6077                 if (!PMAP_TRYLOCK(pmap)) {
6078                         pvh_gen = pvh->pv_gen;
6079                         md_gen = m->md.pv_gen;
6080                         rw_wunlock(lock);
6081                         PMAP_LOCK(pmap);
6082                         rw_wlock(lock);
6083                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
6084                                 rw_wunlock(lock);
6085                                 PMAP_UNLOCK(pmap);
6086                                 goto retry;
6087                         }
6088                 }
6089                 PG_A = pmap_accessed_bit(pmap);
6090                 PG_M = pmap_modified_bit(pmap);
6091                 PG_RW = pmap_rw_bit(pmap);
6092                 pmap_resident_count_dec(pmap, 1);
6093                 pde = pmap_pde(pmap, pv->pv_va);
6094                 KASSERT((*pde & PG_PS) == 0, ("pmap_remove_all: found"
6095                     " a 2mpage in page %p's pv list", m));
6096                 pte = pmap_pde_to_pte(pde, pv->pv_va);
6097                 tpte = pte_load_clear(pte);
6098                 if (tpte & PG_W)
6099                         pmap->pm_stats.wired_count--;
6100                 if (tpte & PG_A)
6101                         vm_page_aflag_set(m, PGA_REFERENCED);
6102
6103                 /*
6104                  * Update the vm_page_t clean and reference bits.
6105                  */
6106                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
6107                         vm_page_dirty(m);
6108                 pmap_unuse_pt(pmap, pv->pv_va, *pde, &free);
6109                 pmap_invalidate_page(pmap, pv->pv_va);
6110                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
6111                 m->md.pv_gen++;
6112                 free_pv_entry(pmap, pv);
6113                 PMAP_UNLOCK(pmap);
6114         }
6115         vm_page_aflag_clear(m, PGA_WRITEABLE);
6116         rw_wunlock(lock);
6117         pmap_delayed_invl_wait(m);
6118         vm_page_free_pages_toq(&free, true);
6119 }
6120
6121 /*
6122  * pmap_protect_pde: do the things to protect a 2mpage in a process
6123  */
6124 static boolean_t
6125 pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva, vm_prot_t prot)
6126 {
6127         pd_entry_t newpde, oldpde;
6128         vm_page_t m, mt;
6129         boolean_t anychanged;
6130         pt_entry_t PG_G, PG_M, PG_RW;
6131
6132         PG_G = pmap_global_bit(pmap);
6133         PG_M = pmap_modified_bit(pmap);
6134         PG_RW = pmap_rw_bit(pmap);
6135
6136         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6137         KASSERT((sva & PDRMASK) == 0,
6138             ("pmap_protect_pde: sva is not 2mpage aligned"));
6139         anychanged = FALSE;
6140 retry:
6141         oldpde = newpde = *pde;
6142         if ((prot & VM_PROT_WRITE) == 0) {
6143                 if ((oldpde & (PG_MANAGED | PG_M | PG_RW)) ==
6144                     (PG_MANAGED | PG_M | PG_RW)) {
6145                         m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
6146                         for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
6147                                 vm_page_dirty(mt);
6148                 }
6149                 newpde &= ~(PG_RW | PG_M);
6150         }
6151         if ((prot & VM_PROT_EXECUTE) == 0)
6152                 newpde |= pg_nx;
6153         if (newpde != oldpde) {
6154                 /*
6155                  * As an optimization to future operations on this PDE, clear
6156                  * PG_PROMOTED.  The impending invalidation will remove any
6157                  * lingering 4KB page mappings from the TLB.
6158                  */
6159                 if (!atomic_cmpset_long(pde, oldpde, newpde & ~PG_PROMOTED))
6160                         goto retry;
6161                 if ((oldpde & PG_G) != 0)
6162                         pmap_invalidate_pde_page(kernel_pmap, sva, oldpde);
6163                 else
6164                         anychanged = TRUE;
6165         }
6166         return (anychanged);
6167 }
6168
6169 /*
6170  *      Set the physical protection on the
6171  *      specified range of this map as requested.
6172  */
6173 void
6174 pmap_protect(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, vm_prot_t prot)
6175 {
6176         vm_page_t m;
6177         vm_offset_t va_next;
6178         pml4_entry_t *pml4e;
6179         pdp_entry_t *pdpe;
6180         pd_entry_t ptpaddr, *pde;
6181         pt_entry_t *pte, PG_G, PG_M, PG_RW, PG_V;
6182         pt_entry_t obits, pbits;
6183         boolean_t anychanged;
6184
6185         KASSERT((prot & ~VM_PROT_ALL) == 0, ("invalid prot %x", prot));
6186         if (prot == VM_PROT_NONE) {
6187                 pmap_remove(pmap, sva, eva);
6188                 return;
6189         }
6190
6191         if ((prot & (VM_PROT_WRITE|VM_PROT_EXECUTE)) ==
6192             (VM_PROT_WRITE|VM_PROT_EXECUTE))
6193                 return;
6194
6195         PG_G = pmap_global_bit(pmap);
6196         PG_M = pmap_modified_bit(pmap);
6197         PG_V = pmap_valid_bit(pmap);
6198         PG_RW = pmap_rw_bit(pmap);
6199         anychanged = FALSE;
6200
6201         /*
6202          * Although this function delays and batches the invalidation
6203          * of stale TLB entries, it does not need to call
6204          * pmap_delayed_invl_start() and
6205          * pmap_delayed_invl_finish(), because it does not
6206          * ordinarily destroy mappings.  Stale TLB entries from
6207          * protection-only changes need only be invalidated before the
6208          * pmap lock is released, because protection-only changes do
6209          * not destroy PV entries.  Even operations that iterate over
6210          * a physical page's PV list of mappings, like
6211          * pmap_remove_write(), acquire the pmap lock for each
6212          * mapping.  Consequently, for protection-only changes, the
6213          * pmap lock suffices to synchronize both page table and TLB
6214          * updates.
6215          *
6216          * This function only destroys a mapping if pmap_demote_pde()
6217          * fails.  In that case, stale TLB entries are immediately
6218          * invalidated.
6219          */
6220
6221         PMAP_LOCK(pmap);
6222         for (; sva < eva; sva = va_next) {
6223                 pml4e = pmap_pml4e(pmap, sva);
6224                 if ((*pml4e & PG_V) == 0) {
6225                         va_next = (sva + NBPML4) & ~PML4MASK;
6226                         if (va_next < sva)
6227                                 va_next = eva;
6228                         continue;
6229                 }
6230
6231                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
6232                 va_next = (sva + NBPDP) & ~PDPMASK;
6233                 if ((*pdpe & PG_V) == 0) {
6234                         if (va_next < sva)
6235                                 va_next = eva;
6236                         continue;
6237                 }
6238
6239                 KASSERT((*pdpe & PG_PS) == 0 || va_next <= eva,
6240                     ("pmap_remove of non-transient 1G page "
6241                     "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
6242                     *pdpe, sva, eva, va_next));
6243                 if ((*pdpe & PG_PS) != 0) {
6244 retry_pdpe:
6245                         obits = pbits = *pdpe;
6246                         MPASS((pbits & (PG_MANAGED | PG_G)) == 0);
6247                         MPASS(pmap != kernel_pmap); /* XXXKIB */
6248                         if ((prot & VM_PROT_WRITE) == 0)
6249                                 pbits &= ~(PG_RW | PG_M);
6250                         if ((prot & VM_PROT_EXECUTE) == 0)
6251                                 pbits |= pg_nx;
6252
6253                         if (pbits != obits) {
6254                                 if (!atomic_cmpset_long(pdpe, obits, pbits))
6255                                         /* PG_PS cannot be cleared under us, */
6256                                         goto retry_pdpe;
6257                                 anychanged = TRUE;
6258                         }
6259                         continue;
6260                 }
6261
6262                 va_next = (sva + NBPDR) & ~PDRMASK;
6263                 if (va_next < sva)
6264                         va_next = eva;
6265
6266                 pde = pmap_pdpe_to_pde(pdpe, sva);
6267                 ptpaddr = *pde;
6268
6269                 /*
6270                  * Weed out invalid mappings.
6271                  */
6272                 if (ptpaddr == 0)
6273                         continue;
6274
6275                 /*
6276                  * Check for large page.
6277                  */
6278                 if ((ptpaddr & PG_PS) != 0) {
6279                         /*
6280                          * Are we protecting the entire large page?  If not,
6281                          * demote the mapping and fall through.
6282                          */
6283                         if (sva + NBPDR == va_next && eva >= va_next) {
6284                                 /*
6285                                  * The TLB entry for a PG_G mapping is
6286                                  * invalidated by pmap_protect_pde().
6287                                  */
6288                                 if (pmap_protect_pde(pmap, pde, sva, prot))
6289                                         anychanged = TRUE;
6290                                 continue;
6291                         } else if (!pmap_demote_pde(pmap, pde, sva)) {
6292                                 /*
6293                                  * The large page mapping was destroyed.
6294                                  */
6295                                 continue;
6296                         }
6297                 }
6298
6299                 if (va_next > eva)
6300                         va_next = eva;
6301
6302                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
6303                     sva += PAGE_SIZE) {
6304 retry:
6305                         obits = pbits = *pte;
6306                         if ((pbits & PG_V) == 0)
6307                                 continue;
6308
6309                         if ((prot & VM_PROT_WRITE) == 0) {
6310                                 if ((pbits & (PG_MANAGED | PG_M | PG_RW)) ==
6311                                     (PG_MANAGED | PG_M | PG_RW)) {
6312                                         m = PHYS_TO_VM_PAGE(pbits & PG_FRAME);
6313                                         vm_page_dirty(m);
6314                                 }
6315                                 pbits &= ~(PG_RW | PG_M);
6316                         }
6317                         if ((prot & VM_PROT_EXECUTE) == 0)
6318                                 pbits |= pg_nx;
6319
6320                         if (pbits != obits) {
6321                                 if (!atomic_cmpset_long(pte, obits, pbits))
6322                                         goto retry;
6323                                 if (obits & PG_G)
6324                                         pmap_invalidate_page(pmap, sva);
6325                                 else
6326                                         anychanged = TRUE;
6327                         }
6328                 }
6329         }
6330         if (anychanged)
6331                 pmap_invalidate_all(pmap);
6332         PMAP_UNLOCK(pmap);
6333 }
6334
6335 #if VM_NRESERVLEVEL > 0
6336 static bool
6337 pmap_pde_ept_executable(pmap_t pmap, pd_entry_t pde)
6338 {
6339
6340         if (pmap->pm_type != PT_EPT)
6341                 return (false);
6342         return ((pde & EPT_PG_EXECUTE) != 0);
6343 }
6344
6345 /*
6346  * Tries to promote the 512, contiguous 4KB page mappings that are within a
6347  * single page table page (PTP) to a single 2MB page mapping.  For promotion
6348  * to occur, two conditions must be met: (1) the 4KB page mappings must map
6349  * aligned, contiguous physical memory and (2) the 4KB page mappings must have
6350  * identical characteristics.
6351  */
6352 static void
6353 pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
6354     struct rwlock **lockp)
6355 {
6356         pd_entry_t newpde;
6357         pt_entry_t *firstpte, oldpte, pa, *pte;
6358         pt_entry_t PG_G, PG_A, PG_M, PG_RW, PG_V, PG_PKU_MASK;
6359         vm_page_t mpte;
6360         int PG_PTE_CACHE;
6361
6362         PG_A = pmap_accessed_bit(pmap);
6363         PG_G = pmap_global_bit(pmap);
6364         PG_M = pmap_modified_bit(pmap);
6365         PG_V = pmap_valid_bit(pmap);
6366         PG_RW = pmap_rw_bit(pmap);
6367         PG_PKU_MASK = pmap_pku_mask_bit(pmap);
6368         PG_PTE_CACHE = pmap_cache_mask(pmap, 0);
6369
6370         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6371
6372         /*
6373          * Examine the first PTE in the specified PTP.  Abort if this PTE is
6374          * either invalid, unused, or does not map the first 4KB physical page
6375          * within a 2MB page.
6376          */
6377         firstpte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
6378 setpde:
6379         newpde = *firstpte;
6380         if ((newpde & ((PG_FRAME & PDRMASK) | PG_A | PG_V)) != (PG_A | PG_V) ||
6381             !pmap_allow_2m_x_page(pmap, pmap_pde_ept_executable(pmap,
6382             newpde))) {
6383                 atomic_add_long(&pmap_pde_p_failures, 1);
6384                 CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
6385                     " in pmap %p", va, pmap);
6386                 return;
6387         }
6388         if ((newpde & (PG_M | PG_RW)) == PG_RW) {
6389                 /*
6390                  * When PG_M is already clear, PG_RW can be cleared without
6391                  * a TLB invalidation.
6392                  */
6393                 if (!atomic_cmpset_long(firstpte, newpde, newpde & ~PG_RW))
6394                         goto setpde;
6395                 newpde &= ~PG_RW;
6396         }
6397
6398         /*
6399          * Examine each of the other PTEs in the specified PTP.  Abort if this
6400          * PTE maps an unexpected 4KB physical page or does not have identical
6401          * characteristics to the first PTE.
6402          */
6403         pa = (newpde & (PG_PS_FRAME | PG_A | PG_V)) + NBPDR - PAGE_SIZE;
6404         for (pte = firstpte + NPTEPG - 1; pte > firstpte; pte--) {
6405 setpte:
6406                 oldpte = *pte;
6407                 if ((oldpte & (PG_FRAME | PG_A | PG_V)) != pa) {
6408                         atomic_add_long(&pmap_pde_p_failures, 1);
6409                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
6410                             " in pmap %p", va, pmap);
6411                         return;
6412                 }
6413                 if ((oldpte & (PG_M | PG_RW)) == PG_RW) {
6414                         /*
6415                          * When PG_M is already clear, PG_RW can be cleared
6416                          * without a TLB invalidation.
6417                          */
6418                         if (!atomic_cmpset_long(pte, oldpte, oldpte & ~PG_RW))
6419                                 goto setpte;
6420                         oldpte &= ~PG_RW;
6421                         CTR2(KTR_PMAP, "pmap_promote_pde: protect for va %#lx"
6422                             " in pmap %p", (oldpte & PG_FRAME & PDRMASK) |
6423                             (va & ~PDRMASK), pmap);
6424                 }
6425                 if ((oldpte & PG_PTE_PROMOTE) != (newpde & PG_PTE_PROMOTE)) {
6426                         atomic_add_long(&pmap_pde_p_failures, 1);
6427                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
6428                             " in pmap %p", va, pmap);
6429                         return;
6430                 }
6431                 pa -= PAGE_SIZE;
6432         }
6433
6434         /*
6435          * Save the page table page in its current state until the PDE
6436          * mapping the superpage is demoted by pmap_demote_pde() or
6437          * destroyed by pmap_remove_pde().
6438          */
6439         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
6440         KASSERT(mpte >= vm_page_array &&
6441             mpte < &vm_page_array[vm_page_array_size],
6442             ("pmap_promote_pde: page table page is out of range"));
6443         KASSERT(mpte->pindex == pmap_pde_pindex(va),
6444             ("pmap_promote_pde: page table page's pindex is wrong"));
6445         if (pmap_insert_pt_page(pmap, mpte, true)) {
6446                 atomic_add_long(&pmap_pde_p_failures, 1);
6447                 CTR2(KTR_PMAP,
6448                     "pmap_promote_pde: failure for va %#lx in pmap %p", va,
6449                     pmap);
6450                 return;
6451         }
6452
6453         /*
6454          * Promote the pv entries.
6455          */
6456         if ((newpde & PG_MANAGED) != 0)
6457                 pmap_pv_promote_pde(pmap, va, newpde & PG_PS_FRAME, lockp);
6458
6459         /*
6460          * Propagate the PAT index to its proper position.
6461          */
6462         newpde = pmap_swap_pat(pmap, newpde);
6463
6464         /*
6465          * Map the superpage.
6466          */
6467         if (workaround_erratum383)
6468                 pmap_update_pde(pmap, va, pde, PG_PS | newpde);
6469         else
6470                 pde_store(pde, PG_PROMOTED | PG_PS | newpde);
6471
6472         atomic_add_long(&pmap_pde_promotions, 1);
6473         CTR2(KTR_PMAP, "pmap_promote_pde: success for va %#lx"
6474             " in pmap %p", va, pmap);
6475 }
6476 #endif /* VM_NRESERVLEVEL > 0 */
6477
6478 static int
6479 pmap_enter_largepage(pmap_t pmap, vm_offset_t va, pt_entry_t newpte, int flags,
6480     int psind)
6481 {
6482         vm_page_t mp;
6483         pt_entry_t origpte, *pml4e, *pdpe, *pde, pten, PG_V;
6484
6485         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6486         KASSERT(psind > 0 && psind < MAXPAGESIZES,
6487             ("psind %d unexpected", psind));
6488         KASSERT(((newpte & PG_FRAME) & (pagesizes[psind] - 1)) == 0,
6489             ("unaligned phys address %#lx newpte %#lx psind %d",
6490             newpte & PG_FRAME, newpte, psind));
6491         KASSERT((va & (pagesizes[psind] - 1)) == 0,
6492             ("unaligned va %#lx psind %d", va, psind));
6493         KASSERT(va < VM_MAXUSER_ADDRESS,
6494             ("kernel mode non-transparent superpage")); /* XXXKIB */
6495         KASSERT(va + pagesizes[psind] < VM_MAXUSER_ADDRESS,
6496             ("overflowing user map va %#lx psind %d", va, psind)); /* XXXKIB */
6497
6498         PG_V = pmap_valid_bit(pmap);
6499
6500 restart:
6501         pten = newpte;
6502         if (va < VM_MAXUSER_ADDRESS && pmap->pm_type == PT_X86)
6503                 pten |= pmap_pkru_get(pmap, va);
6504
6505         if (psind == 2) {       /* 1G */
6506                 if (!pmap_pkru_same(pmap, va, va + NBPDP))
6507                         return (KERN_PROTECTION_FAILURE);
6508                 pml4e = pmap_pml4e(pmap, va);
6509                 if ((*pml4e & PG_V) == 0) {
6510                         mp = _pmap_allocpte(pmap, pmap_pml4e_pindex(va),
6511                             NULL, va);
6512                         if (mp == NULL) {
6513                                 if ((flags & PMAP_ENTER_NOSLEEP) != 0)
6514                                         return (KERN_RESOURCE_SHORTAGE);
6515                                 PMAP_UNLOCK(pmap);
6516                                 vm_wait(NULL);
6517                                 PMAP_LOCK(pmap);
6518
6519                                 /*
6520                                  * Restart at least to recalcuate the pkru
6521                                  * key.  Our caller must keep the map locked
6522                                  * so no paging structure can be validated
6523                                  * under us.
6524                                  */
6525                                 goto restart;
6526                         }
6527                         pdpe = pmap_pdpe(pmap, va);
6528                         KASSERT(pdpe != NULL, ("va %#lx lost pdpe", va));
6529                         origpte = *pdpe;
6530                         MPASS(origpte == 0);
6531                 } else {
6532                         mp = PHYS_TO_VM_PAGE(*pml4e & PG_FRAME);
6533                         pdpe = pmap_pdpe(pmap, va);
6534                         KASSERT(pdpe != NULL, ("va %#lx lost pdpe", va));
6535                         origpte = *pdpe;
6536                         if ((origpte & PG_V) == 0)
6537                                 mp->ref_count++;
6538                 }
6539                 KASSERT((origpte & PG_V) == 0 || ((origpte & PG_PS) != 0 &&
6540                     (origpte & PG_FRAME) == (pten & PG_FRAME)),
6541                     ("va %#lx changing 1G phys page pdpe %#lx pten %#lx",
6542                     va, origpte, pten));
6543                 if ((pten & PG_W) != 0 && (origpte & PG_W) == 0)
6544                         pmap->pm_stats.wired_count += NBPDP / PAGE_SIZE;
6545                 else if ((pten & PG_W) == 0 && (origpte & PG_W) != 0)
6546                         pmap->pm_stats.wired_count -= NBPDP / PAGE_SIZE;
6547                 *pdpe = pten;
6548         } else /* (psind == 1) */ {     /* 2M */
6549                 if (!pmap_pkru_same(pmap, va, va + NBPDR))
6550                         return (KERN_PROTECTION_FAILURE);
6551                 pde = pmap_pde(pmap, va);
6552                 if (pde == NULL) {
6553                         mp = _pmap_allocpte(pmap, pmap_pdpe_pindex(va),
6554                             NULL, va);
6555                         if (mp == NULL) {
6556                                 if ((flags & PMAP_ENTER_NOSLEEP) != 0)
6557                                         return (KERN_RESOURCE_SHORTAGE);
6558                                 PMAP_UNLOCK(pmap);
6559                                 vm_wait(NULL);
6560                                 PMAP_LOCK(pmap);
6561                                 goto restart;
6562                         }
6563                         pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mp));
6564                         pde = &pde[pmap_pde_index(va)];
6565                         origpte = *pde;
6566                         MPASS(origpte == 0);
6567                 } else {
6568                         pdpe = pmap_pdpe(pmap, va);
6569                         MPASS(pdpe != NULL && (*pdpe & PG_V) != 0);
6570                         mp = PHYS_TO_VM_PAGE(*pdpe & PG_FRAME);
6571                         origpte = *pde;
6572                         if ((origpte & PG_V) == 0)
6573                                 mp->ref_count++;
6574                 }
6575                 KASSERT((origpte & PG_V) == 0 || ((origpte & PG_PS) != 0 &&
6576                     (origpte & PG_FRAME) == (pten & PG_FRAME)),
6577                     ("va %#lx changing 2M phys page pde %#lx pten %#lx",
6578                     va, origpte, pten));
6579                 if ((pten & PG_W) != 0 && (origpte & PG_W) == 0)
6580                         pmap->pm_stats.wired_count += NBPDR / PAGE_SIZE;
6581                 else if ((pten & PG_W) == 0 && (origpte & PG_W) != 0)
6582                         pmap->pm_stats.wired_count -= NBPDR / PAGE_SIZE;
6583                 *pde = pten;
6584         }
6585         if ((origpte & PG_V) == 0)
6586                 pmap_resident_count_inc(pmap, pagesizes[psind] / PAGE_SIZE);
6587
6588         return (KERN_SUCCESS);
6589 }
6590
6591 /*
6592  *      Insert the given physical page (p) at
6593  *      the specified virtual address (v) in the
6594  *      target physical map with the protection requested.
6595  *
6596  *      If specified, the page will be wired down, meaning
6597  *      that the related pte can not be reclaimed.
6598  *
6599  *      NB:  This is the only routine which MAY NOT lazy-evaluate
6600  *      or lose information.  That is, this routine must actually
6601  *      insert this page into the given map NOW.
6602  *
6603  *      When destroying both a page table and PV entry, this function
6604  *      performs the TLB invalidation before releasing the PV list
6605  *      lock, so we do not need pmap_delayed_invl_page() calls here.
6606  */
6607 int
6608 pmap_enter(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot,
6609     u_int flags, int8_t psind)
6610 {
6611         struct rwlock *lock;
6612         pd_entry_t *pde;
6613         pt_entry_t *pte, PG_G, PG_A, PG_M, PG_RW, PG_V;
6614         pt_entry_t newpte, origpte;
6615         pv_entry_t pv;
6616         vm_paddr_t opa, pa;
6617         vm_page_t mpte, om;
6618         int rv;
6619         boolean_t nosleep;
6620
6621         PG_A = pmap_accessed_bit(pmap);
6622         PG_G = pmap_global_bit(pmap);
6623         PG_M = pmap_modified_bit(pmap);
6624         PG_V = pmap_valid_bit(pmap);
6625         PG_RW = pmap_rw_bit(pmap);
6626
6627         va = trunc_page(va);
6628         KASSERT(va <= VM_MAX_KERNEL_ADDRESS, ("pmap_enter: toobig"));
6629         KASSERT(va < UPT_MIN_ADDRESS || va >= UPT_MAX_ADDRESS,
6630             ("pmap_enter: invalid to pmap_enter page table pages (va: 0x%lx)",
6631             va));
6632         KASSERT((m->oflags & VPO_UNMANAGED) != 0 || va < kmi.clean_sva ||
6633             va >= kmi.clean_eva,
6634             ("pmap_enter: managed mapping within the clean submap"));
6635         if ((m->oflags & VPO_UNMANAGED) == 0)
6636                 VM_PAGE_OBJECT_BUSY_ASSERT(m);
6637         KASSERT((flags & PMAP_ENTER_RESERVED) == 0,
6638             ("pmap_enter: flags %u has reserved bits set", flags));
6639         pa = VM_PAGE_TO_PHYS(m);
6640         newpte = (pt_entry_t)(pa | PG_A | PG_V);
6641         if ((flags & VM_PROT_WRITE) != 0)
6642                 newpte |= PG_M;
6643         if ((prot & VM_PROT_WRITE) != 0)
6644                 newpte |= PG_RW;
6645         KASSERT((newpte & (PG_M | PG_RW)) != PG_M,
6646             ("pmap_enter: flags includes VM_PROT_WRITE but prot doesn't"));
6647         if ((prot & VM_PROT_EXECUTE) == 0)
6648                 newpte |= pg_nx;
6649         if ((flags & PMAP_ENTER_WIRED) != 0)
6650                 newpte |= PG_W;
6651         if (va < VM_MAXUSER_ADDRESS)
6652                 newpte |= PG_U;
6653         if (pmap == kernel_pmap)
6654                 newpte |= PG_G;
6655         newpte |= pmap_cache_bits(pmap, m->md.pat_mode, psind > 0);
6656
6657         /*
6658          * Set modified bit gratuitously for writeable mappings if
6659          * the page is unmanaged. We do not want to take a fault
6660          * to do the dirty bit accounting for these mappings.
6661          */
6662         if ((m->oflags & VPO_UNMANAGED) != 0) {
6663                 if ((newpte & PG_RW) != 0)
6664                         newpte |= PG_M;
6665         } else
6666                 newpte |= PG_MANAGED;
6667
6668         lock = NULL;
6669         PMAP_LOCK(pmap);
6670         if ((flags & PMAP_ENTER_LARGEPAGE) != 0) {
6671                 KASSERT((m->oflags & VPO_UNMANAGED) != 0,
6672                     ("managed largepage va %#lx flags %#x", va, flags));
6673                 rv = pmap_enter_largepage(pmap, va, newpte | PG_PS, flags,
6674                     psind);
6675                 goto out;
6676         }
6677         if (psind == 1) {
6678                 /* Assert the required virtual and physical alignment. */
6679                 KASSERT((va & PDRMASK) == 0, ("pmap_enter: va unaligned"));
6680                 KASSERT(m->psind > 0, ("pmap_enter: m->psind < psind"));
6681                 rv = pmap_enter_pde(pmap, va, newpte | PG_PS, flags, m, &lock);
6682                 goto out;
6683         }
6684         mpte = NULL;
6685
6686         /*
6687          * In the case that a page table page is not
6688          * resident, we are creating it here.
6689          */
6690 retry:
6691         pde = pmap_pde(pmap, va);
6692         if (pde != NULL && (*pde & PG_V) != 0 && ((*pde & PG_PS) == 0 ||
6693             pmap_demote_pde_locked(pmap, pde, va, &lock))) {
6694                 pte = pmap_pde_to_pte(pde, va);
6695                 if (va < VM_MAXUSER_ADDRESS && mpte == NULL) {
6696                         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
6697                         mpte->ref_count++;
6698                 }
6699         } else if (va < VM_MAXUSER_ADDRESS) {
6700                 /*
6701                  * Here if the pte page isn't mapped, or if it has been
6702                  * deallocated.
6703                  */
6704                 nosleep = (flags & PMAP_ENTER_NOSLEEP) != 0;
6705                 mpte = _pmap_allocpte(pmap, pmap_pde_pindex(va),
6706                     nosleep ? NULL : &lock, va);
6707                 if (mpte == NULL && nosleep) {
6708                         rv = KERN_RESOURCE_SHORTAGE;
6709                         goto out;
6710                 }
6711                 goto retry;
6712         } else
6713                 panic("pmap_enter: invalid page directory va=%#lx", va);
6714
6715         origpte = *pte;
6716         pv = NULL;
6717         if (va < VM_MAXUSER_ADDRESS && pmap->pm_type == PT_X86)
6718                 newpte |= pmap_pkru_get(pmap, va);
6719
6720         /*
6721          * Is the specified virtual address already mapped?
6722          */
6723         if ((origpte & PG_V) != 0) {
6724                 /*
6725                  * Wiring change, just update stats. We don't worry about
6726                  * wiring PT pages as they remain resident as long as there
6727                  * are valid mappings in them. Hence, if a user page is wired,
6728                  * the PT page will be also.
6729                  */
6730                 if ((newpte & PG_W) != 0 && (origpte & PG_W) == 0)
6731                         pmap->pm_stats.wired_count++;
6732                 else if ((newpte & PG_W) == 0 && (origpte & PG_W) != 0)
6733                         pmap->pm_stats.wired_count--;
6734
6735                 /*
6736                  * Remove the extra PT page reference.
6737                  */
6738                 if (mpte != NULL) {
6739                         mpte->ref_count--;
6740                         KASSERT(mpte->ref_count > 0,
6741                             ("pmap_enter: missing reference to page table page,"
6742                              " va: 0x%lx", va));
6743                 }
6744
6745                 /*
6746                  * Has the physical page changed?
6747                  */
6748                 opa = origpte & PG_FRAME;
6749                 if (opa == pa) {
6750                         /*
6751                          * No, might be a protection or wiring change.
6752                          */
6753                         if ((origpte & PG_MANAGED) != 0 &&
6754                             (newpte & PG_RW) != 0)
6755                                 vm_page_aflag_set(m, PGA_WRITEABLE);
6756                         if (((origpte ^ newpte) & ~(PG_M | PG_A)) == 0)
6757                                 goto unchanged;
6758                         goto validate;
6759                 }
6760
6761                 /*
6762                  * The physical page has changed.  Temporarily invalidate
6763                  * the mapping.  This ensures that all threads sharing the
6764                  * pmap keep a consistent view of the mapping, which is
6765                  * necessary for the correct handling of COW faults.  It
6766                  * also permits reuse of the old mapping's PV entry,
6767                  * avoiding an allocation.
6768                  *
6769                  * For consistency, handle unmanaged mappings the same way.
6770                  */
6771                 origpte = pte_load_clear(pte);
6772                 KASSERT((origpte & PG_FRAME) == opa,
6773                     ("pmap_enter: unexpected pa update for %#lx", va));
6774                 if ((origpte & PG_MANAGED) != 0) {
6775                         om = PHYS_TO_VM_PAGE(opa);
6776
6777                         /*
6778                          * The pmap lock is sufficient to synchronize with
6779                          * concurrent calls to pmap_page_test_mappings() and
6780                          * pmap_ts_referenced().
6781                          */
6782                         if ((origpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
6783                                 vm_page_dirty(om);
6784                         if ((origpte & PG_A) != 0) {
6785                                 pmap_invalidate_page(pmap, va);
6786                                 vm_page_aflag_set(om, PGA_REFERENCED);
6787                         }
6788                         CHANGE_PV_LIST_LOCK_TO_PHYS(&lock, opa);
6789                         pv = pmap_pvh_remove(&om->md, pmap, va);
6790                         KASSERT(pv != NULL,
6791                             ("pmap_enter: no PV entry for %#lx", va));
6792                         if ((newpte & PG_MANAGED) == 0)
6793                                 free_pv_entry(pmap, pv);
6794                         if ((om->a.flags & PGA_WRITEABLE) != 0 &&
6795                             TAILQ_EMPTY(&om->md.pv_list) &&
6796                             ((om->flags & PG_FICTITIOUS) != 0 ||
6797                             TAILQ_EMPTY(&pa_to_pvh(opa)->pv_list)))
6798                                 vm_page_aflag_clear(om, PGA_WRITEABLE);
6799                 } else {
6800                         /*
6801                          * Since this mapping is unmanaged, assume that PG_A
6802                          * is set.
6803                          */
6804                         pmap_invalidate_page(pmap, va);
6805                 }
6806                 origpte = 0;
6807         } else {
6808                 /*
6809                  * Increment the counters.
6810                  */
6811                 if ((newpte & PG_W) != 0)
6812                         pmap->pm_stats.wired_count++;
6813                 pmap_resident_count_inc(pmap, 1);
6814         }
6815
6816         /*
6817          * Enter on the PV list if part of our managed memory.
6818          */
6819         if ((newpte & PG_MANAGED) != 0) {
6820                 if (pv == NULL) {
6821                         pv = get_pv_entry(pmap, &lock);
6822                         pv->pv_va = va;
6823                 }
6824                 CHANGE_PV_LIST_LOCK_TO_PHYS(&lock, pa);
6825                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
6826                 m->md.pv_gen++;
6827                 if ((newpte & PG_RW) != 0)
6828                         vm_page_aflag_set(m, PGA_WRITEABLE);
6829         }
6830
6831         /*
6832          * Update the PTE.
6833          */
6834         if ((origpte & PG_V) != 0) {
6835 validate:
6836                 origpte = pte_load_store(pte, newpte);
6837                 KASSERT((origpte & PG_FRAME) == pa,
6838                     ("pmap_enter: unexpected pa update for %#lx", va));
6839                 if ((newpte & PG_M) == 0 && (origpte & (PG_M | PG_RW)) ==
6840                     (PG_M | PG_RW)) {
6841                         if ((origpte & PG_MANAGED) != 0)
6842                                 vm_page_dirty(m);
6843
6844                         /*
6845                          * Although the PTE may still have PG_RW set, TLB
6846                          * invalidation may nonetheless be required because
6847                          * the PTE no longer has PG_M set.
6848                          */
6849                 } else if ((origpte & PG_NX) != 0 || (newpte & PG_NX) == 0) {
6850                         /*
6851                          * This PTE change does not require TLB invalidation.
6852                          */
6853                         goto unchanged;
6854                 }
6855                 if ((origpte & PG_A) != 0)
6856                         pmap_invalidate_page(pmap, va);
6857         } else
6858                 pte_store(pte, newpte);
6859
6860 unchanged:
6861
6862 #if VM_NRESERVLEVEL > 0
6863         /*
6864          * If both the page table page and the reservation are fully
6865          * populated, then attempt promotion.
6866          */
6867         if ((mpte == NULL || mpte->ref_count == NPTEPG) &&
6868             pmap_ps_enabled(pmap) &&
6869             (m->flags & PG_FICTITIOUS) == 0 &&
6870             vm_reserv_level_iffullpop(m) == 0)
6871                 pmap_promote_pde(pmap, pde, va, &lock);
6872 #endif
6873
6874         rv = KERN_SUCCESS;
6875 out:
6876         if (lock != NULL)
6877                 rw_wunlock(lock);
6878         PMAP_UNLOCK(pmap);
6879         return (rv);
6880 }
6881
6882 /*
6883  * Tries to create a read- and/or execute-only 2MB page mapping.  Returns true
6884  * if successful.  Returns false if (1) a page table page cannot be allocated
6885  * without sleeping, (2) a mapping already exists at the specified virtual
6886  * address, or (3) a PV entry cannot be allocated without reclaiming another
6887  * PV entry.
6888  */
6889 static bool
6890 pmap_enter_2mpage(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot,
6891     struct rwlock **lockp)
6892 {
6893         pd_entry_t newpde;
6894         pt_entry_t PG_V;
6895
6896         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6897         PG_V = pmap_valid_bit(pmap);
6898         newpde = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(pmap, m->md.pat_mode, 1) |
6899             PG_PS | PG_V;
6900         if ((m->oflags & VPO_UNMANAGED) == 0)
6901                 newpde |= PG_MANAGED;
6902         if ((prot & VM_PROT_EXECUTE) == 0)
6903                 newpde |= pg_nx;
6904         if (va < VM_MAXUSER_ADDRESS)
6905                 newpde |= PG_U;
6906         return (pmap_enter_pde(pmap, va, newpde, PMAP_ENTER_NOSLEEP |
6907             PMAP_ENTER_NOREPLACE | PMAP_ENTER_NORECLAIM, NULL, lockp) ==
6908             KERN_SUCCESS);
6909 }
6910
6911 /*
6912  * Returns true if every page table entry in the specified page table page is
6913  * zero.
6914  */
6915 static bool
6916 pmap_every_pte_zero(vm_paddr_t pa)
6917 {
6918         pt_entry_t *pt_end, *pte;
6919
6920         KASSERT((pa & PAGE_MASK) == 0, ("pa is misaligned"));
6921         pte = (pt_entry_t *)PHYS_TO_DMAP(pa);
6922         for (pt_end = pte + NPTEPG; pte < pt_end; pte++) {
6923                 if (*pte != 0)
6924                         return (false);
6925         }
6926         return (true);
6927 }
6928
6929 /*
6930  * Tries to create the specified 2MB page mapping.  Returns KERN_SUCCESS if
6931  * the mapping was created, and either KERN_FAILURE or KERN_RESOURCE_SHORTAGE
6932  * otherwise.  Returns KERN_FAILURE if PMAP_ENTER_NOREPLACE was specified and
6933  * a mapping already exists at the specified virtual address.  Returns
6934  * KERN_RESOURCE_SHORTAGE if PMAP_ENTER_NOSLEEP was specified and a page table
6935  * page allocation failed.  Returns KERN_RESOURCE_SHORTAGE if
6936  * PMAP_ENTER_NORECLAIM was specified and a PV entry allocation failed.
6937  *
6938  * The parameter "m" is only used when creating a managed, writeable mapping.
6939  */
6940 static int
6941 pmap_enter_pde(pmap_t pmap, vm_offset_t va, pd_entry_t newpde, u_int flags,
6942     vm_page_t m, struct rwlock **lockp)
6943 {
6944         struct spglist free;
6945         pd_entry_t oldpde, *pde;
6946         pt_entry_t PG_G, PG_RW, PG_V;
6947         vm_page_t mt, pdpg;
6948
6949         KASSERT(pmap == kernel_pmap || (newpde & PG_W) == 0,
6950             ("pmap_enter_pde: cannot create wired user mapping"));
6951         PG_G = pmap_global_bit(pmap);
6952         PG_RW = pmap_rw_bit(pmap);
6953         KASSERT((newpde & (pmap_modified_bit(pmap) | PG_RW)) != PG_RW,
6954             ("pmap_enter_pde: newpde is missing PG_M"));
6955         PG_V = pmap_valid_bit(pmap);
6956         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6957
6958         if (!pmap_allow_2m_x_page(pmap, pmap_pde_ept_executable(pmap,
6959             newpde))) {
6960                 CTR2(KTR_PMAP, "pmap_enter_pde: 2m x blocked for va %#lx"
6961                     " in pmap %p", va, pmap);
6962                 return (KERN_FAILURE);
6963         }
6964         if ((pde = pmap_alloc_pde(pmap, va, &pdpg, (flags &
6965             PMAP_ENTER_NOSLEEP) != 0 ? NULL : lockp)) == NULL) {
6966                 CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
6967                     " in pmap %p", va, pmap);
6968                 return (KERN_RESOURCE_SHORTAGE);
6969         }
6970
6971         /*
6972          * If pkru is not same for the whole pde range, return failure
6973          * and let vm_fault() cope.  Check after pde allocation, since
6974          * it could sleep.
6975          */
6976         if (!pmap_pkru_same(pmap, va, va + NBPDR)) {
6977                 pmap_abort_ptp(pmap, va, pdpg);
6978                 return (KERN_FAILURE);
6979         }
6980         if (va < VM_MAXUSER_ADDRESS && pmap->pm_type == PT_X86) {
6981                 newpde &= ~X86_PG_PKU_MASK;
6982                 newpde |= pmap_pkru_get(pmap, va);
6983         }
6984
6985         /*
6986          * If there are existing mappings, either abort or remove them.
6987          */
6988         oldpde = *pde;
6989         if ((oldpde & PG_V) != 0) {
6990                 KASSERT(pdpg == NULL || pdpg->ref_count > 1,
6991                     ("pmap_enter_pde: pdpg's reference count is too low"));
6992                 if ((flags & PMAP_ENTER_NOREPLACE) != 0 && (va <
6993                     VM_MAXUSER_ADDRESS || (oldpde & PG_PS) != 0 ||
6994                     !pmap_every_pte_zero(oldpde & PG_FRAME))) {
6995                         if (pdpg != NULL)
6996                                 pdpg->ref_count--;
6997                         CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
6998                             " in pmap %p", va, pmap);
6999                         return (KERN_FAILURE);
7000                 }
7001                 /* Break the existing mapping(s). */
7002                 SLIST_INIT(&free);
7003                 if ((oldpde & PG_PS) != 0) {
7004                         /*
7005                          * The reference to the PD page that was acquired by
7006                          * pmap_alloc_pde() ensures that it won't be freed.
7007                          * However, if the PDE resulted from a promotion, then
7008                          * a reserved PT page could be freed.
7009                          */
7010                         (void)pmap_remove_pde(pmap, pde, va, &free, lockp);
7011                         if ((oldpde & PG_G) == 0)
7012                                 pmap_invalidate_pde_page(pmap, va, oldpde);
7013                 } else {
7014                         pmap_delayed_invl_start();
7015                         if (pmap_remove_ptes(pmap, va, va + NBPDR, pde, &free,
7016                             lockp))
7017                                pmap_invalidate_all(pmap);
7018                         pmap_delayed_invl_finish();
7019                 }
7020                 if (va < VM_MAXUSER_ADDRESS) {
7021                         vm_page_free_pages_toq(&free, true);
7022                         KASSERT(*pde == 0, ("pmap_enter_pde: non-zero pde %p",
7023                             pde));
7024                 } else {
7025                         KASSERT(SLIST_EMPTY(&free),
7026                             ("pmap_enter_pde: freed kernel page table page"));
7027
7028                         /*
7029                          * Both pmap_remove_pde() and pmap_remove_ptes() will
7030                          * leave the kernel page table page zero filled.
7031                          */
7032                         mt = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
7033                         if (pmap_insert_pt_page(pmap, mt, false))
7034                                 panic("pmap_enter_pde: trie insert failed");
7035                 }
7036         }
7037
7038         if ((newpde & PG_MANAGED) != 0) {
7039                 /*
7040                  * Abort this mapping if its PV entry could not be created.
7041                  */
7042                 if (!pmap_pv_insert_pde(pmap, va, newpde, flags, lockp)) {
7043                         if (pdpg != NULL)
7044                                 pmap_abort_ptp(pmap, va, pdpg);
7045                         CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
7046                             " in pmap %p", va, pmap);
7047                         return (KERN_RESOURCE_SHORTAGE);
7048                 }
7049                 if ((newpde & PG_RW) != 0) {
7050                         for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
7051                                 vm_page_aflag_set(mt, PGA_WRITEABLE);
7052                 }
7053         }
7054
7055         /*
7056          * Increment counters.
7057          */
7058         if ((newpde & PG_W) != 0)
7059                 pmap->pm_stats.wired_count += NBPDR / PAGE_SIZE;
7060         pmap_resident_count_inc(pmap, NBPDR / PAGE_SIZE);
7061
7062         /*
7063          * Map the superpage.  (This is not a promoted mapping; there will not
7064          * be any lingering 4KB page mappings in the TLB.)
7065          */
7066         pde_store(pde, newpde);
7067
7068         atomic_add_long(&pmap_pde_mappings, 1);
7069         CTR2(KTR_PMAP, "pmap_enter_pde: success for va %#lx in pmap %p",
7070             va, pmap);
7071         return (KERN_SUCCESS);
7072 }
7073
7074 /*
7075  * Maps a sequence of resident pages belonging to the same object.
7076  * The sequence begins with the given page m_start.  This page is
7077  * mapped at the given virtual address start.  Each subsequent page is
7078  * mapped at a virtual address that is offset from start by the same
7079  * amount as the page is offset from m_start within the object.  The
7080  * last page in the sequence is the page with the largest offset from
7081  * m_start that can be mapped at a virtual address less than the given
7082  * virtual address end.  Not every virtual page between start and end
7083  * is mapped; only those for which a resident page exists with the
7084  * corresponding offset from m_start are mapped.
7085  */
7086 void
7087 pmap_enter_object(pmap_t pmap, vm_offset_t start, vm_offset_t end,
7088     vm_page_t m_start, vm_prot_t prot)
7089 {
7090         struct rwlock *lock;
7091         vm_offset_t va;
7092         vm_page_t m, mpte;
7093         vm_pindex_t diff, psize;
7094
7095         VM_OBJECT_ASSERT_LOCKED(m_start->object);
7096
7097         psize = atop(end - start);
7098         mpte = NULL;
7099         m = m_start;
7100         lock = NULL;
7101         PMAP_LOCK(pmap);
7102         while (m != NULL && (diff = m->pindex - m_start->pindex) < psize) {
7103                 va = start + ptoa(diff);
7104                 if ((va & PDRMASK) == 0 && va + NBPDR <= end &&
7105                     m->psind == 1 && pmap_ps_enabled(pmap) &&
7106                     pmap_allow_2m_x_page(pmap, (prot & VM_PROT_EXECUTE) != 0) &&
7107                     pmap_enter_2mpage(pmap, va, m, prot, &lock))
7108                         m = &m[NBPDR / PAGE_SIZE - 1];
7109                 else
7110                         mpte = pmap_enter_quick_locked(pmap, va, m, prot,
7111                             mpte, &lock);
7112                 m = TAILQ_NEXT(m, listq);
7113         }
7114         if (lock != NULL)
7115                 rw_wunlock(lock);
7116         PMAP_UNLOCK(pmap);
7117 }
7118
7119 /*
7120  * this code makes some *MAJOR* assumptions:
7121  * 1. Current pmap & pmap exists.
7122  * 2. Not wired.
7123  * 3. Read access.
7124  * 4. No page table pages.
7125  * but is *MUCH* faster than pmap_enter...
7126  */
7127
7128 void
7129 pmap_enter_quick(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot)
7130 {
7131         struct rwlock *lock;
7132
7133         lock = NULL;
7134         PMAP_LOCK(pmap);
7135         (void)pmap_enter_quick_locked(pmap, va, m, prot, NULL, &lock);
7136         if (lock != NULL)
7137                 rw_wunlock(lock);
7138         PMAP_UNLOCK(pmap);
7139 }
7140
7141 static vm_page_t
7142 pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va, vm_page_t m,
7143     vm_prot_t prot, vm_page_t mpte, struct rwlock **lockp)
7144 {
7145         pt_entry_t newpte, *pte, PG_V;
7146
7147         KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva ||
7148             (m->oflags & VPO_UNMANAGED) != 0,
7149             ("pmap_enter_quick_locked: managed mapping within the clean submap"));
7150         PG_V = pmap_valid_bit(pmap);
7151         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
7152
7153         /*
7154          * In the case that a page table page is not
7155          * resident, we are creating it here.
7156          */
7157         if (va < VM_MAXUSER_ADDRESS) {
7158                 vm_pindex_t ptepindex;
7159                 pd_entry_t *ptepa;
7160
7161                 /*
7162                  * Calculate pagetable page index
7163                  */
7164                 ptepindex = pmap_pde_pindex(va);
7165                 if (mpte && (mpte->pindex == ptepindex)) {
7166                         mpte->ref_count++;
7167                 } else {
7168                         /*
7169                          * Get the page directory entry
7170                          */
7171                         ptepa = pmap_pde(pmap, va);
7172
7173                         /*
7174                          * If the page table page is mapped, we just increment
7175                          * the hold count, and activate it.  Otherwise, we
7176                          * attempt to allocate a page table page.  If this
7177                          * attempt fails, we don't retry.  Instead, we give up.
7178                          */
7179                         if (ptepa && (*ptepa & PG_V) != 0) {
7180                                 if (*ptepa & PG_PS)
7181                                         return (NULL);
7182                                 mpte = PHYS_TO_VM_PAGE(*ptepa & PG_FRAME);
7183                                 mpte->ref_count++;
7184                         } else {
7185                                 /*
7186                                  * Pass NULL instead of the PV list lock
7187                                  * pointer, because we don't intend to sleep.
7188                                  */
7189                                 mpte = _pmap_allocpte(pmap, ptepindex, NULL,
7190                                     va);
7191                                 if (mpte == NULL)
7192                                         return (mpte);
7193                         }
7194                 }
7195                 pte = (pt_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mpte));
7196                 pte = &pte[pmap_pte_index(va)];
7197         } else {
7198                 mpte = NULL;
7199                 pte = vtopte(va);
7200         }
7201         if (*pte) {
7202                 if (mpte != NULL)
7203                         mpte->ref_count--;
7204                 return (NULL);
7205         }
7206
7207         /*
7208          * Enter on the PV list if part of our managed memory.
7209          */
7210         if ((m->oflags & VPO_UNMANAGED) == 0 &&
7211             !pmap_try_insert_pv_entry(pmap, va, m, lockp)) {
7212                 if (mpte != NULL)
7213                         pmap_abort_ptp(pmap, va, mpte);
7214                 return (NULL);
7215         }
7216
7217         /*
7218          * Increment counters
7219          */
7220         pmap_resident_count_inc(pmap, 1);
7221
7222         newpte = VM_PAGE_TO_PHYS(m) | PG_V |
7223             pmap_cache_bits(pmap, m->md.pat_mode, 0);
7224         if ((m->oflags & VPO_UNMANAGED) == 0)
7225                 newpte |= PG_MANAGED;
7226         if ((prot & VM_PROT_EXECUTE) == 0)
7227                 newpte |= pg_nx;
7228         if (va < VM_MAXUSER_ADDRESS)
7229                 newpte |= PG_U | pmap_pkru_get(pmap, va);
7230         pte_store(pte, newpte);
7231         return (mpte);
7232 }
7233
7234 /*
7235  * Make a temporary mapping for a physical address.  This is only intended
7236  * to be used for panic dumps.
7237  */
7238 void *
7239 pmap_kenter_temporary(vm_paddr_t pa, int i)
7240 {
7241         vm_offset_t va;
7242
7243         va = (vm_offset_t)crashdumpmap + (i * PAGE_SIZE);
7244         pmap_kenter(va, pa);
7245         invlpg(va);
7246         return ((void *)crashdumpmap);
7247 }
7248
7249 /*
7250  * This code maps large physical mmap regions into the
7251  * processor address space.  Note that some shortcuts
7252  * are taken, but the code works.
7253  */
7254 void
7255 pmap_object_init_pt(pmap_t pmap, vm_offset_t addr, vm_object_t object,
7256     vm_pindex_t pindex, vm_size_t size)
7257 {
7258         pd_entry_t *pde;
7259         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
7260         vm_paddr_t pa, ptepa;
7261         vm_page_t p, pdpg;
7262         int pat_mode;
7263
7264         PG_A = pmap_accessed_bit(pmap);
7265         PG_M = pmap_modified_bit(pmap);
7266         PG_V = pmap_valid_bit(pmap);
7267         PG_RW = pmap_rw_bit(pmap);
7268
7269         VM_OBJECT_ASSERT_WLOCKED(object);
7270         KASSERT(object->type == OBJT_DEVICE || object->type == OBJT_SG,
7271             ("pmap_object_init_pt: non-device object"));
7272         if ((addr & (NBPDR - 1)) == 0 && (size & (NBPDR - 1)) == 0) {
7273                 if (!pmap_ps_enabled(pmap))
7274                         return;
7275                 if (!vm_object_populate(object, pindex, pindex + atop(size)))
7276                         return;
7277                 p = vm_page_lookup(object, pindex);
7278                 KASSERT(p->valid == VM_PAGE_BITS_ALL,
7279                     ("pmap_object_init_pt: invalid page %p", p));
7280                 pat_mode = p->md.pat_mode;
7281
7282                 /*
7283                  * Abort the mapping if the first page is not physically
7284                  * aligned to a 2MB page boundary.
7285                  */
7286                 ptepa = VM_PAGE_TO_PHYS(p);
7287                 if (ptepa & (NBPDR - 1))
7288                         return;
7289
7290                 /*
7291                  * Skip the first page.  Abort the mapping if the rest of
7292                  * the pages are not physically contiguous or have differing
7293                  * memory attributes.
7294                  */
7295                 p = TAILQ_NEXT(p, listq);
7296                 for (pa = ptepa + PAGE_SIZE; pa < ptepa + size;
7297                     pa += PAGE_SIZE) {
7298                         KASSERT(p->valid == VM_PAGE_BITS_ALL,
7299                             ("pmap_object_init_pt: invalid page %p", p));
7300                         if (pa != VM_PAGE_TO_PHYS(p) ||
7301                             pat_mode != p->md.pat_mode)
7302                                 return;
7303                         p = TAILQ_NEXT(p, listq);
7304                 }
7305
7306                 /*
7307                  * Map using 2MB pages.  Since "ptepa" is 2M aligned and
7308                  * "size" is a multiple of 2M, adding the PAT setting to "pa"
7309                  * will not affect the termination of this loop.
7310                  */
7311                 PMAP_LOCK(pmap);
7312                 for (pa = ptepa | pmap_cache_bits(pmap, pat_mode, 1);
7313                     pa < ptepa + size; pa += NBPDR) {
7314                         pde = pmap_alloc_pde(pmap, addr, &pdpg, NULL);
7315                         if (pde == NULL) {
7316                                 /*
7317                                  * The creation of mappings below is only an
7318                                  * optimization.  If a page directory page
7319                                  * cannot be allocated without blocking,
7320                                  * continue on to the next mapping rather than
7321                                  * blocking.
7322                                  */
7323                                 addr += NBPDR;
7324                                 continue;
7325                         }
7326                         if ((*pde & PG_V) == 0) {
7327                                 pde_store(pde, pa | PG_PS | PG_M | PG_A |
7328                                     PG_U | PG_RW | PG_V);
7329                                 pmap_resident_count_inc(pmap, NBPDR / PAGE_SIZE);
7330                                 atomic_add_long(&pmap_pde_mappings, 1);
7331                         } else {
7332                                 /* Continue on if the PDE is already valid. */
7333                                 pdpg->ref_count--;
7334                                 KASSERT(pdpg->ref_count > 0,
7335                                     ("pmap_object_init_pt: missing reference "
7336                                     "to page directory page, va: 0x%lx", addr));
7337                         }
7338                         addr += NBPDR;
7339                 }
7340                 PMAP_UNLOCK(pmap);
7341         }
7342 }
7343
7344 /*
7345  *      Clear the wired attribute from the mappings for the specified range of
7346  *      addresses in the given pmap.  Every valid mapping within that range
7347  *      must have the wired attribute set.  In contrast, invalid mappings
7348  *      cannot have the wired attribute set, so they are ignored.
7349  *
7350  *      The wired attribute of the page table entry is not a hardware
7351  *      feature, so there is no need to invalidate any TLB entries.
7352  *      Since pmap_demote_pde() for the wired entry must never fail,
7353  *      pmap_delayed_invl_start()/finish() calls around the
7354  *      function are not needed.
7355  */
7356 void
7357 pmap_unwire(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
7358 {
7359         vm_offset_t va_next;
7360         pml4_entry_t *pml4e;
7361         pdp_entry_t *pdpe;
7362         pd_entry_t *pde;
7363         pt_entry_t *pte, PG_V, PG_G;
7364
7365         PG_V = pmap_valid_bit(pmap);
7366         PG_G = pmap_global_bit(pmap);
7367         PMAP_LOCK(pmap);
7368         for (; sva < eva; sva = va_next) {
7369                 pml4e = pmap_pml4e(pmap, sva);
7370                 if ((*pml4e & PG_V) == 0) {
7371                         va_next = (sva + NBPML4) & ~PML4MASK;
7372                         if (va_next < sva)
7373                                 va_next = eva;
7374                         continue;
7375                 }
7376                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
7377                 va_next = (sva + NBPDP) & ~PDPMASK;
7378                 if (va_next < sva)
7379                         va_next = eva;
7380                 if ((*pdpe & PG_V) == 0)
7381                         continue;
7382                 KASSERT((*pdpe & PG_PS) == 0 || va_next <= eva,
7383                     ("pmap_unwire of non-transient 1G page "
7384                     "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
7385                     *pdpe, sva, eva, va_next));
7386                 if ((*pdpe & PG_PS) != 0) {
7387                         MPASS(pmap != kernel_pmap); /* XXXKIB */
7388                         MPASS((*pdpe & (PG_MANAGED | PG_G)) == 0);
7389                         atomic_clear_long(pdpe, PG_W);
7390                         pmap->pm_stats.wired_count -= NBPDP / PAGE_SIZE;
7391                         continue;
7392                 }
7393
7394                 va_next = (sva + NBPDR) & ~PDRMASK;
7395                 if (va_next < sva)
7396                         va_next = eva;
7397                 pde = pmap_pdpe_to_pde(pdpe, sva);
7398                 if ((*pde & PG_V) == 0)
7399                         continue;
7400                 if ((*pde & PG_PS) != 0) {
7401                         if ((*pde & PG_W) == 0)
7402                                 panic("pmap_unwire: pde %#jx is missing PG_W",
7403                                     (uintmax_t)*pde);
7404
7405                         /*
7406                          * Are we unwiring the entire large page?  If not,
7407                          * demote the mapping and fall through.
7408                          */
7409                         if (sva + NBPDR == va_next && eva >= va_next) {
7410                                 atomic_clear_long(pde, PG_W);
7411                                 pmap->pm_stats.wired_count -= NBPDR /
7412                                     PAGE_SIZE;
7413                                 continue;
7414                         } else if (!pmap_demote_pde(pmap, pde, sva))
7415                                 panic("pmap_unwire: demotion failed");
7416                 }
7417                 if (va_next > eva)
7418                         va_next = eva;
7419                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
7420                     sva += PAGE_SIZE) {
7421                         if ((*pte & PG_V) == 0)
7422                                 continue;
7423                         if ((*pte & PG_W) == 0)
7424                                 panic("pmap_unwire: pte %#jx is missing PG_W",
7425                                     (uintmax_t)*pte);
7426
7427                         /*
7428                          * PG_W must be cleared atomically.  Although the pmap
7429                          * lock synchronizes access to PG_W, another processor
7430                          * could be setting PG_M and/or PG_A concurrently.
7431                          */
7432                         atomic_clear_long(pte, PG_W);
7433                         pmap->pm_stats.wired_count--;
7434                 }
7435         }
7436         PMAP_UNLOCK(pmap);
7437 }
7438
7439 /*
7440  *      Copy the range specified by src_addr/len
7441  *      from the source map to the range dst_addr/len
7442  *      in the destination map.
7443  *
7444  *      This routine is only advisory and need not do anything.
7445  */
7446 void
7447 pmap_copy(pmap_t dst_pmap, pmap_t src_pmap, vm_offset_t dst_addr, vm_size_t len,
7448     vm_offset_t src_addr)
7449 {
7450         struct rwlock *lock;
7451         pml4_entry_t *pml4e;
7452         pdp_entry_t *pdpe;
7453         pd_entry_t *pde, srcptepaddr;
7454         pt_entry_t *dst_pte, PG_A, PG_M, PG_V, ptetemp, *src_pte;
7455         vm_offset_t addr, end_addr, va_next;
7456         vm_page_t dst_pdpg, dstmpte, srcmpte;
7457
7458         if (dst_addr != src_addr)
7459                 return;
7460
7461         if (dst_pmap->pm_type != src_pmap->pm_type)
7462                 return;
7463
7464         /*
7465          * EPT page table entries that require emulation of A/D bits are
7466          * sensitive to clearing the PG_A bit (aka EPT_PG_READ). Although
7467          * we clear PG_M (aka EPT_PG_WRITE) concomitantly, the PG_U bit
7468          * (aka EPT_PG_EXECUTE) could still be set. Since some EPT
7469          * implementations flag an EPT misconfiguration for exec-only
7470          * mappings we skip this function entirely for emulated pmaps.
7471          */
7472         if (pmap_emulate_ad_bits(dst_pmap))
7473                 return;
7474
7475         end_addr = src_addr + len;
7476         lock = NULL;
7477         if (dst_pmap < src_pmap) {
7478                 PMAP_LOCK(dst_pmap);
7479                 PMAP_LOCK(src_pmap);
7480         } else {
7481                 PMAP_LOCK(src_pmap);
7482                 PMAP_LOCK(dst_pmap);
7483         }
7484
7485         PG_A = pmap_accessed_bit(dst_pmap);
7486         PG_M = pmap_modified_bit(dst_pmap);
7487         PG_V = pmap_valid_bit(dst_pmap);
7488
7489         for (addr = src_addr; addr < end_addr; addr = va_next) {
7490                 KASSERT(addr < UPT_MIN_ADDRESS,
7491                     ("pmap_copy: invalid to pmap_copy page tables"));
7492
7493                 pml4e = pmap_pml4e(src_pmap, addr);
7494                 if ((*pml4e & PG_V) == 0) {
7495                         va_next = (addr + NBPML4) & ~PML4MASK;
7496                         if (va_next < addr)
7497                                 va_next = end_addr;
7498                         continue;
7499                 }
7500
7501                 pdpe = pmap_pml4e_to_pdpe(pml4e, addr);
7502                 if ((*pdpe & PG_V) == 0) {
7503                         va_next = (addr + NBPDP) & ~PDPMASK;
7504                         if (va_next < addr)
7505                                 va_next = end_addr;
7506                         continue;
7507                 }
7508
7509                 va_next = (addr + NBPDR) & ~PDRMASK;
7510                 KASSERT((*pdpe & PG_PS) == 0 || va_next <= end_addr,
7511                     ("pmap_copy of partial non-transient 1G page "
7512                     "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
7513                     *pdpe, addr, end_addr, va_next));
7514                 if ((*pdpe & PG_PS) != 0)
7515                         continue;
7516                 if (va_next < addr)
7517                         va_next = end_addr;
7518
7519                 pde = pmap_pdpe_to_pde(pdpe, addr);
7520                 srcptepaddr = *pde;
7521                 if (srcptepaddr == 0)
7522                         continue;
7523
7524                 if (srcptepaddr & PG_PS) {
7525                         if ((addr & PDRMASK) != 0 || addr + NBPDR > end_addr)
7526                                 continue;
7527                         pde = pmap_alloc_pde(dst_pmap, addr, &dst_pdpg, NULL);
7528                         if (pde == NULL)
7529                                 break;
7530                         if (*pde == 0 && ((srcptepaddr & PG_MANAGED) == 0 ||
7531                             pmap_pv_insert_pde(dst_pmap, addr, srcptepaddr,
7532                             PMAP_ENTER_NORECLAIM, &lock))) {
7533                                 *pde = srcptepaddr & ~PG_W;
7534                                 pmap_resident_count_inc(dst_pmap, NBPDR /
7535                                     PAGE_SIZE);
7536                                 atomic_add_long(&pmap_pde_mappings, 1);
7537                         } else
7538                                 pmap_abort_ptp(dst_pmap, addr, dst_pdpg);
7539                         continue;
7540                 }
7541
7542                 srcptepaddr &= PG_FRAME;
7543                 srcmpte = PHYS_TO_VM_PAGE(srcptepaddr);
7544                 KASSERT(srcmpte->ref_count > 0,
7545                     ("pmap_copy: source page table page is unused"));
7546
7547                 if (va_next > end_addr)
7548                         va_next = end_addr;
7549
7550                 src_pte = (pt_entry_t *)PHYS_TO_DMAP(srcptepaddr);
7551                 src_pte = &src_pte[pmap_pte_index(addr)];
7552                 dstmpte = NULL;
7553                 for (; addr < va_next; addr += PAGE_SIZE, src_pte++) {
7554                         ptetemp = *src_pte;
7555
7556                         /*
7557                          * We only virtual copy managed pages.
7558                          */
7559                         if ((ptetemp & PG_MANAGED) == 0)
7560                                 continue;
7561
7562                         if (dstmpte != NULL) {
7563                                 KASSERT(dstmpte->pindex ==
7564                                     pmap_pde_pindex(addr),
7565                                     ("dstmpte pindex/addr mismatch"));
7566                                 dstmpte->ref_count++;
7567                         } else if ((dstmpte = pmap_allocpte(dst_pmap, addr,
7568                             NULL)) == NULL)
7569                                 goto out;
7570                         dst_pte = (pt_entry_t *)
7571                             PHYS_TO_DMAP(VM_PAGE_TO_PHYS(dstmpte));
7572                         dst_pte = &dst_pte[pmap_pte_index(addr)];
7573                         if (*dst_pte == 0 &&
7574                             pmap_try_insert_pv_entry(dst_pmap, addr,
7575                             PHYS_TO_VM_PAGE(ptetemp & PG_FRAME), &lock)) {
7576                                 /*
7577                                  * Clear the wired, modified, and accessed
7578                                  * (referenced) bits during the copy.
7579                                  */
7580                                 *dst_pte = ptetemp & ~(PG_W | PG_M | PG_A);
7581                                 pmap_resident_count_inc(dst_pmap, 1);
7582                         } else {
7583                                 pmap_abort_ptp(dst_pmap, addr, dstmpte);
7584                                 goto out;
7585                         }
7586                         /* Have we copied all of the valid mappings? */
7587                         if (dstmpte->ref_count >= srcmpte->ref_count)
7588                                 break;
7589                 }
7590         }
7591 out:
7592         if (lock != NULL)
7593                 rw_wunlock(lock);
7594         PMAP_UNLOCK(src_pmap);
7595         PMAP_UNLOCK(dst_pmap);
7596 }
7597
7598 int
7599 pmap_vmspace_copy(pmap_t dst_pmap, pmap_t src_pmap)
7600 {
7601         int error;
7602
7603         if (dst_pmap->pm_type != src_pmap->pm_type ||
7604             dst_pmap->pm_type != PT_X86 ||
7605             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0)
7606                 return (0);
7607         for (;;) {
7608                 if (dst_pmap < src_pmap) {
7609                         PMAP_LOCK(dst_pmap);
7610                         PMAP_LOCK(src_pmap);
7611                 } else {
7612                         PMAP_LOCK(src_pmap);
7613                         PMAP_LOCK(dst_pmap);
7614                 }
7615                 error = pmap_pkru_copy(dst_pmap, src_pmap);
7616                 /* Clean up partial copy on failure due to no memory. */
7617                 if (error == ENOMEM)
7618                         pmap_pkru_deassign_all(dst_pmap);
7619                 PMAP_UNLOCK(src_pmap);
7620                 PMAP_UNLOCK(dst_pmap);
7621                 if (error != ENOMEM)
7622                         break;
7623                 vm_wait(NULL);
7624         }
7625         return (error);
7626 }
7627
7628 /*
7629  * Zero the specified hardware page.
7630  */
7631 void
7632 pmap_zero_page(vm_page_t m)
7633 {
7634         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
7635
7636         pagezero((void *)va);
7637 }
7638
7639 /*
7640  * Zero an an area within a single hardware page.  off and size must not
7641  * cover an area beyond a single hardware page.
7642  */
7643 void
7644 pmap_zero_page_area(vm_page_t m, int off, int size)
7645 {
7646         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
7647
7648         if (off == 0 && size == PAGE_SIZE)
7649                 pagezero((void *)va);
7650         else
7651                 bzero((char *)va + off, size);
7652 }
7653
7654 /*
7655  * Copy 1 specified hardware page to another.
7656  */
7657 void
7658 pmap_copy_page(vm_page_t msrc, vm_page_t mdst)
7659 {
7660         vm_offset_t src = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(msrc));
7661         vm_offset_t dst = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mdst));
7662
7663         pagecopy((void *)src, (void *)dst);
7664 }
7665
7666 int unmapped_buf_allowed = 1;
7667
7668 void
7669 pmap_copy_pages(vm_page_t ma[], vm_offset_t a_offset, vm_page_t mb[],
7670     vm_offset_t b_offset, int xfersize)
7671 {
7672         void *a_cp, *b_cp;
7673         vm_page_t pages[2];
7674         vm_offset_t vaddr[2], a_pg_offset, b_pg_offset;
7675         int cnt;
7676         boolean_t mapped;
7677
7678         while (xfersize > 0) {
7679                 a_pg_offset = a_offset & PAGE_MASK;
7680                 pages[0] = ma[a_offset >> PAGE_SHIFT];
7681                 b_pg_offset = b_offset & PAGE_MASK;
7682                 pages[1] = mb[b_offset >> PAGE_SHIFT];
7683                 cnt = min(xfersize, PAGE_SIZE - a_pg_offset);
7684                 cnt = min(cnt, PAGE_SIZE - b_pg_offset);
7685                 mapped = pmap_map_io_transient(pages, vaddr, 2, FALSE);
7686                 a_cp = (char *)vaddr[0] + a_pg_offset;
7687                 b_cp = (char *)vaddr[1] + b_pg_offset;
7688                 bcopy(a_cp, b_cp, cnt);
7689                 if (__predict_false(mapped))
7690                         pmap_unmap_io_transient(pages, vaddr, 2, FALSE);
7691                 a_offset += cnt;
7692                 b_offset += cnt;
7693                 xfersize -= cnt;
7694         }
7695 }
7696
7697 /*
7698  * Returns true if the pmap's pv is one of the first
7699  * 16 pvs linked to from this page.  This count may
7700  * be changed upwards or downwards in the future; it
7701  * is only necessary that true be returned for a small
7702  * subset of pmaps for proper page aging.
7703  */
7704 boolean_t
7705 pmap_page_exists_quick(pmap_t pmap, vm_page_t m)
7706 {
7707         struct md_page *pvh;
7708         struct rwlock *lock;
7709         pv_entry_t pv;
7710         int loops = 0;
7711         boolean_t rv;
7712
7713         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
7714             ("pmap_page_exists_quick: page %p is not managed", m));
7715         rv = FALSE;
7716         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
7717         rw_rlock(lock);
7718         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
7719                 if (PV_PMAP(pv) == pmap) {
7720                         rv = TRUE;
7721                         break;
7722                 }
7723                 loops++;
7724                 if (loops >= 16)
7725                         break;
7726         }
7727         if (!rv && loops < 16 && (m->flags & PG_FICTITIOUS) == 0) {
7728                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
7729                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
7730                         if (PV_PMAP(pv) == pmap) {
7731                                 rv = TRUE;
7732                                 break;
7733                         }
7734                         loops++;
7735                         if (loops >= 16)
7736                                 break;
7737                 }
7738         }
7739         rw_runlock(lock);
7740         return (rv);
7741 }
7742
7743 /*
7744  *      pmap_page_wired_mappings:
7745  *
7746  *      Return the number of managed mappings to the given physical page
7747  *      that are wired.
7748  */
7749 int
7750 pmap_page_wired_mappings(vm_page_t m)
7751 {
7752         struct rwlock *lock;
7753         struct md_page *pvh;
7754         pmap_t pmap;
7755         pt_entry_t *pte;
7756         pv_entry_t pv;
7757         int count, md_gen, pvh_gen;
7758
7759         if ((m->oflags & VPO_UNMANAGED) != 0)
7760                 return (0);
7761         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
7762         rw_rlock(lock);
7763 restart:
7764         count = 0;
7765         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
7766                 pmap = PV_PMAP(pv);
7767                 if (!PMAP_TRYLOCK(pmap)) {
7768                         md_gen = m->md.pv_gen;
7769                         rw_runlock(lock);
7770                         PMAP_LOCK(pmap);
7771                         rw_rlock(lock);
7772                         if (md_gen != m->md.pv_gen) {
7773                                 PMAP_UNLOCK(pmap);
7774                                 goto restart;
7775                         }
7776                 }
7777                 pte = pmap_pte(pmap, pv->pv_va);
7778                 if ((*pte & PG_W) != 0)
7779                         count++;
7780                 PMAP_UNLOCK(pmap);
7781         }
7782         if ((m->flags & PG_FICTITIOUS) == 0) {
7783                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
7784                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
7785                         pmap = PV_PMAP(pv);
7786                         if (!PMAP_TRYLOCK(pmap)) {
7787                                 md_gen = m->md.pv_gen;
7788                                 pvh_gen = pvh->pv_gen;
7789                                 rw_runlock(lock);
7790                                 PMAP_LOCK(pmap);
7791                                 rw_rlock(lock);
7792                                 if (md_gen != m->md.pv_gen ||
7793                                     pvh_gen != pvh->pv_gen) {
7794                                         PMAP_UNLOCK(pmap);
7795                                         goto restart;
7796                                 }
7797                         }
7798                         pte = pmap_pde(pmap, pv->pv_va);
7799                         if ((*pte & PG_W) != 0)
7800                                 count++;
7801                         PMAP_UNLOCK(pmap);
7802                 }
7803         }
7804         rw_runlock(lock);
7805         return (count);
7806 }
7807
7808 /*
7809  * Returns TRUE if the given page is mapped individually or as part of
7810  * a 2mpage.  Otherwise, returns FALSE.
7811  */
7812 boolean_t
7813 pmap_page_is_mapped(vm_page_t m)
7814 {
7815         struct rwlock *lock;
7816         boolean_t rv;
7817
7818         if ((m->oflags & VPO_UNMANAGED) != 0)
7819                 return (FALSE);
7820         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
7821         rw_rlock(lock);
7822         rv = !TAILQ_EMPTY(&m->md.pv_list) ||
7823             ((m->flags & PG_FICTITIOUS) == 0 &&
7824             !TAILQ_EMPTY(&pa_to_pvh(VM_PAGE_TO_PHYS(m))->pv_list));
7825         rw_runlock(lock);
7826         return (rv);
7827 }
7828
7829 /*
7830  * Destroy all managed, non-wired mappings in the given user-space
7831  * pmap.  This pmap cannot be active on any processor besides the
7832  * caller.
7833  *
7834  * This function cannot be applied to the kernel pmap.  Moreover, it
7835  * is not intended for general use.  It is only to be used during
7836  * process termination.  Consequently, it can be implemented in ways
7837  * that make it faster than pmap_remove().  First, it can more quickly
7838  * destroy mappings by iterating over the pmap's collection of PV
7839  * entries, rather than searching the page table.  Second, it doesn't
7840  * have to test and clear the page table entries atomically, because
7841  * no processor is currently accessing the user address space.  In
7842  * particular, a page table entry's dirty bit won't change state once
7843  * this function starts.
7844  *
7845  * Although this function destroys all of the pmap's managed,
7846  * non-wired mappings, it can delay and batch the invalidation of TLB
7847  * entries without calling pmap_delayed_invl_start() and
7848  * pmap_delayed_invl_finish().  Because the pmap is not active on
7849  * any other processor, none of these TLB entries will ever be used
7850  * before their eventual invalidation.  Consequently, there is no need
7851  * for either pmap_remove_all() or pmap_remove_write() to wait for
7852  * that eventual TLB invalidation.
7853  */
7854 void
7855 pmap_remove_pages(pmap_t pmap)
7856 {
7857         pd_entry_t ptepde;
7858         pt_entry_t *pte, tpte;
7859         pt_entry_t PG_M, PG_RW, PG_V;
7860         struct spglist free;
7861         struct pv_chunklist free_chunks[PMAP_MEMDOM];
7862         vm_page_t m, mpte, mt;
7863         pv_entry_t pv;
7864         struct md_page *pvh;
7865         struct pv_chunk *pc, *npc;
7866         struct rwlock *lock;
7867         int64_t bit;
7868         uint64_t inuse, bitmask;
7869         int allfree, field, freed, i, idx;
7870         boolean_t superpage;
7871         vm_paddr_t pa;
7872
7873         /*
7874          * Assert that the given pmap is only active on the current
7875          * CPU.  Unfortunately, we cannot block another CPU from
7876          * activating the pmap while this function is executing.
7877          */
7878         KASSERT(pmap == PCPU_GET(curpmap), ("non-current pmap %p", pmap));
7879 #ifdef INVARIANTS
7880         {
7881                 cpuset_t other_cpus;
7882
7883                 other_cpus = all_cpus;
7884                 critical_enter();
7885                 CPU_CLR(PCPU_GET(cpuid), &other_cpus);
7886                 CPU_AND(&other_cpus, &pmap->pm_active);
7887                 critical_exit();
7888                 KASSERT(CPU_EMPTY(&other_cpus), ("pmap active %p", pmap));
7889         }
7890 #endif
7891
7892         lock = NULL;
7893         PG_M = pmap_modified_bit(pmap);
7894         PG_V = pmap_valid_bit(pmap);
7895         PG_RW = pmap_rw_bit(pmap);
7896
7897         for (i = 0; i < PMAP_MEMDOM; i++)
7898                 TAILQ_INIT(&free_chunks[i]);
7899         SLIST_INIT(&free);
7900         PMAP_LOCK(pmap);
7901         TAILQ_FOREACH_SAFE(pc, &pmap->pm_pvchunk, pc_list, npc) {
7902                 allfree = 1;
7903                 freed = 0;
7904                 for (field = 0; field < _NPCM; field++) {
7905                         inuse = ~pc->pc_map[field] & pc_freemask[field];
7906                         while (inuse != 0) {
7907                                 bit = bsfq(inuse);
7908                                 bitmask = 1UL << bit;
7909                                 idx = field * 64 + bit;
7910                                 pv = &pc->pc_pventry[idx];
7911                                 inuse &= ~bitmask;
7912
7913                                 pte = pmap_pdpe(pmap, pv->pv_va);
7914                                 ptepde = *pte;
7915                                 pte = pmap_pdpe_to_pde(pte, pv->pv_va);
7916                                 tpte = *pte;
7917                                 if ((tpte & (PG_PS | PG_V)) == PG_V) {
7918                                         superpage = FALSE;
7919                                         ptepde = tpte;
7920                                         pte = (pt_entry_t *)PHYS_TO_DMAP(tpte &
7921                                             PG_FRAME);
7922                                         pte = &pte[pmap_pte_index(pv->pv_va)];
7923                                         tpte = *pte;
7924                                 } else {
7925                                         /*
7926                                          * Keep track whether 'tpte' is a
7927                                          * superpage explicitly instead of
7928                                          * relying on PG_PS being set.
7929                                          *
7930                                          * This is because PG_PS is numerically
7931                                          * identical to PG_PTE_PAT and thus a
7932                                          * regular page could be mistaken for
7933                                          * a superpage.
7934                                          */
7935                                         superpage = TRUE;
7936                                 }
7937
7938                                 if ((tpte & PG_V) == 0) {
7939                                         panic("bad pte va %lx pte %lx",
7940                                             pv->pv_va, tpte);
7941                                 }
7942
7943 /*
7944  * We cannot remove wired pages from a process' mapping at this time
7945  */
7946                                 if (tpte & PG_W) {
7947                                         allfree = 0;
7948                                         continue;
7949                                 }
7950
7951                                 if (superpage)
7952                                         pa = tpte & PG_PS_FRAME;
7953                                 else
7954                                         pa = tpte & PG_FRAME;
7955
7956                                 m = PHYS_TO_VM_PAGE(pa);
7957                                 KASSERT(m->phys_addr == pa,
7958                                     ("vm_page_t %p phys_addr mismatch %016jx %016jx",
7959                                     m, (uintmax_t)m->phys_addr,
7960                                     (uintmax_t)tpte));
7961
7962                                 KASSERT((m->flags & PG_FICTITIOUS) != 0 ||
7963                                     m < &vm_page_array[vm_page_array_size],
7964                                     ("pmap_remove_pages: bad tpte %#jx",
7965                                     (uintmax_t)tpte));
7966
7967                                 pte_clear(pte);
7968
7969                                 /*
7970                                  * Update the vm_page_t clean/reference bits.
7971                                  */
7972                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
7973                                         if (superpage) {
7974                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
7975                                                         vm_page_dirty(mt);
7976                                         } else
7977                                                 vm_page_dirty(m);
7978                                 }
7979
7980                                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(&lock, m);
7981
7982                                 /* Mark free */
7983                                 pc->pc_map[field] |= bitmask;
7984                                 if (superpage) {
7985                                         pmap_resident_count_dec(pmap, NBPDR / PAGE_SIZE);
7986                                         pvh = pa_to_pvh(tpte & PG_PS_FRAME);
7987                                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
7988                                         pvh->pv_gen++;
7989                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
7990                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
7991                                                         if ((mt->a.flags & PGA_WRITEABLE) != 0 &&
7992                                                             TAILQ_EMPTY(&mt->md.pv_list))
7993                                                                 vm_page_aflag_clear(mt, PGA_WRITEABLE);
7994                                         }
7995                                         mpte = pmap_remove_pt_page(pmap, pv->pv_va);
7996                                         if (mpte != NULL) {
7997                                                 KASSERT(mpte->valid == VM_PAGE_BITS_ALL,
7998                                                     ("pmap_remove_pages: pte page not promoted"));
7999                                                 pmap_resident_count_dec(pmap, 1);
8000                                                 KASSERT(mpte->ref_count == NPTEPG,
8001                                                     ("pmap_remove_pages: pte page reference count error"));
8002                                                 mpte->ref_count = 0;
8003                                                 pmap_add_delayed_free_list(mpte, &free, FALSE);
8004                                         }
8005                                 } else {
8006                                         pmap_resident_count_dec(pmap, 1);
8007                                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
8008                                         m->md.pv_gen++;
8009                                         if ((m->a.flags & PGA_WRITEABLE) != 0 &&
8010                                             TAILQ_EMPTY(&m->md.pv_list) &&
8011                                             (m->flags & PG_FICTITIOUS) == 0) {
8012                                                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
8013                                                 if (TAILQ_EMPTY(&pvh->pv_list))
8014                                                         vm_page_aflag_clear(m, PGA_WRITEABLE);
8015                                         }
8016                                 }
8017                                 pmap_unuse_pt(pmap, pv->pv_va, ptepde, &free);
8018                                 freed++;
8019                         }
8020                 }
8021                 PV_STAT(atomic_add_long(&pv_entry_frees, freed));
8022                 PV_STAT(atomic_add_int(&pv_entry_spare, freed));
8023                 PV_STAT(atomic_subtract_long(&pv_entry_count, freed));
8024                 if (allfree) {
8025                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
8026                         TAILQ_INSERT_TAIL(&free_chunks[pc_to_domain(pc)], pc, pc_list);
8027                 }
8028         }
8029         if (lock != NULL)
8030                 rw_wunlock(lock);
8031         pmap_invalidate_all(pmap);
8032         pmap_pkru_deassign_all(pmap);
8033         free_pv_chunk_batch((struct pv_chunklist *)&free_chunks);
8034         PMAP_UNLOCK(pmap);
8035         vm_page_free_pages_toq(&free, true);
8036 }
8037
8038 static boolean_t
8039 pmap_page_test_mappings(vm_page_t m, boolean_t accessed, boolean_t modified)
8040 {
8041         struct rwlock *lock;
8042         pv_entry_t pv;
8043         struct md_page *pvh;
8044         pt_entry_t *pte, mask;
8045         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
8046         pmap_t pmap;
8047         int md_gen, pvh_gen;
8048         boolean_t rv;
8049
8050         rv = FALSE;
8051         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
8052         rw_rlock(lock);
8053 restart:
8054         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
8055                 pmap = PV_PMAP(pv);
8056                 if (!PMAP_TRYLOCK(pmap)) {
8057                         md_gen = m->md.pv_gen;
8058                         rw_runlock(lock);
8059                         PMAP_LOCK(pmap);
8060                         rw_rlock(lock);
8061                         if (md_gen != m->md.pv_gen) {
8062                                 PMAP_UNLOCK(pmap);
8063                                 goto restart;
8064                         }
8065                 }
8066                 pte = pmap_pte(pmap, pv->pv_va);
8067                 mask = 0;
8068                 if (modified) {
8069                         PG_M = pmap_modified_bit(pmap);
8070                         PG_RW = pmap_rw_bit(pmap);
8071                         mask |= PG_RW | PG_M;
8072                 }
8073                 if (accessed) {
8074                         PG_A = pmap_accessed_bit(pmap);
8075                         PG_V = pmap_valid_bit(pmap);
8076                         mask |= PG_V | PG_A;
8077                 }
8078                 rv = (*pte & mask) == mask;
8079                 PMAP_UNLOCK(pmap);
8080                 if (rv)
8081                         goto out;
8082         }
8083         if ((m->flags & PG_FICTITIOUS) == 0) {
8084                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
8085                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
8086                         pmap = PV_PMAP(pv);
8087                         if (!PMAP_TRYLOCK(pmap)) {
8088                                 md_gen = m->md.pv_gen;
8089                                 pvh_gen = pvh->pv_gen;
8090                                 rw_runlock(lock);
8091                                 PMAP_LOCK(pmap);
8092                                 rw_rlock(lock);
8093                                 if (md_gen != m->md.pv_gen ||
8094                                     pvh_gen != pvh->pv_gen) {
8095                                         PMAP_UNLOCK(pmap);
8096                                         goto restart;
8097                                 }
8098                         }
8099                         pte = pmap_pde(pmap, pv->pv_va);
8100                         mask = 0;
8101                         if (modified) {
8102                                 PG_M = pmap_modified_bit(pmap);
8103                                 PG_RW = pmap_rw_bit(pmap);
8104                                 mask |= PG_RW | PG_M;
8105                         }
8106                         if (accessed) {
8107                                 PG_A = pmap_accessed_bit(pmap);
8108                                 PG_V = pmap_valid_bit(pmap);
8109                                 mask |= PG_V | PG_A;
8110                         }
8111                         rv = (*pte & mask) == mask;
8112                         PMAP_UNLOCK(pmap);
8113                         if (rv)
8114                                 goto out;
8115                 }
8116         }
8117 out:
8118         rw_runlock(lock);
8119         return (rv);
8120 }
8121
8122 /*
8123  *      pmap_is_modified:
8124  *
8125  *      Return whether or not the specified physical page was modified
8126  *      in any physical maps.
8127  */
8128 boolean_t
8129 pmap_is_modified(vm_page_t m)
8130 {
8131
8132         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8133             ("pmap_is_modified: page %p is not managed", m));
8134
8135         /*
8136          * If the page is not busied then this check is racy.
8137          */
8138         if (!pmap_page_is_write_mapped(m))
8139                 return (FALSE);
8140         return (pmap_page_test_mappings(m, FALSE, TRUE));
8141 }
8142
8143 /*
8144  *      pmap_is_prefaultable:
8145  *
8146  *      Return whether or not the specified virtual address is eligible
8147  *      for prefault.
8148  */
8149 boolean_t
8150 pmap_is_prefaultable(pmap_t pmap, vm_offset_t addr)
8151 {
8152         pd_entry_t *pde;
8153         pt_entry_t *pte, PG_V;
8154         boolean_t rv;
8155
8156         PG_V = pmap_valid_bit(pmap);
8157         rv = FALSE;
8158         PMAP_LOCK(pmap);
8159         pde = pmap_pde(pmap, addr);
8160         if (pde != NULL && (*pde & (PG_PS | PG_V)) == PG_V) {
8161                 pte = pmap_pde_to_pte(pde, addr);
8162                 rv = (*pte & PG_V) == 0;
8163         }
8164         PMAP_UNLOCK(pmap);
8165         return (rv);
8166 }
8167
8168 /*
8169  *      pmap_is_referenced:
8170  *
8171  *      Return whether or not the specified physical page was referenced
8172  *      in any physical maps.
8173  */
8174 boolean_t
8175 pmap_is_referenced(vm_page_t m)
8176 {
8177
8178         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8179             ("pmap_is_referenced: page %p is not managed", m));
8180         return (pmap_page_test_mappings(m, TRUE, FALSE));
8181 }
8182
8183 /*
8184  * Clear the write and modified bits in each of the given page's mappings.
8185  */
8186 void
8187 pmap_remove_write(vm_page_t m)
8188 {
8189         struct md_page *pvh;
8190         pmap_t pmap;
8191         struct rwlock *lock;
8192         pv_entry_t next_pv, pv;
8193         pd_entry_t *pde;
8194         pt_entry_t oldpte, *pte, PG_M, PG_RW;
8195         vm_offset_t va;
8196         int pvh_gen, md_gen;
8197
8198         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8199             ("pmap_remove_write: page %p is not managed", m));
8200
8201         vm_page_assert_busied(m);
8202         if (!pmap_page_is_write_mapped(m))
8203                 return;
8204
8205         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
8206         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy :
8207             pa_to_pvh(VM_PAGE_TO_PHYS(m));
8208 retry_pv_loop:
8209         rw_wlock(lock);
8210         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_next, next_pv) {
8211                 pmap = PV_PMAP(pv);
8212                 if (!PMAP_TRYLOCK(pmap)) {
8213                         pvh_gen = pvh->pv_gen;
8214                         rw_wunlock(lock);
8215                         PMAP_LOCK(pmap);
8216                         rw_wlock(lock);
8217                         if (pvh_gen != pvh->pv_gen) {
8218                                 PMAP_UNLOCK(pmap);
8219                                 rw_wunlock(lock);
8220                                 goto retry_pv_loop;
8221                         }
8222                 }
8223                 PG_RW = pmap_rw_bit(pmap);
8224                 va = pv->pv_va;
8225                 pde = pmap_pde(pmap, va);
8226                 if ((*pde & PG_RW) != 0)
8227                         (void)pmap_demote_pde_locked(pmap, pde, va, &lock);
8228                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
8229                     ("inconsistent pv lock %p %p for page %p",
8230                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
8231                 PMAP_UNLOCK(pmap);
8232         }
8233         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
8234                 pmap = PV_PMAP(pv);
8235                 if (!PMAP_TRYLOCK(pmap)) {
8236                         pvh_gen = pvh->pv_gen;
8237                         md_gen = m->md.pv_gen;
8238                         rw_wunlock(lock);
8239                         PMAP_LOCK(pmap);
8240                         rw_wlock(lock);
8241                         if (pvh_gen != pvh->pv_gen ||
8242                             md_gen != m->md.pv_gen) {
8243                                 PMAP_UNLOCK(pmap);
8244                                 rw_wunlock(lock);
8245                                 goto retry_pv_loop;
8246                         }
8247                 }
8248                 PG_M = pmap_modified_bit(pmap);
8249                 PG_RW = pmap_rw_bit(pmap);
8250                 pde = pmap_pde(pmap, pv->pv_va);
8251                 KASSERT((*pde & PG_PS) == 0,
8252                     ("pmap_remove_write: found a 2mpage in page %p's pv list",
8253                     m));
8254                 pte = pmap_pde_to_pte(pde, pv->pv_va);
8255 retry:
8256                 oldpte = *pte;
8257                 if (oldpte & PG_RW) {
8258                         if (!atomic_cmpset_long(pte, oldpte, oldpte &
8259                             ~(PG_RW | PG_M)))
8260                                 goto retry;
8261                         if ((oldpte & PG_M) != 0)
8262                                 vm_page_dirty(m);
8263                         pmap_invalidate_page(pmap, pv->pv_va);
8264                 }
8265                 PMAP_UNLOCK(pmap);
8266         }
8267         rw_wunlock(lock);
8268         vm_page_aflag_clear(m, PGA_WRITEABLE);
8269         pmap_delayed_invl_wait(m);
8270 }
8271
8272 static __inline boolean_t
8273 safe_to_clear_referenced(pmap_t pmap, pt_entry_t pte)
8274 {
8275
8276         if (!pmap_emulate_ad_bits(pmap))
8277                 return (TRUE);
8278
8279         KASSERT(pmap->pm_type == PT_EPT, ("invalid pm_type %d", pmap->pm_type));
8280
8281         /*
8282          * XWR = 010 or 110 will cause an unconditional EPT misconfiguration
8283          * so we don't let the referenced (aka EPT_PG_READ) bit to be cleared
8284          * if the EPT_PG_WRITE bit is set.
8285          */
8286         if ((pte & EPT_PG_WRITE) != 0)
8287                 return (FALSE);
8288
8289         /*
8290          * XWR = 100 is allowed only if the PMAP_SUPPORTS_EXEC_ONLY is set.
8291          */
8292         if ((pte & EPT_PG_EXECUTE) == 0 ||
8293             ((pmap->pm_flags & PMAP_SUPPORTS_EXEC_ONLY) != 0))
8294                 return (TRUE);
8295         else
8296                 return (FALSE);
8297 }
8298
8299 /*
8300  *      pmap_ts_referenced:
8301  *
8302  *      Return a count of reference bits for a page, clearing those bits.
8303  *      It is not necessary for every reference bit to be cleared, but it
8304  *      is necessary that 0 only be returned when there are truly no
8305  *      reference bits set.
8306  *
8307  *      As an optimization, update the page's dirty field if a modified bit is
8308  *      found while counting reference bits.  This opportunistic update can be
8309  *      performed at low cost and can eliminate the need for some future calls
8310  *      to pmap_is_modified().  However, since this function stops after
8311  *      finding PMAP_TS_REFERENCED_MAX reference bits, it may not detect some
8312  *      dirty pages.  Those dirty pages will only be detected by a future call
8313  *      to pmap_is_modified().
8314  *
8315  *      A DI block is not needed within this function, because
8316  *      invalidations are performed before the PV list lock is
8317  *      released.
8318  */
8319 int
8320 pmap_ts_referenced(vm_page_t m)
8321 {
8322         struct md_page *pvh;
8323         pv_entry_t pv, pvf;
8324         pmap_t pmap;
8325         struct rwlock *lock;
8326         pd_entry_t oldpde, *pde;
8327         pt_entry_t *pte, PG_A, PG_M, PG_RW;
8328         vm_offset_t va;
8329         vm_paddr_t pa;
8330         int cleared, md_gen, not_cleared, pvh_gen;
8331         struct spglist free;
8332         boolean_t demoted;
8333
8334         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8335             ("pmap_ts_referenced: page %p is not managed", m));
8336         SLIST_INIT(&free);
8337         cleared = 0;
8338         pa = VM_PAGE_TO_PHYS(m);
8339         lock = PHYS_TO_PV_LIST_LOCK(pa);
8340         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy : pa_to_pvh(pa);
8341         rw_wlock(lock);
8342 retry:
8343         not_cleared = 0;
8344         if ((pvf = TAILQ_FIRST(&pvh->pv_list)) == NULL)
8345                 goto small_mappings;
8346         pv = pvf;
8347         do {
8348                 if (pvf == NULL)
8349                         pvf = pv;
8350                 pmap = PV_PMAP(pv);
8351                 if (!PMAP_TRYLOCK(pmap)) {
8352                         pvh_gen = pvh->pv_gen;
8353                         rw_wunlock(lock);
8354                         PMAP_LOCK(pmap);
8355                         rw_wlock(lock);
8356                         if (pvh_gen != pvh->pv_gen) {
8357                                 PMAP_UNLOCK(pmap);
8358                                 goto retry;
8359                         }
8360                 }
8361                 PG_A = pmap_accessed_bit(pmap);
8362                 PG_M = pmap_modified_bit(pmap);
8363                 PG_RW = pmap_rw_bit(pmap);
8364                 va = pv->pv_va;
8365                 pde = pmap_pde(pmap, pv->pv_va);
8366                 oldpde = *pde;
8367                 if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
8368                         /*
8369                          * Although "oldpde" is mapping a 2MB page, because
8370                          * this function is called at a 4KB page granularity,
8371                          * we only update the 4KB page under test.
8372                          */
8373                         vm_page_dirty(m);
8374                 }
8375                 if ((oldpde & PG_A) != 0) {
8376                         /*
8377                          * Since this reference bit is shared by 512 4KB
8378                          * pages, it should not be cleared every time it is
8379                          * tested.  Apply a simple "hash" function on the
8380                          * physical page number, the virtual superpage number,
8381                          * and the pmap address to select one 4KB page out of
8382                          * the 512 on which testing the reference bit will
8383                          * result in clearing that reference bit.  This
8384                          * function is designed to avoid the selection of the
8385                          * same 4KB page for every 2MB page mapping.
8386                          *
8387                          * On demotion, a mapping that hasn't been referenced
8388                          * is simply destroyed.  To avoid the possibility of a
8389                          * subsequent page fault on a demoted wired mapping,
8390                          * always leave its reference bit set.  Moreover,
8391                          * since the superpage is wired, the current state of
8392                          * its reference bit won't affect page replacement.
8393                          */
8394                         if ((((pa >> PAGE_SHIFT) ^ (pv->pv_va >> PDRSHIFT) ^
8395                             (uintptr_t)pmap) & (NPTEPG - 1)) == 0 &&
8396                             (oldpde & PG_W) == 0) {
8397                                 if (safe_to_clear_referenced(pmap, oldpde)) {
8398                                         atomic_clear_long(pde, PG_A);
8399                                         pmap_invalidate_page(pmap, pv->pv_va);
8400                                         demoted = FALSE;
8401                                 } else if (pmap_demote_pde_locked(pmap, pde,
8402                                     pv->pv_va, &lock)) {
8403                                         /*
8404                                          * Remove the mapping to a single page
8405                                          * so that a subsequent access may
8406                                          * repromote.  Since the underlying
8407                                          * page table page is fully populated,
8408                                          * this removal never frees a page
8409                                          * table page.
8410                                          */
8411                                         demoted = TRUE;
8412                                         va += VM_PAGE_TO_PHYS(m) - (oldpde &
8413                                             PG_PS_FRAME);
8414                                         pte = pmap_pde_to_pte(pde, va);
8415                                         pmap_remove_pte(pmap, pte, va, *pde,
8416                                             NULL, &lock);
8417                                         pmap_invalidate_page(pmap, va);
8418                                 } else
8419                                         demoted = TRUE;
8420
8421                                 if (demoted) {
8422                                         /*
8423                                          * The superpage mapping was removed
8424                                          * entirely and therefore 'pv' is no
8425                                          * longer valid.
8426                                          */
8427                                         if (pvf == pv)
8428                                                 pvf = NULL;
8429                                         pv = NULL;
8430                                 }
8431                                 cleared++;
8432                                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
8433                                     ("inconsistent pv lock %p %p for page %p",
8434                                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
8435                         } else
8436                                 not_cleared++;
8437                 }
8438                 PMAP_UNLOCK(pmap);
8439                 /* Rotate the PV list if it has more than one entry. */
8440                 if (pv != NULL && TAILQ_NEXT(pv, pv_next) != NULL) {
8441                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
8442                         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
8443                         pvh->pv_gen++;
8444                 }
8445                 if (cleared + not_cleared >= PMAP_TS_REFERENCED_MAX)
8446                         goto out;
8447         } while ((pv = TAILQ_FIRST(&pvh->pv_list)) != pvf);
8448 small_mappings:
8449         if ((pvf = TAILQ_FIRST(&m->md.pv_list)) == NULL)
8450                 goto out;
8451         pv = pvf;
8452         do {
8453                 if (pvf == NULL)
8454                         pvf = pv;
8455                 pmap = PV_PMAP(pv);
8456                 if (!PMAP_TRYLOCK(pmap)) {
8457                         pvh_gen = pvh->pv_gen;
8458                         md_gen = m->md.pv_gen;
8459                         rw_wunlock(lock);
8460                         PMAP_LOCK(pmap);
8461                         rw_wlock(lock);
8462                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
8463                                 PMAP_UNLOCK(pmap);
8464                                 goto retry;
8465                         }
8466                 }
8467                 PG_A = pmap_accessed_bit(pmap);
8468                 PG_M = pmap_modified_bit(pmap);
8469                 PG_RW = pmap_rw_bit(pmap);
8470                 pde = pmap_pde(pmap, pv->pv_va);
8471                 KASSERT((*pde & PG_PS) == 0,
8472                     ("pmap_ts_referenced: found a 2mpage in page %p's pv list",
8473                     m));
8474                 pte = pmap_pde_to_pte(pde, pv->pv_va);
8475                 if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW))
8476                         vm_page_dirty(m);
8477                 if ((*pte & PG_A) != 0) {
8478                         if (safe_to_clear_referenced(pmap, *pte)) {
8479                                 atomic_clear_long(pte, PG_A);
8480                                 pmap_invalidate_page(pmap, pv->pv_va);
8481                                 cleared++;
8482                         } else if ((*pte & PG_W) == 0) {
8483                                 /*
8484                                  * Wired pages cannot be paged out so
8485                                  * doing accessed bit emulation for
8486                                  * them is wasted effort. We do the
8487                                  * hard work for unwired pages only.
8488                                  */
8489                                 pmap_remove_pte(pmap, pte, pv->pv_va,
8490                                     *pde, &free, &lock);
8491                                 pmap_invalidate_page(pmap, pv->pv_va);
8492                                 cleared++;
8493                                 if (pvf == pv)
8494                                         pvf = NULL;
8495                                 pv = NULL;
8496                                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
8497                                     ("inconsistent pv lock %p %p for page %p",
8498                                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
8499                         } else
8500                                 not_cleared++;
8501                 }
8502                 PMAP_UNLOCK(pmap);
8503                 /* Rotate the PV list if it has more than one entry. */
8504                 if (pv != NULL && TAILQ_NEXT(pv, pv_next) != NULL) {
8505                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
8506                         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
8507                         m->md.pv_gen++;
8508                 }
8509         } while ((pv = TAILQ_FIRST(&m->md.pv_list)) != pvf && cleared +
8510             not_cleared < PMAP_TS_REFERENCED_MAX);
8511 out:
8512         rw_wunlock(lock);
8513         vm_page_free_pages_toq(&free, true);
8514         return (cleared + not_cleared);
8515 }
8516
8517 /*
8518  *      Apply the given advice to the specified range of addresses within the
8519  *      given pmap.  Depending on the advice, clear the referenced and/or
8520  *      modified flags in each mapping and set the mapped page's dirty field.
8521  */
8522 void
8523 pmap_advise(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, int advice)
8524 {
8525         struct rwlock *lock;
8526         pml4_entry_t *pml4e;
8527         pdp_entry_t *pdpe;
8528         pd_entry_t oldpde, *pde;
8529         pt_entry_t *pte, PG_A, PG_G, PG_M, PG_RW, PG_V;
8530         vm_offset_t va, va_next;
8531         vm_page_t m;
8532         bool anychanged;
8533
8534         if (advice != MADV_DONTNEED && advice != MADV_FREE)
8535                 return;
8536
8537         /*
8538          * A/D bit emulation requires an alternate code path when clearing
8539          * the modified and accessed bits below. Since this function is
8540          * advisory in nature we skip it entirely for pmaps that require
8541          * A/D bit emulation.
8542          */
8543         if (pmap_emulate_ad_bits(pmap))
8544                 return;
8545
8546         PG_A = pmap_accessed_bit(pmap);
8547         PG_G = pmap_global_bit(pmap);
8548         PG_M = pmap_modified_bit(pmap);
8549         PG_V = pmap_valid_bit(pmap);
8550         PG_RW = pmap_rw_bit(pmap);
8551         anychanged = false;
8552         pmap_delayed_invl_start();
8553         PMAP_LOCK(pmap);
8554         for (; sva < eva; sva = va_next) {
8555                 pml4e = pmap_pml4e(pmap, sva);
8556                 if ((*pml4e & PG_V) == 0) {
8557                         va_next = (sva + NBPML4) & ~PML4MASK;
8558                         if (va_next < sva)
8559                                 va_next = eva;
8560                         continue;
8561                 }
8562                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
8563                 if ((*pdpe & PG_V) == 0) {
8564                         va_next = (sva + NBPDP) & ~PDPMASK;
8565                         if (va_next < sva)
8566                                 va_next = eva;
8567                         continue;
8568                 }
8569                 va_next = (sva + NBPDR) & ~PDRMASK;
8570                 if (va_next < sva)
8571                         va_next = eva;
8572                 KASSERT((*pdpe & PG_PS) == 0 || va_next <= eva,
8573                     ("pmap_advise of non-transient 1G page "
8574                     "pdpe %#lx sva %#lx eva %#lx va_next %#lx",
8575                     *pdpe, sva, eva, va_next));
8576                 if ((*pdpe & PG_PS) != 0)
8577                         continue;
8578                 pde = pmap_pdpe_to_pde(pdpe, sva);
8579                 oldpde = *pde;
8580                 if ((oldpde & PG_V) == 0)
8581                         continue;
8582                 else if ((oldpde & PG_PS) != 0) {
8583                         if ((oldpde & PG_MANAGED) == 0)
8584                                 continue;
8585                         lock = NULL;
8586                         if (!pmap_demote_pde_locked(pmap, pde, sva, &lock)) {
8587                                 if (lock != NULL)
8588                                         rw_wunlock(lock);
8589
8590                                 /*
8591                                  * The large page mapping was destroyed.
8592                                  */
8593                                 continue;
8594                         }
8595
8596                         /*
8597                          * Unless the page mappings are wired, remove the
8598                          * mapping to a single page so that a subsequent
8599                          * access may repromote.  Choosing the last page
8600                          * within the address range [sva, min(va_next, eva))
8601                          * generally results in more repromotions.  Since the
8602                          * underlying page table page is fully populated, this
8603                          * removal never frees a page table page.
8604                          */
8605                         if ((oldpde & PG_W) == 0) {
8606                                 va = eva;
8607                                 if (va > va_next)
8608                                         va = va_next;
8609                                 va -= PAGE_SIZE;
8610                                 KASSERT(va >= sva,
8611                                     ("pmap_advise: no address gap"));
8612                                 pte = pmap_pde_to_pte(pde, va);
8613                                 KASSERT((*pte & PG_V) != 0,
8614                                     ("pmap_advise: invalid PTE"));
8615                                 pmap_remove_pte(pmap, pte, va, *pde, NULL,
8616                                     &lock);
8617                                 anychanged = true;
8618                         }
8619                         if (lock != NULL)
8620                                 rw_wunlock(lock);
8621                 }
8622                 if (va_next > eva)
8623                         va_next = eva;
8624                 va = va_next;
8625                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
8626                     sva += PAGE_SIZE) {
8627                         if ((*pte & (PG_MANAGED | PG_V)) != (PG_MANAGED | PG_V))
8628                                 goto maybe_invlrng;
8629                         else if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
8630                                 if (advice == MADV_DONTNEED) {
8631                                         /*
8632                                          * Future calls to pmap_is_modified()
8633                                          * can be avoided by making the page
8634                                          * dirty now.
8635                                          */
8636                                         m = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
8637                                         vm_page_dirty(m);
8638                                 }
8639                                 atomic_clear_long(pte, PG_M | PG_A);
8640                         } else if ((*pte & PG_A) != 0)
8641                                 atomic_clear_long(pte, PG_A);
8642                         else
8643                                 goto maybe_invlrng;
8644
8645                         if ((*pte & PG_G) != 0) {
8646                                 if (va == va_next)
8647                                         va = sva;
8648                         } else
8649                                 anychanged = true;
8650                         continue;
8651 maybe_invlrng:
8652                         if (va != va_next) {
8653                                 pmap_invalidate_range(pmap, va, sva);
8654                                 va = va_next;
8655                         }
8656                 }
8657                 if (va != va_next)
8658                         pmap_invalidate_range(pmap, va, sva);
8659         }
8660         if (anychanged)
8661                 pmap_invalidate_all(pmap);
8662         PMAP_UNLOCK(pmap);
8663         pmap_delayed_invl_finish();
8664 }
8665
8666 /*
8667  *      Clear the modify bits on the specified physical page.
8668  */
8669 void
8670 pmap_clear_modify(vm_page_t m)
8671 {
8672         struct md_page *pvh;
8673         pmap_t pmap;
8674         pv_entry_t next_pv, pv;
8675         pd_entry_t oldpde, *pde;
8676         pt_entry_t *pte, PG_M, PG_RW;
8677         struct rwlock *lock;
8678         vm_offset_t va;
8679         int md_gen, pvh_gen;
8680
8681         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
8682             ("pmap_clear_modify: page %p is not managed", m));
8683         vm_page_assert_busied(m);
8684
8685         if (!pmap_page_is_write_mapped(m))
8686                 return;
8687         pvh = (m->flags & PG_FICTITIOUS) != 0 ? &pv_dummy :
8688             pa_to_pvh(VM_PAGE_TO_PHYS(m));
8689         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
8690         rw_wlock(lock);
8691 restart:
8692         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_next, next_pv) {
8693                 pmap = PV_PMAP(pv);
8694                 if (!PMAP_TRYLOCK(pmap)) {
8695                         pvh_gen = pvh->pv_gen;
8696                         rw_wunlock(lock);
8697                         PMAP_LOCK(pmap);
8698                         rw_wlock(lock);
8699                         if (pvh_gen != pvh->pv_gen) {
8700                                 PMAP_UNLOCK(pmap);
8701                                 goto restart;
8702                         }
8703                 }
8704                 PG_M = pmap_modified_bit(pmap);
8705                 PG_RW = pmap_rw_bit(pmap);
8706                 va = pv->pv_va;
8707                 pde = pmap_pde(pmap, va);
8708                 oldpde = *pde;
8709                 /* If oldpde has PG_RW set, then it also has PG_M set. */
8710                 if ((oldpde & PG_RW) != 0 &&
8711                     pmap_demote_pde_locked(pmap, pde, va, &lock) &&
8712                     (oldpde & PG_W) == 0) {
8713                         /*
8714                          * Write protect the mapping to a single page so that
8715                          * a subsequent write access may repromote.
8716                          */
8717                         va += VM_PAGE_TO_PHYS(m) - (oldpde & PG_PS_FRAME);
8718                         pte = pmap_pde_to_pte(pde, va);
8719                         atomic_clear_long(pte, PG_M | PG_RW);
8720                         vm_page_dirty(m);
8721                         pmap_invalidate_page(pmap, va);
8722                 }
8723                 PMAP_UNLOCK(pmap);
8724         }
8725         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
8726                 pmap = PV_PMAP(pv);
8727                 if (!PMAP_TRYLOCK(pmap)) {
8728                         md_gen = m->md.pv_gen;
8729                         pvh_gen = pvh->pv_gen;
8730                         rw_wunlock(lock);
8731                         PMAP_LOCK(pmap);
8732                         rw_wlock(lock);
8733                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
8734                                 PMAP_UNLOCK(pmap);
8735                                 goto restart;
8736                         }
8737                 }
8738                 PG_M = pmap_modified_bit(pmap);
8739                 PG_RW = pmap_rw_bit(pmap);
8740                 pde = pmap_pde(pmap, pv->pv_va);
8741                 KASSERT((*pde & PG_PS) == 0, ("pmap_clear_modify: found"
8742                     " a 2mpage in page %p's pv list", m));
8743                 pte = pmap_pde_to_pte(pde, pv->pv_va);
8744                 if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
8745                         atomic_clear_long(pte, PG_M);
8746                         pmap_invalidate_page(pmap, pv->pv_va);
8747                 }
8748                 PMAP_UNLOCK(pmap);
8749         }
8750         rw_wunlock(lock);
8751 }
8752
8753 /*
8754  * Miscellaneous support routines follow
8755  */
8756
8757 /* Adjust the properties for a leaf page table entry. */
8758 static __inline void
8759 pmap_pte_props(pt_entry_t *pte, u_long bits, u_long mask)
8760 {
8761         u_long opte, npte;
8762
8763         opte = *(u_long *)pte;
8764         do {
8765                 npte = opte & ~mask;
8766                 npte |= bits;
8767         } while (npte != opte && !atomic_fcmpset_long((u_long *)pte, &opte,
8768             npte));
8769 }
8770
8771 /*
8772  * Map a set of physical memory pages into the kernel virtual
8773  * address space. Return a pointer to where it is mapped. This
8774  * routine is intended to be used for mapping device memory,
8775  * NOT real memory.
8776  */
8777 static void *
8778 pmap_mapdev_internal(vm_paddr_t pa, vm_size_t size, int mode, int flags)
8779 {
8780         struct pmap_preinit_mapping *ppim;
8781         vm_offset_t va, offset;
8782         vm_size_t tmpsize;
8783         int i;
8784
8785         offset = pa & PAGE_MASK;
8786         size = round_page(offset + size);
8787         pa = trunc_page(pa);
8788
8789         if (!pmap_initialized) {
8790                 va = 0;
8791                 for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
8792                         ppim = pmap_preinit_mapping + i;
8793                         if (ppim->va == 0) {
8794                                 ppim->pa = pa;
8795                                 ppim->sz = size;
8796                                 ppim->mode = mode;
8797                                 ppim->va = virtual_avail;
8798                                 virtual_avail += size;
8799                                 va = ppim->va;
8800                                 break;
8801                         }
8802                 }
8803                 if (va == 0)
8804                         panic("%s: too many preinit mappings", __func__);
8805         } else {
8806                 /*
8807                  * If we have a preinit mapping, re-use it.
8808                  */
8809                 for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
8810                         ppim = pmap_preinit_mapping + i;
8811                         if (ppim->pa == pa && ppim->sz == size &&
8812                             (ppim->mode == mode ||
8813                             (flags & MAPDEV_SETATTR) == 0))
8814                                 return ((void *)(ppim->va + offset));
8815                 }
8816                 /*
8817                  * If the specified range of physical addresses fits within
8818                  * the direct map window, use the direct map.
8819                  */
8820                 if (pa < dmaplimit && pa + size <= dmaplimit) {
8821                         va = PHYS_TO_DMAP(pa);
8822                         if ((flags & MAPDEV_SETATTR) != 0) {
8823                                 PMAP_LOCK(kernel_pmap);
8824                                 i = pmap_change_props_locked(va, size,
8825                                     PROT_NONE, mode, flags);
8826                                 PMAP_UNLOCK(kernel_pmap);
8827                         } else
8828                                 i = 0;
8829                         if (!i)
8830                                 return ((void *)(va + offset));
8831                 }
8832                 va = kva_alloc(size);
8833                 if (va == 0)
8834                         panic("%s: Couldn't allocate KVA", __func__);
8835         }
8836         for (tmpsize = 0; tmpsize < size; tmpsize += PAGE_SIZE)
8837                 pmap_kenter_attr(va + tmpsize, pa + tmpsize, mode);
8838         pmap_invalidate_range(kernel_pmap, va, va + tmpsize);
8839         if ((flags & MAPDEV_FLUSHCACHE) != 0)
8840                 pmap_invalidate_cache_range(va, va + tmpsize);
8841         return ((void *)(va + offset));
8842 }
8843
8844 void *
8845 pmap_mapdev_attr(vm_paddr_t pa, vm_size_t size, int mode)
8846 {
8847
8848         return (pmap_mapdev_internal(pa, size, mode, MAPDEV_FLUSHCACHE |
8849             MAPDEV_SETATTR));
8850 }
8851
8852 void *
8853 pmap_mapdev(vm_paddr_t pa, vm_size_t size)
8854 {
8855
8856         return (pmap_mapdev_attr(pa, size, PAT_UNCACHEABLE));
8857 }
8858
8859 void *
8860 pmap_mapdev_pciecfg(vm_paddr_t pa, vm_size_t size)
8861 {
8862
8863         return (pmap_mapdev_internal(pa, size, PAT_UNCACHEABLE,
8864             MAPDEV_SETATTR));
8865 }
8866
8867 void *
8868 pmap_mapbios(vm_paddr_t pa, vm_size_t size)
8869 {
8870
8871         return (pmap_mapdev_internal(pa, size, PAT_WRITE_BACK,
8872             MAPDEV_FLUSHCACHE));
8873 }
8874
8875 void
8876 pmap_unmapdev(vm_offset_t va, vm_size_t size)
8877 {
8878         struct pmap_preinit_mapping *ppim;
8879         vm_offset_t offset;
8880         int i;
8881
8882         /* If we gave a direct map region in pmap_mapdev, do nothing */
8883         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS)
8884                 return;
8885         offset = va & PAGE_MASK;
8886         size = round_page(offset + size);
8887         va = trunc_page(va);
8888         for (i = 0; i < PMAP_PREINIT_MAPPING_COUNT; i++) {
8889                 ppim = pmap_preinit_mapping + i;
8890                 if (ppim->va == va && ppim->sz == size) {
8891                         if (pmap_initialized)
8892                                 return;
8893                         ppim->pa = 0;
8894                         ppim->va = 0;
8895                         ppim->sz = 0;
8896                         ppim->mode = 0;
8897                         if (va + size == virtual_avail)
8898                                 virtual_avail = va;
8899                         return;
8900                 }
8901         }
8902         if (pmap_initialized) {
8903                 pmap_qremove(va, atop(size));
8904                 kva_free(va, size);
8905         }
8906 }
8907
8908 /*
8909  * Tries to demote a 1GB page mapping.
8910  */
8911 static boolean_t
8912 pmap_demote_pdpe(pmap_t pmap, pdp_entry_t *pdpe, vm_offset_t va)
8913 {
8914         pdp_entry_t newpdpe, oldpdpe;
8915         pd_entry_t *firstpde, newpde, *pde;
8916         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
8917         vm_paddr_t pdpgpa;
8918         vm_page_t pdpg;
8919
8920         PG_A = pmap_accessed_bit(pmap);
8921         PG_M = pmap_modified_bit(pmap);
8922         PG_V = pmap_valid_bit(pmap);
8923         PG_RW = pmap_rw_bit(pmap);
8924
8925         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
8926         oldpdpe = *pdpe;
8927         KASSERT((oldpdpe & (PG_PS | PG_V)) == (PG_PS | PG_V),
8928             ("pmap_demote_pdpe: oldpdpe is missing PG_PS and/or PG_V"));
8929         if ((pdpg = vm_page_alloc(NULL, va >> PDPSHIFT, VM_ALLOC_INTERRUPT |
8930             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED)) == NULL) {
8931                 CTR2(KTR_PMAP, "pmap_demote_pdpe: failure for va %#lx"
8932                     " in pmap %p", va, pmap);
8933                 return (FALSE);
8934         }
8935         pdpgpa = VM_PAGE_TO_PHYS(pdpg);
8936         firstpde = (pd_entry_t *)PHYS_TO_DMAP(pdpgpa);
8937         newpdpe = pdpgpa | PG_M | PG_A | (oldpdpe & PG_U) | PG_RW | PG_V;
8938         KASSERT((oldpdpe & PG_A) != 0,
8939             ("pmap_demote_pdpe: oldpdpe is missing PG_A"));
8940         KASSERT((oldpdpe & (PG_M | PG_RW)) != PG_RW,
8941             ("pmap_demote_pdpe: oldpdpe is missing PG_M"));
8942         newpde = oldpdpe;
8943
8944         /*
8945          * Initialize the page directory page.
8946          */
8947         for (pde = firstpde; pde < firstpde + NPDEPG; pde++) {
8948                 *pde = newpde;
8949                 newpde += NBPDR;
8950         }
8951
8952         /*
8953          * Demote the mapping.
8954          */
8955         *pdpe = newpdpe;
8956
8957         /*
8958          * Invalidate a stale recursive mapping of the page directory page.
8959          */
8960         pmap_invalidate_page(pmap, (vm_offset_t)vtopde(va));
8961
8962         pmap_pdpe_demotions++;
8963         CTR2(KTR_PMAP, "pmap_demote_pdpe: success for va %#lx"
8964             " in pmap %p", va, pmap);
8965         return (TRUE);
8966 }
8967
8968 /*
8969  * Sets the memory attribute for the specified page.
8970  */
8971 void
8972 pmap_page_set_memattr(vm_page_t m, vm_memattr_t ma)
8973 {
8974
8975         m->md.pat_mode = ma;
8976
8977         /*
8978          * If "m" is a normal page, update its direct mapping.  This update
8979          * can be relied upon to perform any cache operations that are
8980          * required for data coherence.
8981          */
8982         if ((m->flags & PG_FICTITIOUS) == 0 &&
8983             pmap_change_attr(PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m)), PAGE_SIZE,
8984             m->md.pat_mode))
8985                 panic("memory attribute change on the direct map failed");
8986 }
8987
8988 /*
8989  * Changes the specified virtual address range's memory type to that given by
8990  * the parameter "mode".  The specified virtual address range must be
8991  * completely contained within either the direct map or the kernel map.  If
8992  * the virtual address range is contained within the kernel map, then the
8993  * memory type for each of the corresponding ranges of the direct map is also
8994  * changed.  (The corresponding ranges of the direct map are those ranges that
8995  * map the same physical pages as the specified virtual address range.)  These
8996  * changes to the direct map are necessary because Intel describes the
8997  * behavior of their processors as "undefined" if two or more mappings to the
8998  * same physical page have different memory types.
8999  *
9000  * Returns zero if the change completed successfully, and either EINVAL or
9001  * ENOMEM if the change failed.  Specifically, EINVAL is returned if some part
9002  * of the virtual address range was not mapped, and ENOMEM is returned if
9003  * there was insufficient memory available to complete the change.  In the
9004  * latter case, the memory type may have been changed on some part of the
9005  * virtual address range or the direct map.
9006  */
9007 int
9008 pmap_change_attr(vm_offset_t va, vm_size_t size, int mode)
9009 {
9010         int error;
9011
9012         PMAP_LOCK(kernel_pmap);
9013         error = pmap_change_props_locked(va, size, PROT_NONE, mode,
9014             MAPDEV_FLUSHCACHE);
9015         PMAP_UNLOCK(kernel_pmap);
9016         return (error);
9017 }
9018
9019 /*
9020  * Changes the specified virtual address range's protections to those
9021  * specified by "prot".  Like pmap_change_attr(), protections for aliases
9022  * in the direct map are updated as well.  Protections on aliasing mappings may
9023  * be a subset of the requested protections; for example, mappings in the direct
9024  * map are never executable.
9025  */
9026 int
9027 pmap_change_prot(vm_offset_t va, vm_size_t size, vm_prot_t prot)
9028 {
9029         int error;
9030
9031         /* Only supported within the kernel map. */
9032         if (va < VM_MIN_KERNEL_ADDRESS)
9033                 return (EINVAL);
9034
9035         PMAP_LOCK(kernel_pmap);
9036         error = pmap_change_props_locked(va, size, prot, -1,
9037             MAPDEV_ASSERTVALID);
9038         PMAP_UNLOCK(kernel_pmap);
9039         return (error);
9040 }
9041
9042 static int
9043 pmap_change_props_locked(vm_offset_t va, vm_size_t size, vm_prot_t prot,
9044     int mode, int flags)
9045 {
9046         vm_offset_t base, offset, tmpva;
9047         vm_paddr_t pa_start, pa_end, pa_end1;
9048         pdp_entry_t *pdpe;
9049         pd_entry_t *pde, pde_bits, pde_mask;
9050         pt_entry_t *pte, pte_bits, pte_mask;
9051         int error;
9052         bool changed;
9053
9054         PMAP_LOCK_ASSERT(kernel_pmap, MA_OWNED);
9055         base = trunc_page(va);
9056         offset = va & PAGE_MASK;
9057         size = round_page(offset + size);
9058
9059         /*
9060          * Only supported on kernel virtual addresses, including the direct
9061          * map but excluding the recursive map.
9062          */
9063         if (base < DMAP_MIN_ADDRESS)
9064                 return (EINVAL);
9065
9066         /*
9067          * Construct our flag sets and masks.  "bits" is the subset of
9068          * "mask" that will be set in each modified PTE.
9069          *
9070          * Mappings in the direct map are never allowed to be executable.
9071          */
9072         pde_bits = pte_bits = 0;
9073         pde_mask = pte_mask = 0;
9074         if (mode != -1) {
9075                 pde_bits |= pmap_cache_bits(kernel_pmap, mode, true);
9076                 pde_mask |= X86_PG_PDE_CACHE;
9077                 pte_bits |= pmap_cache_bits(kernel_pmap, mode, false);
9078                 pte_mask |= X86_PG_PTE_CACHE;
9079         }
9080         if (prot != VM_PROT_NONE) {
9081                 if ((prot & VM_PROT_WRITE) != 0) {
9082                         pde_bits |= X86_PG_RW;
9083                         pte_bits |= X86_PG_RW;
9084                 }
9085                 if ((prot & VM_PROT_EXECUTE) == 0 ||
9086                     va < VM_MIN_KERNEL_ADDRESS) {
9087                         pde_bits |= pg_nx;
9088                         pte_bits |= pg_nx;
9089                 }
9090                 pde_mask |= X86_PG_RW | pg_nx;
9091                 pte_mask |= X86_PG_RW | pg_nx;
9092         }
9093
9094         /*
9095          * Pages that aren't mapped aren't supported.  Also break down 2MB pages
9096          * into 4KB pages if required.
9097          */
9098         for (tmpva = base; tmpva < base + size; ) {
9099                 pdpe = pmap_pdpe(kernel_pmap, tmpva);
9100                 if (pdpe == NULL || *pdpe == 0) {
9101                         KASSERT((flags & MAPDEV_ASSERTVALID) == 0,
9102                             ("%s: addr %#lx is not mapped", __func__, tmpva));
9103                         return (EINVAL);
9104                 }
9105                 if (*pdpe & PG_PS) {
9106                         /*
9107                          * If the current 1GB page already has the required
9108                          * properties, then we need not demote this page.  Just
9109                          * increment tmpva to the next 1GB page frame.
9110                          */
9111                         if ((*pdpe & pde_mask) == pde_bits) {
9112                                 tmpva = trunc_1gpage(tmpva) + NBPDP;
9113                                 continue;
9114                         }
9115
9116                         /*
9117                          * If the current offset aligns with a 1GB page frame
9118                          * and there is at least 1GB left within the range, then
9119                          * we need not break down this page into 2MB pages.
9120                          */
9121                         if ((tmpva & PDPMASK) == 0 &&
9122                             tmpva + PDPMASK < base + size) {
9123                                 tmpva += NBPDP;
9124                                 continue;
9125                         }
9126                         if (!pmap_demote_pdpe(kernel_pmap, pdpe, tmpva))
9127                                 return (ENOMEM);
9128                 }
9129                 pde = pmap_pdpe_to_pde(pdpe, tmpva);
9130                 if (*pde == 0) {
9131                         KASSERT((flags & MAPDEV_ASSERTVALID) == 0,
9132                             ("%s: addr %#lx is not mapped", __func__, tmpva));
9133                         return (EINVAL);
9134                 }
9135                 if (*pde & PG_PS) {
9136                         /*
9137                          * If the current 2MB page already has the required
9138                          * properties, then we need not demote this page.  Just
9139                          * increment tmpva to the next 2MB page frame.
9140                          */
9141                         if ((*pde & pde_mask) == pde_bits) {
9142                                 tmpva = trunc_2mpage(tmpva) + NBPDR;
9143                                 continue;
9144                         }
9145
9146                         /*
9147                          * If the current offset aligns with a 2MB page frame
9148                          * and there is at least 2MB left within the range, then
9149                          * we need not break down this page into 4KB pages.
9150                          */
9151                         if ((tmpva & PDRMASK) == 0 &&
9152                             tmpva + PDRMASK < base + size) {
9153                                 tmpva += NBPDR;
9154                                 continue;
9155                         }
9156                         if (!pmap_demote_pde(kernel_pmap, pde, tmpva))
9157                                 return (ENOMEM);
9158                 }
9159                 pte = pmap_pde_to_pte(pde, tmpva);
9160                 if (*pte == 0) {
9161                         KASSERT((flags & MAPDEV_ASSERTVALID) == 0,
9162                             ("%s: addr %#lx is not mapped", __func__, tmpva));
9163                         return (EINVAL);
9164                 }
9165                 tmpva += PAGE_SIZE;
9166         }
9167         error = 0;
9168
9169         /*
9170          * Ok, all the pages exist, so run through them updating their
9171          * properties if required.
9172          */
9173         changed = false;
9174         pa_start = pa_end = 0;
9175         for (tmpva = base; tmpva < base + size; ) {
9176                 pdpe = pmap_pdpe(kernel_pmap, tmpva);
9177                 if (*pdpe & PG_PS) {
9178                         if ((*pdpe & pde_mask) != pde_bits) {
9179                                 pmap_pte_props(pdpe, pde_bits, pde_mask);
9180                                 changed = true;
9181                         }
9182                         if (tmpva >= VM_MIN_KERNEL_ADDRESS &&
9183                             (*pdpe & PG_PS_FRAME) < dmaplimit) {
9184                                 if (pa_start == pa_end) {
9185                                         /* Start physical address run. */
9186                                         pa_start = *pdpe & PG_PS_FRAME;
9187                                         pa_end = pa_start + NBPDP;
9188                                 } else if (pa_end == (*pdpe & PG_PS_FRAME))
9189                                         pa_end += NBPDP;
9190                                 else {
9191                                         /* Run ended, update direct map. */
9192                                         error = pmap_change_props_locked(
9193                                             PHYS_TO_DMAP(pa_start),
9194                                             pa_end - pa_start, prot, mode,
9195                                             flags);
9196                                         if (error != 0)
9197                                                 break;
9198                                         /* Start physical address run. */
9199                                         pa_start = *pdpe & PG_PS_FRAME;
9200                                         pa_end = pa_start + NBPDP;
9201                                 }
9202                         }
9203                         tmpva = trunc_1gpage(tmpva) + NBPDP;
9204                         continue;
9205                 }
9206                 pde = pmap_pdpe_to_pde(pdpe, tmpva);
9207                 if (*pde & PG_PS) {
9208                         if ((*pde & pde_mask) != pde_bits) {
9209                                 pmap_pte_props(pde, pde_bits, pde_mask);
9210                                 changed = true;
9211                         }
9212                         if (tmpva >= VM_MIN_KERNEL_ADDRESS &&
9213                             (*pde & PG_PS_FRAME) < dmaplimit) {
9214                                 if (pa_start == pa_end) {
9215                                         /* Start physical address run. */
9216                                         pa_start = *pde & PG_PS_FRAME;
9217                                         pa_end = pa_start + NBPDR;
9218                                 } else if (pa_end == (*pde & PG_PS_FRAME))
9219                                         pa_end += NBPDR;
9220                                 else {
9221                                         /* Run ended, update direct map. */
9222                                         error = pmap_change_props_locked(
9223                                             PHYS_TO_DMAP(pa_start),
9224                                             pa_end - pa_start, prot, mode,
9225                                             flags);
9226                                         if (error != 0)
9227                                                 break;
9228                                         /* Start physical address run. */
9229                                         pa_start = *pde & PG_PS_FRAME;
9230                                         pa_end = pa_start + NBPDR;
9231                                 }
9232                         }
9233                         tmpva = trunc_2mpage(tmpva) + NBPDR;
9234                 } else {
9235                         pte = pmap_pde_to_pte(pde, tmpva);
9236                         if ((*pte & pte_mask) != pte_bits) {
9237                                 pmap_pte_props(pte, pte_bits, pte_mask);
9238                                 changed = true;
9239                         }
9240                         if (tmpva >= VM_MIN_KERNEL_ADDRESS &&
9241                             (*pte & PG_FRAME) < dmaplimit) {
9242                                 if (pa_start == pa_end) {
9243                                         /* Start physical address run. */
9244                                         pa_start = *pte & PG_FRAME;
9245                                         pa_end = pa_start + PAGE_SIZE;
9246                                 } else if (pa_end == (*pte & PG_FRAME))
9247                                         pa_end += PAGE_SIZE;
9248                                 else {
9249                                         /* Run ended, update direct map. */
9250                                         error = pmap_change_props_locked(
9251                                             PHYS_TO_DMAP(pa_start),
9252                                             pa_end - pa_start, prot, mode,
9253                                             flags);
9254                                         if (error != 0)
9255                                                 break;
9256                                         /* Start physical address run. */
9257                                         pa_start = *pte & PG_FRAME;
9258                                         pa_end = pa_start + PAGE_SIZE;
9259                                 }
9260                         }
9261                         tmpva += PAGE_SIZE;
9262                 }
9263         }
9264         if (error == 0 && pa_start != pa_end && pa_start < dmaplimit) {
9265                 pa_end1 = MIN(pa_end, dmaplimit);
9266                 if (pa_start != pa_end1)
9267                         error = pmap_change_props_locked(PHYS_TO_DMAP(pa_start),
9268                             pa_end1 - pa_start, prot, mode, flags);
9269         }
9270
9271         /*
9272          * Flush CPU caches if required to make sure any data isn't cached that
9273          * shouldn't be, etc.
9274          */
9275         if (changed) {
9276                 pmap_invalidate_range(kernel_pmap, base, tmpva);
9277                 if ((flags & MAPDEV_FLUSHCACHE) != 0)
9278                         pmap_invalidate_cache_range(base, tmpva);
9279         }
9280         return (error);
9281 }
9282
9283 /*
9284  * Demotes any mapping within the direct map region that covers more than the
9285  * specified range of physical addresses.  This range's size must be a power
9286  * of two and its starting address must be a multiple of its size.  Since the
9287  * demotion does not change any attributes of the mapping, a TLB invalidation
9288  * is not mandatory.  The caller may, however, request a TLB invalidation.
9289  */
9290 void
9291 pmap_demote_DMAP(vm_paddr_t base, vm_size_t len, boolean_t invalidate)
9292 {
9293         pdp_entry_t *pdpe;
9294         pd_entry_t *pde;
9295         vm_offset_t va;
9296         boolean_t changed;
9297
9298         if (len == 0)
9299                 return;
9300         KASSERT(powerof2(len), ("pmap_demote_DMAP: len is not a power of 2"));
9301         KASSERT((base & (len - 1)) == 0,
9302             ("pmap_demote_DMAP: base is not a multiple of len"));
9303         if (len < NBPDP && base < dmaplimit) {
9304                 va = PHYS_TO_DMAP(base);
9305                 changed = FALSE;
9306                 PMAP_LOCK(kernel_pmap);
9307                 pdpe = pmap_pdpe(kernel_pmap, va);
9308                 if ((*pdpe & X86_PG_V) == 0)
9309                         panic("pmap_demote_DMAP: invalid PDPE");
9310                 if ((*pdpe & PG_PS) != 0) {
9311                         if (!pmap_demote_pdpe(kernel_pmap, pdpe, va))
9312                                 panic("pmap_demote_DMAP: PDPE failed");
9313                         changed = TRUE;
9314                 }
9315                 if (len < NBPDR) {
9316                         pde = pmap_pdpe_to_pde(pdpe, va);
9317                         if ((*pde & X86_PG_V) == 0)
9318                                 panic("pmap_demote_DMAP: invalid PDE");
9319                         if ((*pde & PG_PS) != 0) {
9320                                 if (!pmap_demote_pde(kernel_pmap, pde, va))
9321                                         panic("pmap_demote_DMAP: PDE failed");
9322                                 changed = TRUE;
9323                         }
9324                 }
9325                 if (changed && invalidate)
9326                         pmap_invalidate_page(kernel_pmap, va);
9327                 PMAP_UNLOCK(kernel_pmap);
9328         }
9329 }
9330
9331 /*
9332  * Perform the pmap work for mincore(2).  If the page is not both referenced and
9333  * modified by this pmap, returns its physical address so that the caller can
9334  * find other mappings.
9335  */
9336 int
9337 pmap_mincore(pmap_t pmap, vm_offset_t addr, vm_paddr_t *pap)
9338 {
9339         pdp_entry_t *pdpe;
9340         pd_entry_t *pdep;
9341         pt_entry_t pte, PG_A, PG_M, PG_RW, PG_V;
9342         vm_paddr_t pa;
9343         int val;
9344
9345         PG_A = pmap_accessed_bit(pmap);
9346         PG_M = pmap_modified_bit(pmap);
9347         PG_V = pmap_valid_bit(pmap);
9348         PG_RW = pmap_rw_bit(pmap);
9349
9350         PMAP_LOCK(pmap);
9351         pte = 0;
9352         pa = 0;
9353         val = 0;
9354         pdpe = pmap_pdpe(pmap, addr);
9355         if ((*pdpe & PG_V) != 0) {
9356                 if ((*pdpe & PG_PS) != 0) {
9357                         pte = *pdpe;
9358                         pa = ((pte & PG_PS_PDP_FRAME) | (addr & PDPMASK)) &
9359                             PG_FRAME;
9360                         val = MINCORE_PSIND(2);
9361                 } else {
9362                         pdep = pmap_pde(pmap, addr);
9363                         if (pdep != NULL && (*pdep & PG_V) != 0) {
9364                                 if ((*pdep & PG_PS) != 0) {
9365                                         pte = *pdep;
9366                         /* Compute the physical address of the 4KB page. */
9367                                         pa = ((pte & PG_PS_FRAME) | (addr &
9368                                             PDRMASK)) & PG_FRAME;
9369                                         val = MINCORE_PSIND(1);
9370                                 } else {
9371                                         pte = *pmap_pde_to_pte(pdep, addr);
9372                                         pa = pte & PG_FRAME;
9373                                         val = 0;
9374                                 }
9375                         }
9376                 }
9377         }
9378         if ((pte & PG_V) != 0) {
9379                 val |= MINCORE_INCORE;
9380                 if ((pte & (PG_M | PG_RW)) == (PG_M | PG_RW))
9381                         val |= MINCORE_MODIFIED | MINCORE_MODIFIED_OTHER;
9382                 if ((pte & PG_A) != 0)
9383                         val |= MINCORE_REFERENCED | MINCORE_REFERENCED_OTHER;
9384         }
9385         if ((val & (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER)) !=
9386             (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER) &&
9387             (pte & (PG_MANAGED | PG_V)) == (PG_MANAGED | PG_V)) {
9388                 *pap = pa;
9389         }
9390         PMAP_UNLOCK(pmap);
9391         return (val);
9392 }
9393
9394 static uint64_t
9395 pmap_pcid_alloc(pmap_t pmap, u_int cpuid)
9396 {
9397         uint32_t gen, new_gen, pcid_next;
9398
9399         CRITICAL_ASSERT(curthread);
9400         gen = PCPU_GET(pcid_gen);
9401         if (pmap->pm_pcids[cpuid].pm_pcid == PMAP_PCID_KERN)
9402                 return (pti ? 0 : CR3_PCID_SAVE);
9403         if (pmap->pm_pcids[cpuid].pm_gen == gen)
9404                 return (CR3_PCID_SAVE);
9405         pcid_next = PCPU_GET(pcid_next);
9406         KASSERT((!pti && pcid_next <= PMAP_PCID_OVERMAX) ||
9407             (pti && pcid_next <= PMAP_PCID_OVERMAX_KERN),
9408             ("cpu %d pcid_next %#x", cpuid, pcid_next));
9409         if ((!pti && pcid_next == PMAP_PCID_OVERMAX) ||
9410             (pti && pcid_next == PMAP_PCID_OVERMAX_KERN)) {
9411                 new_gen = gen + 1;
9412                 if (new_gen == 0)
9413                         new_gen = 1;
9414                 PCPU_SET(pcid_gen, new_gen);
9415                 pcid_next = PMAP_PCID_KERN + 1;
9416         } else {
9417                 new_gen = gen;
9418         }
9419         pmap->pm_pcids[cpuid].pm_pcid = pcid_next;
9420         pmap->pm_pcids[cpuid].pm_gen = new_gen;
9421         PCPU_SET(pcid_next, pcid_next + 1);
9422         return (0);
9423 }
9424
9425 static uint64_t
9426 pmap_pcid_alloc_checked(pmap_t pmap, u_int cpuid)
9427 {
9428         uint64_t cached;
9429
9430         cached = pmap_pcid_alloc(pmap, cpuid);
9431         KASSERT(pmap->pm_pcids[cpuid].pm_pcid < PMAP_PCID_OVERMAX,
9432             ("pmap %p cpu %d pcid %#x", pmap, cpuid,
9433             pmap->pm_pcids[cpuid].pm_pcid));
9434         KASSERT(pmap->pm_pcids[cpuid].pm_pcid != PMAP_PCID_KERN ||
9435             pmap == kernel_pmap,
9436             ("non-kernel pmap pmap %p cpu %d pcid %#x",
9437             pmap, cpuid, pmap->pm_pcids[cpuid].pm_pcid));
9438         return (cached);
9439 }
9440
9441 static void
9442 pmap_activate_sw_pti_post(struct thread *td, pmap_t pmap)
9443 {
9444
9445         PCPU_GET(tssp)->tss_rsp0 = pmap->pm_ucr3 != PMAP_NO_CR3 ?
9446             PCPU_GET(pti_rsp0) : (uintptr_t)td->td_md.md_stack_base;
9447 }
9448
9449 static void
9450 pmap_activate_sw_pcid_pti(struct thread *td, pmap_t pmap, u_int cpuid)
9451 {
9452         pmap_t old_pmap;
9453         uint64_t cached, cr3, kcr3, ucr3;
9454
9455         KASSERT((read_rflags() & PSL_I) == 0,
9456             ("PCID needs interrupts disabled in pmap_activate_sw()"));
9457
9458         /* See the comment in pmap_invalidate_page_pcid(). */
9459         if (PCPU_GET(ucr3_load_mask) != PMAP_UCR3_NOMASK) {
9460                 PCPU_SET(ucr3_load_mask, PMAP_UCR3_NOMASK);
9461                 old_pmap = PCPU_GET(curpmap);
9462                 MPASS(old_pmap->pm_ucr3 != PMAP_NO_CR3);
9463                 old_pmap->pm_pcids[cpuid].pm_gen = 0;
9464         }
9465
9466         cached = pmap_pcid_alloc_checked(pmap, cpuid);
9467         cr3 = rcr3();
9468         if ((cr3 & ~CR3_PCID_MASK) != pmap->pm_cr3)
9469                 load_cr3(pmap->pm_cr3 | pmap->pm_pcids[cpuid].pm_pcid);
9470         PCPU_SET(curpmap, pmap);
9471         kcr3 = pmap->pm_cr3 | pmap->pm_pcids[cpuid].pm_pcid;
9472         ucr3 = pmap->pm_ucr3 | pmap->pm_pcids[cpuid].pm_pcid |
9473             PMAP_PCID_USER_PT;
9474
9475         if (!cached && pmap->pm_ucr3 != PMAP_NO_CR3)
9476                 PCPU_SET(ucr3_load_mask, ~CR3_PCID_SAVE);
9477
9478         PCPU_SET(kcr3, kcr3 | CR3_PCID_SAVE);
9479         PCPU_SET(ucr3, ucr3 | CR3_PCID_SAVE);
9480         if (cached)
9481                 PCPU_INC(pm_save_cnt);
9482
9483         pmap_activate_sw_pti_post(td, pmap);
9484 }
9485
9486 static void
9487 pmap_activate_sw_pcid_nopti(struct thread *td __unused, pmap_t pmap,
9488     u_int cpuid)
9489 {
9490         uint64_t cached, cr3;
9491
9492         KASSERT((read_rflags() & PSL_I) == 0,
9493             ("PCID needs interrupts disabled in pmap_activate_sw()"));
9494
9495         cached = pmap_pcid_alloc_checked(pmap, cpuid);
9496         cr3 = rcr3();
9497         if (!cached || (cr3 & ~CR3_PCID_MASK) != pmap->pm_cr3)
9498                 load_cr3(pmap->pm_cr3 | pmap->pm_pcids[cpuid].pm_pcid |
9499                     cached);
9500         PCPU_SET(curpmap, pmap);
9501         if (cached)
9502                 PCPU_INC(pm_save_cnt);
9503 }
9504
9505 static void
9506 pmap_activate_sw_nopcid_nopti(struct thread *td __unused, pmap_t pmap,
9507     u_int cpuid __unused)
9508 {
9509
9510         load_cr3(pmap->pm_cr3);
9511         PCPU_SET(curpmap, pmap);
9512 }
9513
9514 static void
9515 pmap_activate_sw_nopcid_pti(struct thread *td, pmap_t pmap,
9516     u_int cpuid __unused)
9517 {
9518
9519         pmap_activate_sw_nopcid_nopti(td, pmap, cpuid);
9520         PCPU_SET(kcr3, pmap->pm_cr3);
9521         PCPU_SET(ucr3, pmap->pm_ucr3);
9522         pmap_activate_sw_pti_post(td, pmap);
9523 }
9524
9525 DEFINE_IFUNC(static, void, pmap_activate_sw_mode, (struct thread *, pmap_t,
9526     u_int))
9527 {
9528
9529         if (pmap_pcid_enabled && pti)
9530                 return (pmap_activate_sw_pcid_pti);
9531         else if (pmap_pcid_enabled && !pti)
9532                 return (pmap_activate_sw_pcid_nopti);
9533         else if (!pmap_pcid_enabled && pti)
9534                 return (pmap_activate_sw_nopcid_pti);
9535         else /* if (!pmap_pcid_enabled && !pti) */
9536                 return (pmap_activate_sw_nopcid_nopti);
9537 }
9538
9539 void
9540 pmap_activate_sw(struct thread *td)
9541 {
9542         pmap_t oldpmap, pmap;
9543         u_int cpuid;
9544
9545         oldpmap = PCPU_GET(curpmap);
9546         pmap = vmspace_pmap(td->td_proc->p_vmspace);
9547         if (oldpmap == pmap) {
9548                 if (cpu_vendor_id != CPU_VENDOR_INTEL)
9549                         mfence();
9550                 return;
9551         }
9552         cpuid = PCPU_GET(cpuid);
9553 #ifdef SMP
9554         CPU_SET_ATOMIC(cpuid, &pmap->pm_active);
9555 #else
9556         CPU_SET(cpuid, &pmap->pm_active);
9557 #endif
9558         pmap_activate_sw_mode(td, pmap, cpuid);
9559 #ifdef SMP
9560         CPU_CLR_ATOMIC(cpuid, &oldpmap->pm_active);
9561 #else
9562         CPU_CLR(cpuid, &oldpmap->pm_active);
9563 #endif
9564 }
9565
9566 void
9567 pmap_activate(struct thread *td)
9568 {
9569         /*
9570          * invltlb_{invpcid,}_pcid_handler() is used to handle an
9571          * invalidate_all IPI, which checks for curpmap ==
9572          * smp_tlb_pmap.  The below sequence of operations has a
9573          * window where %CR3 is loaded with the new pmap's PML4
9574          * address, but the curpmap value has not yet been updated.
9575          * This causes the invltlb IPI handler, which is called
9576          * between the updates, to execute as a NOP, which leaves
9577          * stale TLB entries.
9578          *
9579          * Note that the most common use of pmap_activate_sw(), from
9580          * a context switch, is immune to this race, because
9581          * interrupts are disabled (while the thread lock is owned),
9582          * so the IPI is delayed until after curpmap is updated.  Protect
9583          * other callers in a similar way, by disabling interrupts
9584          * around the %cr3 register reload and curpmap assignment.
9585          */
9586         spinlock_enter();
9587         pmap_activate_sw(td);
9588         spinlock_exit();
9589 }
9590
9591 void
9592 pmap_activate_boot(pmap_t pmap)
9593 {
9594         uint64_t kcr3;
9595         u_int cpuid;
9596
9597         /*
9598          * kernel_pmap must be never deactivated, and we ensure that
9599          * by never activating it at all.
9600          */
9601         MPASS(pmap != kernel_pmap);
9602
9603         cpuid = PCPU_GET(cpuid);
9604 #ifdef SMP
9605         CPU_SET_ATOMIC(cpuid, &pmap->pm_active);
9606 #else
9607         CPU_SET(cpuid, &pmap->pm_active);
9608 #endif
9609         PCPU_SET(curpmap, pmap);
9610         if (pti) {
9611                 kcr3 = pmap->pm_cr3;
9612                 if (pmap_pcid_enabled)
9613                         kcr3 |= pmap->pm_pcids[cpuid].pm_pcid | CR3_PCID_SAVE;
9614         } else {
9615                 kcr3 = PMAP_NO_CR3;
9616         }
9617         PCPU_SET(kcr3, kcr3);
9618         PCPU_SET(ucr3, PMAP_NO_CR3);
9619 }
9620
9621 void
9622 pmap_sync_icache(pmap_t pm, vm_offset_t va, vm_size_t sz)
9623 {
9624 }
9625
9626 /*
9627  *      Increase the starting virtual address of the given mapping if a
9628  *      different alignment might result in more superpage mappings.
9629  */
9630 void
9631 pmap_align_superpage(vm_object_t object, vm_ooffset_t offset,
9632     vm_offset_t *addr, vm_size_t size)
9633 {
9634         vm_offset_t superpage_offset;
9635
9636         if (size < NBPDR)
9637                 return;
9638         if (object != NULL && (object->flags & OBJ_COLORED) != 0)
9639                 offset += ptoa(object->pg_color);
9640         superpage_offset = offset & PDRMASK;
9641         if (size - ((NBPDR - superpage_offset) & PDRMASK) < NBPDR ||
9642             (*addr & PDRMASK) == superpage_offset)
9643                 return;
9644         if ((*addr & PDRMASK) < superpage_offset)
9645                 *addr = (*addr & ~PDRMASK) + superpage_offset;
9646         else
9647                 *addr = ((*addr + PDRMASK) & ~PDRMASK) + superpage_offset;
9648 }
9649
9650 #ifdef INVARIANTS
9651 static unsigned long num_dirty_emulations;
9652 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_dirty_emulations, CTLFLAG_RW,
9653              &num_dirty_emulations, 0, NULL);
9654
9655 static unsigned long num_accessed_emulations;
9656 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_accessed_emulations, CTLFLAG_RW,
9657              &num_accessed_emulations, 0, NULL);
9658
9659 static unsigned long num_superpage_accessed_emulations;
9660 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_superpage_accessed_emulations, CTLFLAG_RW,
9661              &num_superpage_accessed_emulations, 0, NULL);
9662
9663 static unsigned long ad_emulation_superpage_promotions;
9664 SYSCTL_ULONG(_vm_pmap, OID_AUTO, ad_emulation_superpage_promotions, CTLFLAG_RW,
9665              &ad_emulation_superpage_promotions, 0, NULL);
9666 #endif  /* INVARIANTS */
9667
9668 int
9669 pmap_emulate_accessed_dirty(pmap_t pmap, vm_offset_t va, int ftype)
9670 {
9671         int rv;
9672         struct rwlock *lock;
9673 #if VM_NRESERVLEVEL > 0
9674         vm_page_t m, mpte;
9675 #endif
9676         pd_entry_t *pde;
9677         pt_entry_t *pte, PG_A, PG_M, PG_RW, PG_V;
9678
9679         KASSERT(ftype == VM_PROT_READ || ftype == VM_PROT_WRITE,
9680             ("pmap_emulate_accessed_dirty: invalid fault type %d", ftype));
9681
9682         if (!pmap_emulate_ad_bits(pmap))
9683                 return (-1);
9684
9685         PG_A = pmap_accessed_bit(pmap);
9686         PG_M = pmap_modified_bit(pmap);
9687         PG_V = pmap_valid_bit(pmap);
9688         PG_RW = pmap_rw_bit(pmap);
9689
9690         rv = -1;
9691         lock = NULL;
9692         PMAP_LOCK(pmap);
9693
9694         pde = pmap_pde(pmap, va);
9695         if (pde == NULL || (*pde & PG_V) == 0)
9696                 goto done;
9697
9698         if ((*pde & PG_PS) != 0) {
9699                 if (ftype == VM_PROT_READ) {
9700 #ifdef INVARIANTS
9701                         atomic_add_long(&num_superpage_accessed_emulations, 1);
9702 #endif
9703                         *pde |= PG_A;
9704                         rv = 0;
9705                 }
9706                 goto done;
9707         }
9708
9709         pte = pmap_pde_to_pte(pde, va);
9710         if ((*pte & PG_V) == 0)
9711                 goto done;
9712
9713         if (ftype == VM_PROT_WRITE) {
9714                 if ((*pte & PG_RW) == 0)
9715                         goto done;
9716                 /*
9717                  * Set the modified and accessed bits simultaneously.
9718                  *
9719                  * Intel EPT PTEs that do software emulation of A/D bits map
9720                  * PG_A and PG_M to EPT_PG_READ and EPT_PG_WRITE respectively.
9721                  * An EPT misconfiguration is triggered if the PTE is writable
9722                  * but not readable (WR=10). This is avoided by setting PG_A
9723                  * and PG_M simultaneously.
9724                  */
9725                 *pte |= PG_M | PG_A;
9726         } else {
9727                 *pte |= PG_A;
9728         }
9729
9730 #if VM_NRESERVLEVEL > 0
9731         /* try to promote the mapping */
9732         if (va < VM_MAXUSER_ADDRESS)
9733                 mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
9734         else
9735                 mpte = NULL;
9736
9737         m = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
9738
9739         if ((mpte == NULL || mpte->ref_count == NPTEPG) &&
9740             pmap_ps_enabled(pmap) &&
9741             (m->flags & PG_FICTITIOUS) == 0 &&
9742             vm_reserv_level_iffullpop(m) == 0) {
9743                 pmap_promote_pde(pmap, pde, va, &lock);
9744 #ifdef INVARIANTS
9745                 atomic_add_long(&ad_emulation_superpage_promotions, 1);
9746 #endif
9747         }
9748 #endif
9749
9750 #ifdef INVARIANTS
9751         if (ftype == VM_PROT_WRITE)
9752                 atomic_add_long(&num_dirty_emulations, 1);
9753         else
9754                 atomic_add_long(&num_accessed_emulations, 1);
9755 #endif
9756         rv = 0;         /* success */
9757 done:
9758         if (lock != NULL)
9759                 rw_wunlock(lock);
9760         PMAP_UNLOCK(pmap);
9761         return (rv);
9762 }
9763
9764 void
9765 pmap_get_mapping(pmap_t pmap, vm_offset_t va, uint64_t *ptr, int *num)
9766 {
9767         pml4_entry_t *pml4;
9768         pdp_entry_t *pdp;
9769         pd_entry_t *pde;
9770         pt_entry_t *pte, PG_V;
9771         int idx;
9772
9773         idx = 0;
9774         PG_V = pmap_valid_bit(pmap);
9775         PMAP_LOCK(pmap);
9776
9777         pml4 = pmap_pml4e(pmap, va);
9778         ptr[idx++] = *pml4;
9779         if ((*pml4 & PG_V) == 0)
9780                 goto done;
9781
9782         pdp = pmap_pml4e_to_pdpe(pml4, va);
9783         ptr[idx++] = *pdp;
9784         if ((*pdp & PG_V) == 0 || (*pdp & PG_PS) != 0)
9785                 goto done;
9786
9787         pde = pmap_pdpe_to_pde(pdp, va);
9788         ptr[idx++] = *pde;
9789         if ((*pde & PG_V) == 0 || (*pde & PG_PS) != 0)
9790                 goto done;
9791
9792         pte = pmap_pde_to_pte(pde, va);
9793         ptr[idx++] = *pte;
9794
9795 done:
9796         PMAP_UNLOCK(pmap);
9797         *num = idx;
9798 }
9799
9800 /**
9801  * Get the kernel virtual address of a set of physical pages. If there are
9802  * physical addresses not covered by the DMAP perform a transient mapping
9803  * that will be removed when calling pmap_unmap_io_transient.
9804  *
9805  * \param page        The pages the caller wishes to obtain the virtual
9806  *                    address on the kernel memory map.
9807  * \param vaddr       On return contains the kernel virtual memory address
9808  *                    of the pages passed in the page parameter.
9809  * \param count       Number of pages passed in.
9810  * \param can_fault   TRUE if the thread using the mapped pages can take
9811  *                    page faults, FALSE otherwise.
9812  *
9813  * \returns TRUE if the caller must call pmap_unmap_io_transient when
9814  *          finished or FALSE otherwise.
9815  *
9816  */
9817 boolean_t
9818 pmap_map_io_transient(vm_page_t page[], vm_offset_t vaddr[], int count,
9819     boolean_t can_fault)
9820 {
9821         vm_paddr_t paddr;
9822         boolean_t needs_mapping;
9823         pt_entry_t *pte;
9824         int cache_bits, error __unused, i;
9825
9826         /*
9827          * Allocate any KVA space that we need, this is done in a separate
9828          * loop to prevent calling vmem_alloc while pinned.
9829          */
9830         needs_mapping = FALSE;
9831         for (i = 0; i < count; i++) {
9832                 paddr = VM_PAGE_TO_PHYS(page[i]);
9833                 if (__predict_false(paddr >= dmaplimit)) {
9834                         error = vmem_alloc(kernel_arena, PAGE_SIZE,
9835                             M_BESTFIT | M_WAITOK, &vaddr[i]);
9836                         KASSERT(error == 0, ("vmem_alloc failed: %d", error));
9837                         needs_mapping = TRUE;
9838                 } else {
9839                         vaddr[i] = PHYS_TO_DMAP(paddr);
9840                 }
9841         }
9842
9843         /* Exit early if everything is covered by the DMAP */
9844         if (!needs_mapping)
9845                 return (FALSE);
9846
9847         /*
9848          * NB:  The sequence of updating a page table followed by accesses
9849          * to the corresponding pages used in the !DMAP case is subject to
9850          * the situation described in the "AMD64 Architecture Programmer's
9851          * Manual Volume 2: System Programming" rev. 3.23, "7.3.1 Special
9852          * Coherency Considerations".  Therefore, issuing the INVLPG right
9853          * after modifying the PTE bits is crucial.
9854          */
9855         if (!can_fault)
9856                 sched_pin();
9857         for (i = 0; i < count; i++) {
9858                 paddr = VM_PAGE_TO_PHYS(page[i]);
9859                 if (paddr >= dmaplimit) {
9860                         if (can_fault) {
9861                                 /*
9862                                  * Slow path, since we can get page faults
9863                                  * while mappings are active don't pin the
9864                                  * thread to the CPU and instead add a global
9865                                  * mapping visible to all CPUs.
9866                                  */
9867                                 pmap_qenter(vaddr[i], &page[i], 1);
9868                         } else {
9869                                 pte = vtopte(vaddr[i]);
9870                                 cache_bits = pmap_cache_bits(kernel_pmap,
9871                                     page[i]->md.pat_mode, 0);
9872                                 pte_store(pte, paddr | X86_PG_RW | X86_PG_V |
9873                                     cache_bits);
9874                                 invlpg(vaddr[i]);
9875                         }
9876                 }
9877         }
9878
9879         return (needs_mapping);
9880 }
9881
9882 void
9883 pmap_unmap_io_transient(vm_page_t page[], vm_offset_t vaddr[], int count,
9884     boolean_t can_fault)
9885 {
9886         vm_paddr_t paddr;
9887         int i;
9888
9889         if (!can_fault)
9890                 sched_unpin();
9891         for (i = 0; i < count; i++) {
9892                 paddr = VM_PAGE_TO_PHYS(page[i]);
9893                 if (paddr >= dmaplimit) {
9894                         if (can_fault)
9895                                 pmap_qremove(vaddr[i], 1);
9896                         vmem_free(kernel_arena, vaddr[i], PAGE_SIZE);
9897                 }
9898         }
9899 }
9900
9901 vm_offset_t
9902 pmap_quick_enter_page(vm_page_t m)
9903 {
9904         vm_paddr_t paddr;
9905
9906         paddr = VM_PAGE_TO_PHYS(m);
9907         if (paddr < dmaplimit)
9908                 return (PHYS_TO_DMAP(paddr));
9909         mtx_lock_spin(&qframe_mtx);
9910         KASSERT(*vtopte(qframe) == 0, ("qframe busy"));
9911         pte_store(vtopte(qframe), paddr | X86_PG_RW | X86_PG_V | X86_PG_A |
9912             X86_PG_M | pmap_cache_bits(kernel_pmap, m->md.pat_mode, 0));
9913         return (qframe);
9914 }
9915
9916 void
9917 pmap_quick_remove_page(vm_offset_t addr)
9918 {
9919
9920         if (addr != qframe)
9921                 return;
9922         pte_store(vtopte(qframe), 0);
9923         invlpg(qframe);
9924         mtx_unlock_spin(&qframe_mtx);
9925 }
9926
9927 /*
9928  * Pdp pages from the large map are managed differently from either
9929  * kernel or user page table pages.  They are permanently allocated at
9930  * initialization time, and their reference count is permanently set to
9931  * zero.  The pml4 entries pointing to those pages are copied into
9932  * each allocated pmap.
9933  *
9934  * In contrast, pd and pt pages are managed like user page table
9935  * pages.  They are dynamically allocated, and their reference count
9936  * represents the number of valid entries within the page.
9937  */
9938 static vm_page_t
9939 pmap_large_map_getptp_unlocked(void)
9940 {
9941         vm_page_t m;
9942
9943         m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
9944             VM_ALLOC_ZERO);
9945         if (m != NULL && (m->flags & PG_ZERO) == 0)
9946                 pmap_zero_page(m);
9947         return (m);
9948 }
9949
9950 static vm_page_t
9951 pmap_large_map_getptp(void)
9952 {
9953         vm_page_t m;
9954
9955         PMAP_LOCK_ASSERT(kernel_pmap, MA_OWNED);
9956         m = pmap_large_map_getptp_unlocked();
9957         if (m == NULL) {
9958                 PMAP_UNLOCK(kernel_pmap);
9959                 vm_wait(NULL);
9960                 PMAP_LOCK(kernel_pmap);
9961                 /* Callers retry. */
9962         }
9963         return (m);
9964 }
9965
9966 static pdp_entry_t *
9967 pmap_large_map_pdpe(vm_offset_t va)
9968 {
9969         vm_pindex_t pml4_idx;
9970         vm_paddr_t mphys;
9971
9972         pml4_idx = pmap_pml4e_index(va);
9973         KASSERT(LMSPML4I <= pml4_idx && pml4_idx < LMSPML4I + lm_ents,
9974             ("pmap_large_map_pdpe: va %#jx out of range idx %#jx LMSPML4I "
9975             "%#jx lm_ents %d",
9976             (uintmax_t)va, (uintmax_t)pml4_idx, LMSPML4I, lm_ents));
9977         KASSERT((kernel_pml4[pml4_idx] & X86_PG_V) != 0,
9978             ("pmap_large_map_pdpe: invalid pml4 for va %#jx idx %#jx "
9979             "LMSPML4I %#jx lm_ents %d",
9980             (uintmax_t)va, (uintmax_t)pml4_idx, LMSPML4I, lm_ents));
9981         mphys = kernel_pml4[pml4_idx] & PG_FRAME;
9982         return ((pdp_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pdpe_index(va));
9983 }
9984
9985 static pd_entry_t *
9986 pmap_large_map_pde(vm_offset_t va)
9987 {
9988         pdp_entry_t *pdpe;
9989         vm_page_t m;
9990         vm_paddr_t mphys;
9991
9992 retry:
9993         pdpe = pmap_large_map_pdpe(va);
9994         if (*pdpe == 0) {
9995                 m = pmap_large_map_getptp();
9996                 if (m == NULL)
9997                         goto retry;
9998                 mphys = VM_PAGE_TO_PHYS(m);
9999                 *pdpe = mphys | X86_PG_A | X86_PG_RW | X86_PG_V | pg_nx;
10000         } else {
10001                 MPASS((*pdpe & X86_PG_PS) == 0);
10002                 mphys = *pdpe & PG_FRAME;
10003         }
10004         return ((pd_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pde_index(va));
10005 }
10006
10007 static pt_entry_t *
10008 pmap_large_map_pte(vm_offset_t va)
10009 {
10010         pd_entry_t *pde;
10011         vm_page_t m;
10012         vm_paddr_t mphys;
10013
10014 retry:
10015         pde = pmap_large_map_pde(va);
10016         if (*pde == 0) {
10017                 m = pmap_large_map_getptp();
10018                 if (m == NULL)
10019                         goto retry;
10020                 mphys = VM_PAGE_TO_PHYS(m);
10021                 *pde = mphys | X86_PG_A | X86_PG_RW | X86_PG_V | pg_nx;
10022                 PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pde))->ref_count++;
10023         } else {
10024                 MPASS((*pde & X86_PG_PS) == 0);
10025                 mphys = *pde & PG_FRAME;
10026         }
10027         return ((pt_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pte_index(va));
10028 }
10029
10030 static vm_paddr_t
10031 pmap_large_map_kextract(vm_offset_t va)
10032 {
10033         pdp_entry_t *pdpe, pdp;
10034         pd_entry_t *pde, pd;
10035         pt_entry_t *pte, pt;
10036
10037         KASSERT(PMAP_ADDRESS_IN_LARGEMAP(va),
10038             ("not largemap range %#lx", (u_long)va));
10039         pdpe = pmap_large_map_pdpe(va);
10040         pdp = *pdpe;
10041         KASSERT((pdp & X86_PG_V) != 0,
10042             ("invalid pdp va %#lx pdpe %#lx pdp %#lx", va,
10043             (u_long)pdpe, pdp));
10044         if ((pdp & X86_PG_PS) != 0) {
10045                 KASSERT((amd_feature & AMDID_PAGE1GB) != 0,
10046                     ("no 1G pages, va %#lx pdpe %#lx pdp %#lx", va,
10047                     (u_long)pdpe, pdp));
10048                 return ((pdp & PG_PS_PDP_FRAME) | (va & PDPMASK));
10049         }
10050         pde = pmap_pdpe_to_pde(pdpe, va);
10051         pd = *pde;
10052         KASSERT((pd & X86_PG_V) != 0,
10053             ("invalid pd va %#lx pde %#lx pd %#lx", va, (u_long)pde, pd));
10054         if ((pd & X86_PG_PS) != 0)
10055                 return ((pd & PG_PS_FRAME) | (va & PDRMASK));
10056         pte = pmap_pde_to_pte(pde, va);
10057         pt = *pte;
10058         KASSERT((pt & X86_PG_V) != 0,
10059             ("invalid pte va %#lx pte %#lx pt %#lx", va, (u_long)pte, pt));
10060         return ((pt & PG_FRAME) | (va & PAGE_MASK));
10061 }
10062
10063 static int
10064 pmap_large_map_getva(vm_size_t len, vm_offset_t align, vm_offset_t phase,
10065     vmem_addr_t *vmem_res)
10066 {
10067
10068         /*
10069          * Large mappings are all but static.  Consequently, there
10070          * is no point in waiting for an earlier allocation to be
10071          * freed.
10072          */
10073         return (vmem_xalloc(large_vmem, len, align, phase, 0, VMEM_ADDR_MIN,
10074             VMEM_ADDR_MAX, M_NOWAIT | M_BESTFIT, vmem_res));
10075 }
10076
10077 int
10078 pmap_large_map(vm_paddr_t spa, vm_size_t len, void **addr,
10079     vm_memattr_t mattr)
10080 {
10081         pdp_entry_t *pdpe;
10082         pd_entry_t *pde;
10083         pt_entry_t *pte;
10084         vm_offset_t va, inc;
10085         vmem_addr_t vmem_res;
10086         vm_paddr_t pa;
10087         int error;
10088
10089         if (len == 0 || spa + len < spa)
10090                 return (EINVAL);
10091
10092         /* See if DMAP can serve. */
10093         if (spa + len <= dmaplimit) {
10094                 va = PHYS_TO_DMAP(spa);
10095                 *addr = (void *)va;
10096                 return (pmap_change_attr(va, len, mattr));
10097         }
10098
10099         /*
10100          * No, allocate KVA.  Fit the address with best possible
10101          * alignment for superpages.  Fall back to worse align if
10102          * failed.
10103          */
10104         error = ENOMEM;
10105         if ((amd_feature & AMDID_PAGE1GB) != 0 && rounddown2(spa + len,
10106             NBPDP) >= roundup2(spa, NBPDP) + NBPDP)
10107                 error = pmap_large_map_getva(len, NBPDP, spa & PDPMASK,
10108                     &vmem_res);
10109         if (error != 0 && rounddown2(spa + len, NBPDR) >= roundup2(spa,
10110             NBPDR) + NBPDR)
10111                 error = pmap_large_map_getva(len, NBPDR, spa & PDRMASK,
10112                     &vmem_res);
10113         if (error != 0)
10114                 error = pmap_large_map_getva(len, PAGE_SIZE, 0, &vmem_res);
10115         if (error != 0)
10116                 return (error);
10117
10118         /*
10119          * Fill pagetable.  PG_M is not pre-set, we scan modified bits
10120          * in the pagetable to minimize flushing.  No need to
10121          * invalidate TLB, since we only update invalid entries.
10122          */
10123         PMAP_LOCK(kernel_pmap);
10124         for (pa = spa, va = vmem_res; len > 0; pa += inc, va += inc,
10125             len -= inc) {
10126                 if ((amd_feature & AMDID_PAGE1GB) != 0 && len >= NBPDP &&
10127                     (pa & PDPMASK) == 0 && (va & PDPMASK) == 0) {
10128                         pdpe = pmap_large_map_pdpe(va);
10129                         MPASS(*pdpe == 0);
10130                         *pdpe = pa | pg_g | X86_PG_PS | X86_PG_RW |
10131                             X86_PG_V | X86_PG_A | pg_nx |
10132                             pmap_cache_bits(kernel_pmap, mattr, TRUE);
10133                         inc = NBPDP;
10134                 } else if (len >= NBPDR && (pa & PDRMASK) == 0 &&
10135                     (va & PDRMASK) == 0) {
10136                         pde = pmap_large_map_pde(va);
10137                         MPASS(*pde == 0);
10138                         *pde = pa | pg_g | X86_PG_PS | X86_PG_RW |
10139                             X86_PG_V | X86_PG_A | pg_nx |
10140                             pmap_cache_bits(kernel_pmap, mattr, TRUE);
10141                         PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pde))->
10142                             ref_count++;
10143                         inc = NBPDR;
10144                 } else {
10145                         pte = pmap_large_map_pte(va);
10146                         MPASS(*pte == 0);
10147                         *pte = pa | pg_g | X86_PG_RW | X86_PG_V |
10148                             X86_PG_A | pg_nx | pmap_cache_bits(kernel_pmap,
10149                             mattr, FALSE);
10150                         PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pte))->
10151                             ref_count++;
10152                         inc = PAGE_SIZE;
10153                 }
10154         }
10155         PMAP_UNLOCK(kernel_pmap);
10156         MPASS(len == 0);
10157
10158         *addr = (void *)vmem_res;
10159         return (0);
10160 }
10161
10162 void
10163 pmap_large_unmap(void *svaa, vm_size_t len)
10164 {
10165         vm_offset_t sva, va;
10166         vm_size_t inc;
10167         pdp_entry_t *pdpe, pdp;
10168         pd_entry_t *pde, pd;
10169         pt_entry_t *pte;
10170         vm_page_t m;
10171         struct spglist spgf;
10172
10173         sva = (vm_offset_t)svaa;
10174         if (len == 0 || sva + len < sva || (sva >= DMAP_MIN_ADDRESS &&
10175             sva + len <= DMAP_MIN_ADDRESS + dmaplimit))
10176                 return;
10177
10178         SLIST_INIT(&spgf);
10179         KASSERT(PMAP_ADDRESS_IN_LARGEMAP(sva) &&
10180             PMAP_ADDRESS_IN_LARGEMAP(sva + len - 1),
10181             ("not largemap range %#lx %#lx", (u_long)svaa, (u_long)svaa + len));
10182         PMAP_LOCK(kernel_pmap);
10183         for (va = sva; va < sva + len; va += inc) {
10184                 pdpe = pmap_large_map_pdpe(va);
10185                 pdp = *pdpe;
10186                 KASSERT((pdp & X86_PG_V) != 0,
10187                     ("invalid pdp va %#lx pdpe %#lx pdp %#lx", va,
10188                     (u_long)pdpe, pdp));
10189                 if ((pdp & X86_PG_PS) != 0) {
10190                         KASSERT((amd_feature & AMDID_PAGE1GB) != 0,
10191                             ("no 1G pages, va %#lx pdpe %#lx pdp %#lx", va,
10192                             (u_long)pdpe, pdp));
10193                         KASSERT((va & PDPMASK) == 0,
10194                             ("PDPMASK bit set, va %#lx pdpe %#lx pdp %#lx", va,
10195                             (u_long)pdpe, pdp));
10196                         KASSERT(va + NBPDP <= sva + len,
10197                             ("unmap covers partial 1GB page, sva %#lx va %#lx "
10198                             "pdpe %#lx pdp %#lx len %#lx", sva, va,
10199                             (u_long)pdpe, pdp, len));
10200                         *pdpe = 0;
10201                         inc = NBPDP;
10202                         continue;
10203                 }
10204                 pde = pmap_pdpe_to_pde(pdpe, va);
10205                 pd = *pde;
10206                 KASSERT((pd & X86_PG_V) != 0,
10207                     ("invalid pd va %#lx pde %#lx pd %#lx", va,
10208                     (u_long)pde, pd));
10209                 if ((pd & X86_PG_PS) != 0) {
10210                         KASSERT((va & PDRMASK) == 0,
10211                             ("PDRMASK bit set, va %#lx pde %#lx pd %#lx", va,
10212                             (u_long)pde, pd));
10213                         KASSERT(va + NBPDR <= sva + len,
10214                             ("unmap covers partial 2MB page, sva %#lx va %#lx "
10215                             "pde %#lx pd %#lx len %#lx", sva, va, (u_long)pde,
10216                             pd, len));
10217                         pde_store(pde, 0);
10218                         inc = NBPDR;
10219                         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pde));
10220                         m->ref_count--;
10221                         if (m->ref_count == 0) {
10222                                 *pdpe = 0;
10223                                 SLIST_INSERT_HEAD(&spgf, m, plinks.s.ss);
10224                         }
10225                         continue;
10226                 }
10227                 pte = pmap_pde_to_pte(pde, va);
10228                 KASSERT((*pte & X86_PG_V) != 0,
10229                     ("invalid pte va %#lx pte %#lx pt %#lx", va,
10230                     (u_long)pte, *pte));
10231                 pte_clear(pte);
10232                 inc = PAGE_SIZE;
10233                 m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pte));
10234                 m->ref_count--;
10235                 if (m->ref_count == 0) {
10236                         *pde = 0;
10237                         SLIST_INSERT_HEAD(&spgf, m, plinks.s.ss);
10238                         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pde));
10239                         m->ref_count--;
10240                         if (m->ref_count == 0) {
10241                                 *pdpe = 0;
10242                                 SLIST_INSERT_HEAD(&spgf, m, plinks.s.ss);
10243                         }
10244                 }
10245         }
10246         pmap_invalidate_range(kernel_pmap, sva, sva + len);
10247         PMAP_UNLOCK(kernel_pmap);
10248         vm_page_free_pages_toq(&spgf, false);
10249         vmem_free(large_vmem, sva, len);
10250 }
10251
10252 static void
10253 pmap_large_map_wb_fence_mfence(void)
10254 {
10255
10256         mfence();
10257 }
10258
10259 static void
10260 pmap_large_map_wb_fence_atomic(void)
10261 {
10262
10263         atomic_thread_fence_seq_cst();
10264 }
10265
10266 static void
10267 pmap_large_map_wb_fence_nop(void)
10268 {
10269 }
10270
10271 DEFINE_IFUNC(static, void, pmap_large_map_wb_fence, (void))
10272 {
10273
10274         if (cpu_vendor_id != CPU_VENDOR_INTEL)
10275                 return (pmap_large_map_wb_fence_mfence);
10276         else if ((cpu_stdext_feature & (CPUID_STDEXT_CLWB |
10277             CPUID_STDEXT_CLFLUSHOPT)) == 0)
10278                 return (pmap_large_map_wb_fence_atomic);
10279         else
10280                 /* clflush is strongly enough ordered */
10281                 return (pmap_large_map_wb_fence_nop);
10282 }
10283
10284 static void
10285 pmap_large_map_flush_range_clwb(vm_offset_t va, vm_size_t len)
10286 {
10287
10288         for (; len > 0; len -= cpu_clflush_line_size,
10289             va += cpu_clflush_line_size)
10290                 clwb(va);
10291 }
10292
10293 static void
10294 pmap_large_map_flush_range_clflushopt(vm_offset_t va, vm_size_t len)
10295 {
10296
10297         for (; len > 0; len -= cpu_clflush_line_size,
10298             va += cpu_clflush_line_size)
10299                 clflushopt(va);
10300 }
10301
10302 static void
10303 pmap_large_map_flush_range_clflush(vm_offset_t va, vm_size_t len)
10304 {
10305
10306         for (; len > 0; len -= cpu_clflush_line_size,
10307             va += cpu_clflush_line_size)
10308                 clflush(va);
10309 }
10310
10311 static void
10312 pmap_large_map_flush_range_nop(vm_offset_t sva __unused, vm_size_t len __unused)
10313 {
10314 }
10315
10316 DEFINE_IFUNC(static, void, pmap_large_map_flush_range, (vm_offset_t, vm_size_t))
10317 {
10318
10319         if ((cpu_stdext_feature & CPUID_STDEXT_CLWB) != 0)
10320                 return (pmap_large_map_flush_range_clwb);
10321         else if ((cpu_stdext_feature & CPUID_STDEXT_CLFLUSHOPT) != 0)
10322                 return (pmap_large_map_flush_range_clflushopt);
10323         else if ((cpu_feature & CPUID_CLFSH) != 0)
10324                 return (pmap_large_map_flush_range_clflush);
10325         else
10326                 return (pmap_large_map_flush_range_nop);
10327 }
10328
10329 static void
10330 pmap_large_map_wb_large(vm_offset_t sva, vm_offset_t eva)
10331 {
10332         volatile u_long *pe;
10333         u_long p;
10334         vm_offset_t va;
10335         vm_size_t inc;
10336         bool seen_other;
10337
10338         for (va = sva; va < eva; va += inc) {
10339                 inc = 0;
10340                 if ((amd_feature & AMDID_PAGE1GB) != 0) {
10341                         pe = (volatile u_long *)pmap_large_map_pdpe(va);
10342                         p = *pe;
10343                         if ((p & X86_PG_PS) != 0)
10344                                 inc = NBPDP;
10345                 }
10346                 if (inc == 0) {
10347                         pe = (volatile u_long *)pmap_large_map_pde(va);
10348                         p = *pe;
10349                         if ((p & X86_PG_PS) != 0)
10350                                 inc = NBPDR;
10351                 }
10352                 if (inc == 0) {
10353                         pe = (volatile u_long *)pmap_large_map_pte(va);
10354                         p = *pe;
10355                         inc = PAGE_SIZE;
10356                 }
10357                 seen_other = false;
10358                 for (;;) {
10359                         if ((p & X86_PG_AVAIL1) != 0) {
10360                                 /*
10361                                  * Spin-wait for the end of a parallel
10362                                  * write-back.
10363                                  */
10364                                 cpu_spinwait();
10365                                 p = *pe;
10366
10367                                 /*
10368                                  * If we saw other write-back
10369                                  * occuring, we cannot rely on PG_M to
10370                                  * indicate state of the cache.  The
10371                                  * PG_M bit is cleared before the
10372                                  * flush to avoid ignoring new writes,
10373                                  * and writes which are relevant for
10374                                  * us might happen after.
10375                                  */
10376                                 seen_other = true;
10377                                 continue;
10378                         }
10379
10380                         if ((p & X86_PG_M) != 0 || seen_other) {
10381                                 if (!atomic_fcmpset_long(pe, &p,
10382                                     (p & ~X86_PG_M) | X86_PG_AVAIL1))
10383                                         /*
10384                                          * If we saw PG_M without
10385                                          * PG_AVAIL1, and then on the
10386                                          * next attempt we do not
10387                                          * observe either PG_M or
10388                                          * PG_AVAIL1, the other
10389                                          * write-back started after us
10390                                          * and finished before us.  We
10391                                          * can rely on it doing our
10392                                          * work.
10393                                          */
10394                                         continue;
10395                                 pmap_large_map_flush_range(va, inc);
10396                                 atomic_clear_long(pe, X86_PG_AVAIL1);
10397                         }
10398                         break;
10399                 }
10400                 maybe_yield();
10401         }
10402 }
10403
10404 /*
10405  * Write-back cache lines for the given address range.
10406  *
10407  * Must be called only on the range or sub-range returned from
10408  * pmap_large_map().  Must not be called on the coalesced ranges.
10409  *
10410  * Does nothing on CPUs without CLWB, CLFLUSHOPT, or CLFLUSH
10411  * instructions support.
10412  */
10413 void
10414 pmap_large_map_wb(void *svap, vm_size_t len)
10415 {
10416         vm_offset_t eva, sva;
10417
10418         sva = (vm_offset_t)svap;
10419         eva = sva + len;
10420         pmap_large_map_wb_fence();
10421         if (sva >= DMAP_MIN_ADDRESS && eva <= DMAP_MIN_ADDRESS + dmaplimit) {
10422                 pmap_large_map_flush_range(sva, len);
10423         } else {
10424                 KASSERT(sva >= LARGEMAP_MIN_ADDRESS &&
10425                     eva <= LARGEMAP_MIN_ADDRESS + lm_ents * NBPML4,
10426                     ("pmap_large_map_wb: not largemap %#lx %#lx", sva, len));
10427                 pmap_large_map_wb_large(sva, eva);
10428         }
10429         pmap_large_map_wb_fence();
10430 }
10431
10432 static vm_page_t
10433 pmap_pti_alloc_page(void)
10434 {
10435         vm_page_t m;
10436
10437         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10438         m = vm_page_grab(pti_obj, pti_pg_idx++, VM_ALLOC_NOBUSY |
10439             VM_ALLOC_WIRED | VM_ALLOC_ZERO);
10440         return (m);
10441 }
10442
10443 static bool
10444 pmap_pti_free_page(vm_page_t m)
10445 {
10446
10447         KASSERT(m->ref_count > 0, ("page %p not referenced", m));
10448         if (!vm_page_unwire_noq(m))
10449                 return (false);
10450         vm_page_free_zero(m);
10451         return (true);
10452 }
10453
10454 static void
10455 pmap_pti_init(void)
10456 {
10457         vm_page_t pml4_pg;
10458         pdp_entry_t *pdpe;
10459         vm_offset_t va;
10460         int i;
10461
10462         if (!pti)
10463                 return;
10464         pti_obj = vm_pager_allocate(OBJT_PHYS, NULL, 0, VM_PROT_ALL, 0, NULL);
10465         VM_OBJECT_WLOCK(pti_obj);
10466         pml4_pg = pmap_pti_alloc_page();
10467         pti_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4_pg));
10468         for (va = VM_MIN_KERNEL_ADDRESS; va <= VM_MAX_KERNEL_ADDRESS &&
10469             va >= VM_MIN_KERNEL_ADDRESS && va > NBPML4; va += NBPML4) {
10470                 pdpe = pmap_pti_pdpe(va);
10471                 pmap_pti_wire_pte(pdpe);
10472         }
10473         pmap_pti_add_kva_locked((vm_offset_t)&__pcpu[0],
10474             (vm_offset_t)&__pcpu[0] + sizeof(__pcpu[0]) * MAXCPU, false);
10475         pmap_pti_add_kva_locked((vm_offset_t)idt, (vm_offset_t)idt +
10476             sizeof(struct gate_descriptor) * NIDT, false);
10477         CPU_FOREACH(i) {
10478                 /* Doublefault stack IST 1 */
10479                 va = __pcpu[i].pc_common_tss.tss_ist1;
10480                 pmap_pti_add_kva_locked(va - PAGE_SIZE, va, false);
10481                 /* NMI stack IST 2 */
10482                 va = __pcpu[i].pc_common_tss.tss_ist2 + sizeof(struct nmi_pcpu);
10483                 pmap_pti_add_kva_locked(va - PAGE_SIZE, va, false);
10484                 /* MC# stack IST 3 */
10485                 va = __pcpu[i].pc_common_tss.tss_ist3 +
10486                     sizeof(struct nmi_pcpu);
10487                 pmap_pti_add_kva_locked(va - PAGE_SIZE, va, false);
10488                 /* DB# stack IST 4 */
10489                 va = __pcpu[i].pc_common_tss.tss_ist4 + sizeof(struct nmi_pcpu);
10490                 pmap_pti_add_kva_locked(va - PAGE_SIZE, va, false);
10491         }
10492         pmap_pti_add_kva_locked((vm_offset_t)kernphys + KERNBASE,
10493             (vm_offset_t)etext, true);
10494         pti_finalized = true;
10495         VM_OBJECT_WUNLOCK(pti_obj);
10496 }
10497 SYSINIT(pmap_pti, SI_SUB_CPU + 1, SI_ORDER_ANY, pmap_pti_init, NULL);
10498
10499 static pdp_entry_t *
10500 pmap_pti_pdpe(vm_offset_t va)
10501 {
10502         pml4_entry_t *pml4e;
10503         pdp_entry_t *pdpe;
10504         vm_page_t m;
10505         vm_pindex_t pml4_idx;
10506         vm_paddr_t mphys;
10507
10508         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10509
10510         pml4_idx = pmap_pml4e_index(va);
10511         pml4e = &pti_pml4[pml4_idx];
10512         m = NULL;
10513         if (*pml4e == 0) {
10514                 if (pti_finalized)
10515                         panic("pml4 alloc after finalization\n");
10516                 m = pmap_pti_alloc_page();
10517                 if (*pml4e != 0) {
10518                         pmap_pti_free_page(m);
10519                         mphys = *pml4e & ~PAGE_MASK;
10520                 } else {
10521                         mphys = VM_PAGE_TO_PHYS(m);
10522                         *pml4e = mphys | X86_PG_RW | X86_PG_V;
10523                 }
10524         } else {
10525                 mphys = *pml4e & ~PAGE_MASK;
10526         }
10527         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(mphys) + pmap_pdpe_index(va);
10528         return (pdpe);
10529 }
10530
10531 static void
10532 pmap_pti_wire_pte(void *pte)
10533 {
10534         vm_page_t m;
10535
10536         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10537         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pte));
10538         m->ref_count++;
10539 }
10540
10541 static void
10542 pmap_pti_unwire_pde(void *pde, bool only_ref)
10543 {
10544         vm_page_t m;
10545
10546         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10547         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pde));
10548         MPASS(m->ref_count > 0);
10549         MPASS(only_ref || m->ref_count > 1);
10550         pmap_pti_free_page(m);
10551 }
10552
10553 static void
10554 pmap_pti_unwire_pte(void *pte, vm_offset_t va)
10555 {
10556         vm_page_t m;
10557         pd_entry_t *pde;
10558
10559         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10560         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((uintptr_t)pte));
10561         MPASS(m->ref_count > 0);
10562         if (pmap_pti_free_page(m)) {
10563                 pde = pmap_pti_pde(va);
10564                 MPASS((*pde & (X86_PG_PS | X86_PG_V)) == X86_PG_V);
10565                 *pde = 0;
10566                 pmap_pti_unwire_pde(pde, false);
10567         }
10568 }
10569
10570 static pd_entry_t *
10571 pmap_pti_pde(vm_offset_t va)
10572 {
10573         pdp_entry_t *pdpe;
10574         pd_entry_t *pde;
10575         vm_page_t m;
10576         vm_pindex_t pd_idx;
10577         vm_paddr_t mphys;
10578
10579         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10580
10581         pdpe = pmap_pti_pdpe(va);
10582         if (*pdpe == 0) {
10583                 m = pmap_pti_alloc_page();
10584                 if (*pdpe != 0) {
10585                         pmap_pti_free_page(m);
10586                         MPASS((*pdpe & X86_PG_PS) == 0);
10587                         mphys = *pdpe & ~PAGE_MASK;
10588                 } else {
10589                         mphys =  VM_PAGE_TO_PHYS(m);
10590                         *pdpe = mphys | X86_PG_RW | X86_PG_V;
10591                 }
10592         } else {
10593                 MPASS((*pdpe & X86_PG_PS) == 0);
10594                 mphys = *pdpe & ~PAGE_MASK;
10595         }
10596
10597         pde = (pd_entry_t *)PHYS_TO_DMAP(mphys);
10598         pd_idx = pmap_pde_index(va);
10599         pde += pd_idx;
10600         return (pde);
10601 }
10602
10603 static pt_entry_t *
10604 pmap_pti_pte(vm_offset_t va, bool *unwire_pde)
10605 {
10606         pd_entry_t *pde;
10607         pt_entry_t *pte;
10608         vm_page_t m;
10609         vm_paddr_t mphys;
10610
10611         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10612
10613         pde = pmap_pti_pde(va);
10614         if (unwire_pde != NULL) {
10615                 *unwire_pde = true;
10616                 pmap_pti_wire_pte(pde);
10617         }
10618         if (*pde == 0) {
10619                 m = pmap_pti_alloc_page();
10620                 if (*pde != 0) {
10621                         pmap_pti_free_page(m);
10622                         MPASS((*pde & X86_PG_PS) == 0);
10623                         mphys = *pde & ~(PAGE_MASK | pg_nx);
10624                 } else {
10625                         mphys = VM_PAGE_TO_PHYS(m);
10626                         *pde = mphys | X86_PG_RW | X86_PG_V;
10627                         if (unwire_pde != NULL)
10628                                 *unwire_pde = false;
10629                 }
10630         } else {
10631                 MPASS((*pde & X86_PG_PS) == 0);
10632                 mphys = *pde & ~(PAGE_MASK | pg_nx);
10633         }
10634
10635         pte = (pt_entry_t *)PHYS_TO_DMAP(mphys);
10636         pte += pmap_pte_index(va);
10637
10638         return (pte);
10639 }
10640
10641 static void
10642 pmap_pti_add_kva_locked(vm_offset_t sva, vm_offset_t eva, bool exec)
10643 {
10644         vm_paddr_t pa;
10645         pd_entry_t *pde;
10646         pt_entry_t *pte, ptev;
10647         bool unwire_pde;
10648
10649         VM_OBJECT_ASSERT_WLOCKED(pti_obj);
10650
10651         sva = trunc_page(sva);
10652         MPASS(sva > VM_MAXUSER_ADDRESS);
10653         eva = round_page(eva);
10654         MPASS(sva < eva);
10655         for (; sva < eva; sva += PAGE_SIZE) {
10656                 pte = pmap_pti_pte(sva, &unwire_pde);
10657                 pa = pmap_kextract(sva);
10658                 ptev = pa | X86_PG_RW | X86_PG_V | X86_PG_A | X86_PG_G |
10659                     (exec ? 0 : pg_nx) | pmap_cache_bits(kernel_pmap,
10660                     VM_MEMATTR_DEFAULT, FALSE);
10661                 if (*pte == 0) {
10662                         pte_store(pte, ptev);
10663                         pmap_pti_wire_pte(pte);
10664                 } else {
10665                         KASSERT(!pti_finalized,
10666                             ("pti overlap after fin %#lx %#lx %#lx",
10667                             sva, *pte, ptev));
10668                         KASSERT(*pte == ptev,
10669                             ("pti non-identical pte after fin %#lx %#lx %#lx",
10670                             sva, *pte, ptev));
10671                 }
10672                 if (unwire_pde) {
10673                         pde = pmap_pti_pde(sva);
10674                         pmap_pti_unwire_pde(pde, true);
10675                 }
10676         }
10677 }
10678
10679 void
10680 pmap_pti_add_kva(vm_offset_t sva, vm_offset_t eva, bool exec)
10681 {
10682
10683         if (!pti)
10684                 return;
10685         VM_OBJECT_WLOCK(pti_obj);
10686         pmap_pti_add_kva_locked(sva, eva, exec);
10687         VM_OBJECT_WUNLOCK(pti_obj);
10688 }
10689
10690 void
10691 pmap_pti_remove_kva(vm_offset_t sva, vm_offset_t eva)
10692 {
10693         pt_entry_t *pte;
10694         vm_offset_t va;
10695
10696         if (!pti)
10697                 return;
10698         sva = rounddown2(sva, PAGE_SIZE);
10699         MPASS(sva > VM_MAXUSER_ADDRESS);
10700         eva = roundup2(eva, PAGE_SIZE);
10701         MPASS(sva < eva);
10702         VM_OBJECT_WLOCK(pti_obj);
10703         for (va = sva; va < eva; va += PAGE_SIZE) {
10704                 pte = pmap_pti_pte(va, NULL);
10705                 KASSERT((*pte & X86_PG_V) != 0,
10706                     ("invalid pte va %#lx pte %#lx pt %#lx", va,
10707                     (u_long)pte, *pte));
10708                 pte_clear(pte);
10709                 pmap_pti_unwire_pte(pte, va);
10710         }
10711         pmap_invalidate_range(kernel_pmap, sva, eva);
10712         VM_OBJECT_WUNLOCK(pti_obj);
10713 }
10714
10715 static void *
10716 pkru_dup_range(void *ctx __unused, void *data)
10717 {
10718         struct pmap_pkru_range *node, *new_node;
10719
10720         new_node = uma_zalloc(pmap_pkru_ranges_zone, M_NOWAIT);
10721         if (new_node == NULL)
10722                 return (NULL);
10723         node = data;
10724         memcpy(new_node, node, sizeof(*node));
10725         return (new_node);
10726 }
10727
10728 static void
10729 pkru_free_range(void *ctx __unused, void *node)
10730 {
10731
10732         uma_zfree(pmap_pkru_ranges_zone, node);
10733 }
10734
10735 static int
10736 pmap_pkru_assign(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, u_int keyidx,
10737     int flags)
10738 {
10739         struct pmap_pkru_range *ppr;
10740         int error;
10741
10742         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10743         MPASS(pmap->pm_type == PT_X86);
10744         MPASS((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0);
10745         if ((flags & AMD64_PKRU_EXCL) != 0 &&
10746             !rangeset_check_empty(&pmap->pm_pkru, sva, eva))
10747                 return (EBUSY);
10748         ppr = uma_zalloc(pmap_pkru_ranges_zone, M_NOWAIT);
10749         if (ppr == NULL)
10750                 return (ENOMEM);
10751         ppr->pkru_keyidx = keyidx;
10752         ppr->pkru_flags = flags & AMD64_PKRU_PERSIST;
10753         error = rangeset_insert(&pmap->pm_pkru, sva, eva, ppr);
10754         if (error != 0)
10755                 uma_zfree(pmap_pkru_ranges_zone, ppr);
10756         return (error);
10757 }
10758
10759 static int
10760 pmap_pkru_deassign(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10761 {
10762
10763         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10764         MPASS(pmap->pm_type == PT_X86);
10765         MPASS((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0);
10766         return (rangeset_remove(&pmap->pm_pkru, sva, eva));
10767 }
10768
10769 static void
10770 pmap_pkru_deassign_all(pmap_t pmap)
10771 {
10772
10773         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10774         if (pmap->pm_type == PT_X86 &&
10775             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0)
10776                 rangeset_remove_all(&pmap->pm_pkru);
10777 }
10778
10779 static bool
10780 pmap_pkru_same(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10781 {
10782         struct pmap_pkru_range *ppr, *prev_ppr;
10783         vm_offset_t va;
10784
10785         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10786         if (pmap->pm_type != PT_X86 ||
10787             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0 ||
10788             sva >= VM_MAXUSER_ADDRESS)
10789                 return (true);
10790         MPASS(eva <= VM_MAXUSER_ADDRESS);
10791         for (va = sva; va < eva; prev_ppr = ppr) {
10792                 ppr = rangeset_lookup(&pmap->pm_pkru, va);
10793                 if (va == sva)
10794                         prev_ppr = ppr;
10795                 else if ((ppr == NULL) ^ (prev_ppr == NULL))
10796                         return (false);
10797                 if (ppr == NULL) {
10798                         va += PAGE_SIZE;
10799                         continue;
10800                 }
10801                 if (prev_ppr->pkru_keyidx != ppr->pkru_keyidx)
10802                         return (false);
10803                 va = ppr->pkru_rs_el.re_end;
10804         }
10805         return (true);
10806 }
10807
10808 static pt_entry_t
10809 pmap_pkru_get(pmap_t pmap, vm_offset_t va)
10810 {
10811         struct pmap_pkru_range *ppr;
10812
10813         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10814         if (pmap->pm_type != PT_X86 ||
10815             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0 ||
10816             va >= VM_MAXUSER_ADDRESS)
10817                 return (0);
10818         ppr = rangeset_lookup(&pmap->pm_pkru, va);
10819         if (ppr != NULL)
10820                 return (X86_PG_PKU(ppr->pkru_keyidx));
10821         return (0);
10822 }
10823
10824 static bool
10825 pred_pkru_on_remove(void *ctx __unused, void *r)
10826 {
10827         struct pmap_pkru_range *ppr;
10828
10829         ppr = r;
10830         return ((ppr->pkru_flags & AMD64_PKRU_PERSIST) == 0);
10831 }
10832
10833 static void
10834 pmap_pkru_on_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10835 {
10836
10837         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10838         if (pmap->pm_type == PT_X86 &&
10839             (cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0) {
10840                 rangeset_remove_pred(&pmap->pm_pkru, sva, eva,
10841                     pred_pkru_on_remove);
10842         }
10843 }
10844
10845 static int
10846 pmap_pkru_copy(pmap_t dst_pmap, pmap_t src_pmap)
10847 {
10848
10849         PMAP_LOCK_ASSERT(dst_pmap, MA_OWNED);
10850         PMAP_LOCK_ASSERT(src_pmap, MA_OWNED);
10851         MPASS(dst_pmap->pm_type == PT_X86);
10852         MPASS(src_pmap->pm_type == PT_X86);
10853         MPASS((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) != 0);
10854         if (src_pmap->pm_pkru.rs_data_ctx == NULL)
10855                 return (0);
10856         return (rangeset_copy(&dst_pmap->pm_pkru, &src_pmap->pm_pkru));
10857 }
10858
10859 static void
10860 pmap_pkru_update_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
10861     u_int keyidx)
10862 {
10863         pml4_entry_t *pml4e;
10864         pdp_entry_t *pdpe;
10865         pd_entry_t newpde, ptpaddr, *pde;
10866         pt_entry_t newpte, *ptep, pte;
10867         vm_offset_t va, va_next;
10868         bool changed;
10869
10870         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
10871         MPASS(pmap->pm_type == PT_X86);
10872         MPASS(keyidx <= PMAP_MAX_PKRU_IDX);
10873
10874         for (changed = false, va = sva; va < eva; va = va_next) {
10875                 pml4e = pmap_pml4e(pmap, va);
10876                 if ((*pml4e & X86_PG_V) == 0) {
10877                         va_next = (va + NBPML4) & ~PML4MASK;
10878                         if (va_next < va)
10879                                 va_next = eva;
10880                         continue;
10881                 }
10882
10883                 pdpe = pmap_pml4e_to_pdpe(pml4e, va);
10884                 if ((*pdpe & X86_PG_V) == 0) {
10885                         va_next = (va + NBPDP) & ~PDPMASK;
10886                         if (va_next < va)
10887                                 va_next = eva;
10888                         continue;
10889                 }
10890
10891                 va_next = (va + NBPDR) & ~PDRMASK;
10892                 if (va_next < va)
10893                         va_next = eva;
10894
10895                 pde = pmap_pdpe_to_pde(pdpe, va);
10896                 ptpaddr = *pde;
10897                 if (ptpaddr == 0)
10898                         continue;
10899
10900                 MPASS((ptpaddr & X86_PG_V) != 0);
10901                 if ((ptpaddr & PG_PS) != 0) {
10902                         if (va + NBPDR == va_next && eva >= va_next) {
10903                                 newpde = (ptpaddr & ~X86_PG_PKU_MASK) |
10904                                     X86_PG_PKU(keyidx);
10905                                 if (newpde != ptpaddr) {
10906                                         *pde = newpde;
10907                                         changed = true;
10908                                 }
10909                                 continue;
10910                         } else if (!pmap_demote_pde(pmap, pde, va)) {
10911                                 continue;
10912                         }
10913                 }
10914
10915                 if (va_next > eva)
10916                         va_next = eva;
10917
10918                 for (ptep = pmap_pde_to_pte(pde, va); va != va_next;
10919                     ptep++, va += PAGE_SIZE) {
10920                         pte = *ptep;
10921                         if ((pte & X86_PG_V) == 0)
10922                                 continue;
10923                         newpte = (pte & ~X86_PG_PKU_MASK) | X86_PG_PKU(keyidx);
10924                         if (newpte != pte) {
10925                                 *ptep = newpte;
10926                                 changed = true;
10927                         }
10928                 }
10929         }
10930         if (changed)
10931                 pmap_invalidate_range(pmap, sva, eva);
10932 }
10933
10934 static int
10935 pmap_pkru_check_uargs(pmap_t pmap, vm_offset_t sva, vm_offset_t eva,
10936     u_int keyidx, int flags)
10937 {
10938
10939         if (pmap->pm_type != PT_X86 || keyidx > PMAP_MAX_PKRU_IDX ||
10940             (flags & ~(AMD64_PKRU_PERSIST | AMD64_PKRU_EXCL)) != 0)
10941                 return (EINVAL);
10942         if (eva <= sva || eva > VM_MAXUSER_ADDRESS)
10943                 return (EFAULT);
10944         if ((cpu_stdext_feature2 & CPUID_STDEXT2_PKU) == 0)
10945                 return (ENOTSUP);
10946         return (0);
10947 }
10948
10949 int
10950 pmap_pkru_set(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, u_int keyidx,
10951     int flags)
10952 {
10953         int error;
10954
10955         sva = trunc_page(sva);
10956         eva = round_page(eva);
10957         error = pmap_pkru_check_uargs(pmap, sva, eva, keyidx, flags);
10958         if (error != 0)
10959                 return (error);
10960         for (;;) {
10961                 PMAP_LOCK(pmap);
10962                 error = pmap_pkru_assign(pmap, sva, eva, keyidx, flags);
10963                 if (error == 0)
10964                         pmap_pkru_update_range(pmap, sva, eva, keyidx);
10965                 PMAP_UNLOCK(pmap);
10966                 if (error != ENOMEM)
10967                         break;
10968                 vm_wait(NULL);
10969         }
10970         return (error);
10971 }
10972
10973 int
10974 pmap_pkru_clear(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
10975 {
10976         int error;
10977
10978         sva = trunc_page(sva);
10979         eva = round_page(eva);
10980         error = pmap_pkru_check_uargs(pmap, sva, eva, 0, 0);
10981         if (error != 0)
10982                 return (error);
10983         for (;;) {
10984                 PMAP_LOCK(pmap);
10985                 error = pmap_pkru_deassign(pmap, sva, eva);
10986                 if (error == 0)
10987                         pmap_pkru_update_range(pmap, sva, eva, 0);
10988                 PMAP_UNLOCK(pmap);
10989                 if (error != ENOMEM)
10990                         break;
10991                 vm_wait(NULL);
10992         }
10993         return (error);
10994 }
10995
10996 /*
10997  * Track a range of the kernel's virtual address space that is contiguous
10998  * in various mapping attributes.
10999  */
11000 struct pmap_kernel_map_range {
11001         vm_offset_t sva;
11002         pt_entry_t attrs;
11003         int ptes;
11004         int pdes;
11005         int pdpes;
11006 };
11007
11008 static void
11009 sysctl_kmaps_dump(struct sbuf *sb, struct pmap_kernel_map_range *range,
11010     vm_offset_t eva)
11011 {
11012         const char *mode;
11013         int i, pat_idx;
11014
11015         if (eva <= range->sva)
11016                 return;
11017
11018         pat_idx = pmap_pat_index(kernel_pmap, range->attrs, true);
11019         for (i = 0; i < PAT_INDEX_SIZE; i++)
11020                 if (pat_index[i] == pat_idx)
11021                         break;
11022
11023         switch (i) {
11024         case PAT_WRITE_BACK:
11025                 mode = "WB";
11026                 break;
11027         case PAT_WRITE_THROUGH:
11028                 mode = "WT";
11029                 break;
11030         case PAT_UNCACHEABLE:
11031                 mode = "UC";
11032                 break;
11033         case PAT_UNCACHED:
11034                 mode = "U-";
11035                 break;
11036         case PAT_WRITE_PROTECTED:
11037                 mode = "WP";
11038                 break;
11039         case PAT_WRITE_COMBINING:
11040                 mode = "WC";
11041                 break;
11042         default:
11043                 printf("%s: unknown PAT mode %#x for range 0x%016lx-0x%016lx\n",
11044                     __func__, pat_idx, range->sva, eva);
11045                 mode = "??";
11046                 break;
11047         }
11048
11049         sbuf_printf(sb, "0x%016lx-0x%016lx r%c%c%c%c %s %d %d %d\n",
11050             range->sva, eva,
11051             (range->attrs & X86_PG_RW) != 0 ? 'w' : '-',
11052             (range->attrs & pg_nx) != 0 ? '-' : 'x',
11053             (range->attrs & X86_PG_U) != 0 ? 'u' : 's',
11054             (range->attrs & X86_PG_G) != 0 ? 'g' : '-',
11055             mode, range->pdpes, range->pdes, range->ptes);
11056
11057         /* Reset to sentinel value. */
11058         range->sva = la57 ? KV5ADDR(NPML5EPG - 1, NPML4EPG - 1, NPDPEPG - 1,
11059             NPDEPG - 1, NPTEPG - 1) : KV4ADDR(NPML4EPG - 1, NPDPEPG - 1,
11060             NPDEPG - 1, NPTEPG - 1);
11061 }
11062
11063 /*
11064  * Determine whether the attributes specified by a page table entry match those
11065  * being tracked by the current range.  This is not quite as simple as a direct
11066  * flag comparison since some PAT modes have multiple representations.
11067  */
11068 static bool
11069 sysctl_kmaps_match(struct pmap_kernel_map_range *range, pt_entry_t attrs)
11070 {
11071         pt_entry_t diff, mask;
11072
11073         mask = X86_PG_G | X86_PG_RW | X86_PG_U | X86_PG_PDE_CACHE | pg_nx;
11074         diff = (range->attrs ^ attrs) & mask;
11075         if (diff == 0)
11076                 return (true);
11077         if ((diff & ~X86_PG_PDE_PAT) == 0 &&
11078             pmap_pat_index(kernel_pmap, range->attrs, true) ==
11079             pmap_pat_index(kernel_pmap, attrs, true))
11080                 return (true);
11081         return (false);
11082 }
11083
11084 static void
11085 sysctl_kmaps_reinit(struct pmap_kernel_map_range *range, vm_offset_t va,
11086     pt_entry_t attrs)
11087 {
11088
11089         memset(range, 0, sizeof(*range));
11090         range->sva = va;
11091         range->attrs = attrs;
11092 }
11093
11094 /*
11095  * Given a leaf PTE, derive the mapping's attributes.  If they do not match
11096  * those of the current run, dump the address range and its attributes, and
11097  * begin a new run.
11098  */
11099 static void
11100 sysctl_kmaps_check(struct sbuf *sb, struct pmap_kernel_map_range *range,
11101     vm_offset_t va, pml4_entry_t pml4e, pdp_entry_t pdpe, pd_entry_t pde,
11102     pt_entry_t pte)
11103 {
11104         pt_entry_t attrs;
11105
11106         attrs = pml4e & (X86_PG_RW | X86_PG_U | pg_nx);
11107
11108         attrs |= pdpe & pg_nx;
11109         attrs &= pg_nx | (pdpe & (X86_PG_RW | X86_PG_U));
11110         if ((pdpe & PG_PS) != 0) {
11111                 attrs |= pdpe & (X86_PG_G | X86_PG_PDE_CACHE);
11112         } else if (pde != 0) {
11113                 attrs |= pde & pg_nx;
11114                 attrs &= pg_nx | (pde & (X86_PG_RW | X86_PG_U));
11115         }
11116         if ((pde & PG_PS) != 0) {
11117                 attrs |= pde & (X86_PG_G | X86_PG_PDE_CACHE);
11118         } else if (pte != 0) {
11119                 attrs |= pte & pg_nx;
11120                 attrs &= pg_nx | (pte & (X86_PG_RW | X86_PG_U));
11121                 attrs |= pte & (X86_PG_G | X86_PG_PTE_CACHE);
11122
11123                 /* Canonicalize by always using the PDE PAT bit. */
11124                 if ((attrs & X86_PG_PTE_PAT) != 0)
11125                         attrs ^= X86_PG_PDE_PAT | X86_PG_PTE_PAT;
11126         }
11127
11128         if (range->sva > va || !sysctl_kmaps_match(range, attrs)) {
11129                 sysctl_kmaps_dump(sb, range, va);
11130                 sysctl_kmaps_reinit(range, va, attrs);
11131         }
11132 }
11133
11134 static int
11135 sysctl_kmaps(SYSCTL_HANDLER_ARGS)
11136 {
11137         struct pmap_kernel_map_range range;
11138         struct sbuf sbuf, *sb;
11139         pml4_entry_t pml4e;
11140         pdp_entry_t *pdp, pdpe;
11141         pd_entry_t *pd, pde;
11142         pt_entry_t *pt, pte;
11143         vm_offset_t sva;
11144         vm_paddr_t pa;
11145         int error, i, j, k, l;
11146
11147         error = sysctl_wire_old_buffer(req, 0);
11148         if (error != 0)
11149                 return (error);
11150         sb = &sbuf;
11151         sbuf_new_for_sysctl(sb, NULL, PAGE_SIZE, req);
11152
11153         /* Sentinel value. */
11154         range.sva = la57 ? KV5ADDR(NPML5EPG - 1, NPML4EPG - 1, NPDPEPG - 1,
11155             NPDEPG - 1, NPTEPG - 1) : KV4ADDR(NPML4EPG - 1, NPDPEPG - 1,
11156             NPDEPG - 1, NPTEPG - 1);
11157
11158         /*
11159          * Iterate over the kernel page tables without holding the kernel pmap
11160          * lock.  Outside of the large map, kernel page table pages are never
11161          * freed, so at worst we will observe inconsistencies in the output.
11162          * Within the large map, ensure that PDP and PD page addresses are
11163          * valid before descending.
11164          */
11165         for (sva = 0, i = pmap_pml4e_index(sva); i < NPML4EPG; i++) {
11166                 switch (i) {
11167                 case PML4PML4I:
11168                         sbuf_printf(sb, "\nRecursive map:\n");
11169                         break;
11170                 case DMPML4I:
11171                         sbuf_printf(sb, "\nDirect map:\n");
11172                         break;
11173                 case KPML4BASE:
11174                         sbuf_printf(sb, "\nKernel map:\n");
11175                         break;
11176                 case LMSPML4I:
11177                         sbuf_printf(sb, "\nLarge map:\n");
11178                         break;
11179                 }
11180
11181                 /* Convert to canonical form. */
11182                 if (sva == 1ul << 47)
11183                         sva |= -1ul << 48;
11184
11185 restart:
11186                 pml4e = kernel_pml4[i];
11187                 if ((pml4e & X86_PG_V) == 0) {
11188                         sva = rounddown2(sva, NBPML4);
11189                         sysctl_kmaps_dump(sb, &range, sva);
11190                         sva += NBPML4;
11191                         continue;
11192                 }
11193                 pa = pml4e & PG_FRAME;
11194                 pdp = (pdp_entry_t *)PHYS_TO_DMAP(pa);
11195
11196                 for (j = pmap_pdpe_index(sva); j < NPDPEPG; j++) {
11197                         pdpe = pdp[j];
11198                         if ((pdpe & X86_PG_V) == 0) {
11199                                 sva = rounddown2(sva, NBPDP);
11200                                 sysctl_kmaps_dump(sb, &range, sva);
11201                                 sva += NBPDP;
11202                                 continue;
11203                         }
11204                         pa = pdpe & PG_FRAME;
11205                         if (PMAP_ADDRESS_IN_LARGEMAP(sva) &&
11206                             vm_phys_paddr_to_vm_page(pa) == NULL)
11207                                 goto restart;
11208                         if ((pdpe & PG_PS) != 0) {
11209                                 sva = rounddown2(sva, NBPDP);
11210                                 sysctl_kmaps_check(sb, &range, sva, pml4e, pdpe,
11211                                     0, 0);
11212                                 range.pdpes++;
11213                                 sva += NBPDP;
11214                                 continue;
11215                         }
11216                         pd = (pd_entry_t *)PHYS_TO_DMAP(pa);
11217
11218                         for (k = pmap_pde_index(sva); k < NPDEPG; k++) {
11219                                 pde = pd[k];
11220                                 if ((pde & X86_PG_V) == 0) {
11221                                         sva = rounddown2(sva, NBPDR);
11222                                         sysctl_kmaps_dump(sb, &range, sva);
11223                                         sva += NBPDR;
11224                                         continue;
11225                                 }
11226                                 pa = pde & PG_FRAME;
11227                                 if (PMAP_ADDRESS_IN_LARGEMAP(sva) &&
11228                                     vm_phys_paddr_to_vm_page(pa) == NULL)
11229                                         goto restart;
11230                                 if ((pde & PG_PS) != 0) {
11231                                         sva = rounddown2(sva, NBPDR);
11232                                         sysctl_kmaps_check(sb, &range, sva,
11233                                             pml4e, pdpe, pde, 0);
11234                                         range.pdes++;
11235                                         sva += NBPDR;
11236                                         continue;
11237                                 }
11238                                 pt = (pt_entry_t *)PHYS_TO_DMAP(pa);
11239
11240                                 for (l = pmap_pte_index(sva); l < NPTEPG; l++,
11241                                     sva += PAGE_SIZE) {
11242                                         pte = pt[l];
11243                                         if ((pte & X86_PG_V) == 0) {
11244                                                 sysctl_kmaps_dump(sb, &range,
11245                                                     sva);
11246                                                 continue;
11247                                         }
11248                                         sysctl_kmaps_check(sb, &range, sva,
11249                                             pml4e, pdpe, pde, pte);
11250                                         range.ptes++;
11251                                 }
11252                         }
11253                 }
11254         }
11255
11256         error = sbuf_finish(sb);
11257         sbuf_delete(sb);
11258         return (error);
11259 }
11260 SYSCTL_OID(_vm_pmap, OID_AUTO, kernel_maps,
11261     CTLTYPE_STRING | CTLFLAG_RD | CTLFLAG_MPSAFE,
11262     NULL, 0, sysctl_kmaps, "A",
11263     "Dump kernel address layout");
11264
11265 #ifdef DDB
11266 DB_SHOW_COMMAND(pte, pmap_print_pte)
11267 {
11268         pmap_t pmap;
11269         pml5_entry_t *pml5;
11270         pml4_entry_t *pml4;
11271         pdp_entry_t *pdp;
11272         pd_entry_t *pde;
11273         pt_entry_t *pte, PG_V;
11274         vm_offset_t va;
11275
11276         if (!have_addr) {
11277                 db_printf("show pte addr\n");
11278                 return;
11279         }
11280         va = (vm_offset_t)addr;
11281
11282         if (kdb_thread != NULL)
11283                 pmap = vmspace_pmap(kdb_thread->td_proc->p_vmspace);
11284         else
11285                 pmap = PCPU_GET(curpmap);
11286
11287         PG_V = pmap_valid_bit(pmap);
11288         db_printf("VA 0x%016lx", va);
11289
11290         if (pmap_is_la57(pmap)) {
11291                 pml5 = pmap_pml5e(pmap, va);
11292                 db_printf(" pml5e 0x%016lx", *pml5);
11293                 if ((*pml5 & PG_V) == 0) {
11294                         db_printf("\n");
11295                         return;
11296                 }
11297                 pml4 = pmap_pml5e_to_pml4e(pml5, va);
11298         } else {
11299                 pml4 = pmap_pml4e(pmap, va);
11300         }
11301         db_printf(" pml4e 0x%016lx", *pml4);
11302         if ((*pml4 & PG_V) == 0) {
11303                 db_printf("\n");
11304                 return;
11305         }
11306         pdp = pmap_pml4e_to_pdpe(pml4, va);
11307         db_printf(" pdpe 0x%016lx", *pdp);
11308         if ((*pdp & PG_V) == 0 || (*pdp & PG_PS) != 0) {
11309                 db_printf("\n");
11310                 return;
11311         }
11312         pde = pmap_pdpe_to_pde(pdp, va);
11313         db_printf(" pde 0x%016lx", *pde);
11314         if ((*pde & PG_V) == 0 || (*pde & PG_PS) != 0) {
11315                 db_printf("\n");
11316                 return;
11317         }
11318         pte = pmap_pde_to_pte(pde, va);
11319         db_printf(" pte 0x%016lx\n", *pte);
11320 }
11321
11322 DB_SHOW_COMMAND(phys2dmap, pmap_phys2dmap)
11323 {
11324         vm_paddr_t a;
11325
11326         if (have_addr) {
11327                 a = (vm_paddr_t)addr;
11328                 db_printf("0x%jx\n", (uintmax_t)PHYS_TO_DMAP(a));
11329         } else {
11330                 db_printf("show phys2dmap addr\n");
11331         }
11332 }
11333
11334 static void
11335 ptpages_show_page(int level, int idx, vm_page_t pg)
11336 {
11337         db_printf("l %d i %d pg %p phys %#lx ref %x\n",
11338             level, idx, pg, VM_PAGE_TO_PHYS(pg), pg->ref_count);
11339 }
11340
11341 static void
11342 ptpages_show_complain(int level, int idx, uint64_t pte)
11343 {
11344         db_printf("l %d i %d pte %#lx\n", level, idx, pte);
11345 }
11346
11347 static void
11348 ptpages_show_pml4(vm_page_t pg4, int num_entries, uint64_t PG_V)
11349 {
11350         vm_page_t pg3, pg2, pg1;
11351         pml4_entry_t *pml4;
11352         pdp_entry_t *pdp;
11353         pd_entry_t *pd;
11354         int i4, i3, i2;
11355
11356         pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pg4));
11357         for (i4 = 0; i4 < num_entries; i4++) {
11358                 if ((pml4[i4] & PG_V) == 0)
11359                         continue;
11360                 pg3 = PHYS_TO_VM_PAGE(pml4[i4] & PG_FRAME);
11361                 if (pg3 == NULL) {
11362                         ptpages_show_complain(3, i4, pml4[i4]);
11363                         continue;
11364                 }
11365                 ptpages_show_page(3, i4, pg3);
11366                 pdp = (pdp_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pg3));
11367                 for (i3 = 0; i3 < NPDPEPG; i3++) {
11368                         if ((pdp[i3] & PG_V) == 0)
11369                                 continue;
11370                         pg2 = PHYS_TO_VM_PAGE(pdp[i3] & PG_FRAME);
11371                         if (pg3 == NULL) {
11372                                 ptpages_show_complain(2, i3, pdp[i3]);
11373                                 continue;
11374                         }
11375                         ptpages_show_page(2, i3, pg2);
11376                         pd = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pg2));
11377                         for (i2 = 0; i2 < NPDEPG; i2++) {
11378                                 if ((pd[i2] & PG_V) == 0)
11379                                         continue;
11380                                 pg1 = PHYS_TO_VM_PAGE(pd[i2] & PG_FRAME);
11381                                 if (pg1 == NULL) {
11382                                         ptpages_show_complain(1, i2, pd[i2]);
11383                                         continue;
11384                                 }
11385                                 ptpages_show_page(1, i2, pg1);
11386                         }
11387                 }
11388         }
11389 }
11390
11391 DB_SHOW_COMMAND(ptpages, pmap_ptpages)
11392 {
11393         pmap_t pmap;
11394         vm_page_t pg;
11395         pml5_entry_t *pml5;
11396         uint64_t PG_V;
11397         int i5;
11398
11399         if (have_addr)
11400                 pmap = (pmap_t)addr;
11401         else
11402                 pmap = PCPU_GET(curpmap);
11403
11404         PG_V = pmap_valid_bit(pmap);
11405
11406         if (pmap_is_la57(pmap)) {
11407                 pml5 = pmap->pm_pmltop;
11408                 for (i5 = 0; i5 < NUPML5E; i5++) {
11409                         if ((pml5[i5] & PG_V) == 0)
11410                                 continue;
11411                         pg = PHYS_TO_VM_PAGE(pml5[i5] & PG_FRAME);
11412                         if (pg == NULL) {
11413                                 ptpages_show_complain(4, i5, pml5[i5]);
11414                                 continue;
11415                         }
11416                         ptpages_show_page(4, i5, pg);
11417                         ptpages_show_pml4(pg, NPML4EPG, PG_V);
11418                 }
11419         } else {
11420                 ptpages_show_pml4(PHYS_TO_VM_PAGE(DMAP_TO_PHYS(
11421                     (vm_offset_t)pmap->pm_pmltop)), NUP4ML4E, PG_V);
11422         }
11423 }
11424 #endif