sys/amd64/amd64/pmap.c

   1 /*-
   2  * Copyright (c) 1991 Regents of the University of California.
   3  * All rights reserved.
   4  * Copyright (c) 1994 John S. Dyson
   5  * All rights reserved.
   6  * Copyright (c) 1994 David Greenman
   7  * All rights reserved.
   8  * Copyright (c) 2003 Peter Wemm
   9  * All rights reserved.
  10  * Copyright (c) 2005-2010 Alan L. Cox <alc@cs.rice.edu>
  11  * All rights reserved.
  12  *
  13  * This code is derived from software contributed to Berkeley by
  14  * the Systems Programming Group of the University of Utah Computer
  15  * Science Department and William Jolitz of UUNET Technologies Inc.
  16  *
  17  * Redistribution and use in source and binary forms, with or without
  18  * modification, are permitted provided that the following conditions
  19  * are met:
  20  * 1. Redistributions of source code must retain the above copyright
  21  *    notice, this list of conditions and the following disclaimer.
  22  * 2. Redistributions in binary form must reproduce the above copyright
  23  *    notice, this list of conditions and the following disclaimer in the
  24  *    documentation and/or other materials provided with the distribution.
  25  * 3. All advertising materials mentioning features or use of this software
  26  *    must display the following acknowledgement:
  27  *      This product includes software developed by the University of
  28  *      California, Berkeley and its contributors.
  29  * 4. Neither the name of the University nor the names of its contributors
  30  *    may be used to endorse or promote products derived from this software
  31  *    without specific prior written permission.
  32  *
  33  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  34  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  35  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  36  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  37  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  38  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  39  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  40  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  41  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  42  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  43  * SUCH DAMAGE.
  44  *
  45  *      from:   @(#)pmap.c      7.7 (Berkeley)  5/12/91
  46  */
  47 /*-
  48  * Copyright (c) 2003 Networks Associates Technology, Inc.
  49  * All rights reserved.
  50  *
  51  * This software was developed for the FreeBSD Project by Jake Burkholder,
  52  * Safeport Network Services, and Network Associates Laboratories, the
  53  * Security Research Division of Network Associates, Inc. under
  54  * DARPA/SPAWAR contract N66001-01-C-8035 ("CBOSS"), as part of the DARPA
  55  * CHATS research program.
  56  *
  57  * Redistribution and use in source and binary forms, with or without
  58  * modification, are permitted provided that the following conditions
  59  * are met:
  60  * 1. Redistributions of source code must retain the above copyright
  61  *    notice, this list of conditions and the following disclaimer.
  62  * 2. Redistributions in binary form must reproduce the above copyright
  63  *    notice, this list of conditions and the following disclaimer in the
  64  *    documentation and/or other materials provided with the distribution.
  65  *
  66  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  67  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  68  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  69  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  70  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  71  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  72  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  73  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  74  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  75  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  76  * SUCH DAMAGE.
  77  */
  78
  79 #define AMD64_NPT_AWARE
  80
  81 #include <sys/cdefs.h>
  82 __FBSDID("$FreeBSD$");
  83
  84 /*
  85  *      Manages physical address maps.
  86  *
  87  *      Since the information managed by this module is
  88  *      also stored by the logical address mapping module,
  89  *      this module may throw away valid virtual-to-physical
  90  *      mappings at almost any time.  However, invalidations
  91  *      of virtual-to-physical mappings must be done as
  92  *      requested.
  93  *
  94  *      In order to cope with hardware architectures which
  95  *      make virtual-to-physical map invalidates expensive,
  96  *      this module may delay invalidate or reduced protection
  97  *      operations until such time as they are actually
  98  *      necessary.  This module is given full information as
  99  *      to which processors are currently using which maps,
 100  *      and to when physical maps must be made correct.
 101  */
 102
 103 #include "opt_pmap.h"
 104 #include "opt_vm.h"
 105
 106 #include <sys/param.h>
 107 #include <sys/bus.h>
 108 #include <sys/systm.h>
 109 #include <sys/kernel.h>
 110 #include <sys/ktr.h>
 111 #include <sys/lock.h>
 112 #include <sys/malloc.h>
 113 #include <sys/mman.h>
 114 #include <sys/mutex.h>
 115 #include <sys/proc.h>
 116 #include <sys/rwlock.h>
 117 #include <sys/sx.h>
 118 #include <sys/vmmeter.h>
 119 #include <sys/sched.h>
 120 #include <sys/sysctl.h>
 121 #include <sys/_unrhdr.h>
 122 #include <sys/smp.h>
 123
 124 #include <vm/vm.h>
 125 #include <vm/vm_param.h>
 126 #include <vm/vm_kern.h>
 127 #include <vm/vm_page.h>
 128 #include <vm/vm_map.h>
 129 #include <vm/vm_object.h>
 130 #include <vm/vm_extern.h>
 131 #include <vm/vm_pageout.h>
 132 #include <vm/vm_pager.h>
 133 #include <vm/vm_radix.h>
 134 #include <vm/vm_reserv.h>
 135 #include <vm/uma.h>
 136
 137 #include <machine/intr_machdep.h>
 138 #include <x86/apicvar.h>
 139 #include <machine/cpu.h>
 140 #include <machine/cputypes.h>
 141 #include <machine/md_var.h>
 142 #include <machine/pcb.h>
 143 #include <machine/specialreg.h>
 144 #ifdef SMP
 145 #include <machine/smp.h>
 146 #endif
 147
 148 static __inline boolean_t
 149 pmap_emulate_ad_bits(pmap_t pmap)
 150 {
 151
 152         return ((pmap->pm_flags & PMAP_EMULATE_AD_BITS) != 0);
 153 }
 154
 155 static __inline pt_entry_t
 156 pmap_valid_bit(pmap_t pmap)
 157 {
 158         pt_entry_t mask;
 159
 160         switch (pmap->pm_type) {
 161         case PT_X86:
 162                 mask = X86_PG_V;
 163                 break;
 164         case PT_EPT:
 165                 if (pmap_emulate_ad_bits(pmap))
 166                         mask = EPT_PG_EMUL_V;
 167                 else
 168                         mask = EPT_PG_READ;
 169                 break;
 170         default:
 171                 panic("pmap_valid_bit: invalid pm_type %d", pmap->pm_type);
 172         }
 173
 174         return (mask);
 175 }
 176
 177 static __inline pt_entry_t
 178 pmap_rw_bit(pmap_t pmap)
 179 {
 180         pt_entry_t mask;
 181
 182         switch (pmap->pm_type) {
 183         case PT_X86:
 184                 mask = X86_PG_RW;
 185                 break;
 186         case PT_EPT:
 187                 if (pmap_emulate_ad_bits(pmap))
 188                         mask = EPT_PG_EMUL_RW;
 189                 else
 190                         mask = EPT_PG_WRITE;
 191                 break;
 192         default:
 193                 panic("pmap_rw_bit: invalid pm_type %d", pmap->pm_type);
 194         }
 195
 196         return (mask);
 197 }
 198
 199 static __inline pt_entry_t
 200 pmap_global_bit(pmap_t pmap)
 201 {
 202         pt_entry_t mask;
 203
 204         switch (pmap->pm_type) {
 205         case PT_X86:
 206                 mask = X86_PG_G;
 207                 break;
 208         case PT_EPT:
 209                 mask = 0;
 210                 break;
 211         default:
 212                 panic("pmap_global_bit: invalid pm_type %d", pmap->pm_type);
 213         }
 214
 215         return (mask);
 216 }
 217
 218 static __inline pt_entry_t
 219 pmap_accessed_bit(pmap_t pmap)
 220 {
 221         pt_entry_t mask;
 222
 223         switch (pmap->pm_type) {
 224         case PT_X86:
 225                 mask = X86_PG_A;
 226                 break;
 227         case PT_EPT:
 228                 if (pmap_emulate_ad_bits(pmap))
 229                         mask = EPT_PG_READ;
 230                 else
 231                         mask = EPT_PG_A;
 232                 break;
 233         default:
 234                 panic("pmap_accessed_bit: invalid pm_type %d", pmap->pm_type);
 235         }
 236
 237         return (mask);
 238 }
 239
 240 static __inline pt_entry_t
 241 pmap_modified_bit(pmap_t pmap)
 242 {
 243         pt_entry_t mask;
 244
 245         switch (pmap->pm_type) {
 246         case PT_X86:
 247                 mask = X86_PG_M;
 248                 break;
 249         case PT_EPT:
 250                 if (pmap_emulate_ad_bits(pmap))
 251                         mask = EPT_PG_WRITE;
 252                 else
 253                         mask = EPT_PG_M;
 254                 break;
 255         default:
 256                 panic("pmap_modified_bit: invalid pm_type %d", pmap->pm_type);
 257         }
 258
 259         return (mask);
 260 }
 261
 262 #if !defined(DIAGNOSTIC)
 263 #ifdef __GNUC_GNU_INLINE__
 264 #define PMAP_INLINE     __attribute__((__gnu_inline__)) inline
 265 #else
 266 #define PMAP_INLINE     extern inline
 267 #endif
 268 #else
 269 #define PMAP_INLINE
 270 #endif
 271
 272 #ifdef PV_STATS
 273 #define PV_STAT(x)      do { x ; } while (0)
 274 #else
 275 #define PV_STAT(x)      do { } while (0)
 276 #endif
 277
 278 #define pa_index(pa)    ((pa) >> PDRSHIFT)
 279 #define pa_to_pvh(pa)   (&pv_table[pa_index(pa)])
 280
 281 #define NPV_LIST_LOCKS  MAXCPU
 282
 283 #define PHYS_TO_PV_LIST_LOCK(pa)        \
 284                         (&pv_list_locks[pa_index(pa) % NPV_LIST_LOCKS])
 285
 286 #define CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa)  do {    \
 287         struct rwlock **_lockp = (lockp);               \
 288         struct rwlock *_new_lock;                       \
 289                                                         \
 290         _new_lock = PHYS_TO_PV_LIST_LOCK(pa);           \
 291         if (_new_lock != *_lockp) {                     \
 292                 if (*_lockp != NULL)                    \
 293                         rw_wunlock(*_lockp);            \
 294                 *_lockp = _new_lock;                    \
 295                 rw_wlock(*_lockp);                      \
 296         }                                               \
 297 } while (0)
 298
 299 #define CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m)        \
 300                         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, VM_PAGE_TO_PHYS(m))
 301
 302 #define RELEASE_PV_LIST_LOCK(lockp)             do {    \
 303         struct rwlock **_lockp = (lockp);               \
 304                                                         \
 305         if (*_lockp != NULL) {                          \
 306                 rw_wunlock(*_lockp);                    \
 307                 *_lockp = NULL;                         \
 308         }                                               \
 309 } while (0)
 310
 311 #define VM_PAGE_TO_PV_LIST_LOCK(m)      \
 312                         PHYS_TO_PV_LIST_LOCK(VM_PAGE_TO_PHYS(m))
 313
 314 struct pmap kernel_pmap_store;
 315
 316 vm_offset_t virtual_avail;      /* VA of first avail page (after kernel bss) */
 317 vm_offset_t virtual_end;        /* VA of last avail page (end of kernel AS) */
 318
 319 int nkpt;
 320 SYSCTL_INT(_machdep, OID_AUTO, nkpt, CTLFLAG_RD, &nkpt, 0,
 321     "Number of kernel page table pages allocated on bootup");
 322
 323 static int ndmpdp;
 324 static vm_paddr_t dmaplimit;
 325 vm_offset_t kernel_vm_end = VM_MIN_KERNEL_ADDRESS;
 326 pt_entry_t pg_nx;
 327
 328 static SYSCTL_NODE(_vm, OID_AUTO, pmap, CTLFLAG_RD, 0, "VM/pmap parameters");
 329
 330 static int pat_works = 1;
 331 SYSCTL_INT(_vm_pmap, OID_AUTO, pat_works, CTLFLAG_RD, &pat_works, 1,
 332     "Is page attribute table fully functional?");
 333
 334 static int pg_ps_enabled = 1;
 335 SYSCTL_INT(_vm_pmap, OID_AUTO, pg_ps_enabled, CTLFLAG_RDTUN, &pg_ps_enabled, 0,
 336     "Are large page mappings enabled?");
 337
 338 #define PAT_INDEX_SIZE  8
 339 static int pat_index[PAT_INDEX_SIZE];   /* cache mode to PAT index conversion */
 340
 341 static u_int64_t        KPTphys;        /* phys addr of kernel level 1 */
 342 static u_int64_t        KPDphys;        /* phys addr of kernel level 2 */
 343 u_int64_t               KPDPphys;       /* phys addr of kernel level 3 */
 344 u_int64_t               KPML4phys;      /* phys addr of kernel level 4 */
 345
 346 static u_int64_t        DMPDphys;       /* phys addr of direct mapped level 2 */
 347 static u_int64_t        DMPDPphys;      /* phys addr of direct mapped level 3 */
 348 static int              ndmpdpphys;     /* number of DMPDPphys pages */
 349
 350 static struct rwlock_padalign pvh_global_lock;
 351
 352 /*
 353  * Data for the pv entry allocation mechanism
 354  */
 355 static TAILQ_HEAD(pch, pv_chunk) pv_chunks = TAILQ_HEAD_INITIALIZER(pv_chunks);
 356 static struct mtx pv_chunks_mutex;
 357 static struct rwlock pv_list_locks[NPV_LIST_LOCKS];
 358 static struct md_page *pv_table;
 359
 360 /*
 361  * All those kernel PT submaps that BSD is so fond of
 362  */
 363 pt_entry_t *CMAP1 = 0;
 364 caddr_t CADDR1 = 0;
 365
 366 static int pmap_flags = PMAP_PDE_SUPERPAGE;     /* flags for x86 pmaps */
 367
 368 static struct unrhdr pcid_unr;
 369 static struct mtx pcid_mtx;
 370 int pmap_pcid_enabled = 1;
 371 SYSCTL_INT(_vm_pmap, OID_AUTO, pcid_enabled, CTLFLAG_RDTUN, &pmap_pcid_enabled,
 372     0, "Is TLB Context ID enabled ?");
 373 int invpcid_works = 0;
 374 SYSCTL_INT(_vm_pmap, OID_AUTO, invpcid_works, CTLFLAG_RD, &invpcid_works, 0,
 375     "Is the invpcid instruction available ?");
 376
 377 static int
 378 pmap_pcid_save_cnt_proc(SYSCTL_HANDLER_ARGS)
 379 {
 380         int i;
 381         uint64_t res;
 382
 383         res = 0;
 384         CPU_FOREACH(i) {
 385                 res += cpuid_to_pcpu[i]->pc_pm_save_cnt;
 386         }
 387         return (sysctl_handle_64(oidp, &res, 0, req));
 388 }
 389 SYSCTL_PROC(_vm_pmap, OID_AUTO, pcid_save_cnt, CTLTYPE_U64 | CTLFLAG_RW |
 390     CTLFLAG_MPSAFE, NULL, 0, pmap_pcid_save_cnt_proc, "QU",
 391     "Count of saved TLB context on switch");
 392
 393 /*
 394  * Crashdump maps.
 395  */
 396 static caddr_t crashdumpmap;
 397
 398 static void     free_pv_chunk(struct pv_chunk *pc);
 399 static void     free_pv_entry(pmap_t pmap, pv_entry_t pv);
 400 static pv_entry_t get_pv_entry(pmap_t pmap, struct rwlock **lockp);
 401 static int      popcnt_pc_map_elem(uint64_t elem);
 402 static vm_page_t reclaim_pv_chunk(pmap_t locked_pmap, struct rwlock **lockp);
 403 static void     reserve_pv_entries(pmap_t pmap, int needed,
 404                     struct rwlock **lockp);
 405 static void     pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
 406                     struct rwlock **lockp);
 407 static boolean_t pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
 408                     struct rwlock **lockp);
 409 static void     pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
 410                     struct rwlock **lockp);
 411 static void     pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va);
 412 static pv_entry_t pmap_pvh_remove(struct md_page *pvh, pmap_t pmap,
 413                     vm_offset_t va);
 414
 415 static int pmap_change_attr_locked(vm_offset_t va, vm_size_t size, int mode);
 416 static boolean_t pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va);
 417 static boolean_t pmap_demote_pde_locked(pmap_t pmap, pd_entry_t *pde,
 418     vm_offset_t va, struct rwlock **lockp);
 419 static boolean_t pmap_demote_pdpe(pmap_t pmap, pdp_entry_t *pdpe,
 420     vm_offset_t va);
 421 static boolean_t pmap_enter_pde(pmap_t pmap, vm_offset_t va, vm_page_t m,
 422     vm_prot_t prot, struct rwlock **lockp);
 423 static vm_page_t pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va,
 424     vm_page_t m, vm_prot_t prot, vm_page_t mpte, struct rwlock **lockp);
 425 static void pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte);
 426 static int pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte);
 427 static void pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode);
 428 static vm_page_t pmap_lookup_pt_page(pmap_t pmap, vm_offset_t va);
 429 static void pmap_pde_attr(pd_entry_t *pde, int cache_bits, int mask);
 430 static void pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
 431     struct rwlock **lockp);
 432 static boolean_t pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva,
 433     vm_prot_t prot);
 434 static void pmap_pte_attr(pt_entry_t *pte, int cache_bits, int mask);
 435 static int pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
 436     struct spglist *free, struct rwlock **lockp);
 437 static int pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t sva,
 438     pd_entry_t ptepde, struct spglist *free, struct rwlock **lockp);
 439 static void pmap_remove_pt_page(pmap_t pmap, vm_page_t mpte);
 440 static void pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
 441     struct spglist *free);
 442 static boolean_t pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va,
 443     vm_page_t m, struct rwlock **lockp);
 444 static void pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
 445     pd_entry_t newpde);
 446 static void pmap_update_pde_invalidate(pmap_t, vm_offset_t va, pd_entry_t pde);
 447
 448 static vm_page_t _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex,
 449                 struct rwlock **lockp);
 450 static vm_page_t pmap_allocpde(pmap_t pmap, vm_offset_t va,
 451                 struct rwlock **lockp);
 452 static vm_page_t pmap_allocpte(pmap_t pmap, vm_offset_t va,
 453                 struct rwlock **lockp);
 454
 455 static void _pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m,
 456     struct spglist *free);
 457 static int pmap_unuse_pt(pmap_t, vm_offset_t, pd_entry_t, struct spglist *);
 458 static vm_offset_t pmap_kmem_choose(vm_offset_t addr);
 459
 460 /*
 461  * Move the kernel virtual free pointer to the next
 462  * 2MB.  This is used to help improve performance
 463  * by using a large (2MB) page for much of the kernel
 464  * (.text, .data, .bss)
 465  */
 466 static vm_offset_t
 467 pmap_kmem_choose(vm_offset_t addr)
 468 {
 469         vm_offset_t newaddr = addr;
 470
 471         newaddr = (addr + (NBPDR - 1)) & ~(NBPDR - 1);
 472         return (newaddr);
 473 }
 474
 475 /********************/
 476 /* Inline functions */
 477 /********************/
 478
 479 /* Return a non-clipped PD index for a given VA */
 480 static __inline vm_pindex_t
 481 pmap_pde_pindex(vm_offset_t va)
 482 {
 483         return (va >> PDRSHIFT);
 484 }
 485
 486
 487 /* Return various clipped indexes for a given VA */
 488 static __inline vm_pindex_t
 489 pmap_pte_index(vm_offset_t va)
 490 {
 491
 492         return ((va >> PAGE_SHIFT) & ((1ul << NPTEPGSHIFT) - 1));
 493 }
 494
 495 static __inline vm_pindex_t
 496 pmap_pde_index(vm_offset_t va)
 497 {
 498
 499         return ((va >> PDRSHIFT) & ((1ul << NPDEPGSHIFT) - 1));
 500 }
 501
 502 static __inline vm_pindex_t
 503 pmap_pdpe_index(vm_offset_t va)
 504 {
 505
 506         return ((va >> PDPSHIFT) & ((1ul << NPDPEPGSHIFT) - 1));
 507 }
 508
 509 static __inline vm_pindex_t
 510 pmap_pml4e_index(vm_offset_t va)
 511 {
 512
 513         return ((va >> PML4SHIFT) & ((1ul << NPML4EPGSHIFT) - 1));
 514 }
 515
 516 /* Return a pointer to the PML4 slot that corresponds to a VA */
 517 static __inline pml4_entry_t *
 518 pmap_pml4e(pmap_t pmap, vm_offset_t va)
 519 {
 520
 521         return (&pmap->pm_pml4[pmap_pml4e_index(va)]);
 522 }
 523
 524 /* Return a pointer to the PDP slot that corresponds to a VA */
 525 static __inline pdp_entry_t *
 526 pmap_pml4e_to_pdpe(pml4_entry_t *pml4e, vm_offset_t va)
 527 {
 528         pdp_entry_t *pdpe;
 529
 530         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(*pml4e & PG_FRAME);
 531         return (&pdpe[pmap_pdpe_index(va)]);
 532 }
 533
 534 /* Return a pointer to the PDP slot that corresponds to a VA */
 535 static __inline pdp_entry_t *
 536 pmap_pdpe(pmap_t pmap, vm_offset_t va)
 537 {
 538         pml4_entry_t *pml4e;
 539         pt_entry_t PG_V;
 540
 541         PG_V = pmap_valid_bit(pmap);
 542         pml4e = pmap_pml4e(pmap, va);
 543         if ((*pml4e & PG_V) == 0)
 544                 return (NULL);
 545         return (pmap_pml4e_to_pdpe(pml4e, va));
 546 }
 547
 548 /* Return a pointer to the PD slot that corresponds to a VA */
 549 static __inline pd_entry_t *
 550 pmap_pdpe_to_pde(pdp_entry_t *pdpe, vm_offset_t va)
 551 {
 552         pd_entry_t *pde;
 553
 554         pde = (pd_entry_t *)PHYS_TO_DMAP(*pdpe & PG_FRAME);
 555         return (&pde[pmap_pde_index(va)]);
 556 }
 557
 558 /* Return a pointer to the PD slot that corresponds to a VA */
 559 static __inline pd_entry_t *
 560 pmap_pde(pmap_t pmap, vm_offset_t va)
 561 {
 562         pdp_entry_t *pdpe;
 563         pt_entry_t PG_V;
 564
 565         PG_V = pmap_valid_bit(pmap);
 566         pdpe = pmap_pdpe(pmap, va);
 567         if (pdpe == NULL || (*pdpe & PG_V) == 0)
 568                 return (NULL);
 569         return (pmap_pdpe_to_pde(pdpe, va));
 570 }
 571
 572 /* Return a pointer to the PT slot that corresponds to a VA */
 573 static __inline pt_entry_t *
 574 pmap_pde_to_pte(pd_entry_t *pde, vm_offset_t va)
 575 {
 576         pt_entry_t *pte;
 577
 578         pte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
 579         return (&pte[pmap_pte_index(va)]);
 580 }
 581
 582 /* Return a pointer to the PT slot that corresponds to a VA */
 583 static __inline pt_entry_t *
 584 pmap_pte(pmap_t pmap, vm_offset_t va)
 585 {
 586         pd_entry_t *pde;
 587         pt_entry_t PG_V;
 588
 589         PG_V = pmap_valid_bit(pmap);
 590         pde = pmap_pde(pmap, va);
 591         if (pde == NULL || (*pde & PG_V) == 0)
 592                 return (NULL);
 593         if ((*pde & PG_PS) != 0)        /* compat with i386 pmap_pte() */
 594                 return ((pt_entry_t *)pde);
 595         return (pmap_pde_to_pte(pde, va));
 596 }
 597
 598 static __inline void
 599 pmap_resident_count_inc(pmap_t pmap, int count)
 600 {
 601
 602         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
 603         pmap->pm_stats.resident_count += count;
 604 }
 605
 606 static __inline void
 607 pmap_resident_count_dec(pmap_t pmap, int count)
 608 {
 609
 610         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
 611         KASSERT(pmap->pm_stats.resident_count >= count,
 612             ("pmap %p resident count underflow %ld %d", pmap,
 613             pmap->pm_stats.resident_count, count));
 614         pmap->pm_stats.resident_count -= count;
 615 }
 616
 617 PMAP_INLINE pt_entry_t *
 618 vtopte(vm_offset_t va)
 619 {
 620         u_int64_t mask = ((1ul << (NPTEPGSHIFT + NPDEPGSHIFT + NPDPEPGSHIFT + NPML4EPGSHIFT)) - 1);
 621
 622         KASSERT(va >= VM_MAXUSER_ADDRESS, ("vtopte on a uva/gpa 0x%0lx", va));
 623
 624         return (PTmap + ((va >> PAGE_SHIFT) & mask));
 625 }
 626
 627 static __inline pd_entry_t *
 628 vtopde(vm_offset_t va)
 629 {
 630         u_int64_t mask = ((1ul << (NPDEPGSHIFT + NPDPEPGSHIFT + NPML4EPGSHIFT)) - 1);
 631
 632         KASSERT(va >= VM_MAXUSER_ADDRESS, ("vtopde on a uva/gpa 0x%0lx", va));
 633
 634         return (PDmap + ((va >> PDRSHIFT) & mask));
 635 }
 636
 637 static u_int64_t
 638 allocpages(vm_paddr_t *firstaddr, int n)
 639 {
 640         u_int64_t ret;
 641
 642         ret = *firstaddr;
 643         bzero((void *)ret, n * PAGE_SIZE);
 644         *firstaddr += n * PAGE_SIZE;
 645         return (ret);
 646 }
 647
 648 CTASSERT(powerof2(NDMPML4E));
 649
 650 /* number of kernel PDP slots */
 651 #define NKPDPE(ptpgs)           howmany((ptpgs), NPDEPG)
 652
 653 static void
 654 nkpt_init(vm_paddr_t addr)
 655 {
 656         int pt_pages;
 657
 658 #ifdef NKPT
 659         pt_pages = NKPT;
 660 #else
 661         pt_pages = howmany(addr, 1 << PDRSHIFT);
 662         pt_pages += NKPDPE(pt_pages);
 663
 664         /*
 665          * Add some slop beyond the bare minimum required for bootstrapping
 666          * the kernel.
 667          *
 668          * This is quite important when allocating KVA for kernel modules.
 669          * The modules are required to be linked in the negative 2GB of
 670          * the address space.  If we run out of KVA in this region then
 671          * pmap_growkernel() will need to allocate page table pages to map
 672          * the entire 512GB of KVA space which is an unnecessary tax on
 673          * physical memory.
 674          */
 675         pt_pages += 8;          /* 16MB additional slop for kernel modules */
 676 #endif
 677         nkpt = pt_pages;
 678 }
 679
 680 static void
 681 create_pagetables(vm_paddr_t *firstaddr)
 682 {
 683         int i, j, ndm1g, nkpdpe;
 684         pt_entry_t *pt_p;
 685         pd_entry_t *pd_p;
 686         pdp_entry_t *pdp_p;
 687         pml4_entry_t *p4_p;
 688
 689         /* Allocate page table pages for the direct map */
 690         ndmpdp = (ptoa(Maxmem) + NBPDP - 1) >> PDPSHIFT;
 691         if (ndmpdp < 4)         /* Minimum 4GB of dirmap */
 692                 ndmpdp = 4;
 693         ndmpdpphys = howmany(ndmpdp, NPDPEPG);
 694         if (ndmpdpphys > NDMPML4E) {
 695                 /*
 696                  * Each NDMPML4E allows 512 GB, so limit to that,
 697                  * and then readjust ndmpdp and ndmpdpphys.
 698                  */
 699                 printf("NDMPML4E limits system to %d GB\n", NDMPML4E * 512);
 700                 Maxmem = atop(NDMPML4E * NBPML4);
 701                 ndmpdpphys = NDMPML4E;
 702                 ndmpdp = NDMPML4E * NPDEPG;
 703         }
 704         DMPDPphys = allocpages(firstaddr, ndmpdpphys);
 705         ndm1g = 0;
 706         if ((amd_feature & AMDID_PAGE1GB) != 0)
 707                 ndm1g = ptoa(Maxmem) >> PDPSHIFT;
 708         if (ndm1g < ndmpdp)
 709                 DMPDphys = allocpages(firstaddr, ndmpdp - ndm1g);
 710         dmaplimit = (vm_paddr_t)ndmpdp << PDPSHIFT;
 711
 712         /* Allocate pages */
 713         KPML4phys = allocpages(firstaddr, 1);
 714         KPDPphys = allocpages(firstaddr, NKPML4E);
 715
 716         /*
 717          * Allocate the initial number of kernel page table pages required to
 718          * bootstrap.  We defer this until after all memory-size dependent
 719          * allocations are done (e.g. direct map), so that we don't have to
 720          * build in too much slop in our estimate.
 721          *
 722          * Note that when NKPML4E > 1, we have an empty page underneath
 723          * all but the KPML4I'th one, so we need NKPML4E-1 extra (zeroed)
 724          * pages.  (pmap_enter requires a PD page to exist for each KPML4E.)
 725          */
 726         nkpt_init(*firstaddr);
 727         nkpdpe = NKPDPE(nkpt);
 728
 729         KPTphys = allocpages(firstaddr, nkpt);
 730         KPDphys = allocpages(firstaddr, nkpdpe);
 731
 732         /* Fill in the underlying page table pages */
 733         /* Nominally read-only (but really R/W) from zero to physfree */
 734         /* XXX not fully used, underneath 2M pages */
 735         pt_p = (pt_entry_t *)KPTphys;
 736         for (i = 0; ptoa(i) < *firstaddr; i++)
 737                 pt_p[i] = ptoa(i) | X86_PG_RW | X86_PG_V | X86_PG_G;
 738
 739         /* Now map the page tables at their location within PTmap */
 740         pd_p = (pd_entry_t *)KPDphys;
 741         for (i = 0; i < nkpt; i++)
 742                 pd_p[i] = (KPTphys + ptoa(i)) | X86_PG_RW | X86_PG_V;
 743
 744         /* Map from zero to end of allocations under 2M pages */
 745         /* This replaces some of the KPTphys entries above */
 746         for (i = 0; (i << PDRSHIFT) < *firstaddr; i++)
 747                 pd_p[i] = (i << PDRSHIFT) | X86_PG_RW | X86_PG_V | PG_PS |
 748                     X86_PG_G;
 749
 750         /* And connect up the PD to the PDP (leaving room for L4 pages) */
 751         pdp_p = (pdp_entry_t *)(KPDPphys + ptoa(KPML4I - KPML4BASE));
 752         for (i = 0; i < nkpdpe; i++)
 753                 pdp_p[i + KPDPI] = (KPDphys + ptoa(i)) | X86_PG_RW | X86_PG_V |
 754                     PG_U;
 755
 756         /*
 757          * Now, set up the direct map region using 2MB and/or 1GB pages.  If
 758          * the end of physical memory is not aligned to a 1GB page boundary,
 759          * then the residual physical memory is mapped with 2MB pages.  Later,
 760          * if pmap_mapdev{_attr}() uses the direct map for non-write-back
 761          * memory, pmap_change_attr() will demote any 2MB or 1GB page mappings
 762          * that are partially used.
 763          */
 764         pd_p = (pd_entry_t *)DMPDphys;
 765         for (i = NPDEPG * ndm1g, j = 0; i < NPDEPG * ndmpdp; i++, j++) {
 766                 pd_p[j] = (vm_paddr_t)i << PDRSHIFT;
 767                 /* Preset PG_M and PG_A because demotion expects it. */
 768                 pd_p[j] |= X86_PG_RW | X86_PG_V | PG_PS | X86_PG_G |
 769                     X86_PG_M | X86_PG_A;
 770         }
 771         pdp_p = (pdp_entry_t *)DMPDPphys;
 772         for (i = 0; i < ndm1g; i++) {
 773                 pdp_p[i] = (vm_paddr_t)i << PDPSHIFT;
 774                 /* Preset PG_M and PG_A because demotion expects it. */
 775                 pdp_p[i] |= X86_PG_RW | X86_PG_V | PG_PS | X86_PG_G |
 776                     X86_PG_M | X86_PG_A;
 777         }
 778         for (j = 0; i < ndmpdp; i++, j++) {
 779                 pdp_p[i] = DMPDphys + ptoa(j);
 780                 pdp_p[i] |= X86_PG_RW | X86_PG_V | PG_U;
 781         }
 782
 783         /* And recursively map PML4 to itself in order to get PTmap */
 784         p4_p = (pml4_entry_t *)KPML4phys;
 785         p4_p[PML4PML4I] = KPML4phys;
 786         p4_p[PML4PML4I] |= X86_PG_RW | X86_PG_V | PG_U;
 787
 788         /* Connect the Direct Map slot(s) up to the PML4. */
 789         for (i = 0; i < ndmpdpphys; i++) {
 790                 p4_p[DMPML4I + i] = DMPDPphys + ptoa(i);
 791                 p4_p[DMPML4I + i] |= X86_PG_RW | X86_PG_V | PG_U;
 792         }
 793
 794         /* Connect the KVA slots up to the PML4 */
 795         for (i = 0; i < NKPML4E; i++) {
 796                 p4_p[KPML4BASE + i] = KPDPphys + ptoa(i);
 797                 p4_p[KPML4BASE + i] |= X86_PG_RW | X86_PG_V | PG_U;
 798         }
 799 }
 800
 801 /*
 802  *      Bootstrap the system enough to run with virtual memory.
 803  *
 804  *      On amd64 this is called after mapping has already been enabled
 805  *      and just syncs the pmap module with what has already been done.
 806  *      [We can't call it easily with mapping off since the kernel is not
 807  *      mapped with PA == VA, hence we would have to relocate every address
 808  *      from the linked base (virtual) address "KERNBASE" to the actual
 809  *      (physical) address starting relative to 0]
 810  */
 811 void
 812 pmap_bootstrap(vm_paddr_t *firstaddr)
 813 {
 814         vm_offset_t va;
 815         pt_entry_t *pte;
 816
 817         /*
 818          * Create an initial set of page tables to run the kernel in.
 819          */
 820         create_pagetables(firstaddr);
 821
 822         virtual_avail = (vm_offset_t) KERNBASE + *firstaddr;
 823         virtual_avail = pmap_kmem_choose(virtual_avail);
 824
 825         virtual_end = VM_MAX_KERNEL_ADDRESS;
 826
 827
 828         /* XXX do %cr0 as well */
 829         load_cr4(rcr4() | CR4_PGE | CR4_PSE);
 830         load_cr3(KPML4phys);
 831         if (cpu_stdext_feature & CPUID_STDEXT_SMEP)
 832                 load_cr4(rcr4() | CR4_SMEP);
 833
 834         /*
 835          * Initialize the kernel pmap (which is statically allocated).
 836          */
 837         PMAP_LOCK_INIT(kernel_pmap);
 838         kernel_pmap->pm_pml4 = (pdp_entry_t *)PHYS_TO_DMAP(KPML4phys);
 839         kernel_pmap->pm_cr3 = KPML4phys;
 840         CPU_FILL(&kernel_pmap->pm_active);      /* don't allow deactivation */
 841         CPU_ZERO(&kernel_pmap->pm_save);
 842         TAILQ_INIT(&kernel_pmap->pm_pvchunk);
 843         kernel_pmap->pm_flags = pmap_flags;
 844
 845         /*
 846          * Initialize the global pv list lock.
 847          */
 848         rw_init(&pvh_global_lock, "pmap pv global");
 849
 850         /*
 851          * Reserve some special page table entries/VA space for temporary
 852          * mapping of pages.
 853          */
 854 #define SYSMAP(c, p, v, n)      \
 855         v = (c)va; va += ((n)*PAGE_SIZE); p = pte; pte += (n);
 856
 857         va = virtual_avail;
 858         pte = vtopte(va);
 859
 860         /*
 861          * Crashdump maps.  The first page is reused as CMAP1 for the
 862          * memory test.
 863          */
 864         SYSMAP(caddr_t, CMAP1, crashdumpmap, MAXDUMPPGS)
 865         CADDR1 = crashdumpmap;
 866
 867         virtual_avail = va;
 868
 869         /* Initialize the PAT MSR. */
 870         pmap_init_pat();
 871
 872         /* Initialize TLB Context Id. */
 873         TUNABLE_INT_FETCH("vm.pmap.pcid_enabled", &pmap_pcid_enabled);
 874         if ((cpu_feature2 & CPUID2_PCID) != 0 && pmap_pcid_enabled) {
 875                 load_cr4(rcr4() | CR4_PCIDE);
 876                 mtx_init(&pcid_mtx, "pcid", NULL, MTX_DEF);
 877                 init_unrhdr(&pcid_unr, 1, (1 << 12) - 1, &pcid_mtx);
 878                 /* Check for INVPCID support */
 879                 invpcid_works = (cpu_stdext_feature & CPUID_STDEXT_INVPCID)
 880                     != 0;
 881                 kernel_pmap->pm_pcid = 0;
 882 #ifndef SMP
 883                 pmap_pcid_enabled = 0;
 884 #endif
 885         } else
 886                 pmap_pcid_enabled = 0;
 887 }
 888
 889 /*
 890  * Setup the PAT MSR.
 891  */
 892 void
 893 pmap_init_pat(void)
 894 {
 895         int pat_table[PAT_INDEX_SIZE];
 896         uint64_t pat_msr;
 897         u_long cr0, cr4;
 898         int i;
 899
 900         /* Bail if this CPU doesn't implement PAT. */
 901         if ((cpu_feature & CPUID_PAT) == 0)
 902                 panic("no PAT??");
 903
 904         /* Set default PAT index table. */
 905         for (i = 0; i < PAT_INDEX_SIZE; i++)
 906                 pat_table[i] = -1;
 907         pat_table[PAT_WRITE_BACK] = 0;
 908         pat_table[PAT_WRITE_THROUGH] = 1;
 909         pat_table[PAT_UNCACHEABLE] = 3;
 910         pat_table[PAT_WRITE_COMBINING] = 3;
 911         pat_table[PAT_WRITE_PROTECTED] = 3;
 912         pat_table[PAT_UNCACHED] = 3;
 913
 914         /* Initialize default PAT entries. */
 915         pat_msr = PAT_VALUE(0, PAT_WRITE_BACK) |
 916             PAT_VALUE(1, PAT_WRITE_THROUGH) |
 917             PAT_VALUE(2, PAT_UNCACHED) |
 918             PAT_VALUE(3, PAT_UNCACHEABLE) |
 919             PAT_VALUE(4, PAT_WRITE_BACK) |
 920             PAT_VALUE(5, PAT_WRITE_THROUGH) |
 921             PAT_VALUE(6, PAT_UNCACHED) |
 922             PAT_VALUE(7, PAT_UNCACHEABLE);
 923
 924         if (pat_works) {
 925                 /*
 926                  * Leave the indices 0-3 at the default of WB, WT, UC-, and UC.
 927                  * Program 5 and 6 as WP and WC.
 928                  * Leave 4 and 7 as WB and UC.
 929                  */
 930                 pat_msr &= ~(PAT_MASK(5) | PAT_MASK(6));
 931                 pat_msr |= PAT_VALUE(5, PAT_WRITE_PROTECTED) |
 932                     PAT_VALUE(6, PAT_WRITE_COMBINING);
 933                 pat_table[PAT_UNCACHED] = 2;
 934                 pat_table[PAT_WRITE_PROTECTED] = 5;
 935                 pat_table[PAT_WRITE_COMBINING] = 6;
 936         } else {
 937                 /*
 938                  * Just replace PAT Index 2 with WC instead of UC-.
 939                  */
 940                 pat_msr &= ~PAT_MASK(2);
 941                 pat_msr |= PAT_VALUE(2, PAT_WRITE_COMBINING);
 942                 pat_table[PAT_WRITE_COMBINING] = 2;
 943         }
 944
 945         /* Disable PGE. */
 946         cr4 = rcr4();
 947         load_cr4(cr4 & ~CR4_PGE);
 948
 949         /* Disable caches (CD = 1, NW = 0). */
 950         cr0 = rcr0();
 951         load_cr0((cr0 & ~CR0_NW) | CR0_CD);
 952
 953         /* Flushes caches and TLBs. */
 954         wbinvd();
 955         invltlb();
 956
 957         /* Update PAT and index table. */
 958         wrmsr(MSR_PAT, pat_msr);
 959         for (i = 0; i < PAT_INDEX_SIZE; i++)
 960                 pat_index[i] = pat_table[i];
 961
 962         /* Flush caches and TLBs again. */
 963         wbinvd();
 964         invltlb();
 965
 966         /* Restore caches and PGE. */
 967         load_cr0(cr0);
 968         load_cr4(cr4);
 969 }
 970
 971 /*
 972  *      Initialize a vm_page's machine-dependent fields.
 973  */
 974 void
 975 pmap_page_init(vm_page_t m)
 976 {
 977
 978         TAILQ_INIT(&m->md.pv_list);
 979         m->md.pat_mode = PAT_WRITE_BACK;
 980 }
 981
 982 /*
 983  *      Initialize the pmap module.
 984  *      Called by vm_init, to initialize any structures that the pmap
 985  *      system needs to map virtual memory.
 986  */
 987 void
 988 pmap_init(void)
 989 {
 990         vm_page_t mpte;
 991         vm_size_t s;
 992         int i, pv_npg;
 993
 994         /*
 995          * Initialize the vm page array entries for the kernel pmap's
 996          * page table pages.
 997          */
 998         for (i = 0; i < nkpt; i++) {
 999                 mpte = PHYS_TO_VM_PAGE(KPTphys + (i << PAGE_SHIFT));
1000                 KASSERT(mpte >= vm_page_array &&
1001                     mpte < &vm_page_array[vm_page_array_size],
1002                     ("pmap_init: page table page is out of range"));
1003                 mpte->pindex = pmap_pde_pindex(KERNBASE) + i;
1004                 mpte->phys_addr = KPTphys + (i << PAGE_SHIFT);
1005         }
1006
1007         /*
1008          * If the kernel is running on a virtual machine, then it must assume
1009          * that MCA is enabled by the hypervisor.  Moreover, the kernel must
1010          * be prepared for the hypervisor changing the vendor and family that
1011          * are reported by CPUID.  Consequently, the workaround for AMD Family
1012          * 10h Erratum 383 is enabled if the processor's feature set does not
1013          * include at least one feature that is only supported by older Intel
1014          * or newer AMD processors.
1015          */
1016         if (vm_guest == VM_GUEST_VM && (cpu_feature & CPUID_SS) == 0 &&
1017             (cpu_feature2 & (CPUID2_SSSE3 | CPUID2_SSE41 | CPUID2_AESNI |
1018             CPUID2_AVX | CPUID2_XSAVE)) == 0 && (amd_feature2 & (AMDID2_XOP |
1019             AMDID2_FMA4)) == 0)
1020                 workaround_erratum383 = 1;
1021
1022         /*
1023          * Are large page mappings enabled?
1024          */
1025         TUNABLE_INT_FETCH("vm.pmap.pg_ps_enabled", &pg_ps_enabled);
1026         if (pg_ps_enabled) {
1027                 KASSERT(MAXPAGESIZES > 1 && pagesizes[1] == 0,
1028                     ("pmap_init: can't assign to pagesizes[1]"));
1029                 pagesizes[1] = NBPDR;
1030         }
1031
1032         /*
1033          * Initialize the pv chunk list mutex.
1034          */
1035         mtx_init(&pv_chunks_mutex, "pmap pv chunk list", NULL, MTX_DEF);
1036
1037         /*
1038          * Initialize the pool of pv list locks.
1039          */
1040         for (i = 0; i < NPV_LIST_LOCKS; i++)
1041                 rw_init(&pv_list_locks[i], "pmap pv list");
1042
1043         /*
1044          * Calculate the size of the pv head table for superpages.
1045          */
1046         for (i = 0; phys_avail[i + 1]; i += 2);
1047         pv_npg = round_2mpage(phys_avail[(i - 2) + 1]) / NBPDR;
1048
1049         /*
1050          * Allocate memory for the pv head table for superpages.
1051          */
1052         s = (vm_size_t)(pv_npg * sizeof(struct md_page));
1053         s = round_page(s);
1054         pv_table = (struct md_page *)kmem_malloc(kernel_arena, s,
1055             M_WAITOK | M_ZERO);
1056         for (i = 0; i < pv_npg; i++)
1057                 TAILQ_INIT(&pv_table[i].pv_list);
1058 }
1059
1060 static SYSCTL_NODE(_vm_pmap, OID_AUTO, pde, CTLFLAG_RD, 0,
1061     "2MB page mapping counters");
1062
1063 static u_long pmap_pde_demotions;
1064 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, demotions, CTLFLAG_RD,
1065     &pmap_pde_demotions, 0, "2MB page demotions");
1066
1067 static u_long pmap_pde_mappings;
1068 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, mappings, CTLFLAG_RD,
1069     &pmap_pde_mappings, 0, "2MB page mappings");
1070
1071 static u_long pmap_pde_p_failures;
1072 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, p_failures, CTLFLAG_RD,
1073     &pmap_pde_p_failures, 0, "2MB page promotion failures");
1074
1075 static u_long pmap_pde_promotions;
1076 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, promotions, CTLFLAG_RD,
1077     &pmap_pde_promotions, 0, "2MB page promotions");
1078
1079 static SYSCTL_NODE(_vm_pmap, OID_AUTO, pdpe, CTLFLAG_RD, 0,
1080     "1GB page mapping counters");
1081
1082 static u_long pmap_pdpe_demotions;
1083 SYSCTL_ULONG(_vm_pmap_pdpe, OID_AUTO, demotions, CTLFLAG_RD,
1084     &pmap_pdpe_demotions, 0, "1GB page demotions");
1085
1086 /***************************************************
1087  * Low level helper routines.....
1088  ***************************************************/
1089
1090 static pt_entry_t
1091 pmap_swap_pat(pmap_t pmap, pt_entry_t entry)
1092 {
1093         int x86_pat_bits = X86_PG_PTE_PAT | X86_PG_PDE_PAT;
1094
1095         switch (pmap->pm_type) {
1096         case PT_X86:
1097                 /* Verify that both PAT bits are not set at the same time */
1098                 KASSERT((entry & x86_pat_bits) != x86_pat_bits,
1099                     ("Invalid PAT bits in entry %#lx", entry));
1100
1101                 /* Swap the PAT bits if one of them is set */
1102                 if ((entry & x86_pat_bits) != 0)
1103                         entry ^= x86_pat_bits;
1104                 break;
1105         case PT_EPT:
1106                 /*
1107                  * Nothing to do - the memory attributes are represented
1108                  * the same way for regular pages and superpages.
1109                  */
1110                 break;
1111         default:
1112                 panic("pmap_switch_pat_bits: bad pm_type %d", pmap->pm_type);
1113         }
1114
1115         return (entry);
1116 }
1117
1118 /*
1119  * Determine the appropriate bits to set in a PTE or PDE for a specified
1120  * caching mode.
1121  */
1122 static int
1123 pmap_cache_bits(pmap_t pmap, int mode, boolean_t is_pde)
1124 {
1125         int cache_bits, pat_flag, pat_idx;
1126
1127         if (mode < 0 || mode >= PAT_INDEX_SIZE || pat_index[mode] < 0)
1128                 panic("Unknown caching mode %d\n", mode);
1129
1130         switch (pmap->pm_type) {
1131         case PT_X86:
1132                 /* The PAT bit is different for PTE's and PDE's. */
1133                 pat_flag = is_pde ? X86_PG_PDE_PAT : X86_PG_PTE_PAT;
1134
1135                 /* Map the caching mode to a PAT index. */
1136                 pat_idx = pat_index[mode];
1137
1138                 /* Map the 3-bit index value into the PAT, PCD, and PWT bits. */
1139                 cache_bits = 0;
1140                 if (pat_idx & 0x4)
1141                         cache_bits |= pat_flag;
1142                 if (pat_idx & 0x2)
1143                         cache_bits |= PG_NC_PCD;
1144                 if (pat_idx & 0x1)
1145                         cache_bits |= PG_NC_PWT;
1146                 break;
1147
1148         case PT_EPT:
1149                 cache_bits = EPT_PG_IGNORE_PAT | EPT_PG_MEMORY_TYPE(mode);
1150                 break;
1151
1152         default:
1153                 panic("unsupported pmap type %d", pmap->pm_type);
1154         }
1155
1156         return (cache_bits);
1157 }
1158
1159 static int
1160 pmap_cache_mask(pmap_t pmap, boolean_t is_pde)
1161 {
1162         int mask;
1163
1164         switch (pmap->pm_type) {
1165         case PT_X86:
1166                 mask = is_pde ? X86_PG_PDE_CACHE : X86_PG_PTE_CACHE;
1167                 break;
1168         case PT_EPT:
1169                 mask = EPT_PG_IGNORE_PAT | EPT_PG_MEMORY_TYPE(0x7);
1170                 break;
1171         default:
1172                 panic("pmap_cache_mask: invalid pm_type %d", pmap->pm_type);
1173         }
1174
1175         return (mask);
1176 }
1177
1178 static __inline boolean_t
1179 pmap_ps_enabled(pmap_t pmap)
1180 {
1181
1182         return (pg_ps_enabled && (pmap->pm_flags & PMAP_PDE_SUPERPAGE) != 0);
1183 }
1184
1185 static void
1186 pmap_update_pde_store(pmap_t pmap, pd_entry_t *pde, pd_entry_t newpde)
1187 {
1188
1189         switch (pmap->pm_type) {
1190         case PT_X86:
1191                 break;
1192         case PT_EPT:
1193                 /*
1194                  * XXX
1195                  * This is a little bogus since the generation number is
1196                  * supposed to be bumped up when a region of the address
1197                  * space is invalidated in the page tables.
1198                  *
1199                  * In this case the old PDE entry is valid but yet we want
1200                  * to make sure that any mappings using the old entry are
1201                  * invalidated in the TLB.
1202                  *
1203                  * The reason this works as expected is because we rendezvous
1204                  * "all" host cpus and force any vcpu context to exit as a
1205                  * side-effect.
1206                  */
1207                 atomic_add_acq_long(&pmap->pm_eptgen, 1);
1208                 break;
1209         default:
1210                 panic("pmap_update_pde_store: bad pm_type %d", pmap->pm_type);
1211         }
1212         pde_store(pde, newpde);
1213 }
1214
1215 /*
1216  * After changing the page size for the specified virtual address in the page
1217  * table, flush the corresponding entries from the processor's TLB.  Only the
1218  * calling processor's TLB is affected.
1219  *
1220  * The calling thread must be pinned to a processor.
1221  */
1222 static void
1223 pmap_update_pde_invalidate(pmap_t pmap, vm_offset_t va, pd_entry_t newpde)
1224 {
1225         pt_entry_t PG_G;
1226
1227         if (pmap->pm_type == PT_EPT)
1228                 return;
1229
1230         KASSERT(pmap->pm_type == PT_X86,
1231             ("pmap_update_pde_invalidate: invalid type %d", pmap->pm_type));
1232
1233         PG_G = pmap_global_bit(pmap);
1234
1235         if ((newpde & PG_PS) == 0)
1236                 /* Demotion: flush a specific 2MB page mapping. */
1237                 invlpg(va);
1238         else if ((newpde & PG_G) == 0)
1239                 /*
1240                  * Promotion: flush every 4KB page mapping from the TLB
1241                  * because there are too many to flush individually.
1242                  */
1243                 invltlb();
1244         else {
1245                 /*
1246                  * Promotion: flush every 4KB page mapping from the TLB,
1247                  * including any global (PG_G) mappings.
1248                  */
1249                 invltlb_globpcid();
1250         }
1251 }
1252 #ifdef SMP
1253
1254 static void
1255 pmap_invalidate_page_pcid(pmap_t pmap, vm_offset_t va)
1256 {
1257         struct invpcid_descr d;
1258         uint64_t cr3;
1259
1260         if (invpcid_works) {
1261                 d.pcid = pmap->pm_pcid;
1262                 d.pad = 0;
1263                 d.addr = va;
1264                 invpcid(&d, INVPCID_ADDR);
1265                 return;
1266         }
1267
1268         cr3 = rcr3();
1269         critical_enter();
1270         load_cr3(pmap->pm_cr3 | CR3_PCID_SAVE);
1271         invlpg(va);
1272         load_cr3(cr3 | CR3_PCID_SAVE);
1273         critical_exit();
1274 }
1275
1276 /*
1277  * For SMP, these functions have to use the IPI mechanism for coherence.
1278  *
1279  * N.B.: Before calling any of the following TLB invalidation functions,
1280  * the calling processor must ensure that all stores updating a non-
1281  * kernel page table are globally performed.  Otherwise, another
1282  * processor could cache an old, pre-update entry without being
1283  * invalidated.  This can happen one of two ways: (1) The pmap becomes
1284  * active on another processor after its pm_active field is checked by
1285  * one of the following functions but before a store updating the page
1286  * table is globally performed. (2) The pmap becomes active on another
1287  * processor before its pm_active field is checked but due to
1288  * speculative loads one of the following functions stills reads the
1289  * pmap as inactive on the other processor.
1290  *
1291  * The kernel page table is exempt because its pm_active field is
1292  * immutable.  The kernel page table is always active on every
1293  * processor.
1294  */
1295
1296 /*
1297  * Interrupt the cpus that are executing in the guest context.
1298  * This will force the vcpu to exit and the cached EPT mappings
1299  * will be invalidated by the host before the next vmresume.
1300  */
1301 static __inline void
1302 pmap_invalidate_ept(pmap_t pmap)
1303 {
1304         int ipinum;
1305
1306         sched_pin();
1307         KASSERT(!CPU_ISSET(curcpu, &pmap->pm_active),
1308             ("pmap_invalidate_ept: absurd pm_active"));
1309
1310         /*
1311          * The TLB mappings associated with a vcpu context are not
1312          * flushed each time a different vcpu is chosen to execute.
1313          *
1314          * This is in contrast with a process's vtop mappings that
1315          * are flushed from the TLB on each context switch.
1316          *
1317          * Therefore we need to do more than just a TLB shootdown on
1318          * the active cpus in 'pmap->pm_active'. To do this we keep
1319          * track of the number of invalidations performed on this pmap.
1320          *
1321          * Each vcpu keeps a cache of this counter and compares it
1322          * just before a vmresume. If the counter is out-of-date an
1323          * invept will be done to flush stale mappings from the TLB.
1324          */
1325         atomic_add_acq_long(&pmap->pm_eptgen, 1);
1326
1327         /*
1328          * Force the vcpu to exit and trap back into the hypervisor.
1329          */
1330         ipinum = pmap->pm_flags & PMAP_NESTED_IPIMASK;
1331         ipi_selected(pmap->pm_active, ipinum);
1332         sched_unpin();
1333 }
1334
1335 void
1336 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
1337 {
1338         cpuset_t other_cpus;
1339         u_int cpuid;
1340
1341         if (pmap->pm_type == PT_EPT) {
1342                 pmap_invalidate_ept(pmap);
1343                 return;
1344         }
1345
1346         KASSERT(pmap->pm_type == PT_X86,
1347             ("pmap_invalidate_page: invalid type %d", pmap->pm_type));
1348
1349         sched_pin();
1350         if (pmap == kernel_pmap || !CPU_CMP(&pmap->pm_active, &all_cpus)) {
1351                 if (!pmap_pcid_enabled) {
1352                         invlpg(va);
1353                 } else {
1354                         if (pmap->pm_pcid != -1 && pmap->pm_pcid != 0) {
1355                                 if (pmap == PCPU_GET(curpmap))
1356                                         invlpg(va);
1357                                 else
1358                                         pmap_invalidate_page_pcid(pmap, va);
1359                         } else {
1360                                 invltlb_globpcid();
1361                         }
1362                 }
1363                 smp_invlpg(pmap, va);
1364         } else {
1365                 cpuid = PCPU_GET(cpuid);
1366                 other_cpus = all_cpus;
1367                 CPU_CLR(cpuid, &other_cpus);
1368                 if (CPU_ISSET(cpuid, &pmap->pm_active))
1369                         invlpg(va);
1370                 else if (pmap_pcid_enabled) {
1371                         if (pmap->pm_pcid != -1 && pmap->pm_pcid != 0)
1372                                 pmap_invalidate_page_pcid(pmap, va);
1373                         else
1374                                 invltlb_globpcid();
1375                 }
1376                 if (pmap_pcid_enabled)
1377                         CPU_AND(&other_cpus, &pmap->pm_save);
1378                 else
1379                         CPU_AND(&other_cpus, &pmap->pm_active);
1380                 if (!CPU_EMPTY(&other_cpus))
1381                         smp_masked_invlpg(other_cpus, pmap, va);
1382         }
1383         sched_unpin();
1384 }
1385
1386 static void
1387 pmap_invalidate_range_pcid(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
1388 {
1389         struct invpcid_descr d;
1390         uint64_t cr3;
1391         vm_offset_t addr;
1392
1393         if (invpcid_works) {
1394                 d.pcid = pmap->pm_pcid;
1395                 d.pad = 0;
1396                 for (addr = sva; addr < eva; addr += PAGE_SIZE) {
1397                         d.addr = addr;
1398                         invpcid(&d, INVPCID_ADDR);
1399                 }
1400                 return;
1401         }
1402
1403         cr3 = rcr3();
1404         critical_enter();
1405         load_cr3(pmap->pm_cr3 | CR3_PCID_SAVE);
1406         for (addr = sva; addr < eva; addr += PAGE_SIZE)
1407                 invlpg(addr);
1408         load_cr3(cr3 | CR3_PCID_SAVE);
1409         critical_exit();
1410 }
1411
1412 void
1413 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
1414 {
1415         cpuset_t other_cpus;
1416         vm_offset_t addr;
1417         u_int cpuid;
1418
1419         if (pmap->pm_type == PT_EPT) {
1420                 pmap_invalidate_ept(pmap);
1421                 return;
1422         }
1423
1424         KASSERT(pmap->pm_type == PT_X86,
1425             ("pmap_invalidate_range: invalid type %d", pmap->pm_type));
1426
1427         sched_pin();
1428         if (pmap == kernel_pmap || !CPU_CMP(&pmap->pm_active, &all_cpus)) {
1429                 if (!pmap_pcid_enabled) {
1430                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
1431                                 invlpg(addr);
1432                 } else {
1433                         if (pmap->pm_pcid != -1 && pmap->pm_pcid != 0) {
1434                                 if (pmap == PCPU_GET(curpmap)) {
1435                                         for (addr = sva; addr < eva;
1436                                             addr += PAGE_SIZE)
1437                                                 invlpg(addr);
1438                                 } else {
1439                                         pmap_invalidate_range_pcid(pmap,
1440                                             sva, eva);
1441                                 }
1442                         } else {
1443                                 invltlb_globpcid();
1444                         }
1445                 }
1446                 smp_invlpg_range(pmap, sva, eva);
1447         } else {
1448                 cpuid = PCPU_GET(cpuid);
1449                 other_cpus = all_cpus;
1450                 CPU_CLR(cpuid, &other_cpus);
1451                 if (CPU_ISSET(cpuid, &pmap->pm_active)) {
1452                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
1453                                 invlpg(addr);
1454                 } else if (pmap_pcid_enabled) {
1455                         if (pmap->pm_pcid != -1 && pmap->pm_pcid != 0)
1456                                 pmap_invalidate_range_pcid(pmap, sva, eva);
1457                         else
1458                                 invltlb_globpcid();
1459                 }
1460                 if (pmap_pcid_enabled)
1461                         CPU_AND(&other_cpus, &pmap->pm_save);
1462                 else
1463                         CPU_AND(&other_cpus, &pmap->pm_active);
1464                 if (!CPU_EMPTY(&other_cpus))
1465                         smp_masked_invlpg_range(other_cpus, pmap, sva, eva);
1466         }
1467         sched_unpin();
1468 }
1469
1470 void
1471 pmap_invalidate_all(pmap_t pmap)
1472 {
1473         cpuset_t other_cpus;
1474         struct invpcid_descr d;
1475         uint64_t cr3;
1476         u_int cpuid;
1477
1478         if (pmap->pm_type == PT_EPT) {
1479                 pmap_invalidate_ept(pmap);
1480                 return;
1481         }
1482
1483         KASSERT(pmap->pm_type == PT_X86,
1484             ("pmap_invalidate_all: invalid type %d", pmap->pm_type));
1485
1486         sched_pin();
1487         cpuid = PCPU_GET(cpuid);
1488         if (pmap == kernel_pmap ||
1489             (pmap_pcid_enabled && !CPU_CMP(&pmap->pm_save, &all_cpus)) ||
1490             !CPU_CMP(&pmap->pm_active, &all_cpus)) {
1491                 if (invpcid_works) {
1492                         bzero(&d, sizeof(d));
1493                         invpcid(&d, INVPCID_CTXGLOB);
1494                 } else {
1495                         invltlb_globpcid();
1496                 }
1497                 CPU_CLR_ATOMIC(cpuid, &pmap->pm_save);
1498                 smp_invltlb(pmap);
1499         } else {
1500                 other_cpus = all_cpus;
1501                 CPU_CLR(cpuid, &other_cpus);
1502
1503                 /*
1504                  * This logic is duplicated in the Xinvltlb shootdown
1505                  * IPI handler.
1506                  */
1507                 if (pmap_pcid_enabled) {
1508                         if (pmap->pm_pcid != -1 && pmap->pm_pcid != 0) {
1509                                 if (invpcid_works) {
1510                                         d.pcid = pmap->pm_pcid;
1511                                         d.pad = 0;
1512                                         d.addr = 0;
1513                                         invpcid(&d, INVPCID_CTX);
1514                                 } else {
1515                                         cr3 = rcr3();
1516                                         critical_enter();
1517
1518                                         /*
1519                                          * Bit 63 is clear, pcid TLB
1520                                          * entries are invalidated.
1521                                          */
1522                                         load_cr3(pmap->pm_cr3);
1523                                         load_cr3(cr3 | CR3_PCID_SAVE);
1524                                         critical_exit();
1525                                 }
1526                         } else {
1527                                 invltlb_globpcid();
1528                         }
1529                 } else if (CPU_ISSET(cpuid, &pmap->pm_active))
1530                         invltlb();
1531                 CPU_CLR_ATOMIC(cpuid, &pmap->pm_save);
1532                 if (pmap_pcid_enabled)
1533                         CPU_AND(&other_cpus, &pmap->pm_save);
1534                 else
1535                         CPU_AND(&other_cpus, &pmap->pm_active);
1536                 if (!CPU_EMPTY(&other_cpus))
1537                         smp_masked_invltlb(other_cpus, pmap);
1538         }
1539         sched_unpin();
1540 }
1541
1542 void
1543 pmap_invalidate_cache(void)
1544 {
1545
1546         sched_pin();
1547         wbinvd();
1548         smp_cache_flush();
1549         sched_unpin();
1550 }
1551
1552 struct pde_action {
1553         cpuset_t invalidate;    /* processors that invalidate their TLB */
1554         pmap_t pmap;
1555         vm_offset_t va;
1556         pd_entry_t *pde;
1557         pd_entry_t newpde;
1558         u_int store;            /* processor that updates the PDE */
1559 };
1560
1561 static void
1562 pmap_update_pde_action(void *arg)
1563 {
1564         struct pde_action *act = arg;
1565
1566         if (act->store == PCPU_GET(cpuid))
1567                 pmap_update_pde_store(act->pmap, act->pde, act->newpde);
1568 }
1569
1570 static void
1571 pmap_update_pde_teardown(void *arg)
1572 {
1573         struct pde_action *act = arg;
1574
1575         if (CPU_ISSET(PCPU_GET(cpuid), &act->invalidate))
1576                 pmap_update_pde_invalidate(act->pmap, act->va, act->newpde);
1577 }
1578
1579 /*
1580  * Change the page size for the specified virtual address in a way that
1581  * prevents any possibility of the TLB ever having two entries that map the
1582  * same virtual address using different page sizes.  This is the recommended
1583  * workaround for Erratum 383 on AMD Family 10h processors.  It prevents a
1584  * machine check exception for a TLB state that is improperly diagnosed as a
1585  * hardware error.
1586  */
1587 static void
1588 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
1589 {
1590         struct pde_action act;
1591         cpuset_t active, other_cpus;
1592         u_int cpuid;
1593
1594         sched_pin();
1595         cpuid = PCPU_GET(cpuid);
1596         other_cpus = all_cpus;
1597         CPU_CLR(cpuid, &other_cpus);
1598         if (pmap == kernel_pmap || pmap->pm_type == PT_EPT)
1599                 active = all_cpus;
1600         else {
1601                 active = pmap->pm_active;
1602                 CPU_AND_ATOMIC(&pmap->pm_save, &active);
1603         }
1604         if (CPU_OVERLAP(&active, &other_cpus)) {
1605                 act.store = cpuid;
1606                 act.invalidate = active;
1607                 act.va = va;
1608                 act.pmap = pmap;
1609                 act.pde = pde;
1610                 act.newpde = newpde;
1611                 CPU_SET(cpuid, &active);
1612                 smp_rendezvous_cpus(active,
1613                     smp_no_rendevous_barrier, pmap_update_pde_action,
1614                     pmap_update_pde_teardown, &act);
1615         } else {
1616                 pmap_update_pde_store(pmap, pde, newpde);
1617                 if (CPU_ISSET(cpuid, &active))
1618                         pmap_update_pde_invalidate(pmap, va, newpde);
1619         }
1620         sched_unpin();
1621 }
1622 #else /* !SMP */
1623 /*
1624  * Normal, non-SMP, invalidation functions.
1625  * We inline these within pmap.c for speed.
1626  */
1627 PMAP_INLINE void
1628 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
1629 {
1630
1631         switch (pmap->pm_type) {
1632         case PT_X86:
1633                 if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1634                         invlpg(va);
1635                 break;
1636         case PT_EPT:
1637                 pmap->pm_eptgen++;
1638                 break;
1639         default:
1640                 panic("pmap_invalidate_page: unknown type: %d", pmap->pm_type);
1641         }
1642 }
1643
1644 PMAP_INLINE void
1645 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
1646 {
1647         vm_offset_t addr;
1648
1649         switch (pmap->pm_type) {
1650         case PT_X86:
1651                 if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1652                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
1653                                 invlpg(addr);
1654                 break;
1655         case PT_EPT:
1656                 pmap->pm_eptgen++;
1657                 break;
1658         default:
1659                 panic("pmap_invalidate_range: unknown type: %d", pmap->pm_type);
1660         }
1661 }
1662
1663 PMAP_INLINE void
1664 pmap_invalidate_all(pmap_t pmap)
1665 {
1666
1667         switch (pmap->pm_type) {
1668         case PT_X86:
1669                 if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1670                         invltlb();
1671                 break;
1672         case PT_EPT:
1673                 pmap->pm_eptgen++;
1674                 break;
1675         default:
1676                 panic("pmap_invalidate_all: unknown type %d", pmap->pm_type);
1677         }
1678 }
1679
1680 PMAP_INLINE void
1681 pmap_invalidate_cache(void)
1682 {
1683
1684         wbinvd();
1685 }
1686
1687 static void
1688 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
1689 {
1690
1691         pmap_update_pde_store(pmap, pde, newpde);
1692         if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1693                 pmap_update_pde_invalidate(pmap, va, newpde);
1694         else
1695                 CPU_ZERO(&pmap->pm_save);
1696 }
1697 #endif /* !SMP */
1698
1699 #define PMAP_CLFLUSH_THRESHOLD   (2 * 1024 * 1024)
1700
1701 void
1702 pmap_invalidate_cache_range(vm_offset_t sva, vm_offset_t eva)
1703 {
1704
1705         KASSERT((sva & PAGE_MASK) == 0,
1706             ("pmap_invalidate_cache_range: sva not page-aligned"));
1707         KASSERT((eva & PAGE_MASK) == 0,
1708             ("pmap_invalidate_cache_range: eva not page-aligned"));
1709
1710         if (cpu_feature & CPUID_SS)
1711                 ; /* If "Self Snoop" is supported, do nothing. */
1712         else if ((cpu_feature & CPUID_CLFSH) != 0 &&
1713             eva - sva < PMAP_CLFLUSH_THRESHOLD) {
1714
1715                 /*
1716                  * XXX: Some CPUs fault, hang, or trash the local APIC
1717                  * registers if we use CLFLUSH on the local APIC
1718                  * range.  The local APIC is always uncached, so we
1719                  * don't need to flush for that range anyway.
1720                  */
1721                 if (pmap_kextract(sva) == lapic_paddr)
1722                         return;
1723
1724                 /*
1725                  * Otherwise, do per-cache line flush.  Use the mfence
1726                  * instruction to insure that previous stores are
1727                  * included in the write-back.  The processor
1728                  * propagates flush to other processors in the cache
1729                  * coherence domain.
1730                  */
1731                 mfence();
1732                 for (; sva < eva; sva += cpu_clflush_line_size)
1733                         clflush(sva);
1734                 mfence();
1735         } else {
1736
1737                 /*
1738                  * No targeted cache flush methods are supported by CPU,
1739                  * or the supplied range is bigger than 2MB.
1740                  * Globally invalidate cache.
1741                  */
1742                 pmap_invalidate_cache();
1743         }
1744 }
1745
1746 /*
1747  * Remove the specified set of pages from the data and instruction caches.
1748  *
1749  * In contrast to pmap_invalidate_cache_range(), this function does not
1750  * rely on the CPU's self-snoop feature, because it is intended for use
1751  * when moving pages into a different cache domain.
1752  */
1753 void
1754 pmap_invalidate_cache_pages(vm_page_t *pages, int count)
1755 {
1756         vm_offset_t daddr, eva;
1757         int i;
1758
1759         if (count >= PMAP_CLFLUSH_THRESHOLD / PAGE_SIZE ||
1760             (cpu_feature & CPUID_CLFSH) == 0)
1761                 pmap_invalidate_cache();
1762         else {
1763                 mfence();
1764                 for (i = 0; i < count; i++) {
1765                         daddr = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pages[i]));
1766                         eva = daddr + PAGE_SIZE;
1767                         for (; daddr < eva; daddr += cpu_clflush_line_size)
1768                                 clflush(daddr);
1769                 }
1770                 mfence();
1771         }
1772 }
1773
1774 /*
1775  *      Routine:        pmap_extract
1776  *      Function:
1777  *              Extract the physical page address associated
1778  *              with the given map/virtual_address pair.
1779  */
1780 vm_paddr_t
1781 pmap_extract(pmap_t pmap, vm_offset_t va)
1782 {
1783         pdp_entry_t *pdpe;
1784         pd_entry_t *pde;
1785         pt_entry_t *pte, PG_V;
1786         vm_paddr_t pa;
1787
1788         pa = 0;
1789         PG_V = pmap_valid_bit(pmap);
1790         PMAP_LOCK(pmap);
1791         pdpe = pmap_pdpe(pmap, va);
1792         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
1793                 if ((*pdpe & PG_PS) != 0)
1794                         pa = (*pdpe & PG_PS_FRAME) | (va & PDPMASK);
1795                 else {
1796                         pde = pmap_pdpe_to_pde(pdpe, va);
1797                         if ((*pde & PG_V) != 0) {
1798                                 if ((*pde & PG_PS) != 0) {
1799                                         pa = (*pde & PG_PS_FRAME) |
1800                                             (va & PDRMASK);
1801                                 } else {
1802                                         pte = pmap_pde_to_pte(pde, va);
1803                                         pa = (*pte & PG_FRAME) |
1804                                             (va & PAGE_MASK);
1805                                 }
1806                         }
1807                 }
1808         }
1809         PMAP_UNLOCK(pmap);
1810         return (pa);
1811 }
1812
1813 /*
1814  *      Routine:        pmap_extract_and_hold
1815  *      Function:
1816  *              Atomically extract and hold the physical page
1817  *              with the given pmap and virtual address pair
1818  *              if that mapping permits the given protection.
1819  */
1820 vm_page_t
1821 pmap_extract_and_hold(pmap_t pmap, vm_offset_t va, vm_prot_t prot)
1822 {
1823         pd_entry_t pde, *pdep;
1824         pt_entry_t pte, PG_RW, PG_V;
1825         vm_paddr_t pa;
1826         vm_page_t m;
1827
1828         pa = 0;
1829         m = NULL;
1830         PG_RW = pmap_rw_bit(pmap);
1831         PG_V = pmap_valid_bit(pmap);
1832         PMAP_LOCK(pmap);
1833 retry:
1834         pdep = pmap_pde(pmap, va);
1835         if (pdep != NULL && (pde = *pdep)) {
1836                 if (pde & PG_PS) {
1837                         if ((pde & PG_RW) || (prot & VM_PROT_WRITE) == 0) {
1838                                 if (vm_page_pa_tryrelock(pmap, (pde &
1839                                     PG_PS_FRAME) | (va & PDRMASK), &pa))
1840                                         goto retry;
1841                                 m = PHYS_TO_VM_PAGE((pde & PG_PS_FRAME) |
1842                                     (va & PDRMASK));
1843                                 vm_page_hold(m);
1844                         }
1845                 } else {
1846                         pte = *pmap_pde_to_pte(pdep, va);
1847                         if ((pte & PG_V) &&
1848                             ((pte & PG_RW) || (prot & VM_PROT_WRITE) == 0)) {
1849                                 if (vm_page_pa_tryrelock(pmap, pte & PG_FRAME,
1850                                     &pa))
1851                                         goto retry;
1852                                 m = PHYS_TO_VM_PAGE(pte & PG_FRAME);
1853                                 vm_page_hold(m);
1854                         }
1855                 }
1856         }
1857         PA_UNLOCK_COND(pa);
1858         PMAP_UNLOCK(pmap);
1859         return (m);
1860 }
1861
1862 vm_paddr_t
1863 pmap_kextract(vm_offset_t va)
1864 {
1865         pd_entry_t pde;
1866         vm_paddr_t pa;
1867
1868         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS) {
1869                 pa = DMAP_TO_PHYS(va);
1870         } else {
1871                 pde = *vtopde(va);
1872                 if (pde & PG_PS) {
1873                         pa = (pde & PG_PS_FRAME) | (va & PDRMASK);
1874                 } else {
1875                         /*
1876                          * Beware of a concurrent promotion that changes the
1877                          * PDE at this point!  For example, vtopte() must not
1878                          * be used to access the PTE because it would use the
1879                          * new PDE.  It is, however, safe to use the old PDE
1880                          * because the page table page is preserved by the
1881                          * promotion.
1882                          */
1883                         pa = *pmap_pde_to_pte(&pde, va);
1884                         pa = (pa & PG_FRAME) | (va & PAGE_MASK);
1885                 }
1886         }
1887         return (pa);
1888 }
1889
1890 /***************************************************
1891  * Low level mapping routines.....
1892  ***************************************************/
1893
1894 /*
1895  * Add a wired page to the kva.
1896  * Note: not SMP coherent.
1897  */
1898 PMAP_INLINE void
1899 pmap_kenter(vm_offset_t va, vm_paddr_t pa)
1900 {
1901         pt_entry_t *pte;
1902
1903         pte = vtopte(va);
1904         pte_store(pte, pa | X86_PG_RW | X86_PG_V | X86_PG_G);
1905 }
1906
1907 static __inline void
1908 pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode)
1909 {
1910         pt_entry_t *pte;
1911         int cache_bits;
1912
1913         pte = vtopte(va);
1914         cache_bits = pmap_cache_bits(kernel_pmap, mode, 0);
1915         pte_store(pte, pa | X86_PG_RW | X86_PG_V | X86_PG_G | cache_bits);
1916 }
1917
1918 /*
1919  * Remove a page from the kernel pagetables.
1920  * Note: not SMP coherent.
1921  */
1922 PMAP_INLINE void
1923 pmap_kremove(vm_offset_t va)
1924 {
1925         pt_entry_t *pte;
1926
1927         pte = vtopte(va);
1928         pte_clear(pte);
1929 }
1930
1931 /*
1932  *      Used to map a range of physical addresses into kernel
1933  *      virtual address space.
1934  *
1935  *      The value passed in '*virt' is a suggested virtual address for
1936  *      the mapping. Architectures which can support a direct-mapped
1937  *      physical to virtual region can return the appropriate address
1938  *      within that region, leaving '*virt' unchanged. Other
1939  *      architectures should map the pages starting at '*virt' and
1940  *      update '*virt' with the first usable address after the mapped
1941  *      region.
1942  */
1943 vm_offset_t
1944 pmap_map(vm_offset_t *virt, vm_paddr_t start, vm_paddr_t end, int prot)
1945 {
1946         return PHYS_TO_DMAP(start);
1947 }
1948
1949
1950 /*
1951  * Add a list of wired pages to the kva
1952  * this routine is only used for temporary
1953  * kernel mappings that do not need to have
1954  * page modification or references recorded.
1955  * Note that old mappings are simply written
1956  * over.  The page *must* be wired.
1957  * Note: SMP coherent.  Uses a ranged shootdown IPI.
1958  */
1959 void
1960 pmap_qenter(vm_offset_t sva, vm_page_t *ma, int count)
1961 {
1962         pt_entry_t *endpte, oldpte, pa, *pte;
1963         vm_page_t m;
1964         int cache_bits;
1965
1966         oldpte = 0;
1967         pte = vtopte(sva);
1968         endpte = pte + count;
1969         while (pte < endpte) {
1970                 m = *ma++;
1971                 cache_bits = pmap_cache_bits(kernel_pmap, m->md.pat_mode, 0);
1972                 pa = VM_PAGE_TO_PHYS(m) | cache_bits;
1973                 if ((*pte & (PG_FRAME | X86_PG_PTE_CACHE)) != pa) {
1974                         oldpte |= *pte;
1975                         pte_store(pte, pa | X86_PG_G | X86_PG_RW | X86_PG_V);
1976                 }
1977                 pte++;
1978         }
1979         if (__predict_false((oldpte & X86_PG_V) != 0))
1980                 pmap_invalidate_range(kernel_pmap, sva, sva + count *
1981                     PAGE_SIZE);
1982 }
1983
1984 /*
1985  * This routine tears out page mappings from the
1986  * kernel -- it is meant only for temporary mappings.
1987  * Note: SMP coherent.  Uses a ranged shootdown IPI.
1988  */
1989 void
1990 pmap_qremove(vm_offset_t sva, int count)
1991 {
1992         vm_offset_t va;
1993
1994         va = sva;
1995         while (count-- > 0) {
1996                 KASSERT(va >= VM_MIN_KERNEL_ADDRESS, ("usermode va %lx", va));
1997                 pmap_kremove(va);
1998                 va += PAGE_SIZE;
1999         }
2000         pmap_invalidate_range(kernel_pmap, sva, va);
2001 }
2002
2003 /***************************************************
2004  * Page table page management routines.....
2005  ***************************************************/
2006 static __inline void
2007 pmap_free_zero_pages(struct spglist *free)
2008 {
2009         vm_page_t m;
2010
2011         while ((m = SLIST_FIRST(free)) != NULL) {
2012                 SLIST_REMOVE_HEAD(free, plinks.s.ss);
2013                 /* Preserve the page's PG_ZERO setting. */
2014                 vm_page_free_toq(m);
2015         }
2016 }
2017
2018 /*
2019  * Schedule the specified unused page table page to be freed.  Specifically,
2020  * add the page to the specified list of pages that will be released to the
2021  * physical memory manager after the TLB has been updated.
2022  */
2023 static __inline void
2024 pmap_add_delayed_free_list(vm_page_t m, struct spglist *free,
2025     boolean_t set_PG_ZERO)
2026 {
2027
2028         if (set_PG_ZERO)
2029                 m->flags |= PG_ZERO;
2030         else
2031                 m->flags &= ~PG_ZERO;
2032         SLIST_INSERT_HEAD(free, m, plinks.s.ss);
2033 }
2034
2035 /*
2036  * Inserts the specified page table page into the specified pmap's collection
2037  * of idle page table pages.  Each of a pmap's page table pages is responsible
2038  * for mapping a distinct range of virtual addresses.  The pmap's collection is
2039  * ordered by this virtual address range.
2040  */
2041 static __inline int
2042 pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte)
2043 {
2044
2045         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2046         return (vm_radix_insert(&pmap->pm_root, mpte));
2047 }
2048
2049 /*
2050  * Looks for a page table page mapping the specified virtual address in the
2051  * specified pmap's collection of idle page table pages.  Returns NULL if there
2052  * is no page table page corresponding to the specified virtual address.
2053  */
2054 static __inline vm_page_t
2055 pmap_lookup_pt_page(pmap_t pmap, vm_offset_t va)
2056 {
2057
2058         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2059         return (vm_radix_lookup(&pmap->pm_root, pmap_pde_pindex(va)));
2060 }
2061
2062 /*
2063  * Removes the specified page table page from the specified pmap's collection
2064  * of idle page table pages.  The specified page table page must be a member of
2065  * the pmap's collection.
2066  */
2067 static __inline void
2068 pmap_remove_pt_page(pmap_t pmap, vm_page_t mpte)
2069 {
2070
2071         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2072         vm_radix_remove(&pmap->pm_root, mpte->pindex);
2073 }
2074
2075 /*
2076  * Decrements a page table page's wire count, which is used to record the
2077  * number of valid page table entries within the page.  If the wire count
2078  * drops to zero, then the page table page is unmapped.  Returns TRUE if the
2079  * page table page was unmapped and FALSE otherwise.
2080  */
2081 static inline boolean_t
2082 pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m, struct spglist *free)
2083 {
2084
2085         --m->wire_count;
2086         if (m->wire_count == 0) {
2087                 _pmap_unwire_ptp(pmap, va, m, free);
2088                 return (TRUE);
2089         } else
2090                 return (FALSE);
2091 }
2092
2093 static void
2094 _pmap_unwire_ptp(pmap_t pmap, vm_offset_t va, vm_page_t m, struct spglist *free)
2095 {
2096
2097         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2098         /*
2099          * unmap the page table page
2100          */
2101         if (m->pindex >= (NUPDE + NUPDPE)) {
2102                 /* PDP page */
2103                 pml4_entry_t *pml4;
2104                 pml4 = pmap_pml4e(pmap, va);
2105                 *pml4 = 0;
2106         } else if (m->pindex >= NUPDE) {
2107                 /* PD page */
2108                 pdp_entry_t *pdp;
2109                 pdp = pmap_pdpe(pmap, va);
2110                 *pdp = 0;
2111         } else {
2112                 /* PTE page */
2113                 pd_entry_t *pd;
2114                 pd = pmap_pde(pmap, va);
2115                 *pd = 0;
2116         }
2117         pmap_resident_count_dec(pmap, 1);
2118         if (m->pindex < NUPDE) {
2119                 /* We just released a PT, unhold the matching PD */
2120                 vm_page_t pdpg;
2121
2122                 pdpg = PHYS_TO_VM_PAGE(*pmap_pdpe(pmap, va) & PG_FRAME);
2123                 pmap_unwire_ptp(pmap, va, pdpg, free);
2124         }
2125         if (m->pindex >= NUPDE && m->pindex < (NUPDE + NUPDPE)) {
2126                 /* We just released a PD, unhold the matching PDP */
2127                 vm_page_t pdppg;
2128
2129                 pdppg = PHYS_TO_VM_PAGE(*pmap_pml4e(pmap, va) & PG_FRAME);
2130                 pmap_unwire_ptp(pmap, va, pdppg, free);
2131         }
2132
2133         /*
2134          * This is a release store so that the ordinary store unmapping
2135          * the page table page is globally performed before TLB shoot-
2136          * down is begun.
2137          */
2138         atomic_subtract_rel_int(&cnt.v_wire_count, 1);
2139
2140         /*
2141          * Put page on a list so that it is released after
2142          * *ALL* TLB shootdown is done
2143          */
2144         pmap_add_delayed_free_list(m, free, TRUE);
2145 }
2146
2147 /*
2148  * After removing a page table entry, this routine is used to
2149  * conditionally free the page, and manage the hold/wire counts.
2150  */
2151 static int
2152 pmap_unuse_pt(pmap_t pmap, vm_offset_t va, pd_entry_t ptepde,
2153     struct spglist *free)
2154 {
2155         vm_page_t mpte;
2156
2157         if (va >= VM_MAXUSER_ADDRESS)
2158                 return (0);
2159         KASSERT(ptepde != 0, ("pmap_unuse_pt: ptepde != 0"));
2160         mpte = PHYS_TO_VM_PAGE(ptepde & PG_FRAME);
2161         return (pmap_unwire_ptp(pmap, va, mpte, free));
2162 }
2163
2164 void
2165 pmap_pinit0(pmap_t pmap)
2166 {
2167
2168         PMAP_LOCK_INIT(pmap);
2169         pmap->pm_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(KPML4phys);
2170         pmap->pm_cr3 = KPML4phys;
2171         pmap->pm_root.rt_root = 0;
2172         CPU_ZERO(&pmap->pm_active);
2173         CPU_ZERO(&pmap->pm_save);
2174         PCPU_SET(curpmap, pmap);
2175         TAILQ_INIT(&pmap->pm_pvchunk);
2176         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
2177         pmap->pm_pcid = pmap_pcid_enabled ? 0 : -1;
2178         pmap->pm_flags = pmap_flags;
2179 }
2180
2181 /*
2182  * Initialize a preallocated and zeroed pmap structure,
2183  * such as one in a vmspace structure.
2184  */
2185 int
2186 pmap_pinit_type(pmap_t pmap, enum pmap_type pm_type, int flags)
2187 {
2188         vm_page_t pml4pg;
2189         vm_paddr_t pml4phys;
2190         int i;
2191
2192         /*
2193          * allocate the page directory page
2194          */
2195         while ((pml4pg = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL |
2196             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL)
2197                 VM_WAIT;
2198
2199         pml4phys = VM_PAGE_TO_PHYS(pml4pg);
2200         pmap->pm_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(pml4phys);
2201         pmap->pm_pcid = -1;
2202         pmap->pm_cr3 = ~0;      /* initialize to an invalid value */
2203
2204         if ((pml4pg->flags & PG_ZERO) == 0)
2205                 pagezero(pmap->pm_pml4);
2206
2207         /*
2208          * Do not install the host kernel mappings in the nested page
2209          * tables. These mappings are meaningless in the guest physical
2210          * address space.
2211          */
2212         if ((pmap->pm_type = pm_type) == PT_X86) {
2213                 pmap->pm_cr3 = pml4phys;
2214
2215                 /* Wire in kernel global address entries. */
2216                 for (i = 0; i < NKPML4E; i++) {
2217                         pmap->pm_pml4[KPML4BASE + i] = (KPDPphys + ptoa(i)) |
2218                             X86_PG_RW | X86_PG_V | PG_U;
2219                 }
2220                 for (i = 0; i < ndmpdpphys; i++) {
2221                         pmap->pm_pml4[DMPML4I + i] = (DMPDPphys + ptoa(i)) |
2222                             X86_PG_RW | X86_PG_V | PG_U;
2223                 }
2224
2225                 /* install self-referential address mapping entry(s) */
2226                 pmap->pm_pml4[PML4PML4I] = VM_PAGE_TO_PHYS(pml4pg) |
2227                     X86_PG_V | X86_PG_RW | X86_PG_A | X86_PG_M;
2228
2229                 if (pmap_pcid_enabled) {
2230                         pmap->pm_pcid = alloc_unr(&pcid_unr);
2231                         if (pmap->pm_pcid != -1)
2232                                 pmap->pm_cr3 |= pmap->pm_pcid;
2233                 }
2234         }
2235
2236         pmap->pm_root.rt_root = 0;
2237         CPU_ZERO(&pmap->pm_active);
2238         TAILQ_INIT(&pmap->pm_pvchunk);
2239         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
2240         pmap->pm_flags = flags;
2241         pmap->pm_eptgen = 0;
2242         CPU_ZERO(&pmap->pm_save);
2243
2244         return (1);
2245 }
2246
2247 int
2248 pmap_pinit(pmap_t pmap)
2249 {
2250
2251         return (pmap_pinit_type(pmap, PT_X86, pmap_flags));
2252 }
2253
2254 /*
2255  * This routine is called if the desired page table page does not exist.
2256  *
2257  * If page table page allocation fails, this routine may sleep before
2258  * returning NULL.  It sleeps only if a lock pointer was given.
2259  *
2260  * Note: If a page allocation fails at page table level two or three,
2261  * one or two pages may be held during the wait, only to be released
2262  * afterwards.  This conservative approach is easily argued to avoid
2263  * race conditions.
2264  */
2265 static vm_page_t
2266 _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex, struct rwlock **lockp)
2267 {
2268         vm_page_t m, pdppg, pdpg;
2269         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
2270
2271         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2272
2273         PG_A = pmap_accessed_bit(pmap);
2274         PG_M = pmap_modified_bit(pmap);
2275         PG_V = pmap_valid_bit(pmap);
2276         PG_RW = pmap_rw_bit(pmap);
2277
2278         /*
2279          * Allocate a page table page.
2280          */
2281         if ((m = vm_page_alloc(NULL, ptepindex, VM_ALLOC_NOOBJ |
2282             VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL) {
2283                 if (lockp != NULL) {
2284                         RELEASE_PV_LIST_LOCK(lockp);
2285                         PMAP_UNLOCK(pmap);
2286                         rw_runlock(&pvh_global_lock);
2287                         VM_WAIT;
2288                         rw_rlock(&pvh_global_lock);
2289                         PMAP_LOCK(pmap);
2290                 }
2291
2292                 /*
2293                  * Indicate the need to retry.  While waiting, the page table
2294                  * page may have been allocated.
2295                  */
2296                 return (NULL);
2297         }
2298         if ((m->flags & PG_ZERO) == 0)
2299                 pmap_zero_page(m);
2300
2301         /*
2302          * Map the pagetable page into the process address space, if
2303          * it isn't already there.
2304          */
2305
2306         if (ptepindex >= (NUPDE + NUPDPE)) {
2307                 pml4_entry_t *pml4;
2308                 vm_pindex_t pml4index;
2309
2310                 /* Wire up a new PDPE page */
2311                 pml4index = ptepindex - (NUPDE + NUPDPE);
2312                 pml4 = &pmap->pm_pml4[pml4index];
2313                 *pml4 = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
2314
2315         } else if (ptepindex >= NUPDE) {
2316                 vm_pindex_t pml4index;
2317                 vm_pindex_t pdpindex;
2318                 pml4_entry_t *pml4;
2319                 pdp_entry_t *pdp;
2320
2321                 /* Wire up a new PDE page */
2322                 pdpindex = ptepindex - NUPDE;
2323                 pml4index = pdpindex >> NPML4EPGSHIFT;
2324
2325                 pml4 = &pmap->pm_pml4[pml4index];
2326                 if ((*pml4 & PG_V) == 0) {
2327                         /* Have to allocate a new pdp, recurse */
2328                         if (_pmap_allocpte(pmap, NUPDE + NUPDPE + pml4index,
2329                             lockp) == NULL) {
2330                                 --m->wire_count;
2331                                 atomic_subtract_int(&cnt.v_wire_count, 1);
2332                                 vm_page_free_zero(m);
2333                                 return (NULL);
2334                         }
2335                 } else {
2336                         /* Add reference to pdp page */
2337                         pdppg = PHYS_TO_VM_PAGE(*pml4 & PG_FRAME);
2338                         pdppg->wire_count++;
2339                 }
2340                 pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
2341
2342                 /* Now find the pdp page */
2343                 pdp = &pdp[pdpindex & ((1ul << NPDPEPGSHIFT) - 1)];
2344                 *pdp = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
2345
2346         } else {
2347                 vm_pindex_t pml4index;
2348                 vm_pindex_t pdpindex;
2349                 pml4_entry_t *pml4;
2350                 pdp_entry_t *pdp;
2351                 pd_entry_t *pd;
2352
2353                 /* Wire up a new PTE page */
2354                 pdpindex = ptepindex >> NPDPEPGSHIFT;
2355                 pml4index = pdpindex >> NPML4EPGSHIFT;
2356
2357                 /* First, find the pdp and check that its valid. */
2358                 pml4 = &pmap->pm_pml4[pml4index];
2359                 if ((*pml4 & PG_V) == 0) {
2360                         /* Have to allocate a new pd, recurse */
2361                         if (_pmap_allocpte(pmap, NUPDE + pdpindex,
2362                             lockp) == NULL) {
2363                                 --m->wire_count;
2364                                 atomic_subtract_int(&cnt.v_wire_count, 1);
2365                                 vm_page_free_zero(m);
2366                                 return (NULL);
2367                         }
2368                         pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
2369                         pdp = &pdp[pdpindex & ((1ul << NPDPEPGSHIFT) - 1)];
2370                 } else {
2371                         pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
2372                         pdp = &pdp[pdpindex & ((1ul << NPDPEPGSHIFT) - 1)];
2373                         if ((*pdp & PG_V) == 0) {
2374                                 /* Have to allocate a new pd, recurse */
2375                                 if (_pmap_allocpte(pmap, NUPDE + pdpindex,
2376                                     lockp) == NULL) {
2377                                         --m->wire_count;
2378                                         atomic_subtract_int(&cnt.v_wire_count,
2379                                             1);
2380                                         vm_page_free_zero(m);
2381                                         return (NULL);
2382                                 }
2383                         } else {
2384                                 /* Add reference to the pd page */
2385                                 pdpg = PHYS_TO_VM_PAGE(*pdp & PG_FRAME);
2386                                 pdpg->wire_count++;
2387                         }
2388                 }
2389                 pd = (pd_entry_t *)PHYS_TO_DMAP(*pdp & PG_FRAME);
2390
2391                 /* Now we know where the page directory page is */
2392                 pd = &pd[ptepindex & ((1ul << NPDEPGSHIFT) - 1)];
2393                 *pd = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
2394         }
2395
2396         pmap_resident_count_inc(pmap, 1);
2397
2398         return (m);
2399 }
2400
2401 static vm_page_t
2402 pmap_allocpde(pmap_t pmap, vm_offset_t va, struct rwlock **lockp)
2403 {
2404         vm_pindex_t pdpindex, ptepindex;
2405         pdp_entry_t *pdpe, PG_V;
2406         vm_page_t pdpg;
2407
2408         PG_V = pmap_valid_bit(pmap);
2409
2410 retry:
2411         pdpe = pmap_pdpe(pmap, va);
2412         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
2413                 /* Add a reference to the pd page. */
2414                 pdpg = PHYS_TO_VM_PAGE(*pdpe & PG_FRAME);
2415                 pdpg->wire_count++;
2416         } else {
2417                 /* Allocate a pd page. */
2418                 ptepindex = pmap_pde_pindex(va);
2419                 pdpindex = ptepindex >> NPDPEPGSHIFT;
2420                 pdpg = _pmap_allocpte(pmap, NUPDE + pdpindex, lockp);
2421                 if (pdpg == NULL && lockp != NULL)
2422                         goto retry;
2423         }
2424         return (pdpg);
2425 }
2426
2427 static vm_page_t
2428 pmap_allocpte(pmap_t pmap, vm_offset_t va, struct rwlock **lockp)
2429 {
2430         vm_pindex_t ptepindex;
2431         pd_entry_t *pd, PG_V;
2432         vm_page_t m;
2433
2434         PG_V = pmap_valid_bit(pmap);
2435
2436         /*
2437          * Calculate pagetable page index
2438          */
2439         ptepindex = pmap_pde_pindex(va);
2440 retry:
2441         /*
2442          * Get the page directory entry
2443          */
2444         pd = pmap_pde(pmap, va);
2445
2446         /*
2447          * This supports switching from a 2MB page to a
2448          * normal 4K page.
2449          */
2450         if (pd != NULL && (*pd & (PG_PS | PG_V)) == (PG_PS | PG_V)) {
2451                 if (!pmap_demote_pde_locked(pmap, pd, va, lockp)) {
2452                         /*
2453                          * Invalidation of the 2MB page mapping may have caused
2454                          * the deallocation of the underlying PD page.
2455                          */
2456                         pd = NULL;
2457                 }
2458         }
2459
2460         /*
2461          * If the page table page is mapped, we just increment the
2462          * hold count, and activate it.
2463          */
2464         if (pd != NULL && (*pd & PG_V) != 0) {
2465                 m = PHYS_TO_VM_PAGE(*pd & PG_FRAME);
2466                 m->wire_count++;
2467         } else {
2468                 /*
2469                  * Here if the pte page isn't mapped, or if it has been
2470                  * deallocated.
2471                  */
2472                 m = _pmap_allocpte(pmap, ptepindex, lockp);
2473                 if (m == NULL && lockp != NULL)
2474                         goto retry;
2475         }
2476         return (m);
2477 }
2478
2479
2480 /***************************************************
2481  * Pmap allocation/deallocation routines.
2482  ***************************************************/
2483
2484 /*
2485  * Release any resources held by the given physical map.
2486  * Called when a pmap initialized by pmap_pinit is being released.
2487  * Should only be called if the map contains no valid mappings.
2488  */
2489 void
2490 pmap_release(pmap_t pmap)
2491 {
2492         vm_page_t m;
2493         int i;
2494
2495         KASSERT(pmap->pm_stats.resident_count == 0,
2496             ("pmap_release: pmap resident count %ld != 0",
2497             pmap->pm_stats.resident_count));
2498         KASSERT(vm_radix_is_empty(&pmap->pm_root),
2499             ("pmap_release: pmap has reserved page table page(s)"));
2500
2501         if (pmap_pcid_enabled) {
2502                 /*
2503                  * Invalidate any left TLB entries, to allow the reuse
2504                  * of the pcid.
2505                  */
2506                 pmap_invalidate_all(pmap);
2507         }
2508
2509         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pmap->pm_pml4));
2510
2511         for (i = 0; i < NKPML4E; i++)   /* KVA */
2512                 pmap->pm_pml4[KPML4BASE + i] = 0;
2513         for (i = 0; i < ndmpdpphys; i++)/* Direct Map */
2514                 pmap->pm_pml4[DMPML4I + i] = 0;
2515         pmap->pm_pml4[PML4PML4I] = 0;   /* Recursive Mapping */
2516
2517         m->wire_count--;
2518         atomic_subtract_int(&cnt.v_wire_count, 1);
2519         vm_page_free_zero(m);
2520         if (pmap->pm_pcid != -1)
2521                 free_unr(&pcid_unr, pmap->pm_pcid);
2522 }
2523 \f
2524 static int
2525 kvm_size(SYSCTL_HANDLER_ARGS)
2526 {
2527         unsigned long ksize = VM_MAX_KERNEL_ADDRESS - VM_MIN_KERNEL_ADDRESS;
2528
2529         return sysctl_handle_long(oidp, &ksize, 0, req);
2530 }
2531 SYSCTL_PROC(_vm, OID_AUTO, kvm_size, CTLTYPE_LONG|CTLFLAG_RD,
2532     0, 0, kvm_size, "LU", "Size of KVM");
2533
2534 static int
2535 kvm_free(SYSCTL_HANDLER_ARGS)
2536 {
2537         unsigned long kfree = VM_MAX_KERNEL_ADDRESS - kernel_vm_end;
2538
2539         return sysctl_handle_long(oidp, &kfree, 0, req);
2540 }
2541 SYSCTL_PROC(_vm, OID_AUTO, kvm_free, CTLTYPE_LONG|CTLFLAG_RD,
2542     0, 0, kvm_free, "LU", "Amount of KVM free");
2543
2544 /*
2545  * grow the number of kernel page table entries, if needed
2546  */
2547 void
2548 pmap_growkernel(vm_offset_t addr)
2549 {
2550         vm_paddr_t paddr;
2551         vm_page_t nkpg;
2552         pd_entry_t *pde, newpdir;
2553         pdp_entry_t *pdpe;
2554
2555         mtx_assert(&kernel_map->system_mtx, MA_OWNED);
2556
2557         /*
2558          * Return if "addr" is within the range of kernel page table pages
2559          * that were preallocated during pmap bootstrap.  Moreover, leave
2560          * "kernel_vm_end" and the kernel page table as they were.
2561          *
2562          * The correctness of this action is based on the following
2563          * argument: vm_map_findspace() allocates contiguous ranges of the
2564          * kernel virtual address space.  It calls this function if a range
2565          * ends after "kernel_vm_end".  If the kernel is mapped between
2566          * "kernel_vm_end" and "addr", then the range cannot begin at
2567          * "kernel_vm_end".  In fact, its beginning address cannot be less
2568          * than the kernel.  Thus, there is no immediate need to allocate
2569          * any new kernel page table pages between "kernel_vm_end" and
2570          * "KERNBASE".
2571          */
2572         if (KERNBASE < addr && addr <= KERNBASE + nkpt * NBPDR)
2573                 return;
2574
2575         addr = roundup2(addr, NBPDR);
2576         if (addr - 1 >= kernel_map->max_offset)
2577                 addr = kernel_map->max_offset;
2578         while (kernel_vm_end < addr) {
2579                 pdpe = pmap_pdpe(kernel_pmap, kernel_vm_end);
2580                 if ((*pdpe & X86_PG_V) == 0) {
2581                         /* We need a new PDP entry */
2582                         nkpg = vm_page_alloc(NULL, kernel_vm_end >> PDPSHIFT,
2583                             VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ |
2584                             VM_ALLOC_WIRED | VM_ALLOC_ZERO);
2585                         if (nkpg == NULL)
2586                                 panic("pmap_growkernel: no memory to grow kernel");
2587                         if ((nkpg->flags & PG_ZERO) == 0)
2588                                 pmap_zero_page(nkpg);
2589                         paddr = VM_PAGE_TO_PHYS(nkpg);
2590                         *pdpe = (pdp_entry_t)(paddr | X86_PG_V | X86_PG_RW |
2591                             X86_PG_A | X86_PG_M);
2592                         continue; /* try again */
2593                 }
2594                 pde = pmap_pdpe_to_pde(pdpe, kernel_vm_end);
2595                 if ((*pde & X86_PG_V) != 0) {
2596                         kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
2597                         if (kernel_vm_end - 1 >= kernel_map->max_offset) {
2598                                 kernel_vm_end = kernel_map->max_offset;
2599                                 break;
2600                         }
2601                         continue;
2602                 }
2603
2604                 nkpg = vm_page_alloc(NULL, pmap_pde_pindex(kernel_vm_end),
2605                     VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ | VM_ALLOC_WIRED |
2606                     VM_ALLOC_ZERO);
2607                 if (nkpg == NULL)
2608                         panic("pmap_growkernel: no memory to grow kernel");
2609                 if ((nkpg->flags & PG_ZERO) == 0)
2610                         pmap_zero_page(nkpg);
2611                 paddr = VM_PAGE_TO_PHYS(nkpg);
2612                 newpdir = paddr | X86_PG_V | X86_PG_RW | X86_PG_A | X86_PG_M;
2613                 pde_store(pde, newpdir);
2614
2615                 kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
2616                 if (kernel_vm_end - 1 >= kernel_map->max_offset) {
2617                         kernel_vm_end = kernel_map->max_offset;
2618                         break;
2619                 }
2620         }
2621 }
2622
2623
2624 /***************************************************
2625  * page management routines.
2626  ***************************************************/
2627
2628 CTASSERT(sizeof(struct pv_chunk) == PAGE_SIZE);
2629 CTASSERT(_NPCM == 3);
2630 CTASSERT(_NPCPV == 168);
2631
2632 static __inline struct pv_chunk *
2633 pv_to_chunk(pv_entry_t pv)
2634 {
2635
2636         return ((struct pv_chunk *)((uintptr_t)pv & ~(uintptr_t)PAGE_MASK));
2637 }
2638
2639 #define PV_PMAP(pv) (pv_to_chunk(pv)->pc_pmap)
2640
2641 #define PC_FREE0        0xfffffffffffffffful
2642 #define PC_FREE1        0xfffffffffffffffful
2643 #define PC_FREE2        0x000000fffffffffful
2644
2645 static const uint64_t pc_freemask[_NPCM] = { PC_FREE0, PC_FREE1, PC_FREE2 };
2646
2647 #ifdef PV_STATS
2648 static int pc_chunk_count, pc_chunk_allocs, pc_chunk_frees, pc_chunk_tryfail;
2649
2650 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_count, CTLFLAG_RD, &pc_chunk_count, 0,
2651         "Current number of pv entry chunks");
2652 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_allocs, CTLFLAG_RD, &pc_chunk_allocs, 0,
2653         "Current number of pv entry chunks allocated");
2654 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_frees, CTLFLAG_RD, &pc_chunk_frees, 0,
2655         "Current number of pv entry chunks frees");
2656 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_tryfail, CTLFLAG_RD, &pc_chunk_tryfail, 0,
2657         "Number of times tried to get a chunk page but failed.");
2658
2659 static long pv_entry_frees, pv_entry_allocs, pv_entry_count;
2660 static int pv_entry_spare;
2661
2662 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_frees, CTLFLAG_RD, &pv_entry_frees, 0,
2663         "Current number of pv entry frees");
2664 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_allocs, CTLFLAG_RD, &pv_entry_allocs, 0,
2665         "Current number of pv entry allocs");
2666 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_count, CTLFLAG_RD, &pv_entry_count, 0,
2667         "Current number of pv entries");
2668 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_spare, CTLFLAG_RD, &pv_entry_spare, 0,
2669         "Current number of spare pv entries");
2670 #endif
2671
2672 /*
2673  * We are in a serious low memory condition.  Resort to
2674  * drastic measures to free some pages so we can allocate
2675  * another pv entry chunk.
2676  *
2677  * Returns NULL if PV entries were reclaimed from the specified pmap.
2678  *
2679  * We do not, however, unmap 2mpages because subsequent accesses will
2680  * allocate per-page pv entries until repromotion occurs, thereby
2681  * exacerbating the shortage of free pv entries.
2682  */
2683 static vm_page_t
2684 reclaim_pv_chunk(pmap_t locked_pmap, struct rwlock **lockp)
2685 {
2686         struct pch new_tail;
2687         struct pv_chunk *pc;
2688         struct md_page *pvh;
2689         pd_entry_t *pde;
2690         pmap_t pmap;
2691         pt_entry_t *pte, tpte;
2692         pt_entry_t PG_G, PG_A, PG_M, PG_RW;
2693         pv_entry_t pv;
2694         vm_offset_t va;
2695         vm_page_t m, m_pc;
2696         struct spglist free;
2697         uint64_t inuse;
2698         int bit, field, freed;
2699
2700         rw_assert(&pvh_global_lock, RA_LOCKED);
2701         PMAP_LOCK_ASSERT(locked_pmap, MA_OWNED);
2702         KASSERT(lockp != NULL, ("reclaim_pv_chunk: lockp is NULL"));
2703         pmap = NULL;
2704         m_pc = NULL;
2705         PG_G = PG_A = PG_M = PG_RW = 0;
2706         SLIST_INIT(&free);
2707         TAILQ_INIT(&new_tail);
2708         mtx_lock(&pv_chunks_mutex);
2709         while ((pc = TAILQ_FIRST(&pv_chunks)) != NULL && SLIST_EMPTY(&free)) {
2710                 TAILQ_REMOVE(&pv_chunks, pc, pc_lru);
2711                 mtx_unlock(&pv_chunks_mutex);
2712                 if (pmap != pc->pc_pmap) {
2713                         if (pmap != NULL) {
2714                                 pmap_invalidate_all(pmap);
2715                                 if (pmap != locked_pmap)
2716                                         PMAP_UNLOCK(pmap);
2717                         }
2718                         pmap = pc->pc_pmap;
2719                         /* Avoid deadlock and lock recursion. */
2720                         if (pmap > locked_pmap) {
2721                                 RELEASE_PV_LIST_LOCK(lockp);
2722                                 PMAP_LOCK(pmap);
2723                         } else if (pmap != locked_pmap &&
2724                             !PMAP_TRYLOCK(pmap)) {
2725                                 pmap = NULL;
2726                                 TAILQ_INSERT_TAIL(&new_tail, pc, pc_lru);
2727                                 mtx_lock(&pv_chunks_mutex);
2728                                 continue;
2729                         }
2730                         PG_G = pmap_global_bit(pmap);
2731                         PG_A = pmap_accessed_bit(pmap);
2732                         PG_M = pmap_modified_bit(pmap);
2733                         PG_RW = pmap_rw_bit(pmap);
2734                 }
2735
2736                 /*
2737                  * Destroy every non-wired, 4 KB page mapping in the chunk.
2738                  */
2739                 freed = 0;
2740                 for (field = 0; field < _NPCM; field++) {
2741                         for (inuse = ~pc->pc_map[field] & pc_freemask[field];
2742                             inuse != 0; inuse &= ~(1UL << bit)) {
2743                                 bit = bsfq(inuse);
2744                                 pv = &pc->pc_pventry[field * 64 + bit];
2745                                 va = pv->pv_va;
2746                                 pde = pmap_pde(pmap, va);
2747                                 if ((*pde & PG_PS) != 0)
2748                                         continue;
2749                                 pte = pmap_pde_to_pte(pde, va);
2750                                 if ((*pte & PG_W) != 0)
2751                                         continue;
2752                                 tpte = pte_load_clear(pte);
2753                                 if ((tpte & PG_G) != 0)
2754                                         pmap_invalidate_page(pmap, va);
2755                                 m = PHYS_TO_VM_PAGE(tpte & PG_FRAME);
2756                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
2757                                         vm_page_dirty(m);
2758                                 if ((tpte & PG_A) != 0)
2759                                         vm_page_aflag_set(m, PGA_REFERENCED);
2760                                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
2761                                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
2762                                 m->md.pv_gen++;
2763                                 if (TAILQ_EMPTY(&m->md.pv_list) &&
2764                                     (m->flags & PG_FICTITIOUS) == 0) {
2765                                         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
2766                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
2767                                                 vm_page_aflag_clear(m,
2768                                                     PGA_WRITEABLE);
2769                                         }
2770                                 }
2771                                 pc->pc_map[field] |= 1UL << bit;
2772                                 pmap_unuse_pt(pmap, va, *pde, &free);
2773                                 freed++;
2774                         }
2775                 }
2776                 if (freed == 0) {
2777                         TAILQ_INSERT_TAIL(&new_tail, pc, pc_lru);
2778                         mtx_lock(&pv_chunks_mutex);
2779                         continue;
2780                 }
2781                 /* Every freed mapping is for a 4 KB page. */
2782                 pmap_resident_count_dec(pmap, freed);
2783                 PV_STAT(atomic_add_long(&pv_entry_frees, freed));
2784                 PV_STAT(atomic_add_int(&pv_entry_spare, freed));
2785                 PV_STAT(atomic_subtract_long(&pv_entry_count, freed));
2786                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2787                 if (pc->pc_map[0] == PC_FREE0 && pc->pc_map[1] == PC_FREE1 &&
2788                     pc->pc_map[2] == PC_FREE2) {
2789                         PV_STAT(atomic_subtract_int(&pv_entry_spare, _NPCPV));
2790                         PV_STAT(atomic_subtract_int(&pc_chunk_count, 1));
2791                         PV_STAT(atomic_add_int(&pc_chunk_frees, 1));
2792                         /* Entire chunk is free; return it. */
2793                         m_pc = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
2794                         dump_drop_page(m_pc->phys_addr);
2795                         mtx_lock(&pv_chunks_mutex);
2796                         break;
2797                 }
2798                 TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
2799                 TAILQ_INSERT_TAIL(&new_tail, pc, pc_lru);
2800                 mtx_lock(&pv_chunks_mutex);
2801                 /* One freed pv entry in locked_pmap is sufficient. */
2802                 if (pmap == locked_pmap)
2803                         break;
2804         }
2805         TAILQ_CONCAT(&pv_chunks, &new_tail, pc_lru);
2806         mtx_unlock(&pv_chunks_mutex);
2807         if (pmap != NULL) {
2808                 pmap_invalidate_all(pmap);
2809                 if (pmap != locked_pmap)
2810                         PMAP_UNLOCK(pmap);
2811         }
2812         if (m_pc == NULL && !SLIST_EMPTY(&free)) {
2813                 m_pc = SLIST_FIRST(&free);
2814                 SLIST_REMOVE_HEAD(&free, plinks.s.ss);
2815                 /* Recycle a freed page table page. */
2816                 m_pc->wire_count = 1;
2817                 atomic_add_int(&cnt.v_wire_count, 1);
2818         }
2819         pmap_free_zero_pages(&free);
2820         return (m_pc);
2821 }
2822
2823 /*
2824  * free the pv_entry back to the free list
2825  */
2826 static void
2827 free_pv_entry(pmap_t pmap, pv_entry_t pv)
2828 {
2829         struct pv_chunk *pc;
2830         int idx, field, bit;
2831
2832         rw_assert(&pvh_global_lock, RA_LOCKED);
2833         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2834         PV_STAT(atomic_add_long(&pv_entry_frees, 1));
2835         PV_STAT(atomic_add_int(&pv_entry_spare, 1));
2836         PV_STAT(atomic_subtract_long(&pv_entry_count, 1));
2837         pc = pv_to_chunk(pv);
2838         idx = pv - &pc->pc_pventry[0];
2839         field = idx / 64;
2840         bit = idx % 64;
2841         pc->pc_map[field] |= 1ul << bit;
2842         if (pc->pc_map[0] != PC_FREE0 || pc->pc_map[1] != PC_FREE1 ||
2843             pc->pc_map[2] != PC_FREE2) {
2844                 /* 98% of the time, pc is already at the head of the list. */
2845                 if (__predict_false(pc != TAILQ_FIRST(&pmap->pm_pvchunk))) {
2846                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2847                         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
2848                 }
2849                 return;
2850         }
2851         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2852         free_pv_chunk(pc);
2853 }
2854
2855 static void
2856 free_pv_chunk(struct pv_chunk *pc)
2857 {
2858         vm_page_t m;
2859
2860         mtx_lock(&pv_chunks_mutex);
2861         TAILQ_REMOVE(&pv_chunks, pc, pc_lru);
2862         mtx_unlock(&pv_chunks_mutex);
2863         PV_STAT(atomic_subtract_int(&pv_entry_spare, _NPCPV));
2864         PV_STAT(atomic_subtract_int(&pc_chunk_count, 1));
2865         PV_STAT(atomic_add_int(&pc_chunk_frees, 1));
2866         /* entire chunk is free, return it */
2867         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
2868         dump_drop_page(m->phys_addr);
2869         vm_page_unwire(m, 0);
2870         vm_page_free(m);
2871 }
2872
2873 /*
2874  * Returns a new PV entry, allocating a new PV chunk from the system when
2875  * needed.  If this PV chunk allocation fails and a PV list lock pointer was
2876  * given, a PV chunk is reclaimed from an arbitrary pmap.  Otherwise, NULL is
2877  * returned.
2878  *
2879  * The given PV list lock may be released.
2880  */
2881 static pv_entry_t
2882 get_pv_entry(pmap_t pmap, struct rwlock **lockp)
2883 {
2884         int bit, field;
2885         pv_entry_t pv;
2886         struct pv_chunk *pc;
2887         vm_page_t m;
2888
2889         rw_assert(&pvh_global_lock, RA_LOCKED);
2890         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2891         PV_STAT(atomic_add_long(&pv_entry_allocs, 1));
2892 retry:
2893         pc = TAILQ_FIRST(&pmap->pm_pvchunk);
2894         if (pc != NULL) {
2895                 for (field = 0; field < _NPCM; field++) {
2896                         if (pc->pc_map[field]) {
2897                                 bit = bsfq(pc->pc_map[field]);
2898                                 break;
2899                         }
2900                 }
2901                 if (field < _NPCM) {
2902                         pv = &pc->pc_pventry[field * 64 + bit];
2903                         pc->pc_map[field] &= ~(1ul << bit);
2904                         /* If this was the last item, move it to tail */
2905                         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 &&
2906                             pc->pc_map[2] == 0) {
2907                                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2908                                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc,
2909                                     pc_list);
2910                         }
2911                         PV_STAT(atomic_add_long(&pv_entry_count, 1));
2912                         PV_STAT(atomic_subtract_int(&pv_entry_spare, 1));
2913                         return (pv);
2914                 }
2915         }
2916         /* No free items, allocate another chunk */
2917         m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
2918             VM_ALLOC_WIRED);
2919         if (m == NULL) {
2920                 if (lockp == NULL) {
2921                         PV_STAT(pc_chunk_tryfail++);
2922                         return (NULL);
2923                 }
2924                 m = reclaim_pv_chunk(pmap, lockp);
2925                 if (m == NULL)
2926                         goto retry;
2927         }
2928         PV_STAT(atomic_add_int(&pc_chunk_count, 1));
2929         PV_STAT(atomic_add_int(&pc_chunk_allocs, 1));
2930         dump_add_page(m->phys_addr);
2931         pc = (void *)PHYS_TO_DMAP(m->phys_addr);
2932         pc->pc_pmap = pmap;
2933         pc->pc_map[0] = PC_FREE0 & ~1ul;        /* preallocated bit 0 */
2934         pc->pc_map[1] = PC_FREE1;
2935         pc->pc_map[2] = PC_FREE2;
2936         mtx_lock(&pv_chunks_mutex);
2937         TAILQ_INSERT_TAIL(&pv_chunks, pc, pc_lru);
2938         mtx_unlock(&pv_chunks_mutex);
2939         pv = &pc->pc_pventry[0];
2940         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
2941         PV_STAT(atomic_add_long(&pv_entry_count, 1));
2942         PV_STAT(atomic_add_int(&pv_entry_spare, _NPCPV - 1));
2943         return (pv);
2944 }
2945
2946 /*
2947  * Returns the number of one bits within the given PV chunk map element.
2948  */
2949 static int
2950 popcnt_pc_map_elem(uint64_t elem)
2951 {
2952         int count;
2953
2954         /*
2955          * This simple method of counting the one bits performs well because
2956          * the given element typically contains more zero bits than one bits.
2957          */
2958         count = 0;
2959         for (; elem != 0; elem &= elem - 1)
2960                 count++;
2961         return (count);
2962 }
2963
2964 /*
2965  * Ensure that the number of spare PV entries in the specified pmap meets or
2966  * exceeds the given count, "needed".
2967  *
2968  * The given PV list lock may be released.
2969  */
2970 static void
2971 reserve_pv_entries(pmap_t pmap, int needed, struct rwlock **lockp)
2972 {
2973         struct pch new_tail;
2974         struct pv_chunk *pc;
2975         int avail, free;
2976         vm_page_t m;
2977
2978         rw_assert(&pvh_global_lock, RA_LOCKED);
2979         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2980         KASSERT(lockp != NULL, ("reserve_pv_entries: lockp is NULL"));
2981
2982         /*
2983          * Newly allocated PV chunks must be stored in a private list until
2984          * the required number of PV chunks have been allocated.  Otherwise,
2985          * reclaim_pv_chunk() could recycle one of these chunks.  In
2986          * contrast, these chunks must be added to the pmap upon allocation.
2987          */
2988         TAILQ_INIT(&new_tail);
2989 retry:
2990         avail = 0;
2991         TAILQ_FOREACH(pc, &pmap->pm_pvchunk, pc_list) {
2992                 if ((cpu_feature2 & CPUID2_POPCNT) == 0) {
2993                         free = popcnt_pc_map_elem(pc->pc_map[0]);
2994                         free += popcnt_pc_map_elem(pc->pc_map[1]);
2995                         free += popcnt_pc_map_elem(pc->pc_map[2]);
2996                 } else {
2997                         free = popcntq(pc->pc_map[0]);
2998                         free += popcntq(pc->pc_map[1]);
2999                         free += popcntq(pc->pc_map[2]);
3000                 }
3001                 if (free == 0)
3002                         break;
3003                 avail += free;
3004                 if (avail >= needed)
3005                         break;
3006         }
3007         for (; avail < needed; avail += _NPCPV) {
3008                 m = vm_page_alloc(NULL, 0, VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ |
3009                     VM_ALLOC_WIRED);
3010                 if (m == NULL) {
3011                         m = reclaim_pv_chunk(pmap, lockp);
3012                         if (m == NULL)
3013                                 goto retry;
3014                 }
3015                 PV_STAT(atomic_add_int(&pc_chunk_count, 1));
3016                 PV_STAT(atomic_add_int(&pc_chunk_allocs, 1));
3017                 dump_add_page(m->phys_addr);
3018                 pc = (void *)PHYS_TO_DMAP(m->phys_addr);
3019                 pc->pc_pmap = pmap;
3020                 pc->pc_map[0] = PC_FREE0;
3021                 pc->pc_map[1] = PC_FREE1;
3022                 pc->pc_map[2] = PC_FREE2;
3023                 TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
3024                 TAILQ_INSERT_TAIL(&new_tail, pc, pc_lru);
3025                 PV_STAT(atomic_add_int(&pv_entry_spare, _NPCPV));
3026         }
3027         if (!TAILQ_EMPTY(&new_tail)) {
3028                 mtx_lock(&pv_chunks_mutex);
3029                 TAILQ_CONCAT(&pv_chunks, &new_tail, pc_lru);
3030                 mtx_unlock(&pv_chunks_mutex);
3031         }
3032 }
3033
3034 /*
3035  * First find and then remove the pv entry for the specified pmap and virtual
3036  * address from the specified pv list.  Returns the pv entry if found and NULL
3037  * otherwise.  This operation can be performed on pv lists for either 4KB or
3038  * 2MB page mappings.
3039  */
3040 static __inline pv_entry_t
3041 pmap_pvh_remove(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
3042 {
3043         pv_entry_t pv;
3044
3045         rw_assert(&pvh_global_lock, RA_LOCKED);
3046         TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
3047                 if (pmap == PV_PMAP(pv) && va == pv->pv_va) {
3048                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
3049                         pvh->pv_gen++;
3050                         break;
3051                 }
3052         }
3053         return (pv);
3054 }
3055
3056 /*
3057  * After demotion from a 2MB page mapping to 512 4KB page mappings,
3058  * destroy the pv entry for the 2MB page mapping and reinstantiate the pv
3059  * entries for each of the 4KB page mappings.
3060  */
3061 static void
3062 pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
3063     struct rwlock **lockp)
3064 {
3065         struct md_page *pvh;
3066         struct pv_chunk *pc;
3067         pv_entry_t pv;
3068         vm_offset_t va_last;
3069         vm_page_t m;
3070         int bit, field;
3071
3072         rw_assert(&pvh_global_lock, RA_LOCKED);
3073         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3074         KASSERT((pa & PDRMASK) == 0,
3075             ("pmap_pv_demote_pde: pa is not 2mpage aligned"));
3076         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
3077
3078         /*
3079          * Transfer the 2mpage's pv entry for this mapping to the first
3080          * page's pv list.  Once this transfer begins, the pv list lock
3081          * must not be released until the last pv entry is reinstantiated.
3082          */
3083         pvh = pa_to_pvh(pa);
3084         va = trunc_2mpage(va);
3085         pv = pmap_pvh_remove(pvh, pmap, va);
3086         KASSERT(pv != NULL, ("pmap_pv_demote_pde: pv not found"));
3087         m = PHYS_TO_VM_PAGE(pa);
3088         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
3089         m->md.pv_gen++;
3090         /* Instantiate the remaining NPTEPG - 1 pv entries. */
3091         PV_STAT(atomic_add_long(&pv_entry_allocs, NPTEPG - 1));
3092         va_last = va + NBPDR - PAGE_SIZE;
3093         for (;;) {
3094                 pc = TAILQ_FIRST(&pmap->pm_pvchunk);
3095                 KASSERT(pc->pc_map[0] != 0 || pc->pc_map[1] != 0 ||
3096                     pc->pc_map[2] != 0, ("pmap_pv_demote_pde: missing spare"));
3097                 for (field = 0; field < _NPCM; field++) {
3098                         while (pc->pc_map[field]) {
3099                                 bit = bsfq(pc->pc_map[field]);
3100                                 pc->pc_map[field] &= ~(1ul << bit);
3101                                 pv = &pc->pc_pventry[field * 64 + bit];
3102                                 va += PAGE_SIZE;
3103                                 pv->pv_va = va;
3104                                 m++;
3105                                 KASSERT((m->oflags & VPO_UNMANAGED) == 0,
3106                             ("pmap_pv_demote_pde: page %p is not managed", m));
3107                                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
3108                                 m->md.pv_gen++;
3109                                 if (va == va_last)
3110                                         goto out;
3111                         }
3112                 }
3113                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
3114                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
3115         }
3116 out:
3117         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 && pc->pc_map[2] == 0) {
3118                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
3119                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
3120         }
3121         PV_STAT(atomic_add_long(&pv_entry_count, NPTEPG - 1));
3122         PV_STAT(atomic_subtract_int(&pv_entry_spare, NPTEPG - 1));
3123 }
3124
3125 /*
3126  * After promotion from 512 4KB page mappings to a single 2MB page mapping,
3127  * replace the many pv entries for the 4KB page mappings by a single pv entry
3128  * for the 2MB page mapping.
3129  */
3130 static void
3131 pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
3132     struct rwlock **lockp)
3133 {
3134         struct md_page *pvh;
3135         pv_entry_t pv;
3136         vm_offset_t va_last;
3137         vm_page_t m;
3138
3139         rw_assert(&pvh_global_lock, RA_LOCKED);
3140         KASSERT((pa & PDRMASK) == 0,
3141             ("pmap_pv_promote_pde: pa is not 2mpage aligned"));
3142         CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
3143
3144         /*
3145          * Transfer the first page's pv entry for this mapping to the 2mpage's
3146          * pv list.  Aside from avoiding the cost of a call to get_pv_entry(),
3147          * a transfer avoids the possibility that get_pv_entry() calls
3148          * reclaim_pv_chunk() and that reclaim_pv_chunk() removes one of the
3149          * mappings that is being promoted.
3150          */
3151         m = PHYS_TO_VM_PAGE(pa);
3152         va = trunc_2mpage(va);
3153         pv = pmap_pvh_remove(&m->md, pmap, va);
3154         KASSERT(pv != NULL, ("pmap_pv_promote_pde: pv not found"));
3155         pvh = pa_to_pvh(pa);
3156         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
3157         pvh->pv_gen++;
3158         /* Free the remaining NPTEPG - 1 pv entries. */
3159         va_last = va + NBPDR - PAGE_SIZE;
3160         do {
3161                 m++;
3162                 va += PAGE_SIZE;
3163                 pmap_pvh_free(&m->md, pmap, va);
3164         } while (va < va_last);
3165 }
3166
3167 /*
3168  * First find and then destroy the pv entry for the specified pmap and virtual
3169  * address.  This operation can be performed on pv lists for either 4KB or 2MB
3170  * page mappings.
3171  */
3172 static void
3173 pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
3174 {
3175         pv_entry_t pv;
3176
3177         pv = pmap_pvh_remove(pvh, pmap, va);
3178         KASSERT(pv != NULL, ("pmap_pvh_free: pv not found"));
3179         free_pv_entry(pmap, pv);
3180 }
3181
3182 /*
3183  * Conditionally create the PV entry for a 4KB page mapping if the required
3184  * memory can be allocated without resorting to reclamation.
3185  */
3186 static boolean_t
3187 pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va, vm_page_t m,
3188     struct rwlock **lockp)
3189 {
3190         pv_entry_t pv;
3191
3192         rw_assert(&pvh_global_lock, RA_LOCKED);
3193         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3194         /* Pass NULL instead of the lock pointer to disable reclamation. */
3195         if ((pv = get_pv_entry(pmap, NULL)) != NULL) {
3196                 pv->pv_va = va;
3197                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
3198                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
3199                 m->md.pv_gen++;
3200                 return (TRUE);
3201         } else
3202                 return (FALSE);
3203 }
3204
3205 /*
3206  * Conditionally create the PV entry for a 2MB page mapping if the required
3207  * memory can be allocated without resorting to reclamation.
3208  */
3209 static boolean_t
3210 pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa,
3211     struct rwlock **lockp)
3212 {
3213         struct md_page *pvh;
3214         pv_entry_t pv;
3215
3216         rw_assert(&pvh_global_lock, RA_LOCKED);
3217         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3218         /* Pass NULL instead of the lock pointer to disable reclamation. */
3219         if ((pv = get_pv_entry(pmap, NULL)) != NULL) {
3220                 pv->pv_va = va;
3221                 CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, pa);
3222                 pvh = pa_to_pvh(pa);
3223                 TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
3224                 pvh->pv_gen++;
3225                 return (TRUE);
3226         } else
3227                 return (FALSE);
3228 }
3229
3230 /*
3231  * Fills a page table page with mappings to consecutive physical pages.
3232  */
3233 static void
3234 pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte)
3235 {
3236         pt_entry_t *pte;
3237
3238         for (pte = firstpte; pte < firstpte + NPTEPG; pte++) {
3239                 *pte = newpte;
3240                 newpte += PAGE_SIZE;
3241         }
3242 }
3243
3244 /*
3245  * Tries to demote a 2MB page mapping.  If demotion fails, the 2MB page
3246  * mapping is invalidated.
3247  */
3248 static boolean_t
3249 pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
3250 {
3251         struct rwlock *lock;
3252         boolean_t rv;
3253
3254         lock = NULL;
3255         rv = pmap_demote_pde_locked(pmap, pde, va, &lock);
3256         if (lock != NULL)
3257                 rw_wunlock(lock);
3258         return (rv);
3259 }
3260
3261 static boolean_t
3262 pmap_demote_pde_locked(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
3263     struct rwlock **lockp)
3264 {
3265         pd_entry_t newpde, oldpde;
3266         pt_entry_t *firstpte, newpte;
3267         pt_entry_t PG_A, PG_G, PG_M, PG_RW, PG_V;
3268         vm_paddr_t mptepa;
3269         vm_page_t mpte;
3270         struct spglist free;
3271         int PG_PTE_CACHE;
3272
3273         PG_G = pmap_global_bit(pmap);
3274         PG_A = pmap_accessed_bit(pmap);
3275         PG_M = pmap_modified_bit(pmap);
3276         PG_RW = pmap_rw_bit(pmap);
3277         PG_V = pmap_valid_bit(pmap);
3278         PG_PTE_CACHE = pmap_cache_mask(pmap, 0);
3279
3280         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3281         oldpde = *pde;
3282         KASSERT((oldpde & (PG_PS | PG_V)) == (PG_PS | PG_V),
3283             ("pmap_demote_pde: oldpde is missing PG_PS and/or PG_V"));
3284         if ((oldpde & PG_A) != 0 && (mpte = pmap_lookup_pt_page(pmap, va)) !=
3285             NULL)
3286                 pmap_remove_pt_page(pmap, mpte);
3287         else {
3288                 KASSERT((oldpde & PG_W) == 0,
3289                     ("pmap_demote_pde: page table page for a wired mapping"
3290                     " is missing"));
3291
3292                 /*
3293                  * Invalidate the 2MB page mapping and return "failure" if the
3294                  * mapping was never accessed or the allocation of the new
3295                  * page table page fails.  If the 2MB page mapping belongs to
3296                  * the direct map region of the kernel's address space, then
3297                  * the page allocation request specifies the highest possible
3298                  * priority (VM_ALLOC_INTERRUPT).  Otherwise, the priority is
3299                  * normal.  Page table pages are preallocated for every other
3300                  * part of the kernel address space, so the direct map region
3301                  * is the only part of the kernel address space that must be
3302                  * handled here.
3303                  */
3304                 if ((oldpde & PG_A) == 0 || (mpte = vm_page_alloc(NULL,
3305                     pmap_pde_pindex(va), (va >= DMAP_MIN_ADDRESS && va <
3306                     DMAP_MAX_ADDRESS ? VM_ALLOC_INTERRUPT : VM_ALLOC_NORMAL) |
3307                     VM_ALLOC_NOOBJ | VM_ALLOC_WIRED)) == NULL) {
3308                         SLIST_INIT(&free);
3309                         pmap_remove_pde(pmap, pde, trunc_2mpage(va), &free,
3310                             lockp);
3311                         pmap_invalidate_page(pmap, trunc_2mpage(va));
3312                         pmap_free_zero_pages(&free);
3313                         CTR2(KTR_PMAP, "pmap_demote_pde: failure for va %#lx"
3314                             " in pmap %p", va, pmap);
3315                         return (FALSE);
3316                 }
3317                 if (va < VM_MAXUSER_ADDRESS)
3318                         pmap_resident_count_inc(pmap, 1);
3319         }
3320         mptepa = VM_PAGE_TO_PHYS(mpte);
3321         firstpte = (pt_entry_t *)PHYS_TO_DMAP(mptepa);
3322         newpde = mptepa | PG_M | PG_A | (oldpde & PG_U) | PG_RW | PG_V;
3323         KASSERT((oldpde & PG_A) != 0,
3324             ("pmap_demote_pde: oldpde is missing PG_A"));
3325         KASSERT((oldpde & (PG_M | PG_RW)) != PG_RW,
3326             ("pmap_demote_pde: oldpde is missing PG_M"));
3327         newpte = oldpde & ~PG_PS;
3328         newpte = pmap_swap_pat(pmap, newpte);
3329
3330         /*
3331          * If the page table page is new, initialize it.
3332          */
3333         if (mpte->wire_count == 1) {
3334                 mpte->wire_count = NPTEPG;
3335                 pmap_fill_ptp(firstpte, newpte);
3336         }
3337         KASSERT((*firstpte & PG_FRAME) == (newpte & PG_FRAME),
3338             ("pmap_demote_pde: firstpte and newpte map different physical"
3339             " addresses"));
3340
3341         /*
3342          * If the mapping has changed attributes, update the page table
3343          * entries.
3344          */
3345         if ((*firstpte & PG_PTE_PROMOTE) != (newpte & PG_PTE_PROMOTE))
3346                 pmap_fill_ptp(firstpte, newpte);
3347
3348         /*
3349          * The spare PV entries must be reserved prior to demoting the
3350          * mapping, that is, prior to changing the PDE.  Otherwise, the state
3351          * of the PDE and the PV lists will be inconsistent, which can result
3352          * in reclaim_pv_chunk() attempting to remove a PV entry from the
3353          * wrong PV list and pmap_pv_demote_pde() failing to find the expected
3354          * PV entry for the 2MB page mapping that is being demoted.
3355          */
3356         if ((oldpde & PG_MANAGED) != 0)
3357                 reserve_pv_entries(pmap, NPTEPG - 1, lockp);
3358
3359         /*
3360          * Demote the mapping.  This pmap is locked.  The old PDE has
3361          * PG_A set.  If the old PDE has PG_RW set, it also has PG_M
3362          * set.  Thus, there is no danger of a race with another
3363          * processor changing the setting of PG_A and/or PG_M between
3364          * the read above and the store below.
3365          */
3366         if (workaround_erratum383)
3367                 pmap_update_pde(pmap, va, pde, newpde);
3368         else
3369                 pde_store(pde, newpde);
3370
3371         /*
3372          * Invalidate a stale recursive mapping of the page table page.
3373          */
3374         if (va >= VM_MAXUSER_ADDRESS)
3375                 pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
3376
3377         /*
3378          * Demote the PV entry.
3379          */
3380         if ((oldpde & PG_MANAGED) != 0)
3381                 pmap_pv_demote_pde(pmap, va, oldpde & PG_PS_FRAME, lockp);
3382
3383         atomic_add_long(&pmap_pde_demotions, 1);
3384         CTR2(KTR_PMAP, "pmap_demote_pde: success for va %#lx"
3385             " in pmap %p", va, pmap);
3386         return (TRUE);
3387 }
3388
3389 /*
3390  * pmap_remove_kernel_pde: Remove a kernel superpage mapping.
3391  */
3392 static void
3393 pmap_remove_kernel_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
3394 {
3395         pd_entry_t newpde;
3396         vm_paddr_t mptepa;
3397         vm_page_t mpte;
3398
3399         KASSERT(pmap == kernel_pmap, ("pmap %p is not kernel_pmap", pmap));
3400         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3401         mpte = pmap_lookup_pt_page(pmap, va);
3402         if (mpte == NULL)
3403                 panic("pmap_remove_kernel_pde: Missing pt page.");
3404
3405         pmap_remove_pt_page(pmap, mpte);
3406         mptepa = VM_PAGE_TO_PHYS(mpte);
3407         newpde = mptepa | X86_PG_M | X86_PG_A | X86_PG_RW | X86_PG_V;
3408
3409         /*
3410          * Initialize the page table page.
3411          */
3412         pagezero((void *)PHYS_TO_DMAP(mptepa));
3413
3414         /*
3415          * Demote the mapping.
3416          */
3417         if (workaround_erratum383)
3418                 pmap_update_pde(pmap, va, pde, newpde);
3419         else
3420                 pde_store(pde, newpde);
3421
3422         /*
3423          * Invalidate a stale recursive mapping of the page table page.
3424          */
3425         pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
3426 }
3427
3428 /*
3429  * pmap_remove_pde: do the things to unmap a superpage in a process
3430  */
3431 static int
3432 pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
3433     struct spglist *free, struct rwlock **lockp)
3434 {
3435         struct md_page *pvh;
3436         pd_entry_t oldpde;
3437         vm_offset_t eva, va;
3438         vm_page_t m, mpte;
3439         pt_entry_t PG_G, PG_A, PG_M, PG_RW;
3440
3441         PG_G = pmap_global_bit(pmap);
3442         PG_A = pmap_accessed_bit(pmap);
3443         PG_M = pmap_modified_bit(pmap);
3444         PG_RW = pmap_rw_bit(pmap);
3445
3446         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3447         KASSERT((sva & PDRMASK) == 0,
3448             ("pmap_remove_pde: sva is not 2mpage aligned"));
3449         oldpde = pte_load_clear(pdq);
3450         if (oldpde & PG_W)
3451                 pmap->pm_stats.wired_count -= NBPDR / PAGE_SIZE;
3452
3453         /*
3454          * Machines that don't support invlpg, also don't support
3455          * PG_G.
3456          */
3457         if (oldpde & PG_G)
3458                 pmap_invalidate_page(kernel_pmap, sva);
3459         pmap_resident_count_dec(pmap, NBPDR / PAGE_SIZE);
3460         if (oldpde & PG_MANAGED) {
3461                 CHANGE_PV_LIST_LOCK_TO_PHYS(lockp, oldpde & PG_PS_FRAME);
3462                 pvh = pa_to_pvh(oldpde & PG_PS_FRAME);
3463                 pmap_pvh_free(pvh, pmap, sva);
3464                 eva = sva + NBPDR;
3465                 for (va = sva, m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
3466                     va < eva; va += PAGE_SIZE, m++) {
3467                         if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW))
3468                                 vm_page_dirty(m);
3469                         if (oldpde & PG_A)
3470                                 vm_page_aflag_set(m, PGA_REFERENCED);
3471                         if (TAILQ_EMPTY(&m->md.pv_list) &&
3472                             TAILQ_EMPTY(&pvh->pv_list))
3473                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
3474                 }
3475         }
3476         if (pmap == kernel_pmap) {
3477                 pmap_remove_kernel_pde(pmap, pdq, sva);
3478         } else {
3479                 mpte = pmap_lookup_pt_page(pmap, sva);
3480                 if (mpte != NULL) {
3481                         pmap_remove_pt_page(pmap, mpte);
3482                         pmap_resident_count_dec(pmap, 1);
3483                         KASSERT(mpte->wire_count == NPTEPG,
3484                             ("pmap_remove_pde: pte page wire count error"));
3485                         mpte->wire_count = 0;
3486                         pmap_add_delayed_free_list(mpte, free, FALSE);
3487                         atomic_subtract_int(&cnt.v_wire_count, 1);
3488                 }
3489         }
3490         return (pmap_unuse_pt(pmap, sva, *pmap_pdpe(pmap, sva), free));
3491 }
3492
3493 /*
3494  * pmap_remove_pte: do the things to unmap a page in a process
3495  */
3496 static int
3497 pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t va,
3498     pd_entry_t ptepde, struct spglist *free, struct rwlock **lockp)
3499 {
3500         struct md_page *pvh;
3501         pt_entry_t oldpte, PG_A, PG_M, PG_RW;
3502         vm_page_t m;
3503
3504         PG_A = pmap_accessed_bit(pmap);
3505         PG_M = pmap_modified_bit(pmap);
3506         PG_RW = pmap_rw_bit(pmap);
3507
3508         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3509         oldpte = pte_load_clear(ptq);
3510         if (oldpte & PG_W)
3511                 pmap->pm_stats.wired_count -= 1;
3512         pmap_resident_count_dec(pmap, 1);
3513         if (oldpte & PG_MANAGED) {
3514                 m = PHYS_TO_VM_PAGE(oldpte & PG_FRAME);
3515                 if ((oldpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
3516                         vm_page_dirty(m);
3517                 if (oldpte & PG_A)
3518                         vm_page_aflag_set(m, PGA_REFERENCED);
3519                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(lockp, m);
3520                 pmap_pvh_free(&m->md, pmap, va);
3521                 if (TAILQ_EMPTY(&m->md.pv_list) &&
3522                     (m->flags & PG_FICTITIOUS) == 0) {
3523                         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
3524                         if (TAILQ_EMPTY(&pvh->pv_list))
3525                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
3526                 }
3527         }
3528         return (pmap_unuse_pt(pmap, va, ptepde, free));
3529 }
3530
3531 /*
3532  * Remove a single page from a process address space
3533  */
3534 static void
3535 pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
3536     struct spglist *free)
3537 {
3538         struct rwlock *lock;
3539         pt_entry_t *pte, PG_V;
3540
3541         PG_V = pmap_valid_bit(pmap);
3542         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3543         if ((*pde & PG_V) == 0)
3544                 return;
3545         pte = pmap_pde_to_pte(pde, va);
3546         if ((*pte & PG_V) == 0)
3547                 return;
3548         lock = NULL;
3549         pmap_remove_pte(pmap, pte, va, *pde, free, &lock);
3550         if (lock != NULL)
3551                 rw_wunlock(lock);
3552         pmap_invalidate_page(pmap, va);
3553 }
3554
3555 /*
3556  *      Remove the given range of addresses from the specified map.
3557  *
3558  *      It is assumed that the start and end are properly
3559  *      rounded to the page size.
3560  */
3561 void
3562 pmap_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
3563 {
3564         struct rwlock *lock;
3565         vm_offset_t va, va_next;
3566         pml4_entry_t *pml4e;
3567         pdp_entry_t *pdpe;
3568         pd_entry_t ptpaddr, *pde;
3569         pt_entry_t *pte, PG_G, PG_V;
3570         struct spglist free;
3571         int anyvalid;
3572
3573         PG_G = pmap_global_bit(pmap);
3574         PG_V = pmap_valid_bit(pmap);
3575
3576         /*
3577          * Perform an unsynchronized read.  This is, however, safe.
3578          */
3579         if (pmap->pm_stats.resident_count == 0)
3580                 return;
3581
3582         anyvalid = 0;
3583         SLIST_INIT(&free);
3584
3585         rw_rlock(&pvh_global_lock);
3586         PMAP_LOCK(pmap);
3587
3588         /*
3589          * special handling of removing one page.  a very
3590          * common operation and easy to short circuit some
3591          * code.
3592          */
3593         if (sva + PAGE_SIZE == eva) {
3594                 pde = pmap_pde(pmap, sva);
3595                 if (pde && (*pde & PG_PS) == 0) {
3596                         pmap_remove_page(pmap, sva, pde, &free);
3597                         goto out;
3598                 }
3599         }
3600
3601         lock = NULL;
3602         for (; sva < eva; sva = va_next) {
3603
3604                 if (pmap->pm_stats.resident_count == 0)
3605                         break;
3606
3607                 pml4e = pmap_pml4e(pmap, sva);
3608                 if ((*pml4e & PG_V) == 0) {
3609                         va_next = (sva + NBPML4) & ~PML4MASK;
3610                         if (va_next < sva)
3611                                 va_next = eva;
3612                         continue;
3613                 }
3614
3615                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
3616                 if ((*pdpe & PG_V) == 0) {
3617                         va_next = (sva + NBPDP) & ~PDPMASK;
3618                         if (va_next < sva)
3619                                 va_next = eva;
3620                         continue;
3621                 }
3622
3623                 /*
3624                  * Calculate index for next page table.
3625                  */
3626                 va_next = (sva + NBPDR) & ~PDRMASK;
3627                 if (va_next < sva)
3628                         va_next = eva;
3629
3630                 pde = pmap_pdpe_to_pde(pdpe, sva);
3631                 ptpaddr = *pde;
3632
3633                 /*
3634                  * Weed out invalid mappings.
3635                  */
3636                 if (ptpaddr == 0)
3637                         continue;
3638
3639                 /*
3640                  * Check for large page.
3641                  */
3642                 if ((ptpaddr & PG_PS) != 0) {
3643                         /*
3644                          * Are we removing the entire large page?  If not,
3645                          * demote the mapping and fall through.
3646                          */
3647                         if (sva + NBPDR == va_next && eva >= va_next) {
3648                                 /*
3649                                  * The TLB entry for a PG_G mapping is
3650                                  * invalidated by pmap_remove_pde().
3651                                  */
3652                                 if ((ptpaddr & PG_G) == 0)
3653                                         anyvalid = 1;
3654                                 pmap_remove_pde(pmap, pde, sva, &free, &lock);
3655                                 continue;
3656                         } else if (!pmap_demote_pde_locked(pmap, pde, sva,
3657                             &lock)) {
3658                                 /* The large page mapping was destroyed. */
3659                                 continue;
3660                         } else
3661                                 ptpaddr = *pde;
3662                 }
3663
3664                 /*
3665                  * Limit our scan to either the end of the va represented
3666                  * by the current page table page, or to the end of the
3667                  * range being removed.
3668                  */
3669                 if (va_next > eva)
3670                         va_next = eva;
3671
3672                 va = va_next;
3673                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
3674                     sva += PAGE_SIZE) {
3675                         if (*pte == 0) {
3676                                 if (va != va_next) {
3677                                         pmap_invalidate_range(pmap, va, sva);
3678                                         va = va_next;
3679                                 }
3680                                 continue;
3681                         }
3682                         if ((*pte & PG_G) == 0)
3683                                 anyvalid = 1;
3684                         else if (va == va_next)
3685                                 va = sva;
3686                         if (pmap_remove_pte(pmap, pte, sva, ptpaddr, &free,
3687                             &lock)) {
3688                                 sva += PAGE_SIZE;
3689                                 break;
3690                         }
3691                 }
3692                 if (va != va_next)
3693                         pmap_invalidate_range(pmap, va, sva);
3694         }
3695         if (lock != NULL)
3696                 rw_wunlock(lock);
3697 out:
3698         if (anyvalid)
3699                 pmap_invalidate_all(pmap);
3700         rw_runlock(&pvh_global_lock);
3701         PMAP_UNLOCK(pmap);
3702         pmap_free_zero_pages(&free);
3703 }
3704
3705 /*
3706  *      Routine:        pmap_remove_all
3707  *      Function:
3708  *              Removes this physical page from
3709  *              all physical maps in which it resides.
3710  *              Reflects back modify bits to the pager.
3711  *
3712  *      Notes:
3713  *              Original versions of this routine were very
3714  *              inefficient because they iteratively called
3715  *              pmap_remove (slow...)
3716  */
3717
3718 void
3719 pmap_remove_all(vm_page_t m)
3720 {
3721         struct md_page *pvh;
3722         pv_entry_t pv;
3723         pmap_t pmap;
3724         pt_entry_t *pte, tpte, PG_A, PG_M, PG_RW;
3725         pd_entry_t *pde;
3726         vm_offset_t va;
3727         struct spglist free;
3728
3729         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
3730             ("pmap_remove_all: page %p is not managed", m));
3731         SLIST_INIT(&free);
3732         rw_wlock(&pvh_global_lock);
3733         if ((m->flags & PG_FICTITIOUS) != 0)
3734                 goto small_mappings;
3735         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
3736         while ((pv = TAILQ_FIRST(&pvh->pv_list)) != NULL) {
3737                 pmap = PV_PMAP(pv);
3738                 PMAP_LOCK(pmap);
3739                 va = pv->pv_va;
3740                 pde = pmap_pde(pmap, va);
3741                 (void)pmap_demote_pde(pmap, pde, va);
3742                 PMAP_UNLOCK(pmap);
3743         }
3744 small_mappings:
3745         while ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
3746                 pmap = PV_PMAP(pv);
3747                 PMAP_LOCK(pmap);
3748                 PG_A = pmap_accessed_bit(pmap);
3749                 PG_M = pmap_modified_bit(pmap);
3750                 PG_RW = pmap_rw_bit(pmap);
3751                 pmap_resident_count_dec(pmap, 1);
3752                 pde = pmap_pde(pmap, pv->pv_va);
3753                 KASSERT((*pde & PG_PS) == 0, ("pmap_remove_all: found"
3754                     " a 2mpage in page %p's pv list", m));
3755                 pte = pmap_pde_to_pte(pde, pv->pv_va);
3756                 tpte = pte_load_clear(pte);
3757                 if (tpte & PG_W)
3758                         pmap->pm_stats.wired_count--;
3759                 if (tpte & PG_A)
3760                         vm_page_aflag_set(m, PGA_REFERENCED);
3761
3762                 /*
3763                  * Update the vm_page_t clean and reference bits.
3764                  */
3765                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
3766                         vm_page_dirty(m);
3767                 pmap_unuse_pt(pmap, pv->pv_va, *pde, &free);
3768                 pmap_invalidate_page(pmap, pv->pv_va);
3769                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
3770                 m->md.pv_gen++;
3771                 free_pv_entry(pmap, pv);
3772                 PMAP_UNLOCK(pmap);
3773         }
3774         vm_page_aflag_clear(m, PGA_WRITEABLE);
3775         rw_wunlock(&pvh_global_lock);
3776         pmap_free_zero_pages(&free);
3777 }
3778
3779 /*
3780  * pmap_protect_pde: do the things to protect a 2mpage in a process
3781  */
3782 static boolean_t
3783 pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva, vm_prot_t prot)
3784 {
3785         pd_entry_t newpde, oldpde;
3786         vm_offset_t eva, va;
3787         vm_page_t m;
3788         boolean_t anychanged;
3789         pt_entry_t PG_G, PG_M, PG_RW;
3790
3791         PG_G = pmap_global_bit(pmap);
3792         PG_M = pmap_modified_bit(pmap);
3793         PG_RW = pmap_rw_bit(pmap);
3794
3795         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3796         KASSERT((sva & PDRMASK) == 0,
3797             ("pmap_protect_pde: sva is not 2mpage aligned"));
3798         anychanged = FALSE;
3799 retry:
3800         oldpde = newpde = *pde;
3801         if (oldpde & PG_MANAGED) {
3802                 eva = sva + NBPDR;
3803                 for (va = sva, m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
3804                     va < eva; va += PAGE_SIZE, m++)
3805                         if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW))
3806                                 vm_page_dirty(m);
3807         }
3808         if ((prot & VM_PROT_WRITE) == 0)
3809                 newpde &= ~(PG_RW | PG_M);
3810         if ((prot & VM_PROT_EXECUTE) == 0)
3811                 newpde |= pg_nx;
3812         if (newpde != oldpde) {
3813                 if (!atomic_cmpset_long(pde, oldpde, newpde))
3814                         goto retry;
3815                 if (oldpde & PG_G)
3816                         pmap_invalidate_page(pmap, sva);
3817                 else
3818                         anychanged = TRUE;
3819         }
3820         return (anychanged);
3821 }
3822
3823 /*
3824  *      Set the physical protection on the
3825  *      specified range of this map as requested.
3826  */
3827 void
3828 pmap_protect(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, vm_prot_t prot)
3829 {
3830         vm_offset_t va_next;
3831         pml4_entry_t *pml4e;
3832         pdp_entry_t *pdpe;
3833         pd_entry_t ptpaddr, *pde;
3834         pt_entry_t *pte, PG_G, PG_M, PG_RW, PG_V;
3835         boolean_t anychanged, pv_lists_locked;
3836
3837         if ((prot & VM_PROT_READ) == VM_PROT_NONE) {
3838                 pmap_remove(pmap, sva, eva);
3839                 return;
3840         }
3841
3842         if ((prot & (VM_PROT_WRITE|VM_PROT_EXECUTE)) ==
3843             (VM_PROT_WRITE|VM_PROT_EXECUTE))
3844                 return;
3845
3846         PG_G = pmap_global_bit(pmap);
3847         PG_M = pmap_modified_bit(pmap);
3848         PG_V = pmap_valid_bit(pmap);
3849         PG_RW = pmap_rw_bit(pmap);
3850         pv_lists_locked = FALSE;
3851 resume:
3852         anychanged = FALSE;
3853
3854         PMAP_LOCK(pmap);
3855         for (; sva < eva; sva = va_next) {
3856
3857                 pml4e = pmap_pml4e(pmap, sva);
3858                 if ((*pml4e & PG_V) == 0) {
3859                         va_next = (sva + NBPML4) & ~PML4MASK;
3860                         if (va_next < sva)
3861                                 va_next = eva;
3862                         continue;
3863                 }
3864
3865                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
3866                 if ((*pdpe & PG_V) == 0) {
3867                         va_next = (sva + NBPDP) & ~PDPMASK;
3868                         if (va_next < sva)
3869                                 va_next = eva;
3870                         continue;
3871                 }
3872
3873                 va_next = (sva + NBPDR) & ~PDRMASK;
3874                 if (va_next < sva)
3875                         va_next = eva;
3876
3877                 pde = pmap_pdpe_to_pde(pdpe, sva);
3878                 ptpaddr = *pde;
3879
3880                 /*
3881                  * Weed out invalid mappings.
3882                  */
3883                 if (ptpaddr == 0)
3884                         continue;
3885
3886                 /*
3887                  * Check for large page.
3888                  */
3889                 if ((ptpaddr & PG_PS) != 0) {
3890                         /*
3891                          * Are we protecting the entire large page?  If not,
3892                          * demote the mapping and fall through.
3893                          */
3894                         if (sva + NBPDR == va_next && eva >= va_next) {
3895                                 /*
3896                                  * The TLB entry for a PG_G mapping is
3897                                  * invalidated by pmap_protect_pde().
3898                                  */
3899                                 if (pmap_protect_pde(pmap, pde, sva, prot))
3900                                         anychanged = TRUE;
3901                                 continue;
3902                         } else {
3903                                 if (!pv_lists_locked) {
3904                                         pv_lists_locked = TRUE;
3905                                         if (!rw_try_rlock(&pvh_global_lock)) {
3906                                                 if (anychanged)
3907                                                         pmap_invalidate_all(
3908                                                             pmap);
3909                                                 PMAP_UNLOCK(pmap);
3910                                                 rw_rlock(&pvh_global_lock);
3911                                                 goto resume;
3912                                         }
3913                                 }
3914                                 if (!pmap_demote_pde(pmap, pde, sva)) {
3915                                         /*
3916                                          * The large page mapping was
3917                                          * destroyed.
3918                                          */
3919                                         continue;
3920                                 }
3921                         }
3922                 }
3923
3924                 if (va_next > eva)
3925                         va_next = eva;
3926
3927                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
3928                     sva += PAGE_SIZE) {
3929                         pt_entry_t obits, pbits;
3930                         vm_page_t m;
3931
3932 retry:
3933                         obits = pbits = *pte;
3934                         if ((pbits & PG_V) == 0)
3935                                 continue;
3936
3937                         if ((prot & VM_PROT_WRITE) == 0) {
3938                                 if ((pbits & (PG_MANAGED | PG_M | PG_RW)) ==
3939                                     (PG_MANAGED | PG_M | PG_RW)) {
3940                                         m = PHYS_TO_VM_PAGE(pbits & PG_FRAME);
3941                                         vm_page_dirty(m);
3942                                 }
3943                                 pbits &= ~(PG_RW | PG_M);
3944                         }
3945                         if ((prot & VM_PROT_EXECUTE) == 0)
3946                                 pbits |= pg_nx;
3947
3948                         if (pbits != obits) {
3949                                 if (!atomic_cmpset_long(pte, obits, pbits))
3950                                         goto retry;
3951                                 if (obits & PG_G)
3952                                         pmap_invalidate_page(pmap, sva);
3953                                 else
3954                                         anychanged = TRUE;
3955                         }
3956                 }
3957         }
3958         if (anychanged)
3959                 pmap_invalidate_all(pmap);
3960         if (pv_lists_locked)
3961                 rw_runlock(&pvh_global_lock);
3962         PMAP_UNLOCK(pmap);
3963 }
3964
3965 /*
3966  * Tries to promote the 512, contiguous 4KB page mappings that are within a
3967  * single page table page (PTP) to a single 2MB page mapping.  For promotion
3968  * to occur, two conditions must be met: (1) the 4KB page mappings must map
3969  * aligned, contiguous physical memory and (2) the 4KB page mappings must have
3970  * identical characteristics.
3971  */
3972 static void
3973 pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va,
3974     struct rwlock **lockp)
3975 {
3976         pd_entry_t newpde;
3977         pt_entry_t *firstpte, oldpte, pa, *pte;
3978         pt_entry_t PG_G, PG_A, PG_M, PG_RW, PG_V;
3979         vm_offset_t oldpteva;
3980         vm_page_t mpte;
3981         int PG_PTE_CACHE;
3982
3983         PG_A = pmap_accessed_bit(pmap);
3984         PG_G = pmap_global_bit(pmap);
3985         PG_M = pmap_modified_bit(pmap);
3986         PG_V = pmap_valid_bit(pmap);
3987         PG_RW = pmap_rw_bit(pmap);
3988         PG_PTE_CACHE = pmap_cache_mask(pmap, 0);
3989
3990         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3991
3992         /*
3993          * Examine the first PTE in the specified PTP.  Abort if this PTE is
3994          * either invalid, unused, or does not map the first 4KB physical page
3995          * within a 2MB page.
3996          */
3997         firstpte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
3998 setpde:
3999         newpde = *firstpte;
4000         if ((newpde & ((PG_FRAME & PDRMASK) | PG_A | PG_V)) != (PG_A | PG_V)) {
4001                 atomic_add_long(&pmap_pde_p_failures, 1);
4002                 CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
4003                     " in pmap %p", va, pmap);
4004                 return;
4005         }
4006         if ((newpde & (PG_M | PG_RW)) == PG_RW) {
4007                 /*
4008                  * When PG_M is already clear, PG_RW can be cleared without
4009                  * a TLB invalidation.
4010                  */
4011                 if (!atomic_cmpset_long(firstpte, newpde, newpde & ~PG_RW))
4012                         goto setpde;
4013                 newpde &= ~PG_RW;
4014         }
4015
4016         /*
4017          * Examine each of the other PTEs in the specified PTP.  Abort if this
4018          * PTE maps an unexpected 4KB physical page or does not have identical
4019          * characteristics to the first PTE.
4020          */
4021         pa = (newpde & (PG_PS_FRAME | PG_A | PG_V)) + NBPDR - PAGE_SIZE;
4022         for (pte = firstpte + NPTEPG - 1; pte > firstpte; pte--) {
4023 setpte:
4024                 oldpte = *pte;
4025                 if ((oldpte & (PG_FRAME | PG_A | PG_V)) != pa) {
4026                         atomic_add_long(&pmap_pde_p_failures, 1);
4027                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
4028                             " in pmap %p", va, pmap);
4029                         return;
4030                 }
4031                 if ((oldpte & (PG_M | PG_RW)) == PG_RW) {
4032                         /*
4033                          * When PG_M is already clear, PG_RW can be cleared
4034                          * without a TLB invalidation.
4035                          */
4036                         if (!atomic_cmpset_long(pte, oldpte, oldpte & ~PG_RW))
4037                                 goto setpte;
4038                         oldpte &= ~PG_RW;
4039                         oldpteva = (oldpte & PG_FRAME & PDRMASK) |
4040                             (va & ~PDRMASK);
4041                         CTR2(KTR_PMAP, "pmap_promote_pde: protect for va %#lx"
4042                             " in pmap %p", oldpteva, pmap);
4043                 }
4044                 if ((oldpte & PG_PTE_PROMOTE) != (newpde & PG_PTE_PROMOTE)) {
4045                         atomic_add_long(&pmap_pde_p_failures, 1);
4046                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#lx"
4047                             " in pmap %p", va, pmap);
4048                         return;
4049                 }
4050                 pa -= PAGE_SIZE;
4051         }
4052
4053         /*
4054          * Save the page table page in its current state until the PDE
4055          * mapping the superpage is demoted by pmap_demote_pde() or
4056          * destroyed by pmap_remove_pde().
4057          */
4058         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
4059         KASSERT(mpte >= vm_page_array &&
4060             mpte < &vm_page_array[vm_page_array_size],
4061             ("pmap_promote_pde: page table page is out of range"));
4062         KASSERT(mpte->pindex == pmap_pde_pindex(va),
4063             ("pmap_promote_pde: page table page's pindex is wrong"));
4064         if (pmap_insert_pt_page(pmap, mpte)) {
4065                 atomic_add_long(&pmap_pde_p_failures, 1);
4066                 CTR2(KTR_PMAP,
4067                     "pmap_promote_pde: failure for va %#lx in pmap %p", va,
4068                     pmap);
4069                 return;
4070         }
4071
4072         /*
4073          * Promote the pv entries.
4074          */
4075         if ((newpde & PG_MANAGED) != 0)
4076                 pmap_pv_promote_pde(pmap, va, newpde & PG_PS_FRAME, lockp);
4077
4078         /*
4079          * Propagate the PAT index to its proper position.
4080          */
4081         newpde = pmap_swap_pat(pmap, newpde);
4082
4083         /*
4084          * Map the superpage.
4085          */
4086         if (workaround_erratum383)
4087                 pmap_update_pde(pmap, va, pde, PG_PS | newpde);
4088         else
4089                 pde_store(pde, PG_PS | newpde);
4090
4091         atomic_add_long(&pmap_pde_promotions, 1);
4092         CTR2(KTR_PMAP, "pmap_promote_pde: success for va %#lx"
4093             " in pmap %p", va, pmap);
4094 }
4095
4096 /*
4097  *      Insert the given physical page (p) at
4098  *      the specified virtual address (v) in the
4099  *      target physical map with the protection requested.
4100  *
4101  *      If specified, the page will be wired down, meaning
4102  *      that the related pte can not be reclaimed.
4103  *
4104  *      NB:  This is the only routine which MAY NOT lazy-evaluate
4105  *      or lose information.  That is, this routine must actually
4106  *      insert this page into the given map NOW.
4107  */
4108 void
4109 pmap_enter(pmap_t pmap, vm_offset_t va, vm_prot_t access, vm_page_t m,
4110     vm_prot_t prot, boolean_t wired)
4111 {
4112         struct rwlock *lock;
4113         pd_entry_t *pde;
4114         pt_entry_t *pte, PG_G, PG_A, PG_M, PG_RW, PG_V;
4115         pt_entry_t newpte, origpte;
4116         pv_entry_t pv;
4117         vm_paddr_t opa, pa;
4118         vm_page_t mpte, om;
4119
4120         PG_A = pmap_accessed_bit(pmap);
4121         PG_G = pmap_global_bit(pmap);
4122         PG_M = pmap_modified_bit(pmap);
4123         PG_V = pmap_valid_bit(pmap);
4124         PG_RW = pmap_rw_bit(pmap);
4125
4126         va = trunc_page(va);
4127         KASSERT(va <= VM_MAX_KERNEL_ADDRESS, ("pmap_enter: toobig"));
4128         KASSERT(va < UPT_MIN_ADDRESS || va >= UPT_MAX_ADDRESS,
4129             ("pmap_enter: invalid to pmap_enter page table pages (va: 0x%lx)",
4130             va));
4131         KASSERT((m->oflags & VPO_UNMANAGED) != 0 || va < kmi.clean_sva ||
4132             va >= kmi.clean_eva,
4133             ("pmap_enter: managed mapping within the clean submap"));
4134         if ((m->oflags & VPO_UNMANAGED) == 0 && !vm_page_xbusied(m))
4135                 VM_OBJECT_ASSERT_WLOCKED(m->object);
4136         pa = VM_PAGE_TO_PHYS(m);
4137         newpte = (pt_entry_t)(pa | PG_A | PG_V);
4138         if ((access & VM_PROT_WRITE) != 0)
4139                 newpte |= PG_M;
4140         if ((prot & VM_PROT_WRITE) != 0)
4141                 newpte |= PG_RW;
4142         KASSERT((newpte & (PG_M | PG_RW)) != PG_M,
4143             ("pmap_enter: access includes VM_PROT_WRITE but prot doesn't"));
4144         if ((prot & VM_PROT_EXECUTE) == 0)
4145                 newpte |= pg_nx;
4146         if (wired)
4147                 newpte |= PG_W;
4148         if (va < VM_MAXUSER_ADDRESS)
4149                 newpte |= PG_U;
4150         if (pmap == kernel_pmap)
4151                 newpte |= PG_G;
4152         newpte |= pmap_cache_bits(pmap, m->md.pat_mode, 0);
4153
4154         /*
4155          * Set modified bit gratuitously for writeable mappings if
4156          * the page is unmanaged. We do not want to take a fault
4157          * to do the dirty bit accounting for these mappings.
4158          */
4159         if ((m->oflags & VPO_UNMANAGED) != 0) {
4160                 if ((newpte & PG_RW) != 0)
4161                         newpte |= PG_M;
4162         }
4163
4164         mpte = NULL;
4165
4166         lock = NULL;
4167         rw_rlock(&pvh_global_lock);
4168         PMAP_LOCK(pmap);
4169
4170         /*
4171          * In the case that a page table page is not
4172          * resident, we are creating it here.
4173          */
4174 retry:
4175         pde = pmap_pde(pmap, va);
4176         if (pde != NULL && (*pde & PG_V) != 0 && ((*pde & PG_PS) == 0 ||
4177             pmap_demote_pde_locked(pmap, pde, va, &lock))) {
4178                 pte = pmap_pde_to_pte(pde, va);
4179                 if (va < VM_MAXUSER_ADDRESS && mpte == NULL) {
4180                         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
4181                         mpte->wire_count++;
4182                 }
4183         } else if (va < VM_MAXUSER_ADDRESS) {
4184                 /*
4185                  * Here if the pte page isn't mapped, or if it has been
4186                  * deallocated.
4187                  */
4188                 mpte = _pmap_allocpte(pmap, pmap_pde_pindex(va), &lock);
4189                 goto retry;
4190         } else
4191                 panic("pmap_enter: invalid page directory va=%#lx", va);
4192
4193         origpte = *pte;
4194
4195         /*
4196          * Is the specified virtual address already mapped?
4197          */
4198         if ((origpte & PG_V) != 0) {
4199                 /*
4200                  * Wiring change, just update stats. We don't worry about
4201                  * wiring PT pages as they remain resident as long as there
4202                  * are valid mappings in them. Hence, if a user page is wired,
4203                  * the PT page will be also.
4204                  */
4205                 if ((newpte & PG_W) != 0 && (origpte & PG_W) == 0)
4206                         pmap->pm_stats.wired_count++;
4207                 else if ((newpte & PG_W) == 0 && (origpte & PG_W) != 0)
4208                         pmap->pm_stats.wired_count--;
4209
4210                 /*
4211                  * Remove the extra PT page reference.
4212                  */
4213                 if (mpte != NULL) {
4214                         mpte->wire_count--;
4215                         KASSERT(mpte->wire_count > 0,
4216                             ("pmap_enter: missing reference to page table page,"
4217                              " va: 0x%lx", va));
4218                 }
4219
4220                 /*
4221                  * Has the physical page changed?
4222                  */
4223                 opa = origpte & PG_FRAME;
4224                 if (opa == pa) {
4225                         /*
4226                          * No, might be a protection or wiring change.
4227                          */
4228                         if ((origpte & PG_MANAGED) != 0) {
4229                                 newpte |= PG_MANAGED;
4230                                 if ((newpte & PG_RW) != 0)
4231                                         vm_page_aflag_set(m, PGA_WRITEABLE);
4232                         }
4233                         if (((origpte ^ newpte) & ~(PG_M | PG_A)) == 0)
4234                                 goto unchanged;
4235                         goto validate;
4236                 }
4237         } else {
4238                 /*
4239                  * Increment the counters.
4240                  */
4241                 if ((newpte & PG_W) != 0)
4242                         pmap->pm_stats.wired_count++;
4243                 pmap_resident_count_inc(pmap, 1);
4244         }
4245
4246         /*
4247          * Enter on the PV list if part of our managed memory.
4248          */
4249         if ((m->oflags & VPO_UNMANAGED) == 0) {
4250                 newpte |= PG_MANAGED;
4251                 pv = get_pv_entry(pmap, &lock);
4252                 pv->pv_va = va;
4253                 CHANGE_PV_LIST_LOCK_TO_PHYS(&lock, pa);
4254                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
4255                 m->md.pv_gen++;
4256                 if ((newpte & PG_RW) != 0)
4257                         vm_page_aflag_set(m, PGA_WRITEABLE);
4258         }
4259
4260         /*
4261          * Update the PTE.
4262          */
4263         if ((origpte & PG_V) != 0) {
4264 validate:
4265                 origpte = pte_load_store(pte, newpte);
4266                 opa = origpte & PG_FRAME;
4267                 if (opa != pa) {
4268                         if ((origpte & PG_MANAGED) != 0) {
4269                                 om = PHYS_TO_VM_PAGE(opa);
4270                                 if ((origpte & (PG_M | PG_RW)) == (PG_M |
4271                                     PG_RW))
4272                                         vm_page_dirty(om);
4273                                 if ((origpte & PG_A) != 0)
4274                                         vm_page_aflag_set(om, PGA_REFERENCED);
4275                                 CHANGE_PV_LIST_LOCK_TO_PHYS(&lock, opa);
4276                                 pmap_pvh_free(&om->md, pmap, va);
4277                                 if ((om->aflags & PGA_WRITEABLE) != 0 &&
4278                                     TAILQ_EMPTY(&om->md.pv_list) &&
4279                                     ((om->flags & PG_FICTITIOUS) != 0 ||
4280                                     TAILQ_EMPTY(&pa_to_pvh(opa)->pv_list)))
4281                                         vm_page_aflag_clear(om, PGA_WRITEABLE);
4282                         }
4283                 } else if ((newpte & PG_M) == 0 && (origpte & (PG_M |
4284                     PG_RW)) == (PG_M | PG_RW)) {
4285                         if ((origpte & PG_MANAGED) != 0)
4286                                 vm_page_dirty(m);
4287
4288                         /*
4289                          * Although the PTE may still have PG_RW set, TLB
4290                          * invalidation may nonetheless be required because
4291                          * the PTE no longer has PG_M set.
4292                          */
4293                 } else if ((origpte & PG_NX) != 0 || (newpte & PG_NX) == 0) {
4294                         /*
4295                          * This PTE change does not require TLB invalidation.
4296                          */
4297                         goto unchanged;
4298                 }
4299                 if ((origpte & PG_A) != 0)
4300                         pmap_invalidate_page(pmap, va);
4301         } else
4302                 pte_store(pte, newpte);
4303
4304 unchanged:
4305
4306         /*
4307          * If both the page table page and the reservation are fully
4308          * populated, then attempt promotion.
4309          */
4310         if ((mpte == NULL || mpte->wire_count == NPTEPG) &&
4311             pmap_ps_enabled(pmap) &&
4312             (m->flags & PG_FICTITIOUS) == 0 &&
4313             vm_reserv_level_iffullpop(m) == 0)
4314                 pmap_promote_pde(pmap, pde, va, &lock);
4315
4316         if (lock != NULL)
4317                 rw_wunlock(lock);
4318         rw_runlock(&pvh_global_lock);
4319         PMAP_UNLOCK(pmap);
4320 }
4321
4322 /*
4323  * Tries to create a 2MB page mapping.  Returns TRUE if successful and FALSE
4324  * otherwise.  Fails if (1) a page table page cannot be allocated without
4325  * blocking, (2) a mapping already exists at the specified virtual address, or
4326  * (3) a pv entry cannot be allocated without reclaiming another pv entry.
4327  */
4328 static boolean_t
4329 pmap_enter_pde(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot,
4330     struct rwlock **lockp)
4331 {
4332         pd_entry_t *pde, newpde;
4333         pt_entry_t PG_V;
4334         vm_page_t mpde;
4335         struct spglist free;
4336
4337         PG_V = pmap_valid_bit(pmap);
4338         rw_assert(&pvh_global_lock, RA_LOCKED);
4339         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
4340
4341         if ((mpde = pmap_allocpde(pmap, va, NULL)) == NULL) {
4342                 CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
4343                     " in pmap %p", va, pmap);
4344                 return (FALSE);
4345         }
4346         pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mpde));
4347         pde = &pde[pmap_pde_index(va)];
4348         if ((*pde & PG_V) != 0) {
4349                 KASSERT(mpde->wire_count > 1,
4350                     ("pmap_enter_pde: mpde's wire count is too low"));
4351                 mpde->wire_count--;
4352                 CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
4353                     " in pmap %p", va, pmap);
4354                 return (FALSE);
4355         }
4356         newpde = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(pmap, m->md.pat_mode, 1) |
4357             PG_PS | PG_V;
4358         if ((m->oflags & VPO_UNMANAGED) == 0) {
4359                 newpde |= PG_MANAGED;
4360
4361                 /*
4362                  * Abort this mapping if its PV entry could not be created.
4363                  */
4364                 if (!pmap_pv_insert_pde(pmap, va, VM_PAGE_TO_PHYS(m),
4365                     lockp)) {
4366                         SLIST_INIT(&free);
4367                         if (pmap_unwire_ptp(pmap, va, mpde, &free)) {
4368                                 pmap_invalidate_page(pmap, va);
4369                                 pmap_free_zero_pages(&free);
4370                         }
4371                         CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
4372                             " in pmap %p", va, pmap);
4373                         return (FALSE);
4374                 }
4375         }
4376         if ((prot & VM_PROT_EXECUTE) == 0)
4377                 newpde |= pg_nx;
4378         if (va < VM_MAXUSER_ADDRESS)
4379                 newpde |= PG_U;
4380
4381         /*
4382          * Increment counters.
4383          */
4384         pmap_resident_count_inc(pmap, NBPDR / PAGE_SIZE);
4385
4386         /*
4387          * Map the superpage.
4388          */
4389         pde_store(pde, newpde);
4390
4391         atomic_add_long(&pmap_pde_mappings, 1);
4392         CTR2(KTR_PMAP, "pmap_enter_pde: success for va %#lx"
4393             " in pmap %p", va, pmap);
4394         return (TRUE);
4395 }
4396
4397 /*
4398  * Maps a sequence of resident pages belonging to the same object.
4399  * The sequence begins with the given page m_start.  This page is
4400  * mapped at the given virtual address start.  Each subsequent page is
4401  * mapped at a virtual address that is offset from start by the same
4402  * amount as the page is offset from m_start within the object.  The
4403  * last page in the sequence is the page with the largest offset from
4404  * m_start that can be mapped at a virtual address less than the given
4405  * virtual address end.  Not every virtual page between start and end
4406  * is mapped; only those for which a resident page exists with the
4407  * corresponding offset from m_start are mapped.
4408  */
4409 void
4410 pmap_enter_object(pmap_t pmap, vm_offset_t start, vm_offset_t end,
4411     vm_page_t m_start, vm_prot_t prot)
4412 {
4413         struct rwlock *lock;
4414         vm_offset_t va;
4415         vm_page_t m, mpte;
4416         vm_pindex_t diff, psize;
4417
4418         VM_OBJECT_ASSERT_LOCKED(m_start->object);
4419
4420         psize = atop(end - start);
4421         mpte = NULL;
4422         m = m_start;
4423         lock = NULL;
4424         rw_rlock(&pvh_global_lock);
4425         PMAP_LOCK(pmap);
4426         while (m != NULL && (diff = m->pindex - m_start->pindex) < psize) {
4427                 va = start + ptoa(diff);
4428                 if ((va & PDRMASK) == 0 && va + NBPDR <= end &&
4429                     (VM_PAGE_TO_PHYS(m) & PDRMASK) == 0 &&
4430                     pmap_ps_enabled(pmap) &&
4431                     vm_reserv_level_iffullpop(m) == 0 &&
4432                     pmap_enter_pde(pmap, va, m, prot, &lock))
4433                         m = &m[NBPDR / PAGE_SIZE - 1];
4434                 else
4435                         mpte = pmap_enter_quick_locked(pmap, va, m, prot,
4436                             mpte, &lock);
4437                 m = TAILQ_NEXT(m, listq);
4438         }
4439         if (lock != NULL)
4440                 rw_wunlock(lock);
4441         rw_runlock(&pvh_global_lock);
4442         PMAP_UNLOCK(pmap);
4443 }
4444
4445 /*
4446  * this code makes some *MAJOR* assumptions:
4447  * 1. Current pmap & pmap exists.
4448  * 2. Not wired.
4449  * 3. Read access.
4450  * 4. No page table pages.
4451  * but is *MUCH* faster than pmap_enter...
4452  */
4453
4454 void
4455 pmap_enter_quick(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot)
4456 {
4457         struct rwlock *lock;
4458
4459         lock = NULL;
4460         rw_rlock(&pvh_global_lock);
4461         PMAP_LOCK(pmap);
4462         (void)pmap_enter_quick_locked(pmap, va, m, prot, NULL, &lock);
4463         if (lock != NULL)
4464                 rw_wunlock(lock);
4465         rw_runlock(&pvh_global_lock);
4466         PMAP_UNLOCK(pmap);
4467 }
4468
4469 static vm_page_t
4470 pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va, vm_page_t m,
4471     vm_prot_t prot, vm_page_t mpte, struct rwlock **lockp)
4472 {
4473         struct spglist free;
4474         pt_entry_t *pte, PG_V;
4475         vm_paddr_t pa;
4476
4477         KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva ||
4478             (m->oflags & VPO_UNMANAGED) != 0,
4479             ("pmap_enter_quick_locked: managed mapping within the clean submap"));
4480         PG_V = pmap_valid_bit(pmap);
4481         rw_assert(&pvh_global_lock, RA_LOCKED);
4482         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
4483
4484         /*
4485          * In the case that a page table page is not
4486          * resident, we are creating it here.
4487          */
4488         if (va < VM_MAXUSER_ADDRESS) {
4489                 vm_pindex_t ptepindex;
4490                 pd_entry_t *ptepa;
4491
4492                 /*
4493                  * Calculate pagetable page index
4494                  */
4495                 ptepindex = pmap_pde_pindex(va);
4496                 if (mpte && (mpte->pindex == ptepindex)) {
4497                         mpte->wire_count++;
4498                 } else {
4499                         /*
4500                          * Get the page directory entry
4501                          */
4502                         ptepa = pmap_pde(pmap, va);
4503
4504                         /*
4505                          * If the page table page is mapped, we just increment
4506                          * the hold count, and activate it.  Otherwise, we
4507                          * attempt to allocate a page table page.  If this
4508                          * attempt fails, we don't retry.  Instead, we give up.
4509                          */
4510                         if (ptepa && (*ptepa & PG_V) != 0) {
4511                                 if (*ptepa & PG_PS)
4512                                         return (NULL);
4513                                 mpte = PHYS_TO_VM_PAGE(*ptepa & PG_FRAME);
4514                                 mpte->wire_count++;
4515                         } else {
4516                                 /*
4517                                  * Pass NULL instead of the PV list lock
4518                                  * pointer, because we don't intend to sleep.
4519                                  */
4520                                 mpte = _pmap_allocpte(pmap, ptepindex, NULL);
4521                                 if (mpte == NULL)
4522                                         return (mpte);
4523                         }
4524                 }
4525                 pte = (pt_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mpte));
4526                 pte = &pte[pmap_pte_index(va)];
4527         } else {
4528                 mpte = NULL;
4529                 pte = vtopte(va);
4530         }
4531         if (*pte) {
4532                 if (mpte != NULL) {
4533                         mpte->wire_count--;
4534                         mpte = NULL;
4535                 }
4536                 return (mpte);
4537         }
4538
4539         /*
4540          * Enter on the PV list if part of our managed memory.
4541          */
4542         if ((m->oflags & VPO_UNMANAGED) == 0 &&
4543             !pmap_try_insert_pv_entry(pmap, va, m, lockp)) {
4544                 if (mpte != NULL) {
4545                         SLIST_INIT(&free);
4546                         if (pmap_unwire_ptp(pmap, va, mpte, &free)) {
4547                                 pmap_invalidate_page(pmap, va);
4548                                 pmap_free_zero_pages(&free);
4549                         }
4550                         mpte = NULL;
4551                 }
4552                 return (mpte);
4553         }
4554
4555         /*
4556          * Increment counters
4557          */
4558         pmap_resident_count_inc(pmap, 1);
4559
4560         pa = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(pmap, m->md.pat_mode, 0);
4561         if ((prot & VM_PROT_EXECUTE) == 0)
4562                 pa |= pg_nx;
4563
4564         /*
4565          * Now validate mapping with RO protection
4566          */
4567         if ((m->oflags & VPO_UNMANAGED) != 0)
4568                 pte_store(pte, pa | PG_V | PG_U);
4569         else
4570                 pte_store(pte, pa | PG_V | PG_U | PG_MANAGED);
4571         return (mpte);
4572 }
4573
4574 /*
4575  * Make a temporary mapping for a physical address.  This is only intended
4576  * to be used for panic dumps.
4577  */
4578 void *
4579 pmap_kenter_temporary(vm_paddr_t pa, int i)
4580 {
4581         vm_offset_t va;
4582
4583         va = (vm_offset_t)crashdumpmap + (i * PAGE_SIZE);
4584         pmap_kenter(va, pa);
4585         invlpg(va);
4586         return ((void *)crashdumpmap);
4587 }
4588
4589 /*
4590  * This code maps large physical mmap regions into the
4591  * processor address space.  Note that some shortcuts
4592  * are taken, but the code works.
4593  */
4594 void
4595 pmap_object_init_pt(pmap_t pmap, vm_offset_t addr, vm_object_t object,
4596     vm_pindex_t pindex, vm_size_t size)
4597 {
4598         pd_entry_t *pde;
4599         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
4600         vm_paddr_t pa, ptepa;
4601         vm_page_t p, pdpg;
4602         int pat_mode;
4603
4604         PG_A = pmap_accessed_bit(pmap);
4605         PG_M = pmap_modified_bit(pmap);
4606         PG_V = pmap_valid_bit(pmap);
4607         PG_RW = pmap_rw_bit(pmap);
4608
4609         VM_OBJECT_ASSERT_WLOCKED(object);
4610         KASSERT(object->type == OBJT_DEVICE || object->type == OBJT_SG,
4611             ("pmap_object_init_pt: non-device object"));
4612         if ((addr & (NBPDR - 1)) == 0 && (size & (NBPDR - 1)) == 0) {
4613                 if (!pmap_ps_enabled(pmap))
4614                         return;
4615                 if (!vm_object_populate(object, pindex, pindex + atop(size)))
4616                         return;
4617                 p = vm_page_lookup(object, pindex);
4618                 KASSERT(p->valid == VM_PAGE_BITS_ALL,
4619                     ("pmap_object_init_pt: invalid page %p", p));
4620                 pat_mode = p->md.pat_mode;
4621
4622                 /*
4623                  * Abort the mapping if the first page is not physically
4624                  * aligned to a 2MB page boundary.
4625                  */
4626                 ptepa = VM_PAGE_TO_PHYS(p);
4627                 if (ptepa & (NBPDR - 1))
4628                         return;
4629
4630                 /*
4631                  * Skip the first page.  Abort the mapping if the rest of
4632                  * the pages are not physically contiguous or have differing
4633                  * memory attributes.
4634                  */
4635                 p = TAILQ_NEXT(p, listq);
4636                 for (pa = ptepa + PAGE_SIZE; pa < ptepa + size;
4637                     pa += PAGE_SIZE) {
4638                         KASSERT(p->valid == VM_PAGE_BITS_ALL,
4639                             ("pmap_object_init_pt: invalid page %p", p));
4640                         if (pa != VM_PAGE_TO_PHYS(p) ||
4641                             pat_mode != p->md.pat_mode)
4642                                 return;
4643                         p = TAILQ_NEXT(p, listq);
4644                 }
4645
4646                 /*
4647                  * Map using 2MB pages.  Since "ptepa" is 2M aligned and
4648                  * "size" is a multiple of 2M, adding the PAT setting to "pa"
4649                  * will not affect the termination of this loop.
4650                  */
4651                 PMAP_LOCK(pmap);
4652                 for (pa = ptepa | pmap_cache_bits(pmap, pat_mode, 1);
4653                     pa < ptepa + size; pa += NBPDR) {
4654                         pdpg = pmap_allocpde(pmap, addr, NULL);
4655                         if (pdpg == NULL) {
4656                                 /*
4657                                  * The creation of mappings below is only an
4658                                  * optimization.  If a page directory page
4659                                  * cannot be allocated without blocking,
4660                                  * continue on to the next mapping rather than
4661                                  * blocking.
4662                                  */
4663                                 addr += NBPDR;
4664                                 continue;
4665                         }
4666                         pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pdpg));
4667                         pde = &pde[pmap_pde_index(addr)];
4668                         if ((*pde & PG_V) == 0) {
4669                                 pde_store(pde, pa | PG_PS | PG_M | PG_A |
4670                                     PG_U | PG_RW | PG_V);
4671                                 pmap_resident_count_inc(pmap, NBPDR / PAGE_SIZE);
4672                                 atomic_add_long(&pmap_pde_mappings, 1);
4673                         } else {
4674                                 /* Continue on if the PDE is already valid. */
4675                                 pdpg->wire_count--;
4676                                 KASSERT(pdpg->wire_count > 0,
4677                                     ("pmap_object_init_pt: missing reference "
4678                                     "to page directory page, va: 0x%lx", addr));
4679                         }
4680                         addr += NBPDR;
4681                 }
4682                 PMAP_UNLOCK(pmap);
4683         }
4684 }
4685
4686 /*
4687  *      Routine:        pmap_change_wiring
4688  *      Function:       Change the wiring attribute for a map/virtual-address
4689  *                      pair.
4690  *      In/out conditions:
4691  *                      The mapping must already exist in the pmap.
4692  */
4693 void
4694 pmap_change_wiring(pmap_t pmap, vm_offset_t va, boolean_t wired)
4695 {
4696         pd_entry_t *pde;
4697         pt_entry_t *pte;
4698         boolean_t pv_lists_locked;
4699
4700         pv_lists_locked = FALSE;
4701
4702         /*
4703          * Wiring is not a hardware characteristic so there is no need to
4704          * invalidate TLB.
4705          */
4706 retry:
4707         PMAP_LOCK(pmap);
4708         pde = pmap_pde(pmap, va);
4709         if ((*pde & PG_PS) != 0) {
4710                 if (!wired != ((*pde & PG_W) == 0)) {
4711                         if (!pv_lists_locked) {
4712                                 pv_lists_locked = TRUE;
4713                                 if (!rw_try_rlock(&pvh_global_lock)) {
4714                                         PMAP_UNLOCK(pmap);
4715                                         rw_rlock(&pvh_global_lock);
4716                                         goto retry;
4717                                 }
4718                         }
4719                         if (!pmap_demote_pde(pmap, pde, va))
4720                                 panic("pmap_change_wiring: demotion failed");
4721                 } else
4722                         goto out;
4723         }
4724         pte = pmap_pde_to_pte(pde, va);
4725         if (wired && (*pte & PG_W) == 0) {
4726                 pmap->pm_stats.wired_count++;
4727                 atomic_set_long(pte, PG_W);
4728         } else if (!wired && (*pte & PG_W) != 0) {
4729                 pmap->pm_stats.wired_count--;
4730                 atomic_clear_long(pte, PG_W);
4731         }
4732 out:
4733         if (pv_lists_locked)
4734                 rw_runlock(&pvh_global_lock);
4735         PMAP_UNLOCK(pmap);
4736 }
4737
4738 /*
4739  *      Copy the range specified by src_addr/len
4740  *      from the source map to the range dst_addr/len
4741  *      in the destination map.
4742  *
4743  *      This routine is only advisory and need not do anything.
4744  */
4745
4746 void
4747 pmap_copy(pmap_t dst_pmap, pmap_t src_pmap, vm_offset_t dst_addr, vm_size_t len,
4748     vm_offset_t src_addr)
4749 {
4750         struct rwlock *lock;
4751         struct spglist free;
4752         vm_offset_t addr;
4753         vm_offset_t end_addr = src_addr + len;
4754         vm_offset_t va_next;
4755         pt_entry_t PG_A, PG_M, PG_V;
4756
4757         if (dst_addr != src_addr)
4758                 return;
4759
4760         if (dst_pmap->pm_type != src_pmap->pm_type)
4761                 return;
4762
4763         /*
4764          * EPT page table entries that require emulation of A/D bits are
4765          * sensitive to clearing the PG_A bit (aka EPT_PG_READ). Although
4766          * we clear PG_M (aka EPT_PG_WRITE) concomitantly, the PG_U bit
4767          * (aka EPT_PG_EXECUTE) could still be set. Since some EPT
4768          * implementations flag an EPT misconfiguration for exec-only
4769          * mappings we skip this function entirely for emulated pmaps.
4770          */
4771         if (pmap_emulate_ad_bits(dst_pmap))
4772                 return;
4773
4774         lock = NULL;
4775         rw_rlock(&pvh_global_lock);
4776         if (dst_pmap < src_pmap) {
4777                 PMAP_LOCK(dst_pmap);
4778                 PMAP_LOCK(src_pmap);
4779         } else {
4780                 PMAP_LOCK(src_pmap);
4781                 PMAP_LOCK(dst_pmap);
4782         }
4783
4784         PG_A = pmap_accessed_bit(dst_pmap);
4785         PG_M = pmap_modified_bit(dst_pmap);
4786         PG_V = pmap_valid_bit(dst_pmap);
4787
4788         for (addr = src_addr; addr < end_addr; addr = va_next) {
4789                 pt_entry_t *src_pte, *dst_pte;
4790                 vm_page_t dstmpde, dstmpte, srcmpte;
4791                 pml4_entry_t *pml4e;
4792                 pdp_entry_t *pdpe;
4793                 pd_entry_t srcptepaddr, *pde;
4794
4795                 KASSERT(addr < UPT_MIN_ADDRESS,
4796                     ("pmap_copy: invalid to pmap_copy page tables"));
4797
4798                 pml4e = pmap_pml4e(src_pmap, addr);
4799                 if ((*pml4e & PG_V) == 0) {
4800                         va_next = (addr + NBPML4) & ~PML4MASK;
4801                         if (va_next < addr)
4802                                 va_next = end_addr;
4803                         continue;
4804                 }
4805
4806                 pdpe = pmap_pml4e_to_pdpe(pml4e, addr);
4807                 if ((*pdpe & PG_V) == 0) {
4808                         va_next = (addr + NBPDP) & ~PDPMASK;
4809                         if (va_next < addr)
4810                                 va_next = end_addr;
4811                         continue;
4812                 }
4813
4814                 va_next = (addr + NBPDR) & ~PDRMASK;
4815                 if (va_next < addr)
4816                         va_next = end_addr;
4817
4818                 pde = pmap_pdpe_to_pde(pdpe, addr);
4819                 srcptepaddr = *pde;
4820                 if (srcptepaddr == 0)
4821                         continue;
4822
4823                 if (srcptepaddr & PG_PS) {
4824                         if ((addr & PDRMASK) != 0 || addr + NBPDR > end_addr)
4825                                 continue;
4826                         dstmpde = pmap_allocpde(dst_pmap, addr, NULL);
4827                         if (dstmpde == NULL)
4828                                 break;
4829                         pde = (pd_entry_t *)
4830                             PHYS_TO_DMAP(VM_PAGE_TO_PHYS(dstmpde));
4831                         pde = &pde[pmap_pde_index(addr)];
4832                         if (*pde == 0 && ((srcptepaddr & PG_MANAGED) == 0 ||
4833                             pmap_pv_insert_pde(dst_pmap, addr, srcptepaddr &
4834                             PG_PS_FRAME, &lock))) {
4835                                 *pde = srcptepaddr & ~PG_W;
4836                                 pmap_resident_count_inc(dst_pmap, NBPDR / PAGE_SIZE);
4837                         } else
4838                                 dstmpde->wire_count--;
4839                         continue;
4840                 }
4841
4842                 srcptepaddr &= PG_FRAME;
4843                 srcmpte = PHYS_TO_VM_PAGE(srcptepaddr);
4844                 KASSERT(srcmpte->wire_count > 0,
4845                     ("pmap_copy: source page table page is unused"));
4846
4847                 if (va_next > end_addr)
4848                         va_next = end_addr;
4849
4850                 src_pte = (pt_entry_t *)PHYS_TO_DMAP(srcptepaddr);
4851                 src_pte = &src_pte[pmap_pte_index(addr)];
4852                 dstmpte = NULL;
4853                 while (addr < va_next) {
4854                         pt_entry_t ptetemp;
4855                         ptetemp = *src_pte;
4856                         /*
4857                          * we only virtual copy managed pages
4858                          */
4859                         if ((ptetemp & PG_MANAGED) != 0) {
4860                                 if (dstmpte != NULL &&
4861                                     dstmpte->pindex == pmap_pde_pindex(addr))
4862                                         dstmpte->wire_count++;
4863                                 else if ((dstmpte = pmap_allocpte(dst_pmap,
4864                                     addr, NULL)) == NULL)
4865                                         goto out;
4866                                 dst_pte = (pt_entry_t *)
4867                                     PHYS_TO_DMAP(VM_PAGE_TO_PHYS(dstmpte));
4868                                 dst_pte = &dst_pte[pmap_pte_index(addr)];
4869                                 if (*dst_pte == 0 &&
4870                                     pmap_try_insert_pv_entry(dst_pmap, addr,
4871                                     PHYS_TO_VM_PAGE(ptetemp & PG_FRAME),
4872                                     &lock)) {
4873                                         /*
4874                                          * Clear the wired, modified, and
4875                                          * accessed (referenced) bits
4876                                          * during the copy.
4877                                          */
4878                                         *dst_pte = ptetemp & ~(PG_W | PG_M |
4879                                             PG_A);
4880                                         pmap_resident_count_inc(dst_pmap, 1);
4881                                 } else {
4882                                         SLIST_INIT(&free);
4883                                         if (pmap_unwire_ptp(dst_pmap, addr,
4884                                             dstmpte, &free)) {
4885                                                 pmap_invalidate_page(dst_pmap,
4886                                                     addr);
4887                                                 pmap_free_zero_pages(&free);
4888                                         }
4889                                         goto out;
4890                                 }
4891                                 if (dstmpte->wire_count >= srcmpte->wire_count)
4892                                         break;
4893                         }
4894                         addr += PAGE_SIZE;
4895                         src_pte++;
4896                 }
4897         }
4898 out:
4899         if (lock != NULL)
4900                 rw_wunlock(lock);
4901         rw_runlock(&pvh_global_lock);
4902         PMAP_UNLOCK(src_pmap);
4903         PMAP_UNLOCK(dst_pmap);
4904 }
4905
4906 /*
4907  *      pmap_zero_page zeros the specified hardware page by mapping
4908  *      the page into KVM and using bzero to clear its contents.
4909  */
4910 void
4911 pmap_zero_page(vm_page_t m)
4912 {
4913         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
4914
4915         pagezero((void *)va);
4916 }
4917
4918 /*
4919  *      pmap_zero_page_area zeros the specified hardware page by mapping
4920  *      the page into KVM and using bzero to clear its contents.
4921  *
4922  *      off and size may not cover an area beyond a single hardware page.
4923  */
4924 void
4925 pmap_zero_page_area(vm_page_t m, int off, int size)
4926 {
4927         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
4928
4929         if (off == 0 && size == PAGE_SIZE)
4930                 pagezero((void *)va);
4931         else
4932                 bzero((char *)va + off, size);
4933 }
4934
4935 /*
4936  *      pmap_zero_page_idle zeros the specified hardware page by mapping
4937  *      the page into KVM and using bzero to clear its contents.  This
4938  *      is intended to be called from the vm_pagezero process only and
4939  *      outside of Giant.
4940  */
4941 void
4942 pmap_zero_page_idle(vm_page_t m)
4943 {
4944         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
4945
4946         pagezero((void *)va);
4947 }
4948
4949 /*
4950  *      pmap_copy_page copies the specified (machine independent)
4951  *      page by mapping the page into virtual memory and using
4952  *      bcopy to copy the page, one machine dependent page at a
4953  *      time.
4954  */
4955 void
4956 pmap_copy_page(vm_page_t msrc, vm_page_t mdst)
4957 {
4958         vm_offset_t src = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(msrc));
4959         vm_offset_t dst = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mdst));
4960
4961         pagecopy((void *)src, (void *)dst);
4962 }
4963
4964 int unmapped_buf_allowed = 1;
4965
4966 void
4967 pmap_copy_pages(vm_page_t ma[], vm_offset_t a_offset, vm_page_t mb[],
4968     vm_offset_t b_offset, int xfersize)
4969 {
4970         void *a_cp, *b_cp;
4971         vm_offset_t a_pg_offset, b_pg_offset;
4972         int cnt;
4973
4974         while (xfersize > 0) {
4975                 a_pg_offset = a_offset & PAGE_MASK;
4976                 cnt = min(xfersize, PAGE_SIZE - a_pg_offset);
4977                 a_cp = (char *)PHYS_TO_DMAP(ma[a_offset >> PAGE_SHIFT]->
4978                     phys_addr) + a_pg_offset;
4979                 b_pg_offset = b_offset & PAGE_MASK;
4980                 cnt = min(cnt, PAGE_SIZE - b_pg_offset);
4981                 b_cp = (char *)PHYS_TO_DMAP(mb[b_offset >> PAGE_SHIFT]->
4982                     phys_addr) + b_pg_offset;
4983                 bcopy(a_cp, b_cp, cnt);
4984                 a_offset += cnt;
4985                 b_offset += cnt;
4986                 xfersize -= cnt;
4987         }
4988 }
4989
4990 /*
4991  * Returns true if the pmap's pv is one of the first
4992  * 16 pvs linked to from this page.  This count may
4993  * be changed upwards or downwards in the future; it
4994  * is only necessary that true be returned for a small
4995  * subset of pmaps for proper page aging.
4996  */
4997 boolean_t
4998 pmap_page_exists_quick(pmap_t pmap, vm_page_t m)
4999 {
5000         struct md_page *pvh;
5001         struct rwlock *lock;
5002         pv_entry_t pv;
5003         int loops = 0;
5004         boolean_t rv;
5005
5006         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5007             ("pmap_page_exists_quick: page %p is not managed", m));
5008         rv = FALSE;
5009         rw_rlock(&pvh_global_lock);
5010         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
5011         rw_rlock(lock);
5012         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
5013                 if (PV_PMAP(pv) == pmap) {
5014                         rv = TRUE;
5015                         break;
5016                 }
5017                 loops++;
5018                 if (loops >= 16)
5019                         break;
5020         }
5021         if (!rv && loops < 16 && (m->flags & PG_FICTITIOUS) == 0) {
5022                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5023                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
5024                         if (PV_PMAP(pv) == pmap) {
5025                                 rv = TRUE;
5026                                 break;
5027                         }
5028                         loops++;
5029                         if (loops >= 16)
5030                                 break;
5031                 }
5032         }
5033         rw_runlock(lock);
5034         rw_runlock(&pvh_global_lock);
5035         return (rv);
5036 }
5037
5038 /*
5039  *      pmap_page_wired_mappings:
5040  *
5041  *      Return the number of managed mappings to the given physical page
5042  *      that are wired.
5043  */
5044 int
5045 pmap_page_wired_mappings(vm_page_t m)
5046 {
5047         struct rwlock *lock;
5048         struct md_page *pvh;
5049         pmap_t pmap;
5050         pt_entry_t *pte;
5051         pv_entry_t pv;
5052         int count, md_gen, pvh_gen;
5053
5054         if ((m->oflags & VPO_UNMANAGED) != 0)
5055                 return (0);
5056         rw_rlock(&pvh_global_lock);
5057         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
5058         rw_rlock(lock);
5059 restart:
5060         count = 0;
5061         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
5062                 pmap = PV_PMAP(pv);
5063                 if (!PMAP_TRYLOCK(pmap)) {
5064                         md_gen = m->md.pv_gen;
5065                         rw_runlock(lock);
5066                         PMAP_LOCK(pmap);
5067                         rw_rlock(lock);
5068                         if (md_gen != m->md.pv_gen) {
5069                                 PMAP_UNLOCK(pmap);
5070                                 goto restart;
5071                         }
5072                 }
5073                 pte = pmap_pte(pmap, pv->pv_va);
5074                 if ((*pte & PG_W) != 0)
5075                         count++;
5076                 PMAP_UNLOCK(pmap);
5077         }
5078         if ((m->flags & PG_FICTITIOUS) == 0) {
5079                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5080                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
5081                         pmap = PV_PMAP(pv);
5082                         if (!PMAP_TRYLOCK(pmap)) {
5083                                 md_gen = m->md.pv_gen;
5084                                 pvh_gen = pvh->pv_gen;
5085                                 rw_runlock(lock);
5086                                 PMAP_LOCK(pmap);
5087                                 rw_rlock(lock);
5088                                 if (md_gen != m->md.pv_gen ||
5089                                     pvh_gen != pvh->pv_gen) {
5090                                         PMAP_UNLOCK(pmap);
5091                                         goto restart;
5092                                 }
5093                         }
5094                         pte = pmap_pde(pmap, pv->pv_va);
5095                         if ((*pte & PG_W) != 0)
5096                                 count++;
5097                         PMAP_UNLOCK(pmap);
5098                 }
5099         }
5100         rw_runlock(lock);
5101         rw_runlock(&pvh_global_lock);
5102         return (count);
5103 }
5104
5105 /*
5106  * Returns TRUE if the given page is mapped individually or as part of
5107  * a 2mpage.  Otherwise, returns FALSE.
5108  */
5109 boolean_t
5110 pmap_page_is_mapped(vm_page_t m)
5111 {
5112         struct rwlock *lock;
5113         boolean_t rv;
5114
5115         if ((m->oflags & VPO_UNMANAGED) != 0)
5116                 return (FALSE);
5117         rw_rlock(&pvh_global_lock);
5118         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
5119         rw_rlock(lock);
5120         rv = !TAILQ_EMPTY(&m->md.pv_list) ||
5121             ((m->flags & PG_FICTITIOUS) == 0 &&
5122             !TAILQ_EMPTY(&pa_to_pvh(VM_PAGE_TO_PHYS(m))->pv_list));
5123         rw_runlock(lock);
5124         rw_runlock(&pvh_global_lock);
5125         return (rv);
5126 }
5127
5128 /*
5129  * Destroy all managed, non-wired mappings in the given user-space
5130  * pmap.  This pmap cannot be active on any processor besides the
5131  * caller.
5132  *
5133  * This function cannot be applied to the kernel pmap.  Moreover, it
5134  * is not intended for general use.  It is only to be used during
5135  * process termination.  Consequently, it can be implemented in ways
5136  * that make it faster than pmap_remove().  First, it can more quickly
5137  * destroy mappings by iterating over the pmap's collection of PV
5138  * entries, rather than searching the page table.  Second, it doesn't
5139  * have to test and clear the page table entries atomically, because
5140  * no processor is currently accessing the user address space.  In
5141  * particular, a page table entry's dirty bit won't change state once
5142  * this function starts.
5143  */
5144 void
5145 pmap_remove_pages(pmap_t pmap)
5146 {
5147         pd_entry_t ptepde;
5148         pt_entry_t *pte, tpte;
5149         pt_entry_t PG_M, PG_RW, PG_V;
5150         struct spglist free;
5151         vm_page_t m, mpte, mt;
5152         pv_entry_t pv;
5153         struct md_page *pvh;
5154         struct pv_chunk *pc, *npc;
5155         struct rwlock *lock;
5156         int64_t bit;
5157         uint64_t inuse, bitmask;
5158         int allfree, field, freed, idx;
5159         boolean_t superpage;
5160         vm_paddr_t pa;
5161
5162         /*
5163          * Assert that the given pmap is only active on the current
5164          * CPU.  Unfortunately, we cannot block another CPU from
5165          * activating the pmap while this function is executing.
5166          */
5167         KASSERT(pmap == PCPU_GET(curpmap), ("non-current pmap %p", pmap));
5168 #ifdef INVARIANTS
5169         {
5170                 cpuset_t other_cpus;
5171
5172                 other_cpus = all_cpus;
5173                 critical_enter();
5174                 CPU_CLR(PCPU_GET(cpuid), &other_cpus);
5175                 CPU_AND(&other_cpus, &pmap->pm_active);
5176                 critical_exit();
5177                 KASSERT(CPU_EMPTY(&other_cpus), ("pmap active %p", pmap));
5178         }
5179 #endif
5180
5181         lock = NULL;
5182         PG_M = pmap_modified_bit(pmap);
5183         PG_V = pmap_valid_bit(pmap);
5184         PG_RW = pmap_rw_bit(pmap);
5185
5186         SLIST_INIT(&free);
5187         rw_rlock(&pvh_global_lock);
5188         PMAP_LOCK(pmap);
5189         TAILQ_FOREACH_SAFE(pc, &pmap->pm_pvchunk, pc_list, npc) {
5190                 allfree = 1;
5191                 freed = 0;
5192                 for (field = 0; field < _NPCM; field++) {
5193                         inuse = ~pc->pc_map[field] & pc_freemask[field];
5194                         while (inuse != 0) {
5195                                 bit = bsfq(inuse);
5196                                 bitmask = 1UL << bit;
5197                                 idx = field * 64 + bit;
5198                                 pv = &pc->pc_pventry[idx];
5199                                 inuse &= ~bitmask;
5200
5201                                 pte = pmap_pdpe(pmap, pv->pv_va);
5202                                 ptepde = *pte;
5203                                 pte = pmap_pdpe_to_pde(pte, pv->pv_va);
5204                                 tpte = *pte;
5205                                 if ((tpte & (PG_PS | PG_V)) == PG_V) {
5206                                         superpage = FALSE;
5207                                         ptepde = tpte;
5208                                         pte = (pt_entry_t *)PHYS_TO_DMAP(tpte &
5209                                             PG_FRAME);
5210                                         pte = &pte[pmap_pte_index(pv->pv_va)];
5211                                         tpte = *pte;
5212                                 } else {
5213                                         /*
5214                                          * Keep track whether 'tpte' is a
5215                                          * superpage explicitly instead of
5216                                          * relying on PG_PS being set.
5217                                          *
5218                                          * This is because PG_PS is numerically
5219                                          * identical to PG_PTE_PAT and thus a
5220                                          * regular page could be mistaken for
5221                                          * a superpage.
5222                                          */
5223                                         superpage = TRUE;
5224                                 }
5225
5226                                 if ((tpte & PG_V) == 0) {
5227                                         panic("bad pte va %lx pte %lx",
5228                                             pv->pv_va, tpte);
5229                                 }
5230
5231 /*
5232  * We cannot remove wired pages from a process' mapping at this time
5233  */
5234                                 if (tpte & PG_W) {
5235                                         allfree = 0;
5236                                         continue;
5237                                 }
5238
5239                                 if (superpage)
5240                                         pa = tpte & PG_PS_FRAME;
5241                                 else
5242                                         pa = tpte & PG_FRAME;
5243
5244                                 m = PHYS_TO_VM_PAGE(pa);
5245                                 KASSERT(m->phys_addr == pa,
5246                                     ("vm_page_t %p phys_addr mismatch %016jx %016jx",
5247                                     m, (uintmax_t)m->phys_addr,
5248                                     (uintmax_t)tpte));
5249
5250                                 KASSERT((m->flags & PG_FICTITIOUS) != 0 ||
5251                                     m < &vm_page_array[vm_page_array_size],
5252                                     ("pmap_remove_pages: bad tpte %#jx",
5253                                     (uintmax_t)tpte));
5254
5255                                 pte_clear(pte);
5256
5257                                 /*
5258                                  * Update the vm_page_t clean/reference bits.
5259                                  */
5260                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
5261                                         if (superpage) {
5262                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
5263                                                         vm_page_dirty(mt);
5264                                         } else
5265                                                 vm_page_dirty(m);
5266                                 }
5267
5268                                 CHANGE_PV_LIST_LOCK_TO_VM_PAGE(&lock, m);
5269
5270                                 /* Mark free */
5271                                 pc->pc_map[field] |= bitmask;
5272                                 if (superpage) {
5273                                         pmap_resident_count_dec(pmap, NBPDR / PAGE_SIZE);
5274                                         pvh = pa_to_pvh(tpte & PG_PS_FRAME);
5275                                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
5276                                         pvh->pv_gen++;
5277                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
5278                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
5279                                                         if ((mt->aflags & PGA_WRITEABLE) != 0 &&
5280                                                             TAILQ_EMPTY(&mt->md.pv_list))
5281                                                                 vm_page_aflag_clear(mt, PGA_WRITEABLE);
5282                                         }
5283                                         mpte = pmap_lookup_pt_page(pmap, pv->pv_va);
5284                                         if (mpte != NULL) {
5285                                                 pmap_remove_pt_page(pmap, mpte);
5286                                                 pmap_resident_count_dec(pmap, 1);
5287                                                 KASSERT(mpte->wire_count == NPTEPG,
5288                                                     ("pmap_remove_pages: pte page wire count error"));
5289                                                 mpte->wire_count = 0;
5290                                                 pmap_add_delayed_free_list(mpte, &free, FALSE);
5291                                                 atomic_subtract_int(&cnt.v_wire_count, 1);
5292                                         }
5293                                 } else {
5294                                         pmap_resident_count_dec(pmap, 1);
5295                                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
5296                                         m->md.pv_gen++;
5297                                         if ((m->aflags & PGA_WRITEABLE) != 0 &&
5298                                             TAILQ_EMPTY(&m->md.pv_list) &&
5299                                             (m->flags & PG_FICTITIOUS) == 0) {
5300                                                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5301                                                 if (TAILQ_EMPTY(&pvh->pv_list))
5302                                                         vm_page_aflag_clear(m, PGA_WRITEABLE);
5303                                         }
5304                                 }
5305                                 pmap_unuse_pt(pmap, pv->pv_va, ptepde, &free);
5306                                 freed++;
5307                         }
5308                 }
5309                 PV_STAT(atomic_add_long(&pv_entry_frees, freed));
5310                 PV_STAT(atomic_add_int(&pv_entry_spare, freed));
5311                 PV_STAT(atomic_subtract_long(&pv_entry_count, freed));
5312                 if (allfree) {
5313                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
5314                         free_pv_chunk(pc);
5315                 }
5316         }
5317         if (lock != NULL)
5318                 rw_wunlock(lock);
5319         pmap_invalidate_all(pmap);
5320         rw_runlock(&pvh_global_lock);
5321         PMAP_UNLOCK(pmap);
5322         pmap_free_zero_pages(&free);
5323 }
5324
5325 static boolean_t
5326 pmap_page_test_mappings(vm_page_t m, boolean_t accessed, boolean_t modified)
5327 {
5328         struct rwlock *lock;
5329         pv_entry_t pv;
5330         struct md_page *pvh;
5331         pt_entry_t *pte, mask;
5332         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
5333         pmap_t pmap;
5334         int md_gen, pvh_gen;
5335         boolean_t rv;
5336
5337         rv = FALSE;
5338         rw_rlock(&pvh_global_lock);
5339         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
5340         rw_rlock(lock);
5341 restart:
5342         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
5343                 pmap = PV_PMAP(pv);
5344                 if (!PMAP_TRYLOCK(pmap)) {
5345                         md_gen = m->md.pv_gen;
5346                         rw_runlock(lock);
5347                         PMAP_LOCK(pmap);
5348                         rw_rlock(lock);
5349                         if (md_gen != m->md.pv_gen) {
5350                                 PMAP_UNLOCK(pmap);
5351                                 goto restart;
5352                         }
5353                 }
5354                 pte = pmap_pte(pmap, pv->pv_va);
5355                 mask = 0;
5356                 if (modified) {
5357                         PG_M = pmap_modified_bit(pmap);
5358                         PG_RW = pmap_rw_bit(pmap);
5359                         mask |= PG_RW | PG_M;
5360                 }
5361                 if (accessed) {
5362                         PG_A = pmap_accessed_bit(pmap);
5363                         PG_V = pmap_valid_bit(pmap);
5364                         mask |= PG_V | PG_A;
5365                 }
5366                 rv = (*pte & mask) == mask;
5367                 PMAP_UNLOCK(pmap);
5368                 if (rv)
5369                         goto out;
5370         }
5371         if ((m->flags & PG_FICTITIOUS) == 0) {
5372                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5373                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_next) {
5374                         pmap = PV_PMAP(pv);
5375                         if (!PMAP_TRYLOCK(pmap)) {
5376                                 md_gen = m->md.pv_gen;
5377                                 pvh_gen = pvh->pv_gen;
5378                                 rw_runlock(lock);
5379                                 PMAP_LOCK(pmap);
5380                                 rw_rlock(lock);
5381                                 if (md_gen != m->md.pv_gen ||
5382                                     pvh_gen != pvh->pv_gen) {
5383                                         PMAP_UNLOCK(pmap);
5384                                         goto restart;
5385                                 }
5386                         }
5387                         pte = pmap_pde(pmap, pv->pv_va);
5388                         mask = 0;
5389                         if (modified) {
5390                                 PG_M = pmap_modified_bit(pmap);
5391                                 PG_RW = pmap_rw_bit(pmap);
5392                                 mask |= PG_RW | PG_M;
5393                         }
5394                         if (accessed) {
5395                                 PG_A = pmap_accessed_bit(pmap);
5396                                 PG_V = pmap_valid_bit(pmap);
5397                                 mask |= PG_V | PG_A;
5398                         }
5399                         rv = (*pte & mask) == mask;
5400                         PMAP_UNLOCK(pmap);
5401                         if (rv)
5402                                 goto out;
5403                 }
5404         }
5405 out:
5406         rw_runlock(lock);
5407         rw_runlock(&pvh_global_lock);
5408         return (rv);
5409 }
5410
5411 /*
5412  *      pmap_is_modified:
5413  *
5414  *      Return whether or not the specified physical page was modified
5415  *      in any physical maps.
5416  */
5417 boolean_t
5418 pmap_is_modified(vm_page_t m)
5419 {
5420
5421         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5422             ("pmap_is_modified: page %p is not managed", m));
5423
5424         /*
5425          * If the page is not exclusive busied, then PGA_WRITEABLE cannot be
5426          * concurrently set while the object is locked.  Thus, if PGA_WRITEABLE
5427          * is clear, no PTEs can have PG_M set.
5428          */
5429         VM_OBJECT_ASSERT_WLOCKED(m->object);
5430         if (!vm_page_xbusied(m) && (m->aflags & PGA_WRITEABLE) == 0)
5431                 return (FALSE);
5432         return (pmap_page_test_mappings(m, FALSE, TRUE));
5433 }
5434
5435 /*
5436  *      pmap_is_prefaultable:
5437  *
5438  *      Return whether or not the specified virtual address is eligible
5439  *      for prefault.
5440  */
5441 boolean_t
5442 pmap_is_prefaultable(pmap_t pmap, vm_offset_t addr)
5443 {
5444         pd_entry_t *pde;
5445         pt_entry_t *pte, PG_V;
5446         boolean_t rv;
5447
5448         PG_V = pmap_valid_bit(pmap);
5449         rv = FALSE;
5450         PMAP_LOCK(pmap);
5451         pde = pmap_pde(pmap, addr);
5452         if (pde != NULL && (*pde & (PG_PS | PG_V)) == PG_V) {
5453                 pte = pmap_pde_to_pte(pde, addr);
5454                 rv = (*pte & PG_V) == 0;
5455         }
5456         PMAP_UNLOCK(pmap);
5457         return (rv);
5458 }
5459
5460 /*
5461  *      pmap_is_referenced:
5462  *
5463  *      Return whether or not the specified physical page was referenced
5464  *      in any physical maps.
5465  */
5466 boolean_t
5467 pmap_is_referenced(vm_page_t m)
5468 {
5469
5470         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5471             ("pmap_is_referenced: page %p is not managed", m));
5472         return (pmap_page_test_mappings(m, TRUE, FALSE));
5473 }
5474
5475 /*
5476  * Clear the write and modified bits in each of the given page's mappings.
5477  */
5478 void
5479 pmap_remove_write(vm_page_t m)
5480 {
5481         struct md_page *pvh;
5482         pmap_t pmap;
5483         struct rwlock *lock;
5484         pv_entry_t next_pv, pv;
5485         pd_entry_t *pde;
5486         pt_entry_t oldpte, *pte, PG_M, PG_RW;
5487         vm_offset_t va;
5488         int pvh_gen, md_gen;
5489
5490         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5491             ("pmap_remove_write: page %p is not managed", m));
5492
5493         /*
5494          * If the page is not exclusive busied, then PGA_WRITEABLE cannot be
5495          * set by another thread while the object is locked.  Thus,
5496          * if PGA_WRITEABLE is clear, no page table entries need updating.
5497          */
5498         VM_OBJECT_ASSERT_WLOCKED(m->object);
5499         if (!vm_page_xbusied(m) && (m->aflags & PGA_WRITEABLE) == 0)
5500                 return;
5501         rw_rlock(&pvh_global_lock);
5502         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
5503         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5504 retry_pv_loop:
5505         rw_wlock(lock);
5506         if ((m->flags & PG_FICTITIOUS) != 0)
5507                 goto small_mappings;
5508         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_next, next_pv) {
5509                 pmap = PV_PMAP(pv);
5510                 if (!PMAP_TRYLOCK(pmap)) {
5511                         pvh_gen = pvh->pv_gen;
5512                         rw_wunlock(lock);
5513                         PMAP_LOCK(pmap);
5514                         rw_wlock(lock);
5515                         if (pvh_gen != pvh->pv_gen) {
5516                                 PMAP_UNLOCK(pmap);
5517                                 rw_wunlock(lock);
5518                                 goto retry_pv_loop;
5519                         }
5520                 }
5521                 PG_RW = pmap_rw_bit(pmap);
5522                 va = pv->pv_va;
5523                 pde = pmap_pde(pmap, va);
5524                 if ((*pde & PG_RW) != 0)
5525                         (void)pmap_demote_pde_locked(pmap, pde, va, &lock);
5526                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
5527                     ("inconsistent pv lock %p %p for page %p",
5528                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
5529                 PMAP_UNLOCK(pmap);
5530         }
5531 small_mappings:
5532         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
5533                 pmap = PV_PMAP(pv);
5534                 if (!PMAP_TRYLOCK(pmap)) {
5535                         pvh_gen = pvh->pv_gen;
5536                         md_gen = m->md.pv_gen;
5537                         rw_wunlock(lock);
5538                         PMAP_LOCK(pmap);
5539                         rw_wlock(lock);
5540                         if (pvh_gen != pvh->pv_gen ||
5541                             md_gen != m->md.pv_gen) {
5542                                 PMAP_UNLOCK(pmap);
5543                                 rw_wunlock(lock);
5544                                 goto retry_pv_loop;
5545                         }
5546                 }
5547                 PG_M = pmap_modified_bit(pmap);
5548                 PG_RW = pmap_rw_bit(pmap);
5549                 pde = pmap_pde(pmap, pv->pv_va);
5550                 KASSERT((*pde & PG_PS) == 0,
5551                     ("pmap_remove_write: found a 2mpage in page %p's pv list",
5552                     m));
5553                 pte = pmap_pde_to_pte(pde, pv->pv_va);
5554 retry:
5555                 oldpte = *pte;
5556                 if (oldpte & PG_RW) {
5557                         if (!atomic_cmpset_long(pte, oldpte, oldpte &
5558                             ~(PG_RW | PG_M)))
5559                                 goto retry;
5560                         if ((oldpte & PG_M) != 0)
5561                                 vm_page_dirty(m);
5562                         pmap_invalidate_page(pmap, pv->pv_va);
5563                 }
5564                 PMAP_UNLOCK(pmap);
5565         }
5566         rw_wunlock(lock);
5567         vm_page_aflag_clear(m, PGA_WRITEABLE);
5568         rw_runlock(&pvh_global_lock);
5569 }
5570
5571 static __inline boolean_t
5572 safe_to_clear_referenced(pmap_t pmap, pt_entry_t pte)
5573 {
5574
5575         if (!pmap_emulate_ad_bits(pmap))
5576                 return (TRUE);
5577
5578         KASSERT(pmap->pm_type == PT_EPT, ("invalid pm_type %d", pmap->pm_type));
5579
5580         /*
5581          * XWR = 010 or 110 will cause an unconditional EPT misconfiguration
5582          * so we don't let the referenced (aka EPT_PG_READ) bit to be cleared
5583          * if the EPT_PG_WRITE bit is set.
5584          */
5585         if ((pte & EPT_PG_WRITE) != 0)
5586                 return (FALSE);
5587
5588         /*
5589          * XWR = 100 is allowed only if the PMAP_SUPPORTS_EXEC_ONLY is set.
5590          */
5591         if ((pte & EPT_PG_EXECUTE) == 0 ||
5592             ((pmap->pm_flags & PMAP_SUPPORTS_EXEC_ONLY) != 0))
5593                 return (TRUE);
5594         else
5595                 return (FALSE);
5596 }
5597
5598 #define PMAP_TS_REFERENCED_MAX  5
5599
5600 /*
5601  *      pmap_ts_referenced:
5602  *
5603  *      Return a count of reference bits for a page, clearing those bits.
5604  *      It is not necessary for every reference bit to be cleared, but it
5605  *      is necessary that 0 only be returned when there are truly no
5606  *      reference bits set.
5607  *
5608  *      XXX: The exact number of bits to check and clear is a matter that
5609  *      should be tested and standardized at some point in the future for
5610  *      optimal aging of shared pages.
5611  */
5612 int
5613 pmap_ts_referenced(vm_page_t m)
5614 {
5615         struct md_page *pvh;
5616         pv_entry_t pv, pvf;
5617         pmap_t pmap;
5618         struct rwlock *lock;
5619         pd_entry_t oldpde, *pde;
5620         pt_entry_t *pte, PG_A;
5621         vm_offset_t va;
5622         vm_paddr_t pa;
5623         int cleared, md_gen, not_cleared, pvh_gen;
5624         struct spglist free;
5625         boolean_t demoted;
5626
5627         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5628             ("pmap_ts_referenced: page %p is not managed", m));
5629         SLIST_INIT(&free);
5630         cleared = 0;
5631         pa = VM_PAGE_TO_PHYS(m);
5632         lock = PHYS_TO_PV_LIST_LOCK(pa);
5633         pvh = pa_to_pvh(pa);
5634         rw_rlock(&pvh_global_lock);
5635         rw_wlock(lock);
5636 retry:
5637         not_cleared = 0;
5638         if ((m->flags & PG_FICTITIOUS) != 0 ||
5639             (pvf = TAILQ_FIRST(&pvh->pv_list)) == NULL)
5640                 goto small_mappings;
5641         pv = pvf;
5642         do {
5643                 if (pvf == NULL)
5644                         pvf = pv;
5645                 pmap = PV_PMAP(pv);
5646                 if (!PMAP_TRYLOCK(pmap)) {
5647                         pvh_gen = pvh->pv_gen;
5648                         rw_wunlock(lock);
5649                         PMAP_LOCK(pmap);
5650                         rw_wlock(lock);
5651                         if (pvh_gen != pvh->pv_gen) {
5652                                 PMAP_UNLOCK(pmap);
5653                                 goto retry;
5654                         }
5655                 }
5656                 PG_A = pmap_accessed_bit(pmap);
5657                 va = pv->pv_va;
5658                 pde = pmap_pde(pmap, pv->pv_va);
5659                 oldpde = *pde;
5660                 if ((*pde & PG_A) != 0) {
5661                         /*
5662                          * Since this reference bit is shared by 512 4KB
5663                          * pages, it should not be cleared every time it is
5664                          * tested.  Apply a simple "hash" function on the
5665                          * physical page number, the virtual superpage number,
5666                          * and the pmap address to select one 4KB page out of
5667                          * the 512 on which testing the reference bit will
5668                          * result in clearing that reference bit.  This
5669                          * function is designed to avoid the selection of the
5670                          * same 4KB page for every 2MB page mapping.
5671                          *
5672                          * On demotion, a mapping that hasn't been referenced
5673                          * is simply destroyed.  To avoid the possibility of a
5674                          * subsequent page fault on a demoted wired mapping,
5675                          * always leave its reference bit set.  Moreover,
5676                          * since the superpage is wired, the current state of
5677                          * its reference bit won't affect page replacement.
5678                          */
5679                         if ((((pa >> PAGE_SHIFT) ^ (pv->pv_va >> PDRSHIFT) ^
5680                             (uintptr_t)pmap) & (NPTEPG - 1)) == 0 &&
5681                             (*pde & PG_W) == 0) {
5682                                 if (safe_to_clear_referenced(pmap, oldpde)) {
5683                                         atomic_clear_long(pde, PG_A);
5684                                         pmap_invalidate_page(pmap, pv->pv_va);
5685                                         demoted = FALSE;
5686                                 } else if (pmap_demote_pde_locked(pmap, pde,
5687                                     pv->pv_va, &lock)) {
5688                                         /*
5689                                          * Remove the mapping to a single page
5690                                          * so that a subsequent access may
5691                                          * repromote.  Since the underlying
5692                                          * page table page is fully populated,
5693                                          * this removal never frees a page
5694                                          * table page.
5695                                          */
5696                                         demoted = TRUE;
5697                                         va += VM_PAGE_TO_PHYS(m) - (oldpde &
5698                                             PG_PS_FRAME);
5699                                         pte = pmap_pde_to_pte(pde, va);
5700                                         pmap_remove_pte(pmap, pte, va, *pde,
5701                                             NULL, &lock);
5702                                         pmap_invalidate_page(pmap, va);
5703                                 } else
5704                                         demoted = TRUE;
5705
5706                                 if (demoted) {
5707                                         /*
5708                                          * The superpage mapping was removed
5709                                          * entirely and therefore 'pv' is no
5710                                          * longer valid.
5711                                          */
5712                                         if (pvf == pv)
5713                                                 pvf = NULL;
5714                                         pv = NULL;
5715                                 }
5716                                 cleared++;
5717                                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
5718                                     ("inconsistent pv lock %p %p for page %p",
5719                                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
5720                         } else
5721                                 not_cleared++;
5722                 }
5723                 PMAP_UNLOCK(pmap);
5724                 /* Rotate the PV list if it has more than one entry. */
5725                 if (pv != NULL && TAILQ_NEXT(pv, pv_next) != NULL) {
5726                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_next);
5727                         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_next);
5728                         pvh->pv_gen++;
5729                 }
5730                 if (cleared + not_cleared >= PMAP_TS_REFERENCED_MAX)
5731                         goto out;
5732         } while ((pv = TAILQ_FIRST(&pvh->pv_list)) != pvf);
5733 small_mappings:
5734         if ((pvf = TAILQ_FIRST(&m->md.pv_list)) == NULL)
5735                 goto out;
5736         pv = pvf;
5737         do {
5738                 if (pvf == NULL)
5739                         pvf = pv;
5740                 pmap = PV_PMAP(pv);
5741                 if (!PMAP_TRYLOCK(pmap)) {
5742                         pvh_gen = pvh->pv_gen;
5743                         md_gen = m->md.pv_gen;
5744                         rw_wunlock(lock);
5745                         PMAP_LOCK(pmap);
5746                         rw_wlock(lock);
5747                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
5748                                 PMAP_UNLOCK(pmap);
5749                                 goto retry;
5750                         }
5751                 }
5752                 PG_A = pmap_accessed_bit(pmap);
5753                 pde = pmap_pde(pmap, pv->pv_va);
5754                 KASSERT((*pde & PG_PS) == 0,
5755                     ("pmap_ts_referenced: found a 2mpage in page %p's pv list",
5756                     m));
5757                 pte = pmap_pde_to_pte(pde, pv->pv_va);
5758                 if ((*pte & PG_A) != 0) {
5759                         if (safe_to_clear_referenced(pmap, *pte)) {
5760                                 atomic_clear_long(pte, PG_A);
5761                                 pmap_invalidate_page(pmap, pv->pv_va);
5762                                 cleared++;
5763                         } else if ((*pte & PG_W) == 0) {
5764                                 /*
5765                                  * Wired pages cannot be paged out so
5766                                  * doing accessed bit emulation for
5767                                  * them is wasted effort. We do the
5768                                  * hard work for unwired pages only.
5769                                  */
5770                                 pmap_remove_pte(pmap, pte, pv->pv_va,
5771                                     *pde, &free, &lock);
5772                                 pmap_invalidate_page(pmap, pv->pv_va);
5773                                 cleared++;
5774                                 if (pvf == pv)
5775                                         pvf = NULL;
5776                                 pv = NULL;
5777                                 KASSERT(lock == VM_PAGE_TO_PV_LIST_LOCK(m),
5778                                     ("inconsistent pv lock %p %p for page %p",
5779                                     lock, VM_PAGE_TO_PV_LIST_LOCK(m), m));
5780                         } else
5781                                 not_cleared++;
5782                 }
5783                 PMAP_UNLOCK(pmap);
5784                 /* Rotate the PV list if it has more than one entry. */
5785                 if (pv != NULL && TAILQ_NEXT(pv, pv_next) != NULL) {
5786                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_next);
5787                         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_next);
5788                         m->md.pv_gen++;
5789                 }
5790         } while ((pv = TAILQ_FIRST(&m->md.pv_list)) != pvf && cleared +
5791             not_cleared < PMAP_TS_REFERENCED_MAX);
5792 out:
5793         rw_wunlock(lock);
5794         rw_runlock(&pvh_global_lock);
5795         pmap_free_zero_pages(&free);
5796         return (cleared + not_cleared);
5797 }
5798
5799 /*
5800  *      Apply the given advice to the specified range of addresses within the
5801  *      given pmap.  Depending on the advice, clear the referenced and/or
5802  *      modified flags in each mapping and set the mapped page's dirty field.
5803  */
5804 void
5805 pmap_advise(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, int advice)
5806 {
5807         struct rwlock *lock;
5808         pml4_entry_t *pml4e;
5809         pdp_entry_t *pdpe;
5810         pd_entry_t oldpde, *pde;
5811         pt_entry_t *pte, PG_A, PG_G, PG_M, PG_RW, PG_V;
5812         vm_offset_t va_next;
5813         vm_page_t m;
5814         boolean_t anychanged, pv_lists_locked;
5815
5816         if (advice != MADV_DONTNEED && advice != MADV_FREE)
5817                 return;
5818
5819         /*
5820          * A/D bit emulation requires an alternate code path when clearing
5821          * the modified and accessed bits below. Since this function is
5822          * advisory in nature we skip it entirely for pmaps that require
5823          * A/D bit emulation.
5824          */
5825         if (pmap_emulate_ad_bits(pmap))
5826                 return;
5827
5828         PG_A = pmap_accessed_bit(pmap);
5829         PG_G = pmap_global_bit(pmap);
5830         PG_M = pmap_modified_bit(pmap);
5831         PG_V = pmap_valid_bit(pmap);
5832         PG_RW = pmap_rw_bit(pmap);
5833
5834         pv_lists_locked = FALSE;
5835 resume:
5836         anychanged = FALSE;
5837         PMAP_LOCK(pmap);
5838         for (; sva < eva; sva = va_next) {
5839                 pml4e = pmap_pml4e(pmap, sva);
5840                 if ((*pml4e & PG_V) == 0) {
5841                         va_next = (sva + NBPML4) & ~PML4MASK;
5842                         if (va_next < sva)
5843                                 va_next = eva;
5844                         continue;
5845                 }
5846                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
5847                 if ((*pdpe & PG_V) == 0) {
5848                         va_next = (sva + NBPDP) & ~PDPMASK;
5849                         if (va_next < sva)
5850                                 va_next = eva;
5851                         continue;
5852                 }
5853                 va_next = (sva + NBPDR) & ~PDRMASK;
5854                 if (va_next < sva)
5855                         va_next = eva;
5856                 pde = pmap_pdpe_to_pde(pdpe, sva);
5857                 oldpde = *pde;
5858                 if ((oldpde & PG_V) == 0)
5859                         continue;
5860                 else if ((oldpde & PG_PS) != 0) {
5861                         if ((oldpde & PG_MANAGED) == 0)
5862                                 continue;
5863                         if (!pv_lists_locked) {
5864                                 pv_lists_locked = TRUE;
5865                                 if (!rw_try_rlock(&pvh_global_lock)) {
5866                                         if (anychanged)
5867                                                 pmap_invalidate_all(pmap);
5868                                         PMAP_UNLOCK(pmap);
5869                                         rw_rlock(&pvh_global_lock);
5870                                         goto resume;
5871                                 }
5872                         }
5873                         lock = NULL;
5874                         if (!pmap_demote_pde_locked(pmap, pde, sva, &lock)) {
5875                                 if (lock != NULL)
5876                                         rw_wunlock(lock);
5877
5878                                 /*
5879                                  * The large page mapping was destroyed.
5880                                  */
5881                                 continue;
5882                         }
5883
5884                         /*
5885                          * Unless the page mappings are wired, remove the
5886                          * mapping to a single page so that a subsequent
5887                          * access may repromote.  Since the underlying page
5888                          * table page is fully populated, this removal never
5889                          * frees a page table page.
5890                          */
5891                         if ((oldpde & PG_W) == 0) {
5892                                 pte = pmap_pde_to_pte(pde, sva);
5893                                 KASSERT((*pte & PG_V) != 0,
5894                                     ("pmap_advise: invalid PTE"));
5895                                 pmap_remove_pte(pmap, pte, sva, *pde, NULL,
5896                                     &lock);
5897                                 anychanged = TRUE;
5898                         }
5899                         if (lock != NULL)
5900                                 rw_wunlock(lock);
5901                 }
5902                 if (va_next > eva)
5903                         va_next = eva;
5904                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
5905                     sva += PAGE_SIZE) {
5906                         if ((*pte & (PG_MANAGED | PG_V)) != (PG_MANAGED |
5907                             PG_V))
5908                                 continue;
5909                         else if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
5910                                 if (advice == MADV_DONTNEED) {
5911                                         /*
5912                                          * Future calls to pmap_is_modified()
5913                                          * can be avoided by making the page
5914                                          * dirty now.
5915                                          */
5916                                         m = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
5917                                         vm_page_dirty(m);
5918                                 }
5919                                 atomic_clear_long(pte, PG_M | PG_A);
5920                         } else if ((*pte & PG_A) != 0)
5921                                 atomic_clear_long(pte, PG_A);
5922                         else
5923                                 continue;
5924                         if ((*pte & PG_G) != 0)
5925                                 pmap_invalidate_page(pmap, sva);
5926                         else
5927                                 anychanged = TRUE;
5928                 }
5929         }
5930         if (anychanged)
5931                 pmap_invalidate_all(pmap);
5932         if (pv_lists_locked)
5933                 rw_runlock(&pvh_global_lock);
5934         PMAP_UNLOCK(pmap);
5935 }
5936
5937 /*
5938  *      Clear the modify bits on the specified physical page.
5939  */
5940 void
5941 pmap_clear_modify(vm_page_t m)
5942 {
5943         struct md_page *pvh;
5944         pmap_t pmap;
5945         pv_entry_t next_pv, pv;
5946         pd_entry_t oldpde, *pde;
5947         pt_entry_t oldpte, *pte, PG_M, PG_RW, PG_V;
5948         struct rwlock *lock;
5949         vm_offset_t va;
5950         int md_gen, pvh_gen;
5951
5952         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
5953             ("pmap_clear_modify: page %p is not managed", m));
5954         VM_OBJECT_ASSERT_WLOCKED(m->object);
5955         KASSERT(!vm_page_xbusied(m),
5956             ("pmap_clear_modify: page %p is exclusive busied", m));
5957
5958         /*
5959          * If the page is not PGA_WRITEABLE, then no PTEs can have PG_M set.
5960          * If the object containing the page is locked and the page is not
5961          * exclusive busied, then PGA_WRITEABLE cannot be concurrently set.
5962          */
5963         if ((m->aflags & PGA_WRITEABLE) == 0)
5964                 return;
5965         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
5966         rw_rlock(&pvh_global_lock);
5967         lock = VM_PAGE_TO_PV_LIST_LOCK(m);
5968         rw_wlock(lock);
5969 restart:
5970         if ((m->flags & PG_FICTITIOUS) != 0)
5971                 goto small_mappings;
5972         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_next, next_pv) {
5973                 pmap = PV_PMAP(pv);
5974                 if (!PMAP_TRYLOCK(pmap)) {
5975                         pvh_gen = pvh->pv_gen;
5976                         rw_wunlock(lock);
5977                         PMAP_LOCK(pmap);
5978                         rw_wlock(lock);
5979                         if (pvh_gen != pvh->pv_gen) {
5980                                 PMAP_UNLOCK(pmap);
5981                                 goto restart;
5982                         }
5983                 }
5984                 PG_M = pmap_modified_bit(pmap);
5985                 PG_V = pmap_valid_bit(pmap);
5986                 PG_RW = pmap_rw_bit(pmap);
5987                 va = pv->pv_va;
5988                 pde = pmap_pde(pmap, va);
5989                 oldpde = *pde;
5990                 if ((oldpde & PG_RW) != 0) {
5991                         if (pmap_demote_pde_locked(pmap, pde, va, &lock)) {
5992                                 if ((oldpde & PG_W) == 0) {
5993                                         /*
5994                                          * Write protect the mapping to a
5995                                          * single page so that a subsequent
5996                                          * write access may repromote.
5997                                          */
5998                                         va += VM_PAGE_TO_PHYS(m) - (oldpde &
5999                                             PG_PS_FRAME);
6000                                         pte = pmap_pde_to_pte(pde, va);
6001                                         oldpte = *pte;
6002                                         if ((oldpte & PG_V) != 0) {
6003                                                 while (!atomic_cmpset_long(pte,
6004                                                     oldpte,
6005                                                     oldpte & ~(PG_M | PG_RW)))
6006                                                         oldpte = *pte;
6007                                                 vm_page_dirty(m);
6008                                                 pmap_invalidate_page(pmap, va);
6009                                         }
6010                                 }
6011                         }
6012                 }
6013                 PMAP_UNLOCK(pmap);
6014         }
6015 small_mappings:
6016         TAILQ_FOREACH(pv, &m->md.pv_list, pv_next) {
6017                 pmap = PV_PMAP(pv);
6018                 if (!PMAP_TRYLOCK(pmap)) {
6019                         md_gen = m->md.pv_gen;
6020                         pvh_gen = pvh->pv_gen;
6021                         rw_wunlock(lock);
6022                         PMAP_LOCK(pmap);
6023                         rw_wlock(lock);
6024                         if (pvh_gen != pvh->pv_gen || md_gen != m->md.pv_gen) {
6025                                 PMAP_UNLOCK(pmap);
6026                                 goto restart;
6027                         }
6028                 }
6029                 PG_M = pmap_modified_bit(pmap);
6030                 PG_RW = pmap_rw_bit(pmap);
6031                 pde = pmap_pde(pmap, pv->pv_va);
6032                 KASSERT((*pde & PG_PS) == 0, ("pmap_clear_modify: found"
6033                     " a 2mpage in page %p's pv list", m));
6034                 pte = pmap_pde_to_pte(pde, pv->pv_va);
6035                 if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
6036                         atomic_clear_long(pte, PG_M);
6037                         pmap_invalidate_page(pmap, pv->pv_va);
6038                 }
6039                 PMAP_UNLOCK(pmap);
6040         }
6041         rw_wunlock(lock);
6042         rw_runlock(&pvh_global_lock);
6043 }
6044
6045 /*
6046  * Miscellaneous support routines follow
6047  */
6048
6049 /* Adjust the cache mode for a 4KB page mapped via a PTE. */
6050 static __inline void
6051 pmap_pte_attr(pt_entry_t *pte, int cache_bits, int mask)
6052 {
6053         u_int opte, npte;
6054
6055         /*
6056          * The cache mode bits are all in the low 32-bits of the
6057          * PTE, so we can just spin on updating the low 32-bits.
6058          */
6059         do {
6060                 opte = *(u_int *)pte;
6061                 npte = opte & ~mask;
6062                 npte |= cache_bits;
6063         } while (npte != opte && !atomic_cmpset_int((u_int *)pte, opte, npte));
6064 }
6065
6066 /* Adjust the cache mode for a 2MB page mapped via a PDE. */
6067 static __inline void
6068 pmap_pde_attr(pd_entry_t *pde, int cache_bits, int mask)
6069 {
6070         u_int opde, npde;
6071
6072         /*
6073          * The cache mode bits are all in the low 32-bits of the
6074          * PDE, so we can just spin on updating the low 32-bits.
6075          */
6076         do {
6077                 opde = *(u_int *)pde;
6078                 npde = opde & ~mask;
6079                 npde |= cache_bits;
6080         } while (npde != opde && !atomic_cmpset_int((u_int *)pde, opde, npde));
6081 }
6082
6083 /*
6084  * Map a set of physical memory pages into the kernel virtual
6085  * address space. Return a pointer to where it is mapped. This
6086  * routine is intended to be used for mapping device memory,
6087  * NOT real memory.
6088  */
6089 void *
6090 pmap_mapdev_attr(vm_paddr_t pa, vm_size_t size, int mode)
6091 {
6092         vm_offset_t va, offset;
6093         vm_size_t tmpsize;
6094
6095         /*
6096          * If the specified range of physical addresses fits within the direct
6097          * map window, use the direct map.
6098          */
6099         if (pa < dmaplimit && pa + size < dmaplimit) {
6100                 va = PHYS_TO_DMAP(pa);
6101                 if (!pmap_change_attr(va, size, mode))
6102                         return ((void *)va);
6103         }
6104         offset = pa & PAGE_MASK;
6105         size = round_page(offset + size);
6106         va = kva_alloc(size);
6107         if (!va)
6108                 panic("pmap_mapdev: Couldn't alloc kernel virtual memory");
6109         pa = trunc_page(pa);
6110         for (tmpsize = 0; tmpsize < size; tmpsize += PAGE_SIZE)
6111                 pmap_kenter_attr(va + tmpsize, pa + tmpsize, mode);
6112         pmap_invalidate_range(kernel_pmap, va, va + tmpsize);
6113         pmap_invalidate_cache_range(va, va + tmpsize);
6114         return ((void *)(va + offset));
6115 }
6116
6117 void *
6118 pmap_mapdev(vm_paddr_t pa, vm_size_t size)
6119 {
6120
6121         return (pmap_mapdev_attr(pa, size, PAT_UNCACHEABLE));
6122 }
6123
6124 void *
6125 pmap_mapbios(vm_paddr_t pa, vm_size_t size)
6126 {
6127
6128         return (pmap_mapdev_attr(pa, size, PAT_WRITE_BACK));
6129 }
6130
6131 void
6132 pmap_unmapdev(vm_offset_t va, vm_size_t size)
6133 {
6134         vm_offset_t base, offset;
6135
6136         /* If we gave a direct map region in pmap_mapdev, do nothing */
6137         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS)
6138                 return;
6139         base = trunc_page(va);
6140         offset = va & PAGE_MASK;
6141         size = round_page(offset + size);
6142         kva_free(base, size);
6143 }
6144
6145 /*
6146  * Tries to demote a 1GB page mapping.
6147  */
6148 static boolean_t
6149 pmap_demote_pdpe(pmap_t pmap, pdp_entry_t *pdpe, vm_offset_t va)
6150 {
6151         pdp_entry_t newpdpe, oldpdpe;
6152         pd_entry_t *firstpde, newpde, *pde;
6153         pt_entry_t PG_A, PG_M, PG_RW, PG_V;
6154         vm_paddr_t mpdepa;
6155         vm_page_t mpde;
6156
6157         PG_A = pmap_accessed_bit(pmap);
6158         PG_M = pmap_modified_bit(pmap);
6159         PG_V = pmap_valid_bit(pmap);
6160         PG_RW = pmap_rw_bit(pmap);
6161
6162         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
6163         oldpdpe = *pdpe;
6164         KASSERT((oldpdpe & (PG_PS | PG_V)) == (PG_PS | PG_V),
6165             ("pmap_demote_pdpe: oldpdpe is missing PG_PS and/or PG_V"));
6166         if ((mpde = vm_page_alloc(NULL, va >> PDPSHIFT, VM_ALLOC_INTERRUPT |
6167             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED)) == NULL) {
6168                 CTR2(KTR_PMAP, "pmap_demote_pdpe: failure for va %#lx"
6169                     " in pmap %p", va, pmap);
6170                 return (FALSE);
6171         }
6172         mpdepa = VM_PAGE_TO_PHYS(mpde);
6173         firstpde = (pd_entry_t *)PHYS_TO_DMAP(mpdepa);
6174         newpdpe = mpdepa | PG_M | PG_A | (oldpdpe & PG_U) | PG_RW | PG_V;
6175         KASSERT((oldpdpe & PG_A) != 0,
6176             ("pmap_demote_pdpe: oldpdpe is missing PG_A"));
6177         KASSERT((oldpdpe & (PG_M | PG_RW)) != PG_RW,
6178             ("pmap_demote_pdpe: oldpdpe is missing PG_M"));
6179         newpde = oldpdpe;
6180
6181         /*
6182          * Initialize the page directory page.
6183          */
6184         for (pde = firstpde; pde < firstpde + NPDEPG; pde++) {
6185                 *pde = newpde;
6186                 newpde += NBPDR;
6187         }
6188
6189         /*
6190          * Demote the mapping.
6191          */
6192         *pdpe = newpdpe;
6193
6194         /*
6195          * Invalidate a stale recursive mapping of the page directory page.
6196          */
6197         pmap_invalidate_page(pmap, (vm_offset_t)vtopde(va));
6198
6199         pmap_pdpe_demotions++;
6200         CTR2(KTR_PMAP, "pmap_demote_pdpe: success for va %#lx"
6201             " in pmap %p", va, pmap);
6202         return (TRUE);
6203 }
6204
6205 /*
6206  * Sets the memory attribute for the specified page.
6207  */
6208 void
6209 pmap_page_set_memattr(vm_page_t m, vm_memattr_t ma)
6210 {
6211
6212         m->md.pat_mode = ma;
6213
6214         /*
6215          * If "m" is a normal page, update its direct mapping.  This update
6216          * can be relied upon to perform any cache operations that are
6217          * required for data coherence.
6218          */
6219         if ((m->flags & PG_FICTITIOUS) == 0 &&
6220             pmap_change_attr(PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m)), PAGE_SIZE,
6221             m->md.pat_mode))
6222                 panic("memory attribute change on the direct map failed");
6223 }
6224
6225 /*
6226  * Changes the specified virtual address range's memory type to that given by
6227  * the parameter "mode".  The specified virtual address range must be
6228  * completely contained within either the direct map or the kernel map.  If
6229  * the virtual address range is contained within the kernel map, then the
6230  * memory type for each of the corresponding ranges of the direct map is also
6231  * changed.  (The corresponding ranges of the direct map are those ranges that
6232  * map the same physical pages as the specified virtual address range.)  These
6233  * changes to the direct map are necessary because Intel describes the
6234  * behavior of their processors as "undefined" if two or more mappings to the
6235  * same physical page have different memory types.
6236  *
6237  * Returns zero if the change completed successfully, and either EINVAL or
6238  * ENOMEM if the change failed.  Specifically, EINVAL is returned if some part
6239  * of the virtual address range was not mapped, and ENOMEM is returned if
6240  * there was insufficient memory available to complete the change.  In the
6241  * latter case, the memory type may have been changed on some part of the
6242  * virtual address range or the direct map.
6243  */
6244 int
6245 pmap_change_attr(vm_offset_t va, vm_size_t size, int mode)
6246 {
6247         int error;
6248
6249         PMAP_LOCK(kernel_pmap);
6250         error = pmap_change_attr_locked(va, size, mode);
6251         PMAP_UNLOCK(kernel_pmap);
6252         return (error);
6253 }
6254
6255 static int
6256 pmap_change_attr_locked(vm_offset_t va, vm_size_t size, int mode)
6257 {
6258         vm_offset_t base, offset, tmpva;
6259         vm_paddr_t pa_start, pa_end;
6260         pdp_entry_t *pdpe;
6261         pd_entry_t *pde;
6262         pt_entry_t *pte;
6263         int cache_bits_pte, cache_bits_pde, error;
6264         boolean_t changed;
6265
6266         PMAP_LOCK_ASSERT(kernel_pmap, MA_OWNED);
6267         base = trunc_page(va);
6268         offset = va & PAGE_MASK;
6269         size = round_page(offset + size);
6270
6271         /*
6272          * Only supported on kernel virtual addresses, including the direct
6273          * map but excluding the recursive map.
6274          */
6275         if (base < DMAP_MIN_ADDRESS)
6276                 return (EINVAL);
6277
6278         cache_bits_pde = pmap_cache_bits(kernel_pmap, mode, 1);
6279         cache_bits_pte = pmap_cache_bits(kernel_pmap, mode, 0);
6280         changed = FALSE;
6281
6282         /*
6283          * Pages that aren't mapped aren't supported.  Also break down 2MB pages
6284          * into 4KB pages if required.
6285          */
6286         for (tmpva = base; tmpva < base + size; ) {
6287                 pdpe = pmap_pdpe(kernel_pmap, tmpva);
6288                 if (*pdpe == 0)
6289                         return (EINVAL);
6290                 if (*pdpe & PG_PS) {
6291                         /*
6292                          * If the current 1GB page already has the required
6293                          * memory type, then we need not demote this page. Just
6294                          * increment tmpva to the next 1GB page frame.
6295                          */
6296                         if ((*pdpe & X86_PG_PDE_CACHE) == cache_bits_pde) {
6297                                 tmpva = trunc_1gpage(tmpva) + NBPDP;
6298                                 continue;
6299                         }
6300
6301                         /*
6302                          * If the current offset aligns with a 1GB page frame
6303                          * and there is at least 1GB left within the range, then
6304                          * we need not break down this page into 2MB pages.
6305                          */
6306                         if ((tmpva & PDPMASK) == 0 &&
6307                             tmpva + PDPMASK < base + size) {
6308                                 tmpva += NBPDP;
6309                                 continue;
6310                         }
6311                         if (!pmap_demote_pdpe(kernel_pmap, pdpe, tmpva))
6312                                 return (ENOMEM);
6313                 }
6314                 pde = pmap_pdpe_to_pde(pdpe, tmpva);
6315                 if (*pde == 0)
6316                         return (EINVAL);
6317                 if (*pde & PG_PS) {
6318                         /*
6319                          * If the current 2MB page already has the required
6320                          * memory type, then we need not demote this page. Just
6321                          * increment tmpva to the next 2MB page frame.
6322                          */
6323                         if ((*pde & X86_PG_PDE_CACHE) == cache_bits_pde) {
6324                                 tmpva = trunc_2mpage(tmpva) + NBPDR;
6325                                 continue;
6326                         }
6327
6328                         /*
6329                          * If the current offset aligns with a 2MB page frame
6330                          * and there is at least 2MB left within the range, then
6331                          * we need not break down this page into 4KB pages.
6332                          */
6333                         if ((tmpva & PDRMASK) == 0 &&
6334                             tmpva + PDRMASK < base + size) {
6335                                 tmpva += NBPDR;
6336                                 continue;
6337                         }
6338                         if (!pmap_demote_pde(kernel_pmap, pde, tmpva))
6339                                 return (ENOMEM);
6340                 }
6341                 pte = pmap_pde_to_pte(pde, tmpva);
6342                 if (*pte == 0)
6343                         return (EINVAL);
6344                 tmpva += PAGE_SIZE;
6345         }
6346         error = 0;
6347
6348         /*
6349          * Ok, all the pages exist, so run through them updating their
6350          * cache mode if required.
6351          */
6352         pa_start = pa_end = 0;
6353         for (tmpva = base; tmpva < base + size; ) {
6354                 pdpe = pmap_pdpe(kernel_pmap, tmpva);
6355                 if (*pdpe & PG_PS) {
6356                         if ((*pdpe & X86_PG_PDE_CACHE) != cache_bits_pde) {
6357                                 pmap_pde_attr(pdpe, cache_bits_pde,
6358                                     X86_PG_PDE_CACHE);
6359                                 changed = TRUE;
6360                         }
6361                         if (tmpva >= VM_MIN_KERNEL_ADDRESS) {
6362                                 if (pa_start == pa_end) {
6363                                         /* Start physical address run. */
6364                                         pa_start = *pdpe & PG_PS_FRAME;
6365                                         pa_end = pa_start + NBPDP;
6366                                 } else if (pa_end == (*pdpe & PG_PS_FRAME))
6367                                         pa_end += NBPDP;
6368                                 else {
6369                                         /* Run ended, update direct map. */
6370                                         error = pmap_change_attr_locked(
6371                                             PHYS_TO_DMAP(pa_start),
6372                                             pa_end - pa_start, mode);
6373                                         if (error != 0)
6374                                                 break;
6375                                         /* Start physical address run. */
6376                                         pa_start = *pdpe & PG_PS_FRAME;
6377                                         pa_end = pa_start + NBPDP;
6378                                 }
6379                         }
6380                         tmpva = trunc_1gpage(tmpva) + NBPDP;
6381                         continue;
6382                 }
6383                 pde = pmap_pdpe_to_pde(pdpe, tmpva);
6384                 if (*pde & PG_PS) {
6385                         if ((*pde & X86_PG_PDE_CACHE) != cache_bits_pde) {
6386                                 pmap_pde_attr(pde, cache_bits_pde,
6387                                     X86_PG_PDE_CACHE);
6388                                 changed = TRUE;
6389                         }
6390                         if (tmpva >= VM_MIN_KERNEL_ADDRESS) {
6391                                 if (pa_start == pa_end) {
6392                                         /* Start physical address run. */
6393                                         pa_start = *pde & PG_PS_FRAME;
6394                                         pa_end = pa_start + NBPDR;
6395                                 } else if (pa_end == (*pde & PG_PS_FRAME))
6396                                         pa_end += NBPDR;
6397                                 else {
6398                                         /* Run ended, update direct map. */
6399                                         error = pmap_change_attr_locked(
6400                                             PHYS_TO_DMAP(pa_start),
6401                                             pa_end - pa_start, mode);
6402                                         if (error != 0)
6403                                                 break;
6404                                         /* Start physical address run. */
6405                                         pa_start = *pde & PG_PS_FRAME;
6406                                         pa_end = pa_start + NBPDR;
6407                                 }
6408                         }
6409                         tmpva = trunc_2mpage(tmpva) + NBPDR;
6410                 } else {
6411                         pte = pmap_pde_to_pte(pde, tmpva);
6412                         if ((*pte & X86_PG_PTE_CACHE) != cache_bits_pte) {
6413                                 pmap_pte_attr(pte, cache_bits_pte,
6414                                     X86_PG_PTE_CACHE);
6415                                 changed = TRUE;
6416                         }
6417                         if (tmpva >= VM_MIN_KERNEL_ADDRESS) {
6418                                 if (pa_start == pa_end) {
6419                                         /* Start physical address run. */
6420                                         pa_start = *pte & PG_FRAME;
6421                                         pa_end = pa_start + PAGE_SIZE;
6422                                 } else if (pa_end == (*pte & PG_FRAME))
6423                                         pa_end += PAGE_SIZE;
6424                                 else {
6425                                         /* Run ended, update direct map. */
6426                                         error = pmap_change_attr_locked(
6427                                             PHYS_TO_DMAP(pa_start),
6428                                             pa_end - pa_start, mode);
6429                                         if (error != 0)
6430                                                 break;
6431                                         /* Start physical address run. */
6432                                         pa_start = *pte & PG_FRAME;
6433                                         pa_end = pa_start + PAGE_SIZE;
6434                                 }
6435                         }
6436                         tmpva += PAGE_SIZE;
6437                 }
6438         }
6439         if (error == 0 && pa_start != pa_end)
6440                 error = pmap_change_attr_locked(PHYS_TO_DMAP(pa_start),
6441                     pa_end - pa_start, mode);
6442
6443         /*
6444          * Flush CPU caches if required to make sure any data isn't cached that
6445          * shouldn't be, etc.
6446          */
6447         if (changed) {
6448                 pmap_invalidate_range(kernel_pmap, base, tmpva);
6449                 pmap_invalidate_cache_range(base, tmpva);
6450         }
6451         return (error);
6452 }
6453
6454 /*
6455  * Demotes any mapping within the direct map region that covers more than the
6456  * specified range of physical addresses.  This range's size must be a power
6457  * of two and its starting address must be a multiple of its size.  Since the
6458  * demotion does not change any attributes of the mapping, a TLB invalidation
6459  * is not mandatory.  The caller may, however, request a TLB invalidation.
6460  */
6461 void
6462 pmap_demote_DMAP(vm_paddr_t base, vm_size_t len, boolean_t invalidate)
6463 {
6464         pdp_entry_t *pdpe;
6465         pd_entry_t *pde;
6466         vm_offset_t va;
6467         boolean_t changed;
6468
6469         if (len == 0)
6470                 return;
6471         KASSERT(powerof2(len), ("pmap_demote_DMAP: len is not a power of 2"));
6472         KASSERT((base & (len - 1)) == 0,
6473             ("pmap_demote_DMAP: base is not a multiple of len"));
6474         if (len < NBPDP && base < dmaplimit) {
6475                 va = PHYS_TO_DMAP(base);
6476                 changed = FALSE;
6477                 PMAP_LOCK(kernel_pmap);
6478                 pdpe = pmap_pdpe(kernel_pmap, va);
6479                 if ((*pdpe & X86_PG_V) == 0)
6480                         panic("pmap_demote_DMAP: invalid PDPE");
6481                 if ((*pdpe & PG_PS) != 0) {
6482                         if (!pmap_demote_pdpe(kernel_pmap, pdpe, va))
6483                                 panic("pmap_demote_DMAP: PDPE failed");
6484                         changed = TRUE;
6485                 }
6486                 if (len < NBPDR) {
6487                         pde = pmap_pdpe_to_pde(pdpe, va);
6488                         if ((*pde & X86_PG_V) == 0)
6489                                 panic("pmap_demote_DMAP: invalid PDE");
6490                         if ((*pde & PG_PS) != 0) {
6491                                 if (!pmap_demote_pde(kernel_pmap, pde, va))
6492                                         panic("pmap_demote_DMAP: PDE failed");
6493                                 changed = TRUE;
6494                         }
6495                 }
6496                 if (changed && invalidate)
6497                         pmap_invalidate_page(kernel_pmap, va);
6498                 PMAP_UNLOCK(kernel_pmap);
6499         }
6500 }
6501
6502 /*
6503  * perform the pmap work for mincore
6504  */
6505 int
6506 pmap_mincore(pmap_t pmap, vm_offset_t addr, vm_paddr_t *locked_pa)
6507 {
6508         pd_entry_t *pdep;
6509         pt_entry_t pte, PG_A, PG_M, PG_RW, PG_V;
6510         vm_paddr_t pa;
6511         int val;
6512
6513         PG_A = pmap_accessed_bit(pmap);
6514         PG_M = pmap_modified_bit(pmap);
6515         PG_V = pmap_valid_bit(pmap);
6516         PG_RW = pmap_rw_bit(pmap);
6517
6518         PMAP_LOCK(pmap);
6519 retry:
6520         pdep = pmap_pde(pmap, addr);
6521         if (pdep != NULL && (*pdep & PG_V)) {
6522                 if (*pdep & PG_PS) {
6523                         pte = *pdep;
6524                         /* Compute the physical address of the 4KB page. */
6525                         pa = ((*pdep & PG_PS_FRAME) | (addr & PDRMASK)) &
6526                             PG_FRAME;
6527                         val = MINCORE_SUPER;
6528                 } else {
6529                         pte = *pmap_pde_to_pte(pdep, addr);
6530                         pa = pte & PG_FRAME;
6531                         val = 0;
6532                 }
6533         } else {
6534                 pte = 0;
6535                 pa = 0;
6536                 val = 0;
6537         }
6538         if ((pte & PG_V) != 0) {
6539                 val |= MINCORE_INCORE;
6540                 if ((pte & (PG_M | PG_RW)) == (PG_M | PG_RW))
6541                         val |= MINCORE_MODIFIED | MINCORE_MODIFIED_OTHER;
6542                 if ((pte & PG_A) != 0)
6543                         val |= MINCORE_REFERENCED | MINCORE_REFERENCED_OTHER;
6544         }
6545         if ((val & (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER)) !=
6546             (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER) &&
6547             (pte & (PG_MANAGED | PG_V)) == (PG_MANAGED | PG_V)) {
6548                 /* Ensure that "PHYS_TO_VM_PAGE(pa)->object" doesn't change. */
6549                 if (vm_page_pa_tryrelock(pmap, pa, locked_pa))
6550                         goto retry;
6551         } else
6552                 PA_UNLOCK_COND(*locked_pa);
6553         PMAP_UNLOCK(pmap);
6554         return (val);
6555 }
6556
6557 void
6558 pmap_activate(struct thread *td)
6559 {
6560         pmap_t  pmap, oldpmap;
6561         u_int   cpuid;
6562
6563         critical_enter();
6564         pmap = vmspace_pmap(td->td_proc->p_vmspace);
6565         oldpmap = PCPU_GET(curpmap);
6566         cpuid = PCPU_GET(cpuid);
6567 #ifdef SMP
6568         CPU_CLR_ATOMIC(cpuid, &oldpmap->pm_active);
6569         CPU_SET_ATOMIC(cpuid, &pmap->pm_active);
6570         CPU_SET_ATOMIC(cpuid, &pmap->pm_save);
6571 #else
6572         CPU_CLR(cpuid, &oldpmap->pm_active);
6573         CPU_SET(cpuid, &pmap->pm_active);
6574         CPU_SET(cpuid, &pmap->pm_save);
6575 #endif
6576         td->td_pcb->pcb_cr3 = pmap->pm_cr3;
6577         load_cr3(pmap->pm_cr3);
6578         PCPU_SET(curpmap, pmap);
6579         critical_exit();
6580 }
6581
6582 void
6583 pmap_sync_icache(pmap_t pm, vm_offset_t va, vm_size_t sz)
6584 {
6585 }
6586
6587 /*
6588  *      Increase the starting virtual address of the given mapping if a
6589  *      different alignment might result in more superpage mappings.
6590  */
6591 void
6592 pmap_align_superpage(vm_object_t object, vm_ooffset_t offset,
6593     vm_offset_t *addr, vm_size_t size)
6594 {
6595         vm_offset_t superpage_offset;
6596
6597         if (size < NBPDR)
6598                 return;
6599         if (object != NULL && (object->flags & OBJ_COLORED) != 0)
6600                 offset += ptoa(object->pg_color);
6601         superpage_offset = offset & PDRMASK;
6602         if (size - ((NBPDR - superpage_offset) & PDRMASK) < NBPDR ||
6603             (*addr & PDRMASK) == superpage_offset)
6604                 return;
6605         if ((*addr & PDRMASK) < superpage_offset)
6606                 *addr = (*addr & ~PDRMASK) + superpage_offset;
6607         else
6608                 *addr = ((*addr + PDRMASK) & ~PDRMASK) + superpage_offset;
6609 }
6610
6611 #ifdef INVARIANTS
6612 static unsigned long num_dirty_emulations;
6613 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_dirty_emulations, CTLFLAG_RW,
6614              &num_dirty_emulations, 0, NULL);
6615
6616 static unsigned long num_accessed_emulations;
6617 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_accessed_emulations, CTLFLAG_RW,
6618              &num_accessed_emulations, 0, NULL);
6619
6620 static unsigned long num_superpage_accessed_emulations;
6621 SYSCTL_ULONG(_vm_pmap, OID_AUTO, num_superpage_accessed_emulations, CTLFLAG_RW,
6622              &num_superpage_accessed_emulations, 0, NULL);
6623
6624 static unsigned long ad_emulation_superpage_promotions;
6625 SYSCTL_ULONG(_vm_pmap, OID_AUTO, ad_emulation_superpage_promotions, CTLFLAG_RW,
6626              &ad_emulation_superpage_promotions, 0, NULL);
6627 #endif  /* INVARIANTS */
6628
6629 int
6630 pmap_emulate_accessed_dirty(pmap_t pmap, vm_offset_t va, int ftype)
6631 {
6632         int rv;
6633         struct rwlock *lock;
6634         vm_page_t m, mpte;
6635         pd_entry_t *pde;
6636         pt_entry_t *pte, PG_A, PG_M, PG_RW, PG_V;
6637         boolean_t pv_lists_locked;
6638
6639         KASSERT(ftype == VM_PROT_READ || ftype == VM_PROT_WRITE,
6640             ("pmap_emulate_accessed_dirty: invalid fault type %d", ftype));
6641
6642         if (!pmap_emulate_ad_bits(pmap))
6643                 return (-1);
6644
6645         PG_A = pmap_accessed_bit(pmap);
6646         PG_M = pmap_modified_bit(pmap);
6647         PG_V = pmap_valid_bit(pmap);
6648         PG_RW = pmap_rw_bit(pmap);
6649
6650         rv = -1;
6651         lock = NULL;
6652         pv_lists_locked = FALSE;
6653 retry:
6654         PMAP_LOCK(pmap);
6655
6656         pde = pmap_pde(pmap, va);
6657         if (pde == NULL || (*pde & PG_V) == 0)
6658                 goto done;
6659
6660         if ((*pde & PG_PS) != 0) {
6661                 if (ftype == VM_PROT_READ) {
6662 #ifdef INVARIANTS
6663                         atomic_add_long(&num_superpage_accessed_emulations, 1);
6664 #endif
6665                         *pde |= PG_A;
6666                         rv = 0;
6667                 }
6668                 goto done;
6669         }
6670
6671         pte = pmap_pde_to_pte(pde, va);
6672         if ((*pte & PG_V) == 0)
6673                 goto done;
6674
6675         if (ftype == VM_PROT_WRITE) {
6676                 if ((*pte & PG_RW) == 0)
6677                         goto done;
6678                 *pte |= PG_M;
6679         }
6680         *pte |= PG_A;
6681
6682         /* try to promote the mapping */
6683         if (va < VM_MAXUSER_ADDRESS)
6684                 mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
6685         else
6686                 mpte = NULL;
6687
6688         m = PHYS_TO_VM_PAGE(*pte & PG_FRAME);
6689
6690         if ((mpte == NULL || mpte->wire_count == NPTEPG) &&
6691             pmap_ps_enabled(pmap) &&
6692             (m->flags & PG_FICTITIOUS) == 0 &&
6693             vm_reserv_level_iffullpop(m) == 0) {
6694                 if (!pv_lists_locked) {
6695                         pv_lists_locked = TRUE;
6696                         if (!rw_try_rlock(&pvh_global_lock)) {
6697                                 PMAP_UNLOCK(pmap);
6698                                 rw_rlock(&pvh_global_lock);
6699                                 goto retry;
6700                         }
6701                 }
6702                 pmap_promote_pde(pmap, pde, va, &lock);
6703 #ifdef INVARIANTS
6704                 atomic_add_long(&ad_emulation_superpage_promotions, 1);
6705 #endif
6706         }
6707 #ifdef INVARIANTS
6708         if (ftype == VM_PROT_WRITE)
6709                 atomic_add_long(&num_dirty_emulations, 1);
6710         else
6711                 atomic_add_long(&num_accessed_emulations, 1);
6712 #endif
6713         rv = 0;         /* success */
6714 done:
6715         if (lock != NULL)
6716                 rw_wunlock(lock);
6717         if (pv_lists_locked)
6718                 rw_runlock(&pvh_global_lock);
6719         PMAP_UNLOCK(pmap);
6720         return (rv);
6721 }
6722
6723 void
6724 pmap_get_mapping(pmap_t pmap, vm_offset_t va, uint64_t *ptr, int *num)
6725 {
6726         pml4_entry_t *pml4;
6727         pdp_entry_t *pdp;
6728         pd_entry_t *pde;
6729         pt_entry_t *pte, PG_V;
6730         int idx;
6731
6732         idx = 0;
6733         PG_V = pmap_valid_bit(pmap);
6734         PMAP_LOCK(pmap);
6735
6736         pml4 = pmap_pml4e(pmap, va);
6737         ptr[idx++] = *pml4;
6738         if ((*pml4 & PG_V) == 0)
6739                 goto done;
6740
6741         pdp = pmap_pml4e_to_pdpe(pml4, va);
6742         ptr[idx++] = *pdp;
6743         if ((*pdp & PG_V) == 0 || (*pdp & PG_PS) != 0)
6744                 goto done;
6745
6746         pde = pmap_pdpe_to_pde(pdp, va);
6747         ptr[idx++] = *pde;
6748         if ((*pde & PG_V) == 0 || (*pde & PG_PS) != 0)
6749                 goto done;
6750
6751         pte = pmap_pde_to_pte(pde, va);
6752         ptr[idx++] = *pte;
6753
6754 done:
6755         PMAP_UNLOCK(pmap);
6756         *num = idx;
6757 }
6758
6759 #include "opt_ddb.h"
6760 #ifdef DDB
6761 #include <ddb/ddb.h>
6762
6763 DB_SHOW_COMMAND(pte, pmap_print_pte)
6764 {
6765         pmap_t pmap;
6766         pml4_entry_t *pml4;
6767         pdp_entry_t *pdp;
6768         pd_entry_t *pde;
6769         pt_entry_t *pte, PG_V;
6770         vm_offset_t va;
6771
6772         if (have_addr) {
6773                 va = (vm_offset_t)addr;
6774                 pmap = PCPU_GET(curpmap); /* XXX */
6775         } else {
6776                 db_printf("show pte addr\n");
6777                 return;
6778         }
6779         PG_V = pmap_valid_bit(pmap);
6780         pml4 = pmap_pml4e(pmap, va);
6781         db_printf("VA %#016lx pml4e %#016lx", va, *pml4);
6782         if ((*pml4 & PG_V) == 0) {
6783                 db_printf("\n");
6784                 return;
6785         }
6786         pdp = pmap_pml4e_to_pdpe(pml4, va);
6787         db_printf(" pdpe %#016lx", *pdp);
6788         if ((*pdp & PG_V) == 0 || (*pdp & PG_PS) != 0) {
6789                 db_printf("\n");
6790                 return;
6791         }
6792         pde = pmap_pdpe_to_pde(pdp, va);
6793         db_printf(" pde %#016lx", *pde);
6794         if ((*pde & PG_V) == 0 || (*pde & PG_PS) != 0) {
6795                 db_printf("\n");
6796                 return;
6797         }
6798         pte = pmap_pde_to_pte(pde, va);
6799         db_printf(" pte %#016lx\n", *pte);
6800 }
6801
6802 DB_SHOW_COMMAND(phys2dmap, pmap_phys2dmap)
6803 {
6804         vm_paddr_t a;
6805
6806         if (have_addr) {
6807                 a = (vm_paddr_t)addr;
6808                 db_printf("0x%jx\n", (uintmax_t)PHYS_TO_DMAP(a));
6809         } else {
6810                 db_printf("show phys2dmap addr\n");
6811         }
6812 }
6813 #endif