sys/i386/i386/pmap.c

   1 /*-
   2  * Copyright (c) 1991 Regents of the University of California.
   3  * All rights reserved.
   4  * Copyright (c) 1994 John S. Dyson
   5  * All rights reserved.
   6  * Copyright (c) 1994 David Greenman
   7  * All rights reserved.
   8  * Copyright (c) 2005-2010 Alan L. Cox <alc@cs.rice.edu>
   9  * All rights reserved.
  10  *
  11  * This code is derived from software contributed to Berkeley by
  12  * the Systems Programming Group of the University of Utah Computer
  13  * Science Department and William Jolitz of UUNET Technologies Inc.
  14  *
  15  * Redistribution and use in source and binary forms, with or without
  16  * modification, are permitted provided that the following conditions
  17  * are met:
  18  * 1. Redistributions of source code must retain the above copyright
  19  *    notice, this list of conditions and the following disclaimer.
  20  * 2. Redistributions in binary form must reproduce the above copyright
  21  *    notice, this list of conditions and the following disclaimer in the
  22  *    documentation and/or other materials provided with the distribution.
  23  * 3. All advertising materials mentioning features or use of this software
  24  *    must display the following acknowledgement:
  25  *      This product includes software developed by the University of
  26  *      California, Berkeley and its contributors.
  27  * 4. Neither the name of the University nor the names of its contributors
  28  *    may be used to endorse or promote products derived from this software
  29  *    without specific prior written permission.
  30  *
  31  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  32  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  33  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  34  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  35  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  36  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  37  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  38  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  39  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  40  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  41  * SUCH DAMAGE.
  42  *
  43  *      from:   @(#)pmap.c      7.7 (Berkeley)  5/12/91
  44  */
  45 /*-
  46  * Copyright (c) 2003 Networks Associates Technology, Inc.
  47  * All rights reserved.
  48  *
  49  * This software was developed for the FreeBSD Project by Jake Burkholder,
  50  * Safeport Network Services, and Network Associates Laboratories, the
  51  * Security Research Division of Network Associates, Inc. under
  52  * DARPA/SPAWAR contract N66001-01-C-8035 ("CBOSS"), as part of the DARPA
  53  * CHATS research program.
  54  *
  55  * Redistribution and use in source and binary forms, with or without
  56  * modification, are permitted provided that the following conditions
  57  * are met:
  58  * 1. Redistributions of source code must retain the above copyright
  59  *    notice, this list of conditions and the following disclaimer.
  60  * 2. Redistributions in binary form must reproduce the above copyright
  61  *    notice, this list of conditions and the following disclaimer in the
  62  *    documentation and/or other materials provided with the distribution.
  63  *
  64  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  65  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  66  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  67  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  68  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  69  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  70  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  71  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  72  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  73  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  74  * SUCH DAMAGE.
  75  */
  76
  77 #include <sys/cdefs.h>
  78 __FBSDID("$FreeBSD$");
  79
  80 /*
  81  *      Manages physical address maps.
  82  *
  83  *      In addition to hardware address maps, this
  84  *      module is called upon to provide software-use-only
  85  *      maps which may or may not be stored in the same
  86  *      form as hardware maps.  These pseudo-maps are
  87  *      used to store intermediate results from copy
  88  *      operations to and from address spaces.
  89  *
  90  *      Since the information managed by this module is
  91  *      also stored by the logical address mapping module,
  92  *      this module may throw away valid virtual-to-physical
  93  *      mappings at almost any time.  However, invalidations
  94  *      of virtual-to-physical mappings must be done as
  95  *      requested.
  96  *
  97  *      In order to cope with hardware architectures which
  98  *      make virtual-to-physical map invalidates expensive,
  99  *      this module may delay invalidate or reduced protection
 100  *      operations until such time as they are actually
 101  *      necessary.  This module is given full information as
 102  *      to which processors are currently using which maps,
 103  *      and to when physical maps must be made correct.
 104  */
 105
 106 #include "opt_cpu.h"
 107 #include "opt_pmap.h"
 108 #include "opt_smp.h"
 109 #include "opt_xbox.h"
 110
 111 #include <sys/param.h>
 112 #include <sys/systm.h>
 113 #include <sys/kernel.h>
 114 #include <sys/ktr.h>
 115 #include <sys/lock.h>
 116 #include <sys/malloc.h>
 117 #include <sys/mman.h>
 118 #include <sys/msgbuf.h>
 119 #include <sys/mutex.h>
 120 #include <sys/proc.h>
 121 #include <sys/sf_buf.h>
 122 #include <sys/sx.h>
 123 #include <sys/vmmeter.h>
 124 #include <sys/sched.h>
 125 #include <sys/sysctl.h>
 126 #ifdef SMP
 127 #include <sys/smp.h>
 128 #else
 129 #include <sys/cpuset.h>
 130 #endif
 131
 132 #include <vm/vm.h>
 133 #include <vm/vm_param.h>
 134 #include <vm/vm_kern.h>
 135 #include <vm/vm_page.h>
 136 #include <vm/vm_map.h>
 137 #include <vm/vm_object.h>
 138 #include <vm/vm_extern.h>
 139 #include <vm/vm_pageout.h>
 140 #include <vm/vm_pager.h>
 141 #include <vm/vm_reserv.h>
 142 #include <vm/uma.h>
 143
 144 #include <machine/cpu.h>
 145 #include <machine/cputypes.h>
 146 #include <machine/md_var.h>
 147 #include <machine/pcb.h>
 148 #include <machine/specialreg.h>
 149 #ifdef SMP
 150 #include <machine/smp.h>
 151 #endif
 152
 153 #ifdef XBOX
 154 #include <machine/xbox.h>
 155 #endif
 156
 157 #if !defined(CPU_DISABLE_SSE) && defined(I686_CPU)
 158 #define CPU_ENABLE_SSE
 159 #endif
 160
 161 #ifndef PMAP_SHPGPERPROC
 162 #define PMAP_SHPGPERPROC 200
 163 #endif
 164
 165 #if !defined(DIAGNOSTIC)
 166 #ifdef __GNUC_GNU_INLINE__
 167 #define PMAP_INLINE     __attribute__((__gnu_inline__)) inline
 168 #else
 169 #define PMAP_INLINE     extern inline
 170 #endif
 171 #else
 172 #define PMAP_INLINE
 173 #endif
 174
 175 #define PV_STATS
 176 #ifdef PV_STATS
 177 #define PV_STAT(x)      do { x ; } while (0)
 178 #else
 179 #define PV_STAT(x)      do { } while (0)
 180 #endif
 181
 182 #define pa_index(pa)    ((pa) >> PDRSHIFT)
 183 #define pa_to_pvh(pa)   (&pv_table[pa_index(pa)])
 184
 185 /*
 186  * Get PDEs and PTEs for user/kernel address space
 187  */
 188 #define pmap_pde(m, v)  (&((m)->pm_pdir[(vm_offset_t)(v) >> PDRSHIFT]))
 189 #define pdir_pde(m, v) (m[(vm_offset_t)(v) >> PDRSHIFT])
 190
 191 #define pmap_pde_v(pte)         ((*(int *)pte & PG_V) != 0)
 192 #define pmap_pte_w(pte)         ((*(int *)pte & PG_W) != 0)
 193 #define pmap_pte_m(pte)         ((*(int *)pte & PG_M) != 0)
 194 #define pmap_pte_u(pte)         ((*(int *)pte & PG_A) != 0)
 195 #define pmap_pte_v(pte)         ((*(int *)pte & PG_V) != 0)
 196
 197 #define pmap_pte_set_w(pte, v)  ((v) ? atomic_set_int((u_int *)(pte), PG_W) : \
 198     atomic_clear_int((u_int *)(pte), PG_W))
 199 #define pmap_pte_set_prot(pte, v) ((*(int *)pte &= ~PG_PROT), (*(int *)pte |= (v)))
 200
 201 struct pmap kernel_pmap_store;
 202 LIST_HEAD(pmaplist, pmap);
 203 static struct pmaplist allpmaps;
 204 static struct mtx allpmaps_lock;
 205
 206 vm_offset_t virtual_avail;      /* VA of first avail page (after kernel bss) */
 207 vm_offset_t virtual_end;        /* VA of last avail page (end of kernel AS) */
 208 int pgeflag = 0;                /* PG_G or-in */
 209 int pseflag = 0;                /* PG_PS or-in */
 210
 211 static int nkpt = NKPT;
 212 vm_offset_t kernel_vm_end = KERNBASE + NKPT * NBPDR;
 213 extern u_int32_t KERNend;
 214 extern u_int32_t KPTphys;
 215
 216 #ifdef PAE
 217 pt_entry_t pg_nx;
 218 static uma_zone_t pdptzone;
 219 #endif
 220
 221 SYSCTL_NODE(_vm, OID_AUTO, pmap, CTLFLAG_RD, 0, "VM/pmap parameters");
 222
 223 static int pat_works = 1;
 224 SYSCTL_INT(_vm_pmap, OID_AUTO, pat_works, CTLFLAG_RD, &pat_works, 1,
 225     "Is page attribute table fully functional?");
 226
 227 static int pg_ps_enabled = 1;
 228 SYSCTL_INT(_vm_pmap, OID_AUTO, pg_ps_enabled, CTLFLAG_RDTUN, &pg_ps_enabled, 0,
 229     "Are large page mappings enabled?");
 230
 231 #define PAT_INDEX_SIZE  8
 232 static int pat_index[PAT_INDEX_SIZE];   /* cache mode to PAT index conversion */
 233
 234 /*
 235  * Data for the pv entry allocation mechanism
 236  */
 237 static int pv_entry_count = 0, pv_entry_max = 0, pv_entry_high_water = 0;
 238 static struct md_page *pv_table;
 239 static int shpgperproc = PMAP_SHPGPERPROC;
 240
 241 struct pv_chunk *pv_chunkbase;          /* KVA block for pv_chunks */
 242 int pv_maxchunks;                       /* How many chunks we have KVA for */
 243 vm_offset_t pv_vafree;                  /* freelist stored in the PTE */
 244
 245 /*
 246  * All those kernel PT submaps that BSD is so fond of
 247  */
 248 struct sysmaps {
 249         struct  mtx lock;
 250         pt_entry_t *CMAP1;
 251         pt_entry_t *CMAP2;
 252         caddr_t CADDR1;
 253         caddr_t CADDR2;
 254 };
 255 static struct sysmaps sysmaps_pcpu[MAXCPU];
 256 pt_entry_t *CMAP1 = 0;
 257 static pt_entry_t *CMAP3;
 258 static pd_entry_t *KPTD;
 259 caddr_t CADDR1 = 0, ptvmmap = 0;
 260 static caddr_t CADDR3;
 261 struct msgbuf *msgbufp = 0;
 262
 263 /*
 264  * Crashdump maps.
 265  */
 266 static caddr_t crashdumpmap;
 267
 268 static pt_entry_t *PMAP1 = 0, *PMAP2;
 269 static pt_entry_t *PADDR1 = 0, *PADDR2;
 270 #ifdef SMP
 271 static int PMAP1cpu;
 272 static int PMAP1changedcpu;
 273 SYSCTL_INT(_debug, OID_AUTO, PMAP1changedcpu, CTLFLAG_RD,
 274            &PMAP1changedcpu, 0,
 275            "Number of times pmap_pte_quick changed CPU with same PMAP1");
 276 #endif
 277 static int PMAP1changed;
 278 SYSCTL_INT(_debug, OID_AUTO, PMAP1changed, CTLFLAG_RD,
 279            &PMAP1changed, 0,
 280            "Number of times pmap_pte_quick changed PMAP1");
 281 static int PMAP1unchanged;
 282 SYSCTL_INT(_debug, OID_AUTO, PMAP1unchanged, CTLFLAG_RD,
 283            &PMAP1unchanged, 0,
 284            "Number of times pmap_pte_quick didn't change PMAP1");
 285 static struct mtx PMAP2mutex;
 286
 287 static void     free_pv_entry(pmap_t pmap, pv_entry_t pv);
 288 static pv_entry_t get_pv_entry(pmap_t locked_pmap, int try);
 289 static void     pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa);
 290 static boolean_t pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa);
 291 static void     pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa);
 292 static void     pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va);
 293 static pv_entry_t pmap_pvh_remove(struct md_page *pvh, pmap_t pmap,
 294                     vm_offset_t va);
 295 static int      pmap_pvh_wired_mappings(struct md_page *pvh, int count);
 296
 297 static boolean_t pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va);
 298 static boolean_t pmap_enter_pde(pmap_t pmap, vm_offset_t va, vm_page_t m,
 299     vm_prot_t prot);
 300 static vm_page_t pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va,
 301     vm_page_t m, vm_prot_t prot, vm_page_t mpte);
 302 static void pmap_flush_page(vm_page_t m);
 303 static void pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte);
 304 static void pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte);
 305 static boolean_t pmap_is_modified_pvh(struct md_page *pvh);
 306 static boolean_t pmap_is_referenced_pvh(struct md_page *pvh);
 307 static void pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode);
 308 static void pmap_kenter_pde(vm_offset_t va, pd_entry_t newpde);
 309 static vm_page_t pmap_lookup_pt_page(pmap_t pmap, vm_offset_t va);
 310 static void pmap_pde_attr(pd_entry_t *pde, int cache_bits);
 311 static void pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va);
 312 static boolean_t pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva,
 313     vm_prot_t prot);
 314 static void pmap_pte_attr(pt_entry_t *pte, int cache_bits);
 315 static void pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
 316     vm_page_t *free);
 317 static int pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t sva,
 318     vm_page_t *free);
 319 static void pmap_remove_pt_page(pmap_t pmap, vm_page_t mpte);
 320 static void pmap_remove_page(struct pmap *pmap, vm_offset_t va,
 321     vm_page_t *free);
 322 static void pmap_remove_entry(struct pmap *pmap, vm_page_t m,
 323                                         vm_offset_t va);
 324 static void pmap_insert_entry(pmap_t pmap, vm_offset_t va, vm_page_t m);
 325 static boolean_t pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va,
 326     vm_page_t m);
 327 static void pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde,
 328     pd_entry_t newpde);
 329 static void pmap_update_pde_invalidate(vm_offset_t va, pd_entry_t newpde);
 330
 331 static vm_page_t pmap_allocpte(pmap_t pmap, vm_offset_t va, int flags);
 332
 333 static vm_page_t _pmap_allocpte(pmap_t pmap, u_int ptepindex, int flags);
 334 static int _pmap_unwire_pte_hold(pmap_t pmap, vm_page_t m, vm_page_t *free);
 335 static pt_entry_t *pmap_pte_quick(pmap_t pmap, vm_offset_t va);
 336 static void pmap_pte_release(pt_entry_t *pte);
 337 static int pmap_unuse_pt(pmap_t, vm_offset_t, vm_page_t *);
 338 #ifdef PAE
 339 static void *pmap_pdpt_allocf(uma_zone_t zone, int bytes, u_int8_t *flags, int wait);
 340 #endif
 341 static void pmap_set_pg(void);
 342
 343 static __inline void pagezero(void *page);
 344
 345 CTASSERT(1 << PDESHIFT == sizeof(pd_entry_t));
 346 CTASSERT(1 << PTESHIFT == sizeof(pt_entry_t));
 347
 348 /*
 349  * If you get an error here, then you set KVA_PAGES wrong! See the
 350  * description of KVA_PAGES in sys/i386/include/pmap.h. It must be
 351  * multiple of 4 for a normal kernel, or a multiple of 8 for a PAE.
 352  */
 353 CTASSERT(KERNBASE % (1 << 24) == 0);
 354
 355 /*
 356  *      Bootstrap the system enough to run with virtual memory.
 357  *
 358  *      On the i386 this is called after mapping has already been enabled
 359  *      and just syncs the pmap module with what has already been done.
 360  *      [We can't call it easily with mapping off since the kernel is not
 361  *      mapped with PA == VA, hence we would have to relocate every address
 362  *      from the linked base (virtual) address "KERNBASE" to the actual
 363  *      (physical) address starting relative to 0]
 364  */
 365 void
 366 pmap_bootstrap(vm_paddr_t firstaddr)
 367 {
 368         vm_offset_t va;
 369         pt_entry_t *pte, *unused;
 370         struct sysmaps *sysmaps;
 371         int i;
 372
 373         /*
 374          * Initialize the first available kernel virtual address.  However,
 375          * using "firstaddr" may waste a few pages of the kernel virtual
 376          * address space, because locore may not have mapped every physical
 377          * page that it allocated.  Preferably, locore would provide a first
 378          * unused virtual address in addition to "firstaddr".
 379          */
 380         virtual_avail = (vm_offset_t) KERNBASE + firstaddr;
 381
 382         virtual_end = VM_MAX_KERNEL_ADDRESS;
 383
 384         /*
 385          * Initialize the kernel pmap (which is statically allocated).
 386          */
 387         PMAP_LOCK_INIT(kernel_pmap);
 388         kernel_pmap->pm_pdir = (pd_entry_t *) (KERNBASE + (u_int)IdlePTD);
 389 #ifdef PAE
 390         kernel_pmap->pm_pdpt = (pdpt_entry_t *) (KERNBASE + (u_int)IdlePDPT);
 391 #endif
 392         kernel_pmap->pm_root = NULL;
 393         CPU_FILL(&kernel_pmap->pm_active);      /* don't allow deactivation */
 394         TAILQ_INIT(&kernel_pmap->pm_pvchunk);
 395         LIST_INIT(&allpmaps);
 396
 397         /*
 398          * Request a spin mutex so that changes to allpmaps cannot be
 399          * preempted by smp_rendezvous_cpus().  Otherwise,
 400          * pmap_update_pde_kernel() could access allpmaps while it is
 401          * being changed.
 402          */
 403         mtx_init(&allpmaps_lock, "allpmaps", NULL, MTX_SPIN);
 404         mtx_lock_spin(&allpmaps_lock);
 405         LIST_INSERT_HEAD(&allpmaps, kernel_pmap, pm_list);
 406         mtx_unlock_spin(&allpmaps_lock);
 407
 408         /*
 409          * Reserve some special page table entries/VA space for temporary
 410          * mapping of pages.
 411          */
 412 #define SYSMAP(c, p, v, n)      \
 413         v = (c)va; va += ((n)*PAGE_SIZE); p = pte; pte += (n);
 414
 415         va = virtual_avail;
 416         pte = vtopte(va);
 417
 418         /*
 419          * CMAP1/CMAP2 are used for zeroing and copying pages.
 420          * CMAP3 is used for the idle process page zeroing.
 421          */
 422         for (i = 0; i < MAXCPU; i++) {
 423                 sysmaps = &sysmaps_pcpu[i];
 424                 mtx_init(&sysmaps->lock, "SYSMAPS", NULL, MTX_DEF);
 425                 SYSMAP(caddr_t, sysmaps->CMAP1, sysmaps->CADDR1, 1)
 426                 SYSMAP(caddr_t, sysmaps->CMAP2, sysmaps->CADDR2, 1)
 427         }
 428         SYSMAP(caddr_t, CMAP1, CADDR1, 1)
 429         SYSMAP(caddr_t, CMAP3, CADDR3, 1)
 430
 431         /*
 432          * Crashdump maps.
 433          */
 434         SYSMAP(caddr_t, unused, crashdumpmap, MAXDUMPPGS)
 435
 436         /*
 437          * ptvmmap is used for reading arbitrary physical pages via /dev/mem.
 438          */
 439         SYSMAP(caddr_t, unused, ptvmmap, 1)
 440
 441         /*
 442          * msgbufp is used to map the system message buffer.
 443          */
 444         SYSMAP(struct msgbuf *, unused, msgbufp, atop(round_page(msgbufsize)))
 445
 446         /*
 447          * KPTmap is used by pmap_kextract().
 448          *
 449          * KPTmap is first initialized by locore.  However, that initial
 450          * KPTmap can only support NKPT page table pages.  Here, a larger
 451          * KPTmap is created that can support KVA_PAGES page table pages.
 452          */
 453         SYSMAP(pt_entry_t *, KPTD, KPTmap, KVA_PAGES)
 454
 455         for (i = 0; i < NKPT; i++)
 456                 KPTD[i] = (KPTphys + (i << PAGE_SHIFT)) | pgeflag | PG_RW | PG_V;
 457
 458         /*
 459          * Adjust the start of the KPTD and KPTmap so that the implementation
 460          * of pmap_kextract() and pmap_growkernel() can be made simpler.
 461          */
 462         KPTD -= KPTDI;
 463         KPTmap -= i386_btop(KPTDI << PDRSHIFT);
 464
 465         /*
 466          * ptemap is used for pmap_pte_quick
 467          */
 468         SYSMAP(pt_entry_t *, PMAP1, PADDR1, 1)
 469         SYSMAP(pt_entry_t *, PMAP2, PADDR2, 1)
 470
 471         mtx_init(&PMAP2mutex, "PMAP2", NULL, MTX_DEF);
 472
 473         virtual_avail = va;
 474
 475         /*
 476          * Leave in place an identity mapping (virt == phys) for the low 1 MB
 477          * physical memory region that is used by the ACPI wakeup code.  This
 478          * mapping must not have PG_G set.
 479          */
 480 #ifdef XBOX
 481         /* FIXME: This is gross, but needed for the XBOX. Since we are in such
 482          * an early stadium, we cannot yet neatly map video memory ... :-(
 483          * Better fixes are very welcome! */
 484         if (!arch_i386_is_xbox)
 485 #endif
 486         for (i = 1; i < NKPT; i++)
 487                 PTD[i] = 0;
 488
 489         /* Initialize the PAT MSR if present. */
 490         pmap_init_pat();
 491
 492         /* Turn on PG_G on kernel page(s) */
 493         pmap_set_pg();
 494 }
 495
 496 /*
 497  * Setup the PAT MSR.
 498  */
 499 void
 500 pmap_init_pat(void)
 501 {
 502         int pat_table[PAT_INDEX_SIZE];
 503         uint64_t pat_msr;
 504         u_long cr0, cr4;
 505         int i;
 506
 507         /* Set default PAT index table. */
 508         for (i = 0; i < PAT_INDEX_SIZE; i++)
 509                 pat_table[i] = -1;
 510         pat_table[PAT_WRITE_BACK] = 0;
 511         pat_table[PAT_WRITE_THROUGH] = 1;
 512         pat_table[PAT_UNCACHEABLE] = 3;
 513         pat_table[PAT_WRITE_COMBINING] = 3;
 514         pat_table[PAT_WRITE_PROTECTED] = 3;
 515         pat_table[PAT_UNCACHED] = 3;
 516
 517         /* Bail if this CPU doesn't implement PAT. */
 518         if ((cpu_feature & CPUID_PAT) == 0) {
 519                 for (i = 0; i < PAT_INDEX_SIZE; i++)
 520                         pat_index[i] = pat_table[i];
 521                 pat_works = 0;
 522                 return;
 523         }
 524
 525         /*
 526          * Due to some Intel errata, we can only safely use the lower 4
 527          * PAT entries.
 528          *
 529          *   Intel Pentium III Processor Specification Update
 530          * Errata E.27 (Upper Four PAT Entries Not Usable With Mode B
 531          * or Mode C Paging)
 532          *
 533          *   Intel Pentium IV  Processor Specification Update
 534          * Errata N46 (PAT Index MSB May Be Calculated Incorrectly)
 535          */
 536         if (cpu_vendor_id == CPU_VENDOR_INTEL &&
 537             !(CPUID_TO_FAMILY(cpu_id) == 6 && CPUID_TO_MODEL(cpu_id) >= 0xe))
 538                 pat_works = 0;
 539
 540         /* Initialize default PAT entries. */
 541         pat_msr = PAT_VALUE(0, PAT_WRITE_BACK) |
 542             PAT_VALUE(1, PAT_WRITE_THROUGH) |
 543             PAT_VALUE(2, PAT_UNCACHED) |
 544             PAT_VALUE(3, PAT_UNCACHEABLE) |
 545             PAT_VALUE(4, PAT_WRITE_BACK) |
 546             PAT_VALUE(5, PAT_WRITE_THROUGH) |
 547             PAT_VALUE(6, PAT_UNCACHED) |
 548             PAT_VALUE(7, PAT_UNCACHEABLE);
 549
 550         if (pat_works) {
 551                 /*
 552                  * Leave the indices 0-3 at the default of WB, WT, UC-, and UC.
 553                  * Program 5 and 6 as WP and WC.
 554                  * Leave 4 and 7 as WB and UC.
 555                  */
 556                 pat_msr &= ~(PAT_MASK(5) | PAT_MASK(6));
 557                 pat_msr |= PAT_VALUE(5, PAT_WRITE_PROTECTED) |
 558                     PAT_VALUE(6, PAT_WRITE_COMBINING);
 559                 pat_table[PAT_UNCACHED] = 2;
 560                 pat_table[PAT_WRITE_PROTECTED] = 5;
 561                 pat_table[PAT_WRITE_COMBINING] = 6;
 562         } else {
 563                 /*
 564                  * Just replace PAT Index 2 with WC instead of UC-.
 565                  */
 566                 pat_msr &= ~PAT_MASK(2);
 567                 pat_msr |= PAT_VALUE(2, PAT_WRITE_COMBINING);
 568                 pat_table[PAT_WRITE_COMBINING] = 2;
 569         }
 570
 571         /* Disable PGE. */
 572         cr4 = rcr4();
 573         load_cr4(cr4 & ~CR4_PGE);
 574
 575         /* Disable caches (CD = 1, NW = 0). */
 576         cr0 = rcr0();
 577         load_cr0((cr0 & ~CR0_NW) | CR0_CD);
 578
 579         /* Flushes caches and TLBs. */
 580         wbinvd();
 581         invltlb();
 582
 583         /* Update PAT and index table. */
 584         wrmsr(MSR_PAT, pat_msr);
 585         for (i = 0; i < PAT_INDEX_SIZE; i++)
 586                 pat_index[i] = pat_table[i];
 587
 588         /* Flush caches and TLBs again. */
 589         wbinvd();
 590         invltlb();
 591
 592         /* Restore caches and PGE. */
 593         load_cr0(cr0);
 594         load_cr4(cr4);
 595 }
 596
 597 /*
 598  * Set PG_G on kernel pages.  Only the BSP calls this when SMP is turned on.
 599  */
 600 static void
 601 pmap_set_pg(void)
 602 {
 603         pt_entry_t *pte;
 604         vm_offset_t va, endva;
 605
 606         if (pgeflag == 0)
 607                 return;
 608
 609         endva = KERNBASE + KERNend;
 610
 611         if (pseflag) {
 612                 va = KERNBASE + KERNLOAD;
 613                 while (va  < endva) {
 614                         pdir_pde(PTD, va) |= pgeflag;
 615                         invltlb();      /* Play it safe, invltlb() every time */
 616                         va += NBPDR;
 617                 }
 618         } else {
 619                 va = (vm_offset_t)btext;
 620                 while (va < endva) {
 621                         pte = vtopte(va);
 622                         if (*pte)
 623                                 *pte |= pgeflag;
 624                         invltlb();      /* Play it safe, invltlb() every time */
 625                         va += PAGE_SIZE;
 626                 }
 627         }
 628 }
 629
 630 /*
 631  * Initialize a vm_page's machine-dependent fields.
 632  */
 633 void
 634 pmap_page_init(vm_page_t m)
 635 {
 636
 637         TAILQ_INIT(&m->md.pv_list);
 638         m->md.pat_mode = PAT_WRITE_BACK;
 639 }
 640
 641 #ifdef PAE
 642 static void *
 643 pmap_pdpt_allocf(uma_zone_t zone, int bytes, u_int8_t *flags, int wait)
 644 {
 645
 646         /* Inform UMA that this allocator uses kernel_map/object. */
 647         *flags = UMA_SLAB_KERNEL;
 648         return ((void *)kmem_alloc_contig(kernel_map, bytes, wait, 0x0ULL,
 649             0xffffffffULL, 1, 0, VM_MEMATTR_DEFAULT));
 650 }
 651 #endif
 652
 653 /*
 654  * ABuse the pte nodes for unmapped kva to thread a kva freelist through.
 655  * Requirements:
 656  *  - Must deal with pages in order to ensure that none of the PG_* bits
 657  *    are ever set, PG_V in particular.
 658  *  - Assumes we can write to ptes without pte_store() atomic ops, even
 659  *    on PAE systems.  This should be ok.
 660  *  - Assumes nothing will ever test these addresses for 0 to indicate
 661  *    no mapping instead of correctly checking PG_V.
 662  *  - Assumes a vm_offset_t will fit in a pte (true for i386).
 663  * Because PG_V is never set, there can be no mappings to invalidate.
 664  */
 665 static vm_offset_t
 666 pmap_ptelist_alloc(vm_offset_t *head)
 667 {
 668         pt_entry_t *pte;
 669         vm_offset_t va;
 670
 671         va = *head;
 672         if (va == 0)
 673                 return (va);    /* Out of memory */
 674         pte = vtopte(va);
 675         *head = *pte;
 676         if (*head & PG_V)
 677                 panic("pmap_ptelist_alloc: va with PG_V set!");
 678         *pte = 0;
 679         return (va);
 680 }
 681
 682 static void
 683 pmap_ptelist_free(vm_offset_t *head, vm_offset_t va)
 684 {
 685         pt_entry_t *pte;
 686
 687         if (va & PG_V)
 688                 panic("pmap_ptelist_free: freeing va with PG_V set!");
 689         pte = vtopte(va);
 690         *pte = *head;           /* virtual! PG_V is 0 though */
 691         *head = va;
 692 }
 693
 694 static void
 695 pmap_ptelist_init(vm_offset_t *head, void *base, int npages)
 696 {
 697         int i;
 698         vm_offset_t va;
 699
 700         *head = 0;
 701         for (i = npages - 1; i >= 0; i--) {
 702                 va = (vm_offset_t)base + i * PAGE_SIZE;
 703                 pmap_ptelist_free(head, va);
 704         }
 705 }
 706
 707
 708 /*
 709  *      Initialize the pmap module.
 710  *      Called by vm_init, to initialize any structures that the pmap
 711  *      system needs to map virtual memory.
 712  */
 713 void
 714 pmap_init(void)
 715 {
 716         vm_page_t mpte;
 717         vm_size_t s;
 718         int i, pv_npg;
 719
 720         /*
 721          * Initialize the vm page array entries for the kernel pmap's
 722          * page table pages.
 723          */
 724         for (i = 0; i < NKPT; i++) {
 725                 mpte = PHYS_TO_VM_PAGE(KPTphys + (i << PAGE_SHIFT));
 726                 KASSERT(mpte >= vm_page_array &&
 727                     mpte < &vm_page_array[vm_page_array_size],
 728                     ("pmap_init: page table page is out of range"));
 729                 mpte->pindex = i + KPTDI;
 730                 mpte->phys_addr = KPTphys + (i << PAGE_SHIFT);
 731         }
 732
 733         /*
 734          * Initialize the address space (zone) for the pv entries.  Set a
 735          * high water mark so that the system can recover from excessive
 736          * numbers of pv entries.
 737          */
 738         TUNABLE_INT_FETCH("vm.pmap.shpgperproc", &shpgperproc);
 739         pv_entry_max = shpgperproc * maxproc + cnt.v_page_count;
 740         TUNABLE_INT_FETCH("vm.pmap.pv_entries", &pv_entry_max);
 741         pv_entry_max = roundup(pv_entry_max, _NPCPV);
 742         pv_entry_high_water = 9 * (pv_entry_max / 10);
 743
 744         /*
 745          * If the kernel is running in a virtual machine on an AMD Family 10h
 746          * processor, then it must assume that MCA is enabled by the virtual
 747          * machine monitor.
 748          */
 749         if (vm_guest == VM_GUEST_VM && cpu_vendor_id == CPU_VENDOR_AMD &&
 750             CPUID_TO_FAMILY(cpu_id) == 0x10)
 751                 workaround_erratum383 = 1;
 752
 753         /*
 754          * Are large page mappings supported and enabled?
 755          */
 756         TUNABLE_INT_FETCH("vm.pmap.pg_ps_enabled", &pg_ps_enabled);
 757         if (pseflag == 0)
 758                 pg_ps_enabled = 0;
 759         else if (pg_ps_enabled) {
 760                 KASSERT(MAXPAGESIZES > 1 && pagesizes[1] == 0,
 761                     ("pmap_init: can't assign to pagesizes[1]"));
 762                 pagesizes[1] = NBPDR;
 763         }
 764
 765         /*
 766          * Calculate the size of the pv head table for superpages.
 767          */
 768         for (i = 0; phys_avail[i + 1]; i += 2);
 769         pv_npg = round_4mpage(phys_avail[(i - 2) + 1]) / NBPDR;
 770
 771         /*
 772          * Allocate memory for the pv head table for superpages.
 773          */
 774         s = (vm_size_t)(pv_npg * sizeof(struct md_page));
 775         s = round_page(s);
 776         pv_table = (struct md_page *)kmem_alloc(kernel_map, s);
 777         for (i = 0; i < pv_npg; i++)
 778                 TAILQ_INIT(&pv_table[i].pv_list);
 779
 780         pv_maxchunks = MAX(pv_entry_max / _NPCPV, maxproc);
 781         pv_chunkbase = (struct pv_chunk *)kmem_alloc_nofault(kernel_map,
 782             PAGE_SIZE * pv_maxchunks);
 783         if (pv_chunkbase == NULL)
 784                 panic("pmap_init: not enough kvm for pv chunks");
 785         pmap_ptelist_init(&pv_vafree, pv_chunkbase, pv_maxchunks);
 786 #ifdef PAE
 787         pdptzone = uma_zcreate("PDPT", NPGPTD * sizeof(pdpt_entry_t), NULL,
 788             NULL, NULL, NULL, (NPGPTD * sizeof(pdpt_entry_t)) - 1,
 789             UMA_ZONE_VM | UMA_ZONE_NOFREE);
 790         uma_zone_set_allocf(pdptzone, pmap_pdpt_allocf);
 791 #endif
 792 }
 793
 794
 795 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_max, CTLFLAG_RD, &pv_entry_max, 0,
 796         "Max number of PV entries");
 797 SYSCTL_INT(_vm_pmap, OID_AUTO, shpgperproc, CTLFLAG_RD, &shpgperproc, 0,
 798         "Page share factor per proc");
 799
 800 SYSCTL_NODE(_vm_pmap, OID_AUTO, pde, CTLFLAG_RD, 0,
 801     "2/4MB page mapping counters");
 802
 803 static u_long pmap_pde_demotions;
 804 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, demotions, CTLFLAG_RD,
 805     &pmap_pde_demotions, 0, "2/4MB page demotions");
 806
 807 static u_long pmap_pde_mappings;
 808 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, mappings, CTLFLAG_RD,
 809     &pmap_pde_mappings, 0, "2/4MB page mappings");
 810
 811 static u_long pmap_pde_p_failures;
 812 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, p_failures, CTLFLAG_RD,
 813     &pmap_pde_p_failures, 0, "2/4MB page promotion failures");
 814
 815 static u_long pmap_pde_promotions;
 816 SYSCTL_ULONG(_vm_pmap_pde, OID_AUTO, promotions, CTLFLAG_RD,
 817     &pmap_pde_promotions, 0, "2/4MB page promotions");
 818
 819 /***************************************************
 820  * Low level helper routines.....
 821  ***************************************************/
 822
 823 /*
 824  * Determine the appropriate bits to set in a PTE or PDE for a specified
 825  * caching mode.
 826  */
 827 int
 828 pmap_cache_bits(int mode, boolean_t is_pde)
 829 {
 830         int cache_bits, pat_flag, pat_idx;
 831
 832         if (mode < 0 || mode >= PAT_INDEX_SIZE || pat_index[mode] < 0)
 833                 panic("Unknown caching mode %d\n", mode);
 834
 835         /* The PAT bit is different for PTE's and PDE's. */
 836         pat_flag = is_pde ? PG_PDE_PAT : PG_PTE_PAT;
 837
 838         /* Map the caching mode to a PAT index. */
 839         pat_idx = pat_index[mode];
 840
 841         /* Map the 3-bit index value into the PAT, PCD, and PWT bits. */
 842         cache_bits = 0;
 843         if (pat_idx & 0x4)
 844                 cache_bits |= pat_flag;
 845         if (pat_idx & 0x2)
 846                 cache_bits |= PG_NC_PCD;
 847         if (pat_idx & 0x1)
 848                 cache_bits |= PG_NC_PWT;
 849         return (cache_bits);
 850 }
 851
 852 /*
 853  * The caller is responsible for maintaining TLB consistency.
 854  */
 855 static void
 856 pmap_kenter_pde(vm_offset_t va, pd_entry_t newpde)
 857 {
 858         pd_entry_t *pde;
 859         pmap_t pmap;
 860         boolean_t PTD_updated;
 861
 862         PTD_updated = FALSE;
 863         mtx_lock_spin(&allpmaps_lock);
 864         LIST_FOREACH(pmap, &allpmaps, pm_list) {
 865                 if ((pmap->pm_pdir[PTDPTDI] & PG_FRAME) == (PTDpde[0] &
 866                     PG_FRAME))
 867                         PTD_updated = TRUE;
 868                 pde = pmap_pde(pmap, va);
 869                 pde_store(pde, newpde);
 870         }
 871         mtx_unlock_spin(&allpmaps_lock);
 872         KASSERT(PTD_updated,
 873             ("pmap_kenter_pde: current page table is not in allpmaps"));
 874 }
 875
 876 /*
 877  * After changing the page size for the specified virtual address in the page
 878  * table, flush the corresponding entries from the processor's TLB.  Only the
 879  * calling processor's TLB is affected.
 880  *
 881  * The calling thread must be pinned to a processor.
 882  */
 883 static void
 884 pmap_update_pde_invalidate(vm_offset_t va, pd_entry_t newpde)
 885 {
 886         u_long cr4;
 887
 888         if ((newpde & PG_PS) == 0)
 889                 /* Demotion: flush a specific 2MB page mapping. */
 890                 invlpg(va);
 891         else if ((newpde & PG_G) == 0)
 892                 /*
 893                  * Promotion: flush every 4KB page mapping from the TLB
 894                  * because there are too many to flush individually.
 895                  */
 896                 invltlb();
 897         else {
 898                 /*
 899                  * Promotion: flush every 4KB page mapping from the TLB,
 900                  * including any global (PG_G) mappings.
 901                  */
 902                 cr4 = rcr4();
 903                 load_cr4(cr4 & ~CR4_PGE);
 904                 /*
 905                  * Although preemption at this point could be detrimental to
 906                  * performance, it would not lead to an error.  PG_G is simply
 907                  * ignored if CR4.PGE is clear.  Moreover, in case this block
 908                  * is re-entered, the load_cr4() either above or below will
 909                  * modify CR4.PGE flushing the TLB.
 910                  */
 911                 load_cr4(cr4 | CR4_PGE);
 912         }
 913 }
 914 #ifdef SMP
 915 /*
 916  * For SMP, these functions have to use the IPI mechanism for coherence.
 917  *
 918  * N.B.: Before calling any of the following TLB invalidation functions,
 919  * the calling processor must ensure that all stores updating a non-
 920  * kernel page table are globally performed.  Otherwise, another
 921  * processor could cache an old, pre-update entry without being
 922  * invalidated.  This can happen one of two ways: (1) The pmap becomes
 923  * active on another processor after its pm_active field is checked by
 924  * one of the following functions but before a store updating the page
 925  * table is globally performed. (2) The pmap becomes active on another
 926  * processor before its pm_active field is checked but due to
 927  * speculative loads one of the following functions stills reads the
 928  * pmap as inactive on the other processor.
 929  *
 930  * The kernel page table is exempt because its pm_active field is
 931  * immutable.  The kernel page table is always active on every
 932  * processor.
 933  */
 934 void
 935 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
 936 {
 937         cpuset_t other_cpus;
 938         u_int cpuid;
 939
 940         sched_pin();
 941         if (pmap == kernel_pmap || !CPU_CMP(&pmap->pm_active, &all_cpus)) {
 942                 invlpg(va);
 943                 smp_invlpg(va);
 944         } else {
 945                 cpuid = PCPU_GET(cpuid);
 946                 other_cpus = all_cpus;
 947                 CPU_CLR(cpuid, &other_cpus);
 948                 if (CPU_ISSET(cpuid, &pmap->pm_active))
 949                         invlpg(va);
 950                 CPU_AND(&other_cpus, &pmap->pm_active);
 951                 if (!CPU_EMPTY(&other_cpus))
 952                         smp_masked_invlpg(other_cpus, va);
 953         }
 954         sched_unpin();
 955 }
 956
 957 void
 958 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
 959 {
 960         cpuset_t other_cpus;
 961         vm_offset_t addr;
 962         u_int cpuid;
 963
 964         sched_pin();
 965         if (pmap == kernel_pmap || !CPU_CMP(&pmap->pm_active, &all_cpus)) {
 966                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
 967                         invlpg(addr);
 968                 smp_invlpg_range(sva, eva);
 969         } else {
 970                 cpuid = PCPU_GET(cpuid);
 971                 other_cpus = all_cpus;
 972                 CPU_CLR(cpuid, &other_cpus);
 973                 if (CPU_ISSET(cpuid, &pmap->pm_active))
 974                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
 975                                 invlpg(addr);
 976                 CPU_AND(&other_cpus, &pmap->pm_active);
 977                 if (!CPU_EMPTY(&other_cpus))
 978                         smp_masked_invlpg_range(other_cpus, sva, eva);
 979         }
 980         sched_unpin();
 981 }
 982
 983 void
 984 pmap_invalidate_all(pmap_t pmap)
 985 {
 986         cpuset_t other_cpus;
 987         u_int cpuid;
 988
 989         sched_pin();
 990         if (pmap == kernel_pmap || !CPU_CMP(&pmap->pm_active, &all_cpus)) {
 991                 invltlb();
 992                 smp_invltlb();
 993         } else {
 994                 cpuid = PCPU_GET(cpuid);
 995                 other_cpus = all_cpus;
 996                 CPU_CLR(cpuid, &other_cpus);
 997                 if (CPU_ISSET(cpuid, &pmap->pm_active))
 998                         invltlb();
 999                 CPU_AND(&other_cpus, &pmap->pm_active);
1000                 if (!CPU_EMPTY(&other_cpus))
1001                         smp_masked_invltlb(other_cpus);
1002         }
1003         sched_unpin();
1004 }
1005
1006 void
1007 pmap_invalidate_cache(void)
1008 {
1009
1010         sched_pin();
1011         wbinvd();
1012         smp_cache_flush();
1013         sched_unpin();
1014 }
1015
1016 struct pde_action {
1017         cpuset_t invalidate;    /* processors that invalidate their TLB */
1018         vm_offset_t va;
1019         pd_entry_t *pde;
1020         pd_entry_t newpde;
1021         u_int store;            /* processor that updates the PDE */
1022 };
1023
1024 static void
1025 pmap_update_pde_kernel(void *arg)
1026 {
1027         struct pde_action *act = arg;
1028         pd_entry_t *pde;
1029         pmap_t pmap;
1030
1031         if (act->store == PCPU_GET(cpuid)) {
1032
1033                 /*
1034                  * Elsewhere, this operation requires allpmaps_lock for
1035                  * synchronization.  Here, it does not because it is being
1036                  * performed in the context of an all_cpus rendezvous.
1037                  */
1038                 LIST_FOREACH(pmap, &allpmaps, pm_list) {
1039                         pde = pmap_pde(pmap, act->va);
1040                         pde_store(pde, act->newpde);
1041                 }
1042         }
1043 }
1044
1045 static void
1046 pmap_update_pde_user(void *arg)
1047 {
1048         struct pde_action *act = arg;
1049
1050         if (act->store == PCPU_GET(cpuid))
1051                 pde_store(act->pde, act->newpde);
1052 }
1053
1054 static void
1055 pmap_update_pde_teardown(void *arg)
1056 {
1057         struct pde_action *act = arg;
1058
1059         if (CPU_ISSET(PCPU_GET(cpuid), &act->invalidate))
1060                 pmap_update_pde_invalidate(act->va, act->newpde);
1061 }
1062
1063 /*
1064  * Change the page size for the specified virtual address in a way that
1065  * prevents any possibility of the TLB ever having two entries that map the
1066  * same virtual address using different page sizes.  This is the recommended
1067  * workaround for Erratum 383 on AMD Family 10h processors.  It prevents a
1068  * machine check exception for a TLB state that is improperly diagnosed as a
1069  * hardware error.
1070  */
1071 static void
1072 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
1073 {
1074         struct pde_action act;
1075         cpuset_t active, other_cpus;
1076         u_int cpuid;
1077
1078         sched_pin();
1079         cpuid = PCPU_GET(cpuid);
1080         other_cpus = all_cpus;
1081         CPU_CLR(cpuid, &other_cpus);
1082         if (pmap == kernel_pmap)
1083                 active = all_cpus;
1084         else
1085                 active = pmap->pm_active;
1086         if (CPU_OVERLAP(&active, &other_cpus)) {
1087                 act.store = cpuid;
1088                 act.invalidate = active;
1089                 act.va = va;
1090                 act.pde = pde;
1091                 act.newpde = newpde;
1092                 CPU_SET(cpuid, &active);
1093                 smp_rendezvous_cpus(active,
1094                     smp_no_rendevous_barrier, pmap == kernel_pmap ?
1095                     pmap_update_pde_kernel : pmap_update_pde_user,
1096                     pmap_update_pde_teardown, &act);
1097         } else {
1098                 if (pmap == kernel_pmap)
1099                         pmap_kenter_pde(va, newpde);
1100                 else
1101                         pde_store(pde, newpde);
1102                 if (CPU_ISSET(cpuid, &active))
1103                         pmap_update_pde_invalidate(va, newpde);
1104         }
1105         sched_unpin();
1106 }
1107 #else /* !SMP */
1108 /*
1109  * Normal, non-SMP, 486+ invalidation functions.
1110  * We inline these within pmap.c for speed.
1111  */
1112 PMAP_INLINE void
1113 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
1114 {
1115
1116         if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1117                 invlpg(va);
1118 }
1119
1120 PMAP_INLINE void
1121 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
1122 {
1123         vm_offset_t addr;
1124
1125         if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1126                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
1127                         invlpg(addr);
1128 }
1129
1130 PMAP_INLINE void
1131 pmap_invalidate_all(pmap_t pmap)
1132 {
1133
1134         if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1135                 invltlb();
1136 }
1137
1138 PMAP_INLINE void
1139 pmap_invalidate_cache(void)
1140 {
1141
1142         wbinvd();
1143 }
1144
1145 static void
1146 pmap_update_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *pde, pd_entry_t newpde)
1147 {
1148
1149         if (pmap == kernel_pmap)
1150                 pmap_kenter_pde(va, newpde);
1151         else
1152                 pde_store(pde, newpde);
1153         if (pmap == kernel_pmap || !CPU_EMPTY(&pmap->pm_active))
1154                 pmap_update_pde_invalidate(va, newpde);
1155 }
1156 #endif /* !SMP */
1157
1158 #define PMAP_CLFLUSH_THRESHOLD  (2 * 1024 * 1024)
1159
1160 void
1161 pmap_invalidate_cache_range(vm_offset_t sva, vm_offset_t eva)
1162 {
1163
1164         KASSERT((sva & PAGE_MASK) == 0,
1165             ("pmap_invalidate_cache_range: sva not page-aligned"));
1166         KASSERT((eva & PAGE_MASK) == 0,
1167             ("pmap_invalidate_cache_range: eva not page-aligned"));
1168
1169         if (cpu_feature & CPUID_SS)
1170                 ; /* If "Self Snoop" is supported, do nothing. */
1171         else if ((cpu_feature & CPUID_CLFSH) != 0 &&
1172             eva - sva < PMAP_CLFLUSH_THRESHOLD) {
1173
1174                 /*
1175                  * Otherwise, do per-cache line flush.  Use the mfence
1176                  * instruction to insure that previous stores are
1177                  * included in the write-back.  The processor
1178                  * propagates flush to other processors in the cache
1179                  * coherence domain.
1180                  */
1181                 mfence();
1182                 for (; sva < eva; sva += cpu_clflush_line_size)
1183                         clflush(sva);
1184                 mfence();
1185         } else {
1186
1187                 /*
1188                  * No targeted cache flush methods are supported by CPU,
1189                  * or the supplied range is bigger than 2MB.
1190                  * Globally invalidate cache.
1191                  */
1192                 pmap_invalidate_cache();
1193         }
1194 }
1195
1196 void
1197 pmap_invalidate_cache_pages(vm_page_t *pages, int count)
1198 {
1199         int i;
1200
1201         if (count >= PMAP_CLFLUSH_THRESHOLD / PAGE_SIZE ||
1202             (cpu_feature & CPUID_CLFSH) == 0) {
1203                 pmap_invalidate_cache();
1204         } else {
1205                 for (i = 0; i < count; i++)
1206                         pmap_flush_page(pages[i]);
1207         }
1208 }
1209
1210 /*
1211  * Are we current address space or kernel?  N.B. We return FALSE when
1212  * a pmap's page table is in use because a kernel thread is borrowing
1213  * it.  The borrowed page table can change spontaneously, making any
1214  * dependence on its continued use subject to a race condition.
1215  */
1216 static __inline int
1217 pmap_is_current(pmap_t pmap)
1218 {
1219
1220         return (pmap == kernel_pmap ||
1221             (pmap == vmspace_pmap(curthread->td_proc->p_vmspace) &&
1222             (pmap->pm_pdir[PTDPTDI] & PG_FRAME) == (PTDpde[0] & PG_FRAME)));
1223 }
1224
1225 /*
1226  * If the given pmap is not the current or kernel pmap, the returned pte must
1227  * be released by passing it to pmap_pte_release().
1228  */
1229 pt_entry_t *
1230 pmap_pte(pmap_t pmap, vm_offset_t va)
1231 {
1232         pd_entry_t newpf;
1233         pd_entry_t *pde;
1234
1235         pde = pmap_pde(pmap, va);
1236         if (*pde & PG_PS)
1237                 return (pde);
1238         if (*pde != 0) {
1239                 /* are we current address space or kernel? */
1240                 if (pmap_is_current(pmap))
1241                         return (vtopte(va));
1242                 mtx_lock(&PMAP2mutex);
1243                 newpf = *pde & PG_FRAME;
1244                 if ((*PMAP2 & PG_FRAME) != newpf) {
1245                         *PMAP2 = newpf | PG_RW | PG_V | PG_A | PG_M;
1246                         pmap_invalidate_page(kernel_pmap, (vm_offset_t)PADDR2);
1247                 }
1248                 return (PADDR2 + (i386_btop(va) & (NPTEPG - 1)));
1249         }
1250         return (NULL);
1251 }
1252
1253 /*
1254  * Releases a pte that was obtained from pmap_pte().  Be prepared for the pte
1255  * being NULL.
1256  */
1257 static __inline void
1258 pmap_pte_release(pt_entry_t *pte)
1259 {
1260
1261         if ((pt_entry_t *)((vm_offset_t)pte & ~PAGE_MASK) == PADDR2)
1262                 mtx_unlock(&PMAP2mutex);
1263 }
1264
1265 static __inline void
1266 invlcaddr(void *caddr)
1267 {
1268
1269         invlpg((u_int)caddr);
1270 }
1271
1272 /*
1273  * Super fast pmap_pte routine best used when scanning
1274  * the pv lists.  This eliminates many coarse-grained
1275  * invltlb calls.  Note that many of the pv list
1276  * scans are across different pmaps.  It is very wasteful
1277  * to do an entire invltlb for checking a single mapping.
1278  *
1279  * If the given pmap is not the current pmap, vm_page_queue_mtx
1280  * must be held and curthread pinned to a CPU.
1281  */
1282 static pt_entry_t *
1283 pmap_pte_quick(pmap_t pmap, vm_offset_t va)
1284 {
1285         pd_entry_t newpf;
1286         pd_entry_t *pde;
1287
1288         pde = pmap_pde(pmap, va);
1289         if (*pde & PG_PS)
1290                 return (pde);
1291         if (*pde != 0) {
1292                 /* are we current address space or kernel? */
1293                 if (pmap_is_current(pmap))
1294                         return (vtopte(va));
1295                 mtx_assert(&vm_page_queue_mtx, MA_OWNED);
1296                 KASSERT(curthread->td_pinned > 0, ("curthread not pinned"));
1297                 newpf = *pde & PG_FRAME;
1298                 if ((*PMAP1 & PG_FRAME) != newpf) {
1299                         *PMAP1 = newpf | PG_RW | PG_V | PG_A | PG_M;
1300 #ifdef SMP
1301                         PMAP1cpu = PCPU_GET(cpuid);
1302 #endif
1303                         invlcaddr(PADDR1);
1304                         PMAP1changed++;
1305                 } else
1306 #ifdef SMP
1307                 if (PMAP1cpu != PCPU_GET(cpuid)) {
1308                         PMAP1cpu = PCPU_GET(cpuid);
1309                         invlcaddr(PADDR1);
1310                         PMAP1changedcpu++;
1311                 } else
1312 #endif
1313                         PMAP1unchanged++;
1314                 return (PADDR1 + (i386_btop(va) & (NPTEPG - 1)));
1315         }
1316         return (0);
1317 }
1318
1319 /*
1320  *      Routine:        pmap_extract
1321  *      Function:
1322  *              Extract the physical page address associated
1323  *              with the given map/virtual_address pair.
1324  */
1325 vm_paddr_t
1326 pmap_extract(pmap_t pmap, vm_offset_t va)
1327 {
1328         vm_paddr_t rtval;
1329         pt_entry_t *pte;
1330         pd_entry_t pde;
1331
1332         rtval = 0;
1333         PMAP_LOCK(pmap);
1334         pde = pmap->pm_pdir[va >> PDRSHIFT];
1335         if (pde != 0) {
1336                 if ((pde & PG_PS) != 0)
1337                         rtval = (pde & PG_PS_FRAME) | (va & PDRMASK);
1338                 else {
1339                         pte = pmap_pte(pmap, va);
1340                         rtval = (*pte & PG_FRAME) | (va & PAGE_MASK);
1341                         pmap_pte_release(pte);
1342                 }
1343         }
1344         PMAP_UNLOCK(pmap);
1345         return (rtval);
1346 }
1347
1348 /*
1349  *      Routine:        pmap_extract_and_hold
1350  *      Function:
1351  *              Atomically extract and hold the physical page
1352  *              with the given pmap and virtual address pair
1353  *              if that mapping permits the given protection.
1354  */
1355 vm_page_t
1356 pmap_extract_and_hold(pmap_t pmap, vm_offset_t va, vm_prot_t prot)
1357 {
1358         pd_entry_t pde;
1359         pt_entry_t pte, *ptep;
1360         vm_page_t m;
1361         vm_paddr_t pa;
1362
1363         pa = 0;
1364         m = NULL;
1365         PMAP_LOCK(pmap);
1366 retry:
1367         pde = *pmap_pde(pmap, va);
1368         if (pde != 0) {
1369                 if (pde & PG_PS) {
1370                         if ((pde & PG_RW) || (prot & VM_PROT_WRITE) == 0) {
1371                                 if (vm_page_pa_tryrelock(pmap, (pde &
1372                                     PG_PS_FRAME) | (va & PDRMASK), &pa))
1373                                         goto retry;
1374                                 m = PHYS_TO_VM_PAGE((pde & PG_PS_FRAME) |
1375                                     (va & PDRMASK));
1376                                 vm_page_hold(m);
1377                         }
1378                 } else {
1379                         ptep = pmap_pte(pmap, va);
1380                         pte = *ptep;
1381                         pmap_pte_release(ptep);
1382                         if (pte != 0 &&
1383                             ((pte & PG_RW) || (prot & VM_PROT_WRITE) == 0)) {
1384                                 if (vm_page_pa_tryrelock(pmap, pte & PG_FRAME,
1385                                     &pa))
1386                                         goto retry;
1387                                 m = PHYS_TO_VM_PAGE(pte & PG_FRAME);
1388                                 vm_page_hold(m);
1389                         }
1390                 }
1391         }
1392         PA_UNLOCK_COND(pa);
1393         PMAP_UNLOCK(pmap);
1394         return (m);
1395 }
1396
1397 /***************************************************
1398  * Low level mapping routines.....
1399  ***************************************************/
1400
1401 /*
1402  * Add a wired page to the kva.
1403  * Note: not SMP coherent.
1404  *
1405  * This function may be used before pmap_bootstrap() is called.
1406  */
1407 PMAP_INLINE void
1408 pmap_kenter(vm_offset_t va, vm_paddr_t pa)
1409 {
1410         pt_entry_t *pte;
1411
1412         pte = vtopte(va);
1413         pte_store(pte, pa | PG_RW | PG_V | pgeflag);
1414 }
1415
1416 static __inline void
1417 pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode)
1418 {
1419         pt_entry_t *pte;
1420
1421         pte = vtopte(va);
1422         pte_store(pte, pa | PG_RW | PG_V | pgeflag | pmap_cache_bits(mode, 0));
1423 }
1424
1425 /*
1426  * Remove a page from the kernel pagetables.
1427  * Note: not SMP coherent.
1428  *
1429  * This function may be used before pmap_bootstrap() is called.
1430  */
1431 PMAP_INLINE void
1432 pmap_kremove(vm_offset_t va)
1433 {
1434         pt_entry_t *pte;
1435
1436         pte = vtopte(va);
1437         pte_clear(pte);
1438 }
1439
1440 /*
1441  *      Used to map a range of physical addresses into kernel
1442  *      virtual address space.
1443  *
1444  *      The value passed in '*virt' is a suggested virtual address for
1445  *      the mapping. Architectures which can support a direct-mapped
1446  *      physical to virtual region can return the appropriate address
1447  *      within that region, leaving '*virt' unchanged. Other
1448  *      architectures should map the pages starting at '*virt' and
1449  *      update '*virt' with the first usable address after the mapped
1450  *      region.
1451  */
1452 vm_offset_t
1453 pmap_map(vm_offset_t *virt, vm_paddr_t start, vm_paddr_t end, int prot)
1454 {
1455         vm_offset_t va, sva;
1456
1457         va = sva = *virt;
1458         while (start < end) {
1459                 pmap_kenter(va, start);
1460                 va += PAGE_SIZE;
1461                 start += PAGE_SIZE;
1462         }
1463         pmap_invalidate_range(kernel_pmap, sva, va);
1464         *virt = va;
1465         return (sva);
1466 }
1467
1468
1469 /*
1470  * Add a list of wired pages to the kva
1471  * this routine is only used for temporary
1472  * kernel mappings that do not need to have
1473  * page modification or references recorded.
1474  * Note that old mappings are simply written
1475  * over.  The page *must* be wired.
1476  * Note: SMP coherent.  Uses a ranged shootdown IPI.
1477  */
1478 void
1479 pmap_qenter(vm_offset_t sva, vm_page_t *ma, int count)
1480 {
1481         pt_entry_t *endpte, oldpte, pa, *pte;
1482         vm_page_t m;
1483
1484         oldpte = 0;
1485         pte = vtopte(sva);
1486         endpte = pte + count;
1487         while (pte < endpte) {
1488                 m = *ma++;
1489                 pa = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(m->md.pat_mode, 0);
1490                 if ((*pte & (PG_FRAME | PG_PTE_CACHE)) != pa) {
1491                         oldpte |= *pte;
1492                         pte_store(pte, pa | pgeflag | PG_RW | PG_V);
1493                 }
1494                 pte++;
1495         }
1496         if (__predict_false((oldpte & PG_V) != 0))
1497                 pmap_invalidate_range(kernel_pmap, sva, sva + count *
1498                     PAGE_SIZE);
1499 }
1500
1501 /*
1502  * This routine tears out page mappings from the
1503  * kernel -- it is meant only for temporary mappings.
1504  * Note: SMP coherent.  Uses a ranged shootdown IPI.
1505  */
1506 void
1507 pmap_qremove(vm_offset_t sva, int count)
1508 {
1509         vm_offset_t va;
1510
1511         va = sva;
1512         while (count-- > 0) {
1513                 pmap_kremove(va);
1514                 va += PAGE_SIZE;
1515         }
1516         pmap_invalidate_range(kernel_pmap, sva, va);
1517 }
1518
1519 /***************************************************
1520  * Page table page management routines.....
1521  ***************************************************/
1522 static __inline void
1523 pmap_free_zero_pages(vm_page_t free)
1524 {
1525         vm_page_t m;
1526
1527         while (free != NULL) {
1528                 m = free;
1529                 free = m->right;
1530                 /* Preserve the page's PG_ZERO setting. */
1531                 vm_page_free_toq(m);
1532         }
1533 }
1534
1535 /*
1536  * Schedule the specified unused page table page to be freed.  Specifically,
1537  * add the page to the specified list of pages that will be released to the
1538  * physical memory manager after the TLB has been updated.
1539  */
1540 static __inline void
1541 pmap_add_delayed_free_list(vm_page_t m, vm_page_t *free, boolean_t set_PG_ZERO)
1542 {
1543
1544         if (set_PG_ZERO)
1545                 m->flags |= PG_ZERO;
1546         else
1547                 m->flags &= ~PG_ZERO;
1548         m->right = *free;
1549         *free = m;
1550 }
1551
1552 /*
1553  * Inserts the specified page table page into the specified pmap's collection
1554  * of idle page table pages.  Each of a pmap's page table pages is responsible
1555  * for mapping a distinct range of virtual addresses.  The pmap's collection is
1556  * ordered by this virtual address range.
1557  */
1558 static void
1559 pmap_insert_pt_page(pmap_t pmap, vm_page_t mpte)
1560 {
1561         vm_page_t root;
1562
1563         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1564         root = pmap->pm_root;
1565         if (root == NULL) {
1566                 mpte->left = NULL;
1567                 mpte->right = NULL;
1568         } else {
1569                 root = vm_page_splay(mpte->pindex, root);
1570                 if (mpte->pindex < root->pindex) {
1571                         mpte->left = root->left;
1572                         mpte->right = root;
1573                         root->left = NULL;
1574                 } else if (mpte->pindex == root->pindex)
1575                         panic("pmap_insert_pt_page: pindex already inserted");
1576                 else {
1577                         mpte->right = root->right;
1578                         mpte->left = root;
1579                         root->right = NULL;
1580                 }
1581         }
1582         pmap->pm_root = mpte;
1583 }
1584
1585 /*
1586  * Looks for a page table page mapping the specified virtual address in the
1587  * specified pmap's collection of idle page table pages.  Returns NULL if there
1588  * is no page table page corresponding to the specified virtual address.
1589  */
1590 static vm_page_t
1591 pmap_lookup_pt_page(pmap_t pmap, vm_offset_t va)
1592 {
1593         vm_page_t mpte;
1594         vm_pindex_t pindex = va >> PDRSHIFT;
1595
1596         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1597         if ((mpte = pmap->pm_root) != NULL && mpte->pindex != pindex) {
1598                 mpte = vm_page_splay(pindex, mpte);
1599                 if ((pmap->pm_root = mpte)->pindex != pindex)
1600                         mpte = NULL;
1601         }
1602         return (mpte);
1603 }
1604
1605 /*
1606  * Removes the specified page table page from the specified pmap's collection
1607  * of idle page table pages.  The specified page table page must be a member of
1608  * the pmap's collection.
1609  */
1610 static void
1611 pmap_remove_pt_page(pmap_t pmap, vm_page_t mpte)
1612 {
1613         vm_page_t root;
1614
1615         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1616         if (mpte != pmap->pm_root)
1617                 vm_page_splay(mpte->pindex, pmap->pm_root);
1618         if (mpte->left == NULL)
1619                 root = mpte->right;
1620         else {
1621                 root = vm_page_splay(mpte->pindex, mpte->left);
1622                 root->right = mpte->right;
1623         }
1624         pmap->pm_root = root;
1625 }
1626
1627 /*
1628  * This routine unholds page table pages, and if the hold count
1629  * drops to zero, then it decrements the wire count.
1630  */
1631 static __inline int
1632 pmap_unwire_pte_hold(pmap_t pmap, vm_page_t m, vm_page_t *free)
1633 {
1634
1635         --m->wire_count;
1636         if (m->wire_count == 0)
1637                 return (_pmap_unwire_pte_hold(pmap, m, free));
1638         else
1639                 return (0);
1640 }
1641
1642 static int
1643 _pmap_unwire_pte_hold(pmap_t pmap, vm_page_t m, vm_page_t *free)
1644 {
1645         vm_offset_t pteva;
1646
1647         /*
1648          * unmap the page table page
1649          */
1650         pmap->pm_pdir[m->pindex] = 0;
1651         --pmap->pm_stats.resident_count;
1652
1653         /*
1654          * This is a release store so that the ordinary store unmapping
1655          * the page table page is globally performed before TLB shoot-
1656          * down is begun.
1657          */
1658         atomic_subtract_rel_int(&cnt.v_wire_count, 1);
1659
1660         /*
1661          * Do an invltlb to make the invalidated mapping
1662          * take effect immediately.
1663          */
1664         pteva = VM_MAXUSER_ADDRESS + i386_ptob(m->pindex);
1665         pmap_invalidate_page(pmap, pteva);
1666
1667         /*
1668          * Put page on a list so that it is released after
1669          * *ALL* TLB shootdown is done
1670          */
1671         pmap_add_delayed_free_list(m, free, TRUE);
1672
1673         return (1);
1674 }
1675
1676 /*
1677  * After removing a page table entry, this routine is used to
1678  * conditionally free the page, and manage the hold/wire counts.
1679  */
1680 static int
1681 pmap_unuse_pt(pmap_t pmap, vm_offset_t va, vm_page_t *free)
1682 {
1683         pd_entry_t ptepde;
1684         vm_page_t mpte;
1685
1686         if (va >= VM_MAXUSER_ADDRESS)
1687                 return (0);
1688         ptepde = *pmap_pde(pmap, va);
1689         mpte = PHYS_TO_VM_PAGE(ptepde & PG_FRAME);
1690         return (pmap_unwire_pte_hold(pmap, mpte, free));
1691 }
1692
1693 /*
1694  * Initialize the pmap for the swapper process.
1695  */
1696 void
1697 pmap_pinit0(pmap_t pmap)
1698 {
1699
1700         PMAP_LOCK_INIT(pmap);
1701         /*
1702          * Since the page table directory is shared with the kernel pmap,
1703          * which is already included in the list "allpmaps", this pmap does
1704          * not need to be inserted into that list.
1705          */
1706         pmap->pm_pdir = (pd_entry_t *)(KERNBASE + (vm_offset_t)IdlePTD);
1707 #ifdef PAE
1708         pmap->pm_pdpt = (pdpt_entry_t *)(KERNBASE + (vm_offset_t)IdlePDPT);
1709 #endif
1710         pmap->pm_root = NULL;
1711         CPU_ZERO(&pmap->pm_active);
1712         PCPU_SET(curpmap, pmap);
1713         TAILQ_INIT(&pmap->pm_pvchunk);
1714         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
1715 }
1716
1717 /*
1718  * Initialize a preallocated and zeroed pmap structure,
1719  * such as one in a vmspace structure.
1720  */
1721 int
1722 pmap_pinit(pmap_t pmap)
1723 {
1724         vm_page_t m, ptdpg[NPGPTD];
1725         vm_paddr_t pa;
1726         static int color;
1727         int i;
1728
1729         PMAP_LOCK_INIT(pmap);
1730
1731         /*
1732          * No need to allocate page table space yet but we do need a valid
1733          * page directory table.
1734          */
1735         if (pmap->pm_pdir == NULL) {
1736                 pmap->pm_pdir = (pd_entry_t *)kmem_alloc_nofault(kernel_map,
1737                     NBPTD);
1738                 if (pmap->pm_pdir == NULL) {
1739                         PMAP_LOCK_DESTROY(pmap);
1740                         return (0);
1741                 }
1742 #ifdef PAE
1743                 pmap->pm_pdpt = uma_zalloc(pdptzone, M_WAITOK | M_ZERO);
1744                 KASSERT(((vm_offset_t)pmap->pm_pdpt &
1745                     ((NPGPTD * sizeof(pdpt_entry_t)) - 1)) == 0,
1746                     ("pmap_pinit: pdpt misaligned"));
1747                 KASSERT(pmap_kextract((vm_offset_t)pmap->pm_pdpt) < (4ULL<<30),
1748                     ("pmap_pinit: pdpt above 4g"));
1749 #endif
1750                 pmap->pm_root = NULL;
1751         }
1752         KASSERT(pmap->pm_root == NULL,
1753             ("pmap_pinit: pmap has reserved page table page(s)"));
1754
1755         /*
1756          * allocate the page directory page(s)
1757          */
1758         for (i = 0; i < NPGPTD;) {
1759                 m = vm_page_alloc(NULL, color++,
1760                     VM_ALLOC_NORMAL | VM_ALLOC_NOOBJ | VM_ALLOC_WIRED |
1761                     VM_ALLOC_ZERO);
1762                 if (m == NULL)
1763                         VM_WAIT;
1764                 else {
1765                         ptdpg[i++] = m;
1766                 }
1767         }
1768
1769         pmap_qenter((vm_offset_t)pmap->pm_pdir, ptdpg, NPGPTD);
1770
1771         for (i = 0; i < NPGPTD; i++)
1772                 if ((ptdpg[i]->flags & PG_ZERO) == 0)
1773                         pagezero(pmap->pm_pdir + (i * NPDEPG));
1774
1775         mtx_lock_spin(&allpmaps_lock);
1776         LIST_INSERT_HEAD(&allpmaps, pmap, pm_list);
1777         /* Copy the kernel page table directory entries. */
1778         bcopy(PTD + KPTDI, pmap->pm_pdir + KPTDI, nkpt * sizeof(pd_entry_t));
1779         mtx_unlock_spin(&allpmaps_lock);
1780
1781         /* install self-referential address mapping entry(s) */
1782         for (i = 0; i < NPGPTD; i++) {
1783                 pa = VM_PAGE_TO_PHYS(ptdpg[i]);
1784                 pmap->pm_pdir[PTDPTDI + i] = pa | PG_V | PG_RW | PG_A | PG_M;
1785 #ifdef PAE
1786                 pmap->pm_pdpt[i] = pa | PG_V;
1787 #endif
1788         }
1789
1790         CPU_ZERO(&pmap->pm_active);
1791         TAILQ_INIT(&pmap->pm_pvchunk);
1792         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
1793
1794         return (1);
1795 }
1796
1797 /*
1798  * this routine is called if the page table page is not
1799  * mapped correctly.
1800  */
1801 static vm_page_t
1802 _pmap_allocpte(pmap_t pmap, u_int ptepindex, int flags)
1803 {
1804         vm_paddr_t ptepa;
1805         vm_page_t m;
1806
1807         KASSERT((flags & (M_NOWAIT | M_WAITOK)) == M_NOWAIT ||
1808             (flags & (M_NOWAIT | M_WAITOK)) == M_WAITOK,
1809             ("_pmap_allocpte: flags is neither M_NOWAIT nor M_WAITOK"));
1810
1811         /*
1812          * Allocate a page table page.
1813          */
1814         if ((m = vm_page_alloc(NULL, ptepindex, VM_ALLOC_NOOBJ |
1815             VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL) {
1816                 if (flags & M_WAITOK) {
1817                         PMAP_UNLOCK(pmap);
1818                         vm_page_unlock_queues();
1819                         VM_WAIT;
1820                         vm_page_lock_queues();
1821                         PMAP_LOCK(pmap);
1822                 }
1823
1824                 /*
1825                  * Indicate the need to retry.  While waiting, the page table
1826                  * page may have been allocated.
1827                  */
1828                 return (NULL);
1829         }
1830         if ((m->flags & PG_ZERO) == 0)
1831                 pmap_zero_page(m);
1832
1833         /*
1834          * Map the pagetable page into the process address space, if
1835          * it isn't already there.
1836          */
1837
1838         pmap->pm_stats.resident_count++;
1839
1840         ptepa = VM_PAGE_TO_PHYS(m);
1841         pmap->pm_pdir[ptepindex] =
1842                 (pd_entry_t) (ptepa | PG_U | PG_RW | PG_V | PG_A | PG_M);
1843
1844         return (m);
1845 }
1846
1847 static vm_page_t
1848 pmap_allocpte(pmap_t pmap, vm_offset_t va, int flags)
1849 {
1850         u_int ptepindex;
1851         pd_entry_t ptepa;
1852         vm_page_t m;
1853
1854         KASSERT((flags & (M_NOWAIT | M_WAITOK)) == M_NOWAIT ||
1855             (flags & (M_NOWAIT | M_WAITOK)) == M_WAITOK,
1856             ("pmap_allocpte: flags is neither M_NOWAIT nor M_WAITOK"));
1857
1858         /*
1859          * Calculate pagetable page index
1860          */
1861         ptepindex = va >> PDRSHIFT;
1862 retry:
1863         /*
1864          * Get the page directory entry
1865          */
1866         ptepa = pmap->pm_pdir[ptepindex];
1867
1868         /*
1869          * This supports switching from a 4MB page to a
1870          * normal 4K page.
1871          */
1872         if (ptepa & PG_PS) {
1873                 (void)pmap_demote_pde(pmap, &pmap->pm_pdir[ptepindex], va);
1874                 ptepa = pmap->pm_pdir[ptepindex];
1875         }
1876
1877         /*
1878          * If the page table page is mapped, we just increment the
1879          * hold count, and activate it.
1880          */
1881         if (ptepa) {
1882                 m = PHYS_TO_VM_PAGE(ptepa & PG_FRAME);
1883                 m->wire_count++;
1884         } else {
1885                 /*
1886                  * Here if the pte page isn't mapped, or if it has
1887                  * been deallocated.
1888                  */
1889                 m = _pmap_allocpte(pmap, ptepindex, flags);
1890                 if (m == NULL && (flags & M_WAITOK))
1891                         goto retry;
1892         }
1893         return (m);
1894 }
1895
1896
1897 /***************************************************
1898 * Pmap allocation/deallocation routines.
1899  ***************************************************/
1900
1901 #ifdef SMP
1902 /*
1903  * Deal with a SMP shootdown of other users of the pmap that we are
1904  * trying to dispose of.  This can be a bit hairy.
1905  */
1906 static cpuset_t *lazymask;
1907 static u_int lazyptd;
1908 static volatile u_int lazywait;
1909
1910 void pmap_lazyfix_action(void);
1911
1912 void
1913 pmap_lazyfix_action(void)
1914 {
1915
1916 #ifdef COUNT_IPIS
1917         (*ipi_lazypmap_counts[PCPU_GET(cpuid)])++;
1918 #endif
1919         if (rcr3() == lazyptd)
1920                 load_cr3(PCPU_GET(curpcb)->pcb_cr3);
1921         CPU_CLR_ATOMIC(PCPU_GET(cpuid), lazymask);
1922         atomic_store_rel_int(&lazywait, 1);
1923 }
1924
1925 static void
1926 pmap_lazyfix_self(u_int cpuid)
1927 {
1928
1929         if (rcr3() == lazyptd)
1930                 load_cr3(PCPU_GET(curpcb)->pcb_cr3);
1931         CPU_CLR_ATOMIC(cpuid, lazymask);
1932 }
1933
1934
1935 static void
1936 pmap_lazyfix(pmap_t pmap)
1937 {
1938         cpuset_t mymask, mask;
1939         u_int cpuid, spins;
1940         int lsb;
1941
1942         mask = pmap->pm_active;
1943         while (!CPU_EMPTY(&mask)) {
1944                 spins = 50000000;
1945
1946                 /* Find least significant set bit. */
1947                 lsb = cpusetobj_ffs(&mask);
1948                 MPASS(lsb != 0);
1949                 lsb--;
1950                 CPU_SETOF(lsb, &mask);
1951                 mtx_lock_spin(&smp_ipi_mtx);
1952 #ifdef PAE
1953                 lazyptd = vtophys(pmap->pm_pdpt);
1954 #else
1955                 lazyptd = vtophys(pmap->pm_pdir);
1956 #endif
1957                 cpuid = PCPU_GET(cpuid);
1958
1959                 /* Use a cpuset just for having an easy check. */
1960                 CPU_SETOF(cpuid, &mymask);
1961                 if (!CPU_CMP(&mask, &mymask)) {
1962                         lazymask = &pmap->pm_active;
1963                         pmap_lazyfix_self(cpuid);
1964                 } else {
1965                         atomic_store_rel_int((u_int *)&lazymask,
1966                             (u_int)&pmap->pm_active);
1967                         atomic_store_rel_int(&lazywait, 0);
1968                         ipi_selected(mask, IPI_LAZYPMAP);
1969                         while (lazywait == 0) {
1970                                 ia32_pause();
1971                                 if (--spins == 0)
1972                                         break;
1973                         }
1974                 }
1975                 mtx_unlock_spin(&smp_ipi_mtx);
1976                 if (spins == 0)
1977                         printf("pmap_lazyfix: spun for 50000000\n");
1978                 mask = pmap->pm_active;
1979         }
1980 }
1981
1982 #else   /* SMP */
1983
1984 /*
1985  * Cleaning up on uniprocessor is easy.  For various reasons, we're
1986  * unlikely to have to even execute this code, including the fact
1987  * that the cleanup is deferred until the parent does a wait(2), which
1988  * means that another userland process has run.
1989  */
1990 static void
1991 pmap_lazyfix(pmap_t pmap)
1992 {
1993         u_int cr3;
1994
1995         cr3 = vtophys(pmap->pm_pdir);
1996         if (cr3 == rcr3()) {
1997                 load_cr3(PCPU_GET(curpcb)->pcb_cr3);
1998                 CPU_CLR(PCPU_GET(cpuid), &pmap->pm_active);
1999         }
2000 }
2001 #endif  /* SMP */
2002
2003 /*
2004  * Release any resources held by the given physical map.
2005  * Called when a pmap initialized by pmap_pinit is being released.
2006  * Should only be called if the map contains no valid mappings.
2007  */
2008 void
2009 pmap_release(pmap_t pmap)
2010 {
2011         vm_page_t m, ptdpg[NPGPTD];
2012         int i;
2013
2014         KASSERT(pmap->pm_stats.resident_count == 0,
2015             ("pmap_release: pmap resident count %ld != 0",
2016             pmap->pm_stats.resident_count));
2017         KASSERT(pmap->pm_root == NULL,
2018             ("pmap_release: pmap has reserved page table page(s)"));
2019
2020         pmap_lazyfix(pmap);
2021         mtx_lock_spin(&allpmaps_lock);
2022         LIST_REMOVE(pmap, pm_list);
2023         mtx_unlock_spin(&allpmaps_lock);
2024
2025         for (i = 0; i < NPGPTD; i++)
2026                 ptdpg[i] = PHYS_TO_VM_PAGE(pmap->pm_pdir[PTDPTDI + i] &
2027                     PG_FRAME);
2028
2029         bzero(pmap->pm_pdir + PTDPTDI, (nkpt + NPGPTD) *
2030             sizeof(*pmap->pm_pdir));
2031
2032         pmap_qremove((vm_offset_t)pmap->pm_pdir, NPGPTD);
2033
2034         for (i = 0; i < NPGPTD; i++) {
2035                 m = ptdpg[i];
2036 #ifdef PAE
2037                 KASSERT(VM_PAGE_TO_PHYS(m) == (pmap->pm_pdpt[i] & PG_FRAME),
2038                     ("pmap_release: got wrong ptd page"));
2039 #endif
2040                 m->wire_count--;
2041                 atomic_subtract_int(&cnt.v_wire_count, 1);
2042                 vm_page_free_zero(m);
2043         }
2044         PMAP_LOCK_DESTROY(pmap);
2045 }
2046 \f
2047 static int
2048 kvm_size(SYSCTL_HANDLER_ARGS)
2049 {
2050         unsigned long ksize = VM_MAX_KERNEL_ADDRESS - KERNBASE;
2051
2052         return (sysctl_handle_long(oidp, &ksize, 0, req));
2053 }
2054 SYSCTL_PROC(_vm, OID_AUTO, kvm_size, CTLTYPE_LONG|CTLFLAG_RD,
2055     0, 0, kvm_size, "IU", "Size of KVM");
2056
2057 static int
2058 kvm_free(SYSCTL_HANDLER_ARGS)
2059 {
2060         unsigned long kfree = VM_MAX_KERNEL_ADDRESS - kernel_vm_end;
2061
2062         return (sysctl_handle_long(oidp, &kfree, 0, req));
2063 }
2064 SYSCTL_PROC(_vm, OID_AUTO, kvm_free, CTLTYPE_LONG|CTLFLAG_RD,
2065     0, 0, kvm_free, "IU", "Amount of KVM free");
2066
2067 /*
2068  * grow the number of kernel page table entries, if needed
2069  */
2070 void
2071 pmap_growkernel(vm_offset_t addr)
2072 {
2073         vm_paddr_t ptppaddr;
2074         vm_page_t nkpg;
2075         pd_entry_t newpdir;
2076
2077         mtx_assert(&kernel_map->system_mtx, MA_OWNED);
2078         addr = roundup2(addr, NBPDR);
2079         if (addr - 1 >= kernel_map->max_offset)
2080                 addr = kernel_map->max_offset;
2081         while (kernel_vm_end < addr) {
2082                 if (pdir_pde(PTD, kernel_vm_end)) {
2083                         kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
2084                         if (kernel_vm_end - 1 >= kernel_map->max_offset) {
2085                                 kernel_vm_end = kernel_map->max_offset;
2086                                 break;
2087                         }
2088                         continue;
2089                 }
2090
2091                 nkpg = vm_page_alloc(NULL, kernel_vm_end >> PDRSHIFT,
2092                     VM_ALLOC_INTERRUPT | VM_ALLOC_NOOBJ | VM_ALLOC_WIRED |
2093                     VM_ALLOC_ZERO);
2094                 if (nkpg == NULL)
2095                         panic("pmap_growkernel: no memory to grow kernel");
2096
2097                 nkpt++;
2098
2099                 if ((nkpg->flags & PG_ZERO) == 0)
2100                         pmap_zero_page(nkpg);
2101                 ptppaddr = VM_PAGE_TO_PHYS(nkpg);
2102                 newpdir = (pd_entry_t) (ptppaddr | PG_V | PG_RW | PG_A | PG_M);
2103                 pdir_pde(KPTD, kernel_vm_end) = pgeflag | newpdir;
2104
2105                 pmap_kenter_pde(kernel_vm_end, newpdir);
2106                 kernel_vm_end = (kernel_vm_end + NBPDR) & ~PDRMASK;
2107                 if (kernel_vm_end - 1 >= kernel_map->max_offset) {
2108                         kernel_vm_end = kernel_map->max_offset;
2109                         break;
2110                 }
2111         }
2112 }
2113
2114
2115 /***************************************************
2116  * page management routines.
2117  ***************************************************/
2118
2119 CTASSERT(sizeof(struct pv_chunk) == PAGE_SIZE);
2120 CTASSERT(_NPCM == 11);
2121
2122 static __inline struct pv_chunk *
2123 pv_to_chunk(pv_entry_t pv)
2124 {
2125
2126         return ((struct pv_chunk *)((uintptr_t)pv & ~(uintptr_t)PAGE_MASK));
2127 }
2128
2129 #define PV_PMAP(pv) (pv_to_chunk(pv)->pc_pmap)
2130
2131 #define PC_FREE0_9      0xfffffffful    /* Free values for index 0 through 9 */
2132 #define PC_FREE10       0x0000fffful    /* Free values for index 10 */
2133
2134 static uint32_t pc_freemask[11] = {
2135         PC_FREE0_9, PC_FREE0_9, PC_FREE0_9,
2136         PC_FREE0_9, PC_FREE0_9, PC_FREE0_9,
2137         PC_FREE0_9, PC_FREE0_9, PC_FREE0_9,
2138         PC_FREE0_9, PC_FREE10
2139 };
2140
2141 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_count, CTLFLAG_RD, &pv_entry_count, 0,
2142         "Current number of pv entries");
2143
2144 #ifdef PV_STATS
2145 static int pc_chunk_count, pc_chunk_allocs, pc_chunk_frees, pc_chunk_tryfail;
2146
2147 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_count, CTLFLAG_RD, &pc_chunk_count, 0,
2148         "Current number of pv entry chunks");
2149 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_allocs, CTLFLAG_RD, &pc_chunk_allocs, 0,
2150         "Current number of pv entry chunks allocated");
2151 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_frees, CTLFLAG_RD, &pc_chunk_frees, 0,
2152         "Current number of pv entry chunks frees");
2153 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_tryfail, CTLFLAG_RD, &pc_chunk_tryfail, 0,
2154         "Number of times tried to get a chunk page but failed.");
2155
2156 static long pv_entry_frees, pv_entry_allocs;
2157 static int pv_entry_spare;
2158
2159 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_frees, CTLFLAG_RD, &pv_entry_frees, 0,
2160         "Current number of pv entry frees");
2161 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_allocs, CTLFLAG_RD, &pv_entry_allocs, 0,
2162         "Current number of pv entry allocs");
2163 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_spare, CTLFLAG_RD, &pv_entry_spare, 0,
2164         "Current number of spare pv entries");
2165
2166 static int pmap_collect_inactive, pmap_collect_active;
2167
2168 SYSCTL_INT(_vm_pmap, OID_AUTO, pmap_collect_inactive, CTLFLAG_RD, &pmap_collect_inactive, 0,
2169         "Current number times pmap_collect called on inactive queue");
2170 SYSCTL_INT(_vm_pmap, OID_AUTO, pmap_collect_active, CTLFLAG_RD, &pmap_collect_active, 0,
2171         "Current number times pmap_collect called on active queue");
2172 #endif
2173
2174 /*
2175  * We are in a serious low memory condition.  Resort to
2176  * drastic measures to free some pages so we can allocate
2177  * another pv entry chunk.  This is normally called to
2178  * unmap inactive pages, and if necessary, active pages.
2179  */
2180 static void
2181 pmap_collect(pmap_t locked_pmap, struct vpgqueues *vpq)
2182 {
2183         pd_entry_t *pde;
2184         pmap_t pmap;
2185         pt_entry_t *pte, tpte;
2186         pv_entry_t next_pv, pv;
2187         vm_offset_t va;
2188         vm_page_t m, free;
2189
2190         sched_pin();
2191         TAILQ_FOREACH(m, &vpq->pl, pageq) {
2192                 if ((m->flags & PG_MARKER) != 0 || m->hold_count || m->busy)
2193                         continue;
2194                 TAILQ_FOREACH_SAFE(pv, &m->md.pv_list, pv_list, next_pv) {
2195                         va = pv->pv_va;
2196                         pmap = PV_PMAP(pv);
2197                         /* Avoid deadlock and lock recursion. */
2198                         if (pmap > locked_pmap)
2199                                 PMAP_LOCK(pmap);
2200                         else if (pmap != locked_pmap && !PMAP_TRYLOCK(pmap))
2201                                 continue;
2202                         pmap->pm_stats.resident_count--;
2203                         pde = pmap_pde(pmap, va);
2204                         KASSERT((*pde & PG_PS) == 0, ("pmap_collect: found"
2205                             " a 4mpage in page %p's pv list", m));
2206                         pte = pmap_pte_quick(pmap, va);
2207                         tpte = pte_load_clear(pte);
2208                         KASSERT((tpte & PG_W) == 0,
2209                             ("pmap_collect: wired pte %#jx", (uintmax_t)tpte));
2210                         if (tpte & PG_A)
2211                                 vm_page_aflag_set(m, PGA_REFERENCED);
2212                         if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
2213                                 vm_page_dirty(m);
2214                         free = NULL;
2215                         pmap_unuse_pt(pmap, va, &free);
2216                         pmap_invalidate_page(pmap, va);
2217                         pmap_free_zero_pages(free);
2218                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
2219                         free_pv_entry(pmap, pv);
2220                         if (pmap != locked_pmap)
2221                                 PMAP_UNLOCK(pmap);
2222                 }
2223                 if (TAILQ_EMPTY(&m->md.pv_list) &&
2224                     TAILQ_EMPTY(&pa_to_pvh(VM_PAGE_TO_PHYS(m))->pv_list))
2225                         vm_page_aflag_clear(m, PGA_WRITEABLE);
2226         }
2227         sched_unpin();
2228 }
2229
2230
2231 /*
2232  * free the pv_entry back to the free list
2233  */
2234 static void
2235 free_pv_entry(pmap_t pmap, pv_entry_t pv)
2236 {
2237         vm_page_t m;
2238         struct pv_chunk *pc;
2239         int idx, field, bit;
2240
2241         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2242         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2243         PV_STAT(pv_entry_frees++);
2244         PV_STAT(pv_entry_spare++);
2245         pv_entry_count--;
2246         pc = pv_to_chunk(pv);
2247         idx = pv - &pc->pc_pventry[0];
2248         field = idx / 32;
2249         bit = idx % 32;
2250         pc->pc_map[field] |= 1ul << bit;
2251         /* move to head of list */
2252         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2253         for (idx = 0; idx < _NPCM; idx++)
2254                 if (pc->pc_map[idx] != pc_freemask[idx]) {
2255                         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
2256                         return;
2257                 }
2258         PV_STAT(pv_entry_spare -= _NPCPV);
2259         PV_STAT(pc_chunk_count--);
2260         PV_STAT(pc_chunk_frees++);
2261         /* entire chunk is free, return it */
2262         m = PHYS_TO_VM_PAGE(pmap_kextract((vm_offset_t)pc));
2263         pmap_qremove((vm_offset_t)pc, 1);
2264         vm_page_unwire(m, 0);
2265         vm_page_free(m);
2266         pmap_ptelist_free(&pv_vafree, (vm_offset_t)pc);
2267 }
2268
2269 /*
2270  * get a new pv_entry, allocating a block from the system
2271  * when needed.
2272  */
2273 static pv_entry_t
2274 get_pv_entry(pmap_t pmap, int try)
2275 {
2276         static const struct timeval printinterval = { 60, 0 };
2277         static struct timeval lastprint;
2278         static vm_pindex_t colour;
2279         struct vpgqueues *pq;
2280         int bit, field;
2281         pv_entry_t pv;
2282         struct pv_chunk *pc;
2283         vm_page_t m;
2284
2285         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2286         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2287         PV_STAT(pv_entry_allocs++);
2288         pv_entry_count++;
2289         if (pv_entry_count > pv_entry_high_water)
2290                 if (ratecheck(&lastprint, &printinterval))
2291                         printf("Approaching the limit on PV entries, consider "
2292                             "increasing either the vm.pmap.shpgperproc or the "
2293                             "vm.pmap.pv_entry_max tunable.\n");
2294         pq = NULL;
2295 retry:
2296         pc = TAILQ_FIRST(&pmap->pm_pvchunk);
2297         if (pc != NULL) {
2298                 for (field = 0; field < _NPCM; field++) {
2299                         if (pc->pc_map[field]) {
2300                                 bit = bsfl(pc->pc_map[field]);
2301                                 break;
2302                         }
2303                 }
2304                 if (field < _NPCM) {
2305                         pv = &pc->pc_pventry[field * 32 + bit];
2306                         pc->pc_map[field] &= ~(1ul << bit);
2307                         /* If this was the last item, move it to tail */
2308                         for (field = 0; field < _NPCM; field++)
2309                                 if (pc->pc_map[field] != 0) {
2310                                         PV_STAT(pv_entry_spare--);
2311                                         return (pv);    /* not full, return */
2312                                 }
2313                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2314                         TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
2315                         PV_STAT(pv_entry_spare--);
2316                         return (pv);
2317                 }
2318         }
2319         /*
2320          * Access to the ptelist "pv_vafree" is synchronized by the page
2321          * queues lock.  If "pv_vafree" is currently non-empty, it will
2322          * remain non-empty until pmap_ptelist_alloc() completes.
2323          */
2324         if (pv_vafree == 0 || (m = vm_page_alloc(NULL, colour, (pq ==
2325             &vm_page_queues[PQ_ACTIVE] ? VM_ALLOC_SYSTEM : VM_ALLOC_NORMAL) |
2326             VM_ALLOC_NOOBJ | VM_ALLOC_WIRED)) == NULL) {
2327                 if (try) {
2328                         pv_entry_count--;
2329                         PV_STAT(pc_chunk_tryfail++);
2330                         return (NULL);
2331                 }
2332                 /*
2333                  * Reclaim pv entries: At first, destroy mappings to
2334                  * inactive pages.  After that, if a pv chunk entry
2335                  * is still needed, destroy mappings to active pages.
2336                  */
2337                 if (pq == NULL) {
2338                         PV_STAT(pmap_collect_inactive++);
2339                         pq = &vm_page_queues[PQ_INACTIVE];
2340                 } else if (pq == &vm_page_queues[PQ_INACTIVE]) {
2341                         PV_STAT(pmap_collect_active++);
2342                         pq = &vm_page_queues[PQ_ACTIVE];
2343                 } else
2344                         panic("get_pv_entry: increase vm.pmap.shpgperproc");
2345                 pmap_collect(pmap, pq);
2346                 goto retry;
2347         }
2348         PV_STAT(pc_chunk_count++);
2349         PV_STAT(pc_chunk_allocs++);
2350         colour++;
2351         pc = (struct pv_chunk *)pmap_ptelist_alloc(&pv_vafree);
2352         pmap_qenter((vm_offset_t)pc, &m, 1);
2353         pc->pc_pmap = pmap;
2354         pc->pc_map[0] = pc_freemask[0] & ~1ul;  /* preallocated bit 0 */
2355         for (field = 1; field < _NPCM; field++)
2356                 pc->pc_map[field] = pc_freemask[field];
2357         pv = &pc->pc_pventry[0];
2358         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
2359         PV_STAT(pv_entry_spare += _NPCPV - 1);
2360         return (pv);
2361 }
2362
2363 static __inline pv_entry_t
2364 pmap_pvh_remove(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
2365 {
2366         pv_entry_t pv;
2367
2368         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2369         TAILQ_FOREACH(pv, &pvh->pv_list, pv_list) {
2370                 if (pmap == PV_PMAP(pv) && va == pv->pv_va) {
2371                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_list);
2372                         break;
2373                 }
2374         }
2375         return (pv);
2376 }
2377
2378 static void
2379 pmap_pv_demote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa)
2380 {
2381         struct md_page *pvh;
2382         pv_entry_t pv;
2383         vm_offset_t va_last;
2384         vm_page_t m;
2385
2386         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2387         KASSERT((pa & PDRMASK) == 0,
2388             ("pmap_pv_demote_pde: pa is not 4mpage aligned"));
2389
2390         /*
2391          * Transfer the 4mpage's pv entry for this mapping to the first
2392          * page's pv list.
2393          */
2394         pvh = pa_to_pvh(pa);
2395         va = trunc_4mpage(va);
2396         pv = pmap_pvh_remove(pvh, pmap, va);
2397         KASSERT(pv != NULL, ("pmap_pv_demote_pde: pv not found"));
2398         m = PHYS_TO_VM_PAGE(pa);
2399         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
2400         /* Instantiate the remaining NPTEPG - 1 pv entries. */
2401         va_last = va + NBPDR - PAGE_SIZE;
2402         do {
2403                 m++;
2404                 KASSERT((m->oflags & VPO_UNMANAGED) == 0,
2405                     ("pmap_pv_demote_pde: page %p is not managed", m));
2406                 va += PAGE_SIZE;
2407                 pmap_insert_entry(pmap, va, m);
2408         } while (va < va_last);
2409 }
2410
2411 static void
2412 pmap_pv_promote_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa)
2413 {
2414         struct md_page *pvh;
2415         pv_entry_t pv;
2416         vm_offset_t va_last;
2417         vm_page_t m;
2418
2419         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2420         KASSERT((pa & PDRMASK) == 0,
2421             ("pmap_pv_promote_pde: pa is not 4mpage aligned"));
2422
2423         /*
2424          * Transfer the first page's pv entry for this mapping to the
2425          * 4mpage's pv list.  Aside from avoiding the cost of a call
2426          * to get_pv_entry(), a transfer avoids the possibility that
2427          * get_pv_entry() calls pmap_collect() and that pmap_collect()
2428          * removes one of the mappings that is being promoted.
2429          */
2430         m = PHYS_TO_VM_PAGE(pa);
2431         va = trunc_4mpage(va);
2432         pv = pmap_pvh_remove(&m->md, pmap, va);
2433         KASSERT(pv != NULL, ("pmap_pv_promote_pde: pv not found"));
2434         pvh = pa_to_pvh(pa);
2435         TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_list);
2436         /* Free the remaining NPTEPG - 1 pv entries. */
2437         va_last = va + NBPDR - PAGE_SIZE;
2438         do {
2439                 m++;
2440                 va += PAGE_SIZE;
2441                 pmap_pvh_free(&m->md, pmap, va);
2442         } while (va < va_last);
2443 }
2444
2445 static void
2446 pmap_pvh_free(struct md_page *pvh, pmap_t pmap, vm_offset_t va)
2447 {
2448         pv_entry_t pv;
2449
2450         pv = pmap_pvh_remove(pvh, pmap, va);
2451         KASSERT(pv != NULL, ("pmap_pvh_free: pv not found"));
2452         free_pv_entry(pmap, pv);
2453 }
2454
2455 static void
2456 pmap_remove_entry(pmap_t pmap, vm_page_t m, vm_offset_t va)
2457 {
2458         struct md_page *pvh;
2459
2460         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2461         pmap_pvh_free(&m->md, pmap, va);
2462         if (TAILQ_EMPTY(&m->md.pv_list) && (m->flags & PG_FICTITIOUS) == 0) {
2463                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
2464                 if (TAILQ_EMPTY(&pvh->pv_list))
2465                         vm_page_aflag_clear(m, PGA_WRITEABLE);
2466         }
2467 }
2468
2469 /*
2470  * Create a pv entry for page at pa for
2471  * (pmap, va).
2472  */
2473 static void
2474 pmap_insert_entry(pmap_t pmap, vm_offset_t va, vm_page_t m)
2475 {
2476         pv_entry_t pv;
2477
2478         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2479         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2480         pv = get_pv_entry(pmap, FALSE);
2481         pv->pv_va = va;
2482         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
2483 }
2484
2485 /*
2486  * Conditionally create a pv entry.
2487  */
2488 static boolean_t
2489 pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va, vm_page_t m)
2490 {
2491         pv_entry_t pv;
2492
2493         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2494         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2495         if (pv_entry_count < pv_entry_high_water &&
2496             (pv = get_pv_entry(pmap, TRUE)) != NULL) {
2497                 pv->pv_va = va;
2498                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
2499                 return (TRUE);
2500         } else
2501                 return (FALSE);
2502 }
2503
2504 /*
2505  * Create the pv entries for each of the pages within a superpage.
2506  */
2507 static boolean_t
2508 pmap_pv_insert_pde(pmap_t pmap, vm_offset_t va, vm_paddr_t pa)
2509 {
2510         struct md_page *pvh;
2511         pv_entry_t pv;
2512
2513         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2514         if (pv_entry_count < pv_entry_high_water &&
2515             (pv = get_pv_entry(pmap, TRUE)) != NULL) {
2516                 pv->pv_va = va;
2517                 pvh = pa_to_pvh(pa);
2518                 TAILQ_INSERT_TAIL(&pvh->pv_list, pv, pv_list);
2519                 return (TRUE);
2520         } else
2521                 return (FALSE);
2522 }
2523
2524 /*
2525  * Fills a page table page with mappings to consecutive physical pages.
2526  */
2527 static void
2528 pmap_fill_ptp(pt_entry_t *firstpte, pt_entry_t newpte)
2529 {
2530         pt_entry_t *pte;
2531
2532         for (pte = firstpte; pte < firstpte + NPTEPG; pte++) {
2533                 *pte = newpte;
2534                 newpte += PAGE_SIZE;
2535         }
2536 }
2537
2538 /*
2539  * Tries to demote a 2- or 4MB page mapping.  If demotion fails, the
2540  * 2- or 4MB page mapping is invalidated.
2541  */
2542 static boolean_t
2543 pmap_demote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
2544 {
2545         pd_entry_t newpde, oldpde;
2546         pt_entry_t *firstpte, newpte;
2547         vm_paddr_t mptepa;
2548         vm_page_t free, mpte;
2549
2550         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2551         oldpde = *pde;
2552         KASSERT((oldpde & (PG_PS | PG_V)) == (PG_PS | PG_V),
2553             ("pmap_demote_pde: oldpde is missing PG_PS and/or PG_V"));
2554         mpte = pmap_lookup_pt_page(pmap, va);
2555         if (mpte != NULL)
2556                 pmap_remove_pt_page(pmap, mpte);
2557         else {
2558                 KASSERT((oldpde & PG_W) == 0,
2559                     ("pmap_demote_pde: page table page for a wired mapping"
2560                     " is missing"));
2561
2562                 /*
2563                  * Invalidate the 2- or 4MB page mapping and return
2564                  * "failure" if the mapping was never accessed or the
2565                  * allocation of the new page table page fails.
2566                  */
2567                 if ((oldpde & PG_A) == 0 || (mpte = vm_page_alloc(NULL,
2568                     va >> PDRSHIFT, VM_ALLOC_NOOBJ | VM_ALLOC_NORMAL |
2569                     VM_ALLOC_WIRED)) == NULL) {
2570                         free = NULL;
2571                         pmap_remove_pde(pmap, pde, trunc_4mpage(va), &free);
2572                         pmap_invalidate_page(pmap, trunc_4mpage(va));
2573                         pmap_free_zero_pages(free);
2574                         CTR2(KTR_PMAP, "pmap_demote_pde: failure for va %#x"
2575                             " in pmap %p", va, pmap);
2576                         return (FALSE);
2577                 }
2578                 if (va < VM_MAXUSER_ADDRESS)
2579                         pmap->pm_stats.resident_count++;
2580         }
2581         mptepa = VM_PAGE_TO_PHYS(mpte);
2582
2583         /*
2584          * If the page mapping is in the kernel's address space, then the
2585          * KPTmap can provide access to the page table page.  Otherwise,
2586          * temporarily map the page table page (mpte) into the kernel's
2587          * address space at either PADDR1 or PADDR2.
2588          */
2589         if (va >= KERNBASE)
2590                 firstpte = &KPTmap[i386_btop(trunc_4mpage(va))];
2591         else if (curthread->td_pinned > 0 && mtx_owned(&vm_page_queue_mtx)) {
2592                 if ((*PMAP1 & PG_FRAME) != mptepa) {
2593                         *PMAP1 = mptepa | PG_RW | PG_V | PG_A | PG_M;
2594 #ifdef SMP
2595                         PMAP1cpu = PCPU_GET(cpuid);
2596 #endif
2597                         invlcaddr(PADDR1);
2598                         PMAP1changed++;
2599                 } else
2600 #ifdef SMP
2601                 if (PMAP1cpu != PCPU_GET(cpuid)) {
2602                         PMAP1cpu = PCPU_GET(cpuid);
2603                         invlcaddr(PADDR1);
2604                         PMAP1changedcpu++;
2605                 } else
2606 #endif
2607                         PMAP1unchanged++;
2608                 firstpte = PADDR1;
2609         } else {
2610                 mtx_lock(&PMAP2mutex);
2611                 if ((*PMAP2 & PG_FRAME) != mptepa) {
2612                         *PMAP2 = mptepa | PG_RW | PG_V | PG_A | PG_M;
2613                         pmap_invalidate_page(kernel_pmap, (vm_offset_t)PADDR2);
2614                 }
2615                 firstpte = PADDR2;
2616         }
2617         newpde = mptepa | PG_M | PG_A | (oldpde & PG_U) | PG_RW | PG_V;
2618         KASSERT((oldpde & PG_A) != 0,
2619             ("pmap_demote_pde: oldpde is missing PG_A"));
2620         KASSERT((oldpde & (PG_M | PG_RW)) != PG_RW,
2621             ("pmap_demote_pde: oldpde is missing PG_M"));
2622         newpte = oldpde & ~PG_PS;
2623         if ((newpte & PG_PDE_PAT) != 0)
2624                 newpte ^= PG_PDE_PAT | PG_PTE_PAT;
2625
2626         /*
2627          * If the page table page is new, initialize it.
2628          */
2629         if (mpte->wire_count == 1) {
2630                 mpte->wire_count = NPTEPG;
2631                 pmap_fill_ptp(firstpte, newpte);
2632         }
2633         KASSERT((*firstpte & PG_FRAME) == (newpte & PG_FRAME),
2634             ("pmap_demote_pde: firstpte and newpte map different physical"
2635             " addresses"));
2636
2637         /*
2638          * If the mapping has changed attributes, update the page table
2639          * entries.
2640          */
2641         if ((*firstpte & PG_PTE_PROMOTE) != (newpte & PG_PTE_PROMOTE))
2642                 pmap_fill_ptp(firstpte, newpte);
2643
2644         /*
2645          * Demote the mapping.  This pmap is locked.  The old PDE has
2646          * PG_A set.  If the old PDE has PG_RW set, it also has PG_M
2647          * set.  Thus, there is no danger of a race with another
2648          * processor changing the setting of PG_A and/or PG_M between
2649          * the read above and the store below.
2650          */
2651         if (workaround_erratum383)
2652                 pmap_update_pde(pmap, va, pde, newpde);
2653         else if (pmap == kernel_pmap)
2654                 pmap_kenter_pde(va, newpde);
2655         else
2656                 pde_store(pde, newpde);
2657         if (firstpte == PADDR2)
2658                 mtx_unlock(&PMAP2mutex);
2659
2660         /*
2661          * Invalidate the recursive mapping of the page table page.
2662          */
2663         pmap_invalidate_page(pmap, (vm_offset_t)vtopte(va));
2664
2665         /*
2666          * Demote the pv entry.  This depends on the earlier demotion
2667          * of the mapping.  Specifically, the (re)creation of a per-
2668          * page pv entry might trigger the execution of pmap_collect(),
2669          * which might reclaim a newly (re)created per-page pv entry
2670          * and destroy the associated mapping.  In order to destroy
2671          * the mapping, the PDE must have already changed from mapping
2672          * the 2mpage to referencing the page table page.
2673          */
2674         if ((oldpde & PG_MANAGED) != 0)
2675                 pmap_pv_demote_pde(pmap, va, oldpde & PG_PS_FRAME);
2676
2677         pmap_pde_demotions++;
2678         CTR2(KTR_PMAP, "pmap_demote_pde: success for va %#x"
2679             " in pmap %p", va, pmap);
2680         return (TRUE);
2681 }
2682
2683 /*
2684  * pmap_remove_pde: do the things to unmap a superpage in a process
2685  */
2686 static void
2687 pmap_remove_pde(pmap_t pmap, pd_entry_t *pdq, vm_offset_t sva,
2688     vm_page_t *free)
2689 {
2690         struct md_page *pvh;
2691         pd_entry_t oldpde;
2692         vm_offset_t eva, va;
2693         vm_page_t m, mpte;
2694
2695         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2696         KASSERT((sva & PDRMASK) == 0,
2697             ("pmap_remove_pde: sva is not 4mpage aligned"));
2698         oldpde = pte_load_clear(pdq);
2699         if (oldpde & PG_W)
2700                 pmap->pm_stats.wired_count -= NBPDR / PAGE_SIZE;
2701
2702         /*
2703          * Machines that don't support invlpg, also don't support
2704          * PG_G.
2705          */
2706         if (oldpde & PG_G)
2707                 pmap_invalidate_page(kernel_pmap, sva);
2708         pmap->pm_stats.resident_count -= NBPDR / PAGE_SIZE;
2709         if (oldpde & PG_MANAGED) {
2710                 pvh = pa_to_pvh(oldpde & PG_PS_FRAME);
2711                 pmap_pvh_free(pvh, pmap, sva);
2712                 eva = sva + NBPDR;
2713                 for (va = sva, m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
2714                     va < eva; va += PAGE_SIZE, m++) {
2715                         if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW))
2716                                 vm_page_dirty(m);
2717                         if (oldpde & PG_A)
2718                                 vm_page_aflag_set(m, PGA_REFERENCED);
2719                         if (TAILQ_EMPTY(&m->md.pv_list) &&
2720                             TAILQ_EMPTY(&pvh->pv_list))
2721                                 vm_page_aflag_clear(m, PGA_WRITEABLE);
2722                 }
2723         }
2724         if (pmap == kernel_pmap) {
2725                 if (!pmap_demote_pde(pmap, pdq, sva))
2726                         panic("pmap_remove_pde: failed demotion");
2727         } else {
2728                 mpte = pmap_lookup_pt_page(pmap, sva);
2729                 if (mpte != NULL) {
2730                         pmap_remove_pt_page(pmap, mpte);
2731                         pmap->pm_stats.resident_count--;
2732                         KASSERT(mpte->wire_count == NPTEPG,
2733                             ("pmap_remove_pde: pte page wire count error"));
2734                         mpte->wire_count = 0;
2735                         pmap_add_delayed_free_list(mpte, free, FALSE);
2736                         atomic_subtract_int(&cnt.v_wire_count, 1);
2737                 }
2738         }
2739 }
2740
2741 /*
2742  * pmap_remove_pte: do the things to unmap a page in a process
2743  */
2744 static int
2745 pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t va, vm_page_t *free)
2746 {
2747         pt_entry_t oldpte;
2748         vm_page_t m;
2749
2750         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2751         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2752         oldpte = pte_load_clear(ptq);
2753         if (oldpte & PG_W)
2754                 pmap->pm_stats.wired_count -= 1;
2755         /*
2756          * Machines that don't support invlpg, also don't support
2757          * PG_G.
2758          */
2759         if (oldpte & PG_G)
2760                 pmap_invalidate_page(kernel_pmap, va);
2761         pmap->pm_stats.resident_count -= 1;
2762         if (oldpte & PG_MANAGED) {
2763                 m = PHYS_TO_VM_PAGE(oldpte & PG_FRAME);
2764                 if ((oldpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
2765                         vm_page_dirty(m);
2766                 if (oldpte & PG_A)
2767                         vm_page_aflag_set(m, PGA_REFERENCED);
2768                 pmap_remove_entry(pmap, m, va);
2769         }
2770         return (pmap_unuse_pt(pmap, va, free));
2771 }
2772
2773 /*
2774  * Remove a single page from a process address space
2775  */
2776 static void
2777 pmap_remove_page(pmap_t pmap, vm_offset_t va, vm_page_t *free)
2778 {
2779         pt_entry_t *pte;
2780
2781         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2782         KASSERT(curthread->td_pinned > 0, ("curthread not pinned"));
2783         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2784         if ((pte = pmap_pte_quick(pmap, va)) == NULL || *pte == 0)
2785                 return;
2786         pmap_remove_pte(pmap, pte, va, free);
2787         pmap_invalidate_page(pmap, va);
2788 }
2789
2790 /*
2791  *      Remove the given range of addresses from the specified map.
2792  *
2793  *      It is assumed that the start and end are properly
2794  *      rounded to the page size.
2795  */
2796 void
2797 pmap_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
2798 {
2799         vm_offset_t pdnxt;
2800         pd_entry_t ptpaddr;
2801         pt_entry_t *pte;
2802         vm_page_t free = NULL;
2803         int anyvalid;
2804
2805         /*
2806          * Perform an unsynchronized read.  This is, however, safe.
2807          */
2808         if (pmap->pm_stats.resident_count == 0)
2809                 return;
2810
2811         anyvalid = 0;
2812
2813         vm_page_lock_queues();
2814         sched_pin();
2815         PMAP_LOCK(pmap);
2816
2817         /*
2818          * special handling of removing one page.  a very
2819          * common operation and easy to short circuit some
2820          * code.
2821          */
2822         if ((sva + PAGE_SIZE == eva) &&
2823             ((pmap->pm_pdir[(sva >> PDRSHIFT)] & PG_PS) == 0)) {
2824                 pmap_remove_page(pmap, sva, &free);
2825                 goto out;
2826         }
2827
2828         for (; sva < eva; sva = pdnxt) {
2829                 u_int pdirindex;
2830
2831                 /*
2832                  * Calculate index for next page table.
2833                  */
2834                 pdnxt = (sva + NBPDR) & ~PDRMASK;
2835                 if (pdnxt < sva)
2836                         pdnxt = eva;
2837                 if (pmap->pm_stats.resident_count == 0)
2838                         break;
2839
2840                 pdirindex = sva >> PDRSHIFT;
2841                 ptpaddr = pmap->pm_pdir[pdirindex];
2842
2843                 /*
2844                  * Weed out invalid mappings. Note: we assume that the page
2845                  * directory table is always allocated, and in kernel virtual.
2846                  */
2847                 if (ptpaddr == 0)
2848                         continue;
2849
2850                 /*
2851                  * Check for large page.
2852                  */
2853                 if ((ptpaddr & PG_PS) != 0) {
2854                         /*
2855                          * Are we removing the entire large page?  If not,
2856                          * demote the mapping and fall through.
2857                          */
2858                         if (sva + NBPDR == pdnxt && eva >= pdnxt) {
2859                                 /*
2860                                  * The TLB entry for a PG_G mapping is
2861                                  * invalidated by pmap_remove_pde().
2862                                  */
2863                                 if ((ptpaddr & PG_G) == 0)
2864                                         anyvalid = 1;
2865                                 pmap_remove_pde(pmap,
2866                                     &pmap->pm_pdir[pdirindex], sva, &free);
2867                                 continue;
2868                         } else if (!pmap_demote_pde(pmap,
2869                             &pmap->pm_pdir[pdirindex], sva)) {
2870                                 /* The large page mapping was destroyed. */
2871                                 continue;
2872                         }
2873                 }
2874
2875                 /*
2876                  * Limit our scan to either the end of the va represented
2877                  * by the current page table page, or to the end of the
2878                  * range being removed.
2879                  */
2880                 if (pdnxt > eva)
2881                         pdnxt = eva;
2882
2883                 for (pte = pmap_pte_quick(pmap, sva); sva != pdnxt; pte++,
2884                     sva += PAGE_SIZE) {
2885                         if (*pte == 0)
2886                                 continue;
2887
2888                         /*
2889                          * The TLB entry for a PG_G mapping is invalidated
2890                          * by pmap_remove_pte().
2891                          */
2892                         if ((*pte & PG_G) == 0)
2893                                 anyvalid = 1;
2894                         if (pmap_remove_pte(pmap, pte, sva, &free))
2895                                 break;
2896                 }
2897         }
2898 out:
2899         sched_unpin();
2900         if (anyvalid)
2901                 pmap_invalidate_all(pmap);
2902         vm_page_unlock_queues();
2903         PMAP_UNLOCK(pmap);
2904         pmap_free_zero_pages(free);
2905 }
2906
2907 /*
2908  *      Routine:        pmap_remove_all
2909  *      Function:
2910  *              Removes this physical page from
2911  *              all physical maps in which it resides.
2912  *              Reflects back modify bits to the pager.
2913  *
2914  *      Notes:
2915  *              Original versions of this routine were very
2916  *              inefficient because they iteratively called
2917  *              pmap_remove (slow...)
2918  */
2919
2920 void
2921 pmap_remove_all(vm_page_t m)
2922 {
2923         struct md_page *pvh;
2924         pv_entry_t pv;
2925         pmap_t pmap;
2926         pt_entry_t *pte, tpte;
2927         pd_entry_t *pde;
2928         vm_offset_t va;
2929         vm_page_t free;
2930
2931         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
2932             ("pmap_remove_all: page %p is not managed", m));
2933         free = NULL;
2934         vm_page_lock_queues();
2935         sched_pin();
2936         if ((m->flags & PG_FICTITIOUS) != 0)
2937                 goto small_mappings;
2938         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
2939         while ((pv = TAILQ_FIRST(&pvh->pv_list)) != NULL) {
2940                 va = pv->pv_va;
2941                 pmap = PV_PMAP(pv);
2942                 PMAP_LOCK(pmap);
2943                 pde = pmap_pde(pmap, va);
2944                 (void)pmap_demote_pde(pmap, pde, va);
2945                 PMAP_UNLOCK(pmap);
2946         }
2947 small_mappings:
2948         while ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
2949                 pmap = PV_PMAP(pv);
2950                 PMAP_LOCK(pmap);
2951                 pmap->pm_stats.resident_count--;
2952                 pde = pmap_pde(pmap, pv->pv_va);
2953                 KASSERT((*pde & PG_PS) == 0, ("pmap_remove_all: found"
2954                     " a 4mpage in page %p's pv list", m));
2955                 pte = pmap_pte_quick(pmap, pv->pv_va);
2956                 tpte = pte_load_clear(pte);
2957                 if (tpte & PG_W)
2958                         pmap->pm_stats.wired_count--;
2959                 if (tpte & PG_A)
2960                         vm_page_aflag_set(m, PGA_REFERENCED);
2961
2962                 /*
2963                  * Update the vm_page_t clean and reference bits.
2964                  */
2965                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW))
2966                         vm_page_dirty(m);
2967                 pmap_unuse_pt(pmap, pv->pv_va, &free);
2968                 pmap_invalidate_page(pmap, pv->pv_va);
2969                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
2970                 free_pv_entry(pmap, pv);
2971                 PMAP_UNLOCK(pmap);
2972         }
2973         vm_page_aflag_clear(m, PGA_WRITEABLE);
2974         sched_unpin();
2975         vm_page_unlock_queues();
2976         pmap_free_zero_pages(free);
2977 }
2978
2979 /*
2980  * pmap_protect_pde: do the things to protect a 4mpage in a process
2981  */
2982 static boolean_t
2983 pmap_protect_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t sva, vm_prot_t prot)
2984 {
2985         pd_entry_t newpde, oldpde;
2986         vm_offset_t eva, va;
2987         vm_page_t m;
2988         boolean_t anychanged;
2989
2990         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2991         KASSERT((sva & PDRMASK) == 0,
2992             ("pmap_protect_pde: sva is not 4mpage aligned"));
2993         anychanged = FALSE;
2994 retry:
2995         oldpde = newpde = *pde;
2996         if (oldpde & PG_MANAGED) {
2997                 eva = sva + NBPDR;
2998                 for (va = sva, m = PHYS_TO_VM_PAGE(oldpde & PG_PS_FRAME);
2999                     va < eva; va += PAGE_SIZE, m++)
3000                         if ((oldpde & (PG_M | PG_RW)) == (PG_M | PG_RW))
3001                                 vm_page_dirty(m);
3002         }
3003         if ((prot & VM_PROT_WRITE) == 0)
3004                 newpde &= ~(PG_RW | PG_M);
3005 #ifdef PAE
3006         if ((prot & VM_PROT_EXECUTE) == 0)
3007                 newpde |= pg_nx;
3008 #endif
3009         if (newpde != oldpde) {
3010                 if (!pde_cmpset(pde, oldpde, newpde))
3011                         goto retry;
3012                 if (oldpde & PG_G)
3013                         pmap_invalidate_page(pmap, sva);
3014                 else
3015                         anychanged = TRUE;
3016         }
3017         return (anychanged);
3018 }
3019
3020 /*
3021  *      Set the physical protection on the
3022  *      specified range of this map as requested.
3023  */
3024 void
3025 pmap_protect(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, vm_prot_t prot)
3026 {
3027         vm_offset_t pdnxt;
3028         pd_entry_t ptpaddr;
3029         pt_entry_t *pte;
3030         int anychanged;
3031
3032         if ((prot & VM_PROT_READ) == VM_PROT_NONE) {
3033                 pmap_remove(pmap, sva, eva);
3034                 return;
3035         }
3036
3037 #ifdef PAE
3038         if ((prot & (VM_PROT_WRITE|VM_PROT_EXECUTE)) ==
3039             (VM_PROT_WRITE|VM_PROT_EXECUTE))
3040                 return;
3041 #else
3042         if (prot & VM_PROT_WRITE)
3043                 return;
3044 #endif
3045
3046         anychanged = 0;
3047
3048         vm_page_lock_queues();
3049         sched_pin();
3050         PMAP_LOCK(pmap);
3051         for (; sva < eva; sva = pdnxt) {
3052                 pt_entry_t obits, pbits;
3053                 u_int pdirindex;
3054
3055                 pdnxt = (sva + NBPDR) & ~PDRMASK;
3056                 if (pdnxt < sva)
3057                         pdnxt = eva;
3058
3059                 pdirindex = sva >> PDRSHIFT;
3060                 ptpaddr = pmap->pm_pdir[pdirindex];
3061
3062                 /*
3063                  * Weed out invalid mappings. Note: we assume that the page
3064                  * directory table is always allocated, and in kernel virtual.
3065                  */
3066                 if (ptpaddr == 0)
3067                         continue;
3068
3069                 /*
3070                  * Check for large page.
3071                  */
3072                 if ((ptpaddr & PG_PS) != 0) {
3073                         /*
3074                          * Are we protecting the entire large page?  If not,
3075                          * demote the mapping and fall through.
3076                          */
3077                         if (sva + NBPDR == pdnxt && eva >= pdnxt) {
3078                                 /*
3079                                  * The TLB entry for a PG_G mapping is
3080                                  * invalidated by pmap_protect_pde().
3081                                  */
3082                                 if (pmap_protect_pde(pmap,
3083                                     &pmap->pm_pdir[pdirindex], sva, prot))
3084                                         anychanged = 1;
3085                                 continue;
3086                         } else if (!pmap_demote_pde(pmap,
3087                             &pmap->pm_pdir[pdirindex], sva)) {
3088                                 /* The large page mapping was destroyed. */
3089                                 continue;
3090                         }
3091                 }
3092
3093                 if (pdnxt > eva)
3094                         pdnxt = eva;
3095
3096                 for (pte = pmap_pte_quick(pmap, sva); sva != pdnxt; pte++,
3097                     sva += PAGE_SIZE) {
3098                         vm_page_t m;
3099
3100 retry:
3101                         /*
3102                          * Regardless of whether a pte is 32 or 64 bits in
3103                          * size, PG_RW, PG_A, and PG_M are among the least
3104                          * significant 32 bits.
3105                          */
3106                         obits = pbits = *pte;
3107                         if ((pbits & PG_V) == 0)
3108                                 continue;
3109
3110                         if ((prot & VM_PROT_WRITE) == 0) {
3111                                 if ((pbits & (PG_MANAGED | PG_M | PG_RW)) ==
3112                                     (PG_MANAGED | PG_M | PG_RW)) {
3113                                         m = PHYS_TO_VM_PAGE(pbits & PG_FRAME);
3114                                         vm_page_dirty(m);
3115                                 }
3116                                 pbits &= ~(PG_RW | PG_M);
3117                         }
3118 #ifdef PAE
3119                         if ((prot & VM_PROT_EXECUTE) == 0)
3120                                 pbits |= pg_nx;
3121 #endif
3122
3123                         if (pbits != obits) {
3124 #ifdef PAE
3125                                 if (!atomic_cmpset_64(pte, obits, pbits))
3126                                         goto retry;
3127 #else
3128                                 if (!atomic_cmpset_int((u_int *)pte, obits,
3129                                     pbits))
3130                                         goto retry;
3131 #endif
3132                                 if (obits & PG_G)
3133                                         pmap_invalidate_page(pmap, sva);
3134                                 else
3135                                         anychanged = 1;
3136                         }
3137                 }
3138         }
3139         sched_unpin();
3140         if (anychanged)
3141                 pmap_invalidate_all(pmap);
3142         vm_page_unlock_queues();
3143         PMAP_UNLOCK(pmap);
3144 }
3145
3146 /*
3147  * Tries to promote the 512 or 1024, contiguous 4KB page mappings that are
3148  * within a single page table page (PTP) to a single 2- or 4MB page mapping.
3149  * For promotion to occur, two conditions must be met: (1) the 4KB page
3150  * mappings must map aligned, contiguous physical memory and (2) the 4KB page
3151  * mappings must have identical characteristics.
3152  *
3153  * Managed (PG_MANAGED) mappings within the kernel address space are not
3154  * promoted.  The reason is that kernel PDEs are replicated in each pmap but
3155  * pmap_clear_ptes() and pmap_ts_referenced() only read the PDE from the kernel
3156  * pmap.
3157  */
3158 static void
3159 pmap_promote_pde(pmap_t pmap, pd_entry_t *pde, vm_offset_t va)
3160 {
3161         pd_entry_t newpde;
3162         pt_entry_t *firstpte, oldpte, pa, *pte;
3163         vm_offset_t oldpteva;
3164         vm_page_t mpte;
3165
3166         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3167
3168         /*
3169          * Examine the first PTE in the specified PTP.  Abort if this PTE is
3170          * either invalid, unused, or does not map the first 4KB physical page
3171          * within a 2- or 4MB page.
3172          */
3173         firstpte = pmap_pte_quick(pmap, trunc_4mpage(va));
3174 setpde:
3175         newpde = *firstpte;
3176         if ((newpde & ((PG_FRAME & PDRMASK) | PG_A | PG_V)) != (PG_A | PG_V)) {
3177                 pmap_pde_p_failures++;
3178                 CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#x"
3179                     " in pmap %p", va, pmap);
3180                 return;
3181         }
3182         if ((*firstpte & PG_MANAGED) != 0 && pmap == kernel_pmap) {
3183                 pmap_pde_p_failures++;
3184                 CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#x"
3185                     " in pmap %p", va, pmap);
3186                 return;
3187         }
3188         if ((newpde & (PG_M | PG_RW)) == PG_RW) {
3189                 /*
3190                  * When PG_M is already clear, PG_RW can be cleared without
3191                  * a TLB invalidation.
3192                  */
3193                 if (!atomic_cmpset_int((u_int *)firstpte, newpde, newpde &
3194                     ~PG_RW))
3195                         goto setpde;
3196                 newpde &= ~PG_RW;
3197         }
3198
3199         /*
3200          * Examine each of the other PTEs in the specified PTP.  Abort if this
3201          * PTE maps an unexpected 4KB physical page or does not have identical
3202          * characteristics to the first PTE.
3203          */
3204         pa = (newpde & (PG_PS_FRAME | PG_A | PG_V)) + NBPDR - PAGE_SIZE;
3205         for (pte = firstpte + NPTEPG - 1; pte > firstpte; pte--) {
3206 setpte:
3207                 oldpte = *pte;
3208                 if ((oldpte & (PG_FRAME | PG_A | PG_V)) != pa) {
3209                         pmap_pde_p_failures++;
3210                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#x"
3211                             " in pmap %p", va, pmap);
3212                         return;
3213                 }
3214                 if ((oldpte & (PG_M | PG_RW)) == PG_RW) {
3215                         /*
3216                          * When PG_M is already clear, PG_RW can be cleared
3217                          * without a TLB invalidation.
3218                          */
3219                         if (!atomic_cmpset_int((u_int *)pte, oldpte,
3220                             oldpte & ~PG_RW))
3221                                 goto setpte;
3222                         oldpte &= ~PG_RW;
3223                         oldpteva = (oldpte & PG_FRAME & PDRMASK) |
3224                             (va & ~PDRMASK);
3225                         CTR2(KTR_PMAP, "pmap_promote_pde: protect for va %#x"
3226                             " in pmap %p", oldpteva, pmap);
3227                 }
3228                 if ((oldpte & PG_PTE_PROMOTE) != (newpde & PG_PTE_PROMOTE)) {
3229                         pmap_pde_p_failures++;
3230                         CTR2(KTR_PMAP, "pmap_promote_pde: failure for va %#x"
3231                             " in pmap %p", va, pmap);
3232                         return;
3233                 }
3234                 pa -= PAGE_SIZE;
3235         }
3236
3237         /*
3238          * Save the page table page in its current state until the PDE
3239          * mapping the superpage is demoted by pmap_demote_pde() or
3240          * destroyed by pmap_remove_pde().
3241          */
3242         mpte = PHYS_TO_VM_PAGE(*pde & PG_FRAME);
3243         KASSERT(mpte >= vm_page_array &&
3244             mpte < &vm_page_array[vm_page_array_size],
3245             ("pmap_promote_pde: page table page is out of range"));
3246         KASSERT(mpte->pindex == va >> PDRSHIFT,
3247             ("pmap_promote_pde: page table page's pindex is wrong"));
3248         pmap_insert_pt_page(pmap, mpte);
3249
3250         /*
3251          * Promote the pv entries.
3252          */
3253         if ((newpde & PG_MANAGED) != 0)
3254                 pmap_pv_promote_pde(pmap, va, newpde & PG_PS_FRAME);
3255
3256         /*
3257          * Propagate the PAT index to its proper position.
3258          */
3259         if ((newpde & PG_PTE_PAT) != 0)
3260                 newpde ^= PG_PDE_PAT | PG_PTE_PAT;
3261
3262         /*
3263          * Map the superpage.
3264          */
3265         if (workaround_erratum383)
3266                 pmap_update_pde(pmap, va, pde, PG_PS | newpde);
3267         else if (pmap == kernel_pmap)
3268                 pmap_kenter_pde(va, PG_PS | newpde);
3269         else
3270                 pde_store(pde, PG_PS | newpde);
3271
3272         pmap_pde_promotions++;
3273         CTR2(KTR_PMAP, "pmap_promote_pde: success for va %#x"
3274             " in pmap %p", va, pmap);
3275 }
3276
3277 /*
3278  *      Insert the given physical page (p) at
3279  *      the specified virtual address (v) in the
3280  *      target physical map with the protection requested.
3281  *
3282  *      If specified, the page will be wired down, meaning
3283  *      that the related pte can not be reclaimed.
3284  *
3285  *      NB:  This is the only routine which MAY NOT lazy-evaluate
3286  *      or lose information.  That is, this routine must actually
3287  *      insert this page into the given map NOW.
3288  */
3289 void
3290 pmap_enter(pmap_t pmap, vm_offset_t va, vm_prot_t access, vm_page_t m,
3291     vm_prot_t prot, boolean_t wired)
3292 {
3293         pd_entry_t *pde;
3294         pt_entry_t *pte;
3295         pt_entry_t newpte, origpte;
3296         pv_entry_t pv;
3297         vm_paddr_t opa, pa;
3298         vm_page_t mpte, om;
3299         boolean_t invlva;
3300
3301         va = trunc_page(va);
3302         KASSERT(va <= VM_MAX_KERNEL_ADDRESS, ("pmap_enter: toobig"));
3303         KASSERT(va < UPT_MIN_ADDRESS || va >= UPT_MAX_ADDRESS,
3304             ("pmap_enter: invalid to pmap_enter page table pages (va: 0x%x)",
3305             va));
3306         KASSERT((m->oflags & (VPO_UNMANAGED | VPO_BUSY)) != 0 ||
3307             VM_OBJECT_LOCKED(m->object),
3308             ("pmap_enter: page %p is not busy", m));
3309
3310         mpte = NULL;
3311
3312         vm_page_lock_queues();
3313         PMAP_LOCK(pmap);
3314         sched_pin();
3315
3316         /*
3317          * In the case that a page table page is not
3318          * resident, we are creating it here.
3319          */
3320         if (va < VM_MAXUSER_ADDRESS) {
3321                 mpte = pmap_allocpte(pmap, va, M_WAITOK);
3322         }
3323
3324         pde = pmap_pde(pmap, va);
3325         if ((*pde & PG_PS) != 0)
3326                 panic("pmap_enter: attempted pmap_enter on 4MB page");
3327         pte = pmap_pte_quick(pmap, va);
3328
3329         /*
3330          * Page Directory table entry not valid, we need a new PT page
3331          */
3332         if (pte == NULL) {
3333                 panic("pmap_enter: invalid page directory pdir=%#jx, va=%#x",
3334                         (uintmax_t)pmap->pm_pdir[PTDPTDI], va);
3335         }
3336
3337         pa = VM_PAGE_TO_PHYS(m);
3338         om = NULL;
3339         origpte = *pte;
3340         opa = origpte & PG_FRAME;
3341
3342         /*
3343          * Mapping has not changed, must be protection or wiring change.
3344          */
3345         if (origpte && (opa == pa)) {
3346                 /*
3347                  * Wiring change, just update stats. We don't worry about
3348                  * wiring PT pages as they remain resident as long as there
3349                  * are valid mappings in them. Hence, if a user page is wired,
3350                  * the PT page will be also.
3351                  */
3352                 if (wired && ((origpte & PG_W) == 0))
3353                         pmap->pm_stats.wired_count++;
3354                 else if (!wired && (origpte & PG_W))
3355                         pmap->pm_stats.wired_count--;
3356
3357                 /*
3358                  * Remove extra pte reference
3359                  */
3360                 if (mpte)
3361                         mpte->wire_count--;
3362
3363                 if (origpte & PG_MANAGED) {
3364                         om = m;
3365                         pa |= PG_MANAGED;
3366                 }
3367                 goto validate;
3368         }
3369
3370         pv = NULL;
3371
3372         /*
3373          * Mapping has changed, invalidate old range and fall through to
3374          * handle validating new mapping.
3375          */
3376         if (opa) {
3377                 if (origpte & PG_W)
3378                         pmap->pm_stats.wired_count--;
3379                 if (origpte & PG_MANAGED) {
3380                         om = PHYS_TO_VM_PAGE(opa);
3381                         pv = pmap_pvh_remove(&om->md, pmap, va);
3382                 }
3383                 if (mpte != NULL) {
3384                         mpte->wire_count--;
3385                         KASSERT(mpte->wire_count > 0,
3386                             ("pmap_enter: missing reference to page table page,"
3387                              " va: 0x%x", va));
3388                 }
3389         } else
3390                 pmap->pm_stats.resident_count++;
3391
3392         /*
3393          * Enter on the PV list if part of our managed memory.
3394          */
3395         if ((m->oflags & VPO_UNMANAGED) == 0) {
3396                 KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva,
3397                     ("pmap_enter: managed mapping within the clean submap"));
3398                 if (pv == NULL)
3399                         pv = get_pv_entry(pmap, FALSE);
3400                 pv->pv_va = va;
3401                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
3402                 pa |= PG_MANAGED;
3403         } else if (pv != NULL)
3404                 free_pv_entry(pmap, pv);
3405
3406         /*
3407          * Increment counters
3408          */
3409         if (wired)
3410                 pmap->pm_stats.wired_count++;
3411
3412 validate:
3413         /*
3414          * Now validate mapping with desired protection/wiring.
3415          */
3416         newpte = (pt_entry_t)(pa | pmap_cache_bits(m->md.pat_mode, 0) | PG_V);
3417         if ((prot & VM_PROT_WRITE) != 0) {
3418                 newpte |= PG_RW;
3419                 if ((newpte & PG_MANAGED) != 0)
3420                         vm_page_aflag_set(m, PGA_WRITEABLE);
3421         }
3422 #ifdef PAE
3423         if ((prot & VM_PROT_EXECUTE) == 0)
3424                 newpte |= pg_nx;
3425 #endif
3426         if (wired)
3427                 newpte |= PG_W;
3428         if (va < VM_MAXUSER_ADDRESS)
3429                 newpte |= PG_U;
3430         if (pmap == kernel_pmap)
3431                 newpte |= pgeflag;
3432
3433         /*
3434          * if the mapping or permission bits are different, we need
3435          * to update the pte.
3436          */
3437         if ((origpte & ~(PG_M|PG_A)) != newpte) {
3438                 newpte |= PG_A;
3439                 if ((access & VM_PROT_WRITE) != 0)
3440                         newpte |= PG_M;
3441                 if (origpte & PG_V) {
3442                         invlva = FALSE;
3443                         origpte = pte_load_store(pte, newpte);
3444                         if (origpte & PG_A) {
3445                                 if (origpte & PG_MANAGED)
3446                                         vm_page_aflag_set(om, PGA_REFERENCED);
3447                                 if (opa != VM_PAGE_TO_PHYS(m))
3448                                         invlva = TRUE;
3449 #ifdef PAE
3450                                 if ((origpte & PG_NX) == 0 &&
3451                                     (newpte & PG_NX) != 0)
3452                                         invlva = TRUE;
3453 #endif
3454                         }
3455                         if ((origpte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
3456                                 if ((origpte & PG_MANAGED) != 0)
3457                                         vm_page_dirty(om);
3458                                 if ((prot & VM_PROT_WRITE) == 0)
3459                                         invlva = TRUE;
3460                         }
3461                         if ((origpte & PG_MANAGED) != 0 &&
3462                             TAILQ_EMPTY(&om->md.pv_list) &&
3463                             ((om->flags & PG_FICTITIOUS) != 0 ||
3464                             TAILQ_EMPTY(&pa_to_pvh(opa)->pv_list)))
3465                                 vm_page_aflag_clear(om, PGA_WRITEABLE);
3466                         if (invlva)
3467                                 pmap_invalidate_page(pmap, va);
3468                 } else
3469                         pte_store(pte, newpte);
3470         }
3471
3472         /*
3473          * If both the page table page and the reservation are fully
3474          * populated, then attempt promotion.
3475          */
3476         if ((mpte == NULL || mpte->wire_count == NPTEPG) &&
3477             pg_ps_enabled && (m->flags & PG_FICTITIOUS) == 0 &&
3478             vm_reserv_level_iffullpop(m) == 0)
3479                 pmap_promote_pde(pmap, pde, va);
3480
3481         sched_unpin();
3482         vm_page_unlock_queues();
3483         PMAP_UNLOCK(pmap);
3484 }
3485
3486 /*
3487  * Tries to create a 2- or 4MB page mapping.  Returns TRUE if successful and
3488  * FALSE otherwise.  Fails if (1) a page table page cannot be allocated without
3489  * blocking, (2) a mapping already exists at the specified virtual address, or
3490  * (3) a pv entry cannot be allocated without reclaiming another pv entry.
3491  */
3492 static boolean_t
3493 pmap_enter_pde(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot)
3494 {
3495         pd_entry_t *pde, newpde;
3496
3497         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3498         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3499         pde = pmap_pde(pmap, va);
3500         if (*pde != 0) {
3501                 CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
3502                     " in pmap %p", va, pmap);
3503                 return (FALSE);
3504         }
3505         newpde = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(m->md.pat_mode, 1) |
3506             PG_PS | PG_V;
3507         if ((m->oflags & VPO_UNMANAGED) == 0) {
3508                 newpde |= PG_MANAGED;
3509
3510                 /*
3511                  * Abort this mapping if its PV entry could not be created.
3512                  */
3513                 if (!pmap_pv_insert_pde(pmap, va, VM_PAGE_TO_PHYS(m))) {
3514                         CTR2(KTR_PMAP, "pmap_enter_pde: failure for va %#lx"
3515                             " in pmap %p", va, pmap);
3516                         return (FALSE);
3517                 }
3518         }
3519 #ifdef PAE
3520         if ((prot & VM_PROT_EXECUTE) == 0)
3521                 newpde |= pg_nx;
3522 #endif
3523         if (va < VM_MAXUSER_ADDRESS)
3524                 newpde |= PG_U;
3525
3526         /*
3527          * Increment counters.
3528          */
3529         pmap->pm_stats.resident_count += NBPDR / PAGE_SIZE;
3530
3531         /*
3532          * Map the superpage.
3533          */
3534         pde_store(pde, newpde);
3535
3536         pmap_pde_mappings++;
3537         CTR2(KTR_PMAP, "pmap_enter_pde: success for va %#lx"
3538             " in pmap %p", va, pmap);
3539         return (TRUE);
3540 }
3541
3542 /*
3543  * Maps a sequence of resident pages belonging to the same object.
3544  * The sequence begins with the given page m_start.  This page is
3545  * mapped at the given virtual address start.  Each subsequent page is
3546  * mapped at a virtual address that is offset from start by the same
3547  * amount as the page is offset from m_start within the object.  The
3548  * last page in the sequence is the page with the largest offset from
3549  * m_start that can be mapped at a virtual address less than the given
3550  * virtual address end.  Not every virtual page between start and end
3551  * is mapped; only those for which a resident page exists with the
3552  * corresponding offset from m_start are mapped.
3553  */
3554 void
3555 pmap_enter_object(pmap_t pmap, vm_offset_t start, vm_offset_t end,
3556     vm_page_t m_start, vm_prot_t prot)
3557 {
3558         vm_offset_t va;
3559         vm_page_t m, mpte;
3560         vm_pindex_t diff, psize;
3561
3562         VM_OBJECT_LOCK_ASSERT(m_start->object, MA_OWNED);
3563         psize = atop(end - start);
3564         mpte = NULL;
3565         m = m_start;
3566         vm_page_lock_queues();
3567         PMAP_LOCK(pmap);
3568         while (m != NULL && (diff = m->pindex - m_start->pindex) < psize) {
3569                 va = start + ptoa(diff);
3570                 if ((va & PDRMASK) == 0 && va + NBPDR <= end &&
3571                     (VM_PAGE_TO_PHYS(m) & PDRMASK) == 0 &&
3572                     pg_ps_enabled && vm_reserv_level_iffullpop(m) == 0 &&
3573                     pmap_enter_pde(pmap, va, m, prot))
3574                         m = &m[NBPDR / PAGE_SIZE - 1];
3575                 else
3576                         mpte = pmap_enter_quick_locked(pmap, va, m, prot,
3577                             mpte);
3578                 m = TAILQ_NEXT(m, listq);
3579         }
3580         vm_page_unlock_queues();
3581         PMAP_UNLOCK(pmap);
3582 }
3583
3584 /*
3585  * this code makes some *MAJOR* assumptions:
3586  * 1. Current pmap & pmap exists.
3587  * 2. Not wired.
3588  * 3. Read access.
3589  * 4. No page table pages.
3590  * but is *MUCH* faster than pmap_enter...
3591  */
3592
3593 void
3594 pmap_enter_quick(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot)
3595 {
3596
3597         vm_page_lock_queues();
3598         PMAP_LOCK(pmap);
3599         (void)pmap_enter_quick_locked(pmap, va, m, prot, NULL);
3600         vm_page_unlock_queues();
3601         PMAP_UNLOCK(pmap);
3602 }
3603
3604 static vm_page_t
3605 pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va, vm_page_t m,
3606     vm_prot_t prot, vm_page_t mpte)
3607 {
3608         pt_entry_t *pte;
3609         vm_paddr_t pa;
3610         vm_page_t free;
3611
3612         KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva ||
3613             (m->oflags & VPO_UNMANAGED) != 0,
3614             ("pmap_enter_quick_locked: managed mapping within the clean submap"));
3615         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3616         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
3617
3618         /*
3619          * In the case that a page table page is not
3620          * resident, we are creating it here.
3621          */
3622         if (va < VM_MAXUSER_ADDRESS) {
3623                 u_int ptepindex;
3624                 pd_entry_t ptepa;
3625
3626                 /*
3627                  * Calculate pagetable page index
3628                  */
3629                 ptepindex = va >> PDRSHIFT;
3630                 if (mpte && (mpte->pindex == ptepindex)) {
3631                         mpte->wire_count++;
3632                 } else {
3633                         /*
3634                          * Get the page directory entry
3635                          */
3636                         ptepa = pmap->pm_pdir[ptepindex];
3637
3638                         /*
3639                          * If the page table page is mapped, we just increment
3640                          * the hold count, and activate it.
3641                          */
3642                         if (ptepa) {
3643                                 if (ptepa & PG_PS)
3644                                         return (NULL);
3645                                 mpte = PHYS_TO_VM_PAGE(ptepa & PG_FRAME);
3646                                 mpte->wire_count++;
3647                         } else {
3648                                 mpte = _pmap_allocpte(pmap, ptepindex,
3649                                     M_NOWAIT);
3650                                 if (mpte == NULL)
3651                                         return (mpte);
3652                         }
3653                 }
3654         } else {
3655                 mpte = NULL;
3656         }
3657
3658         /*
3659          * This call to vtopte makes the assumption that we are
3660          * entering the page into the current pmap.  In order to support
3661          * quick entry into any pmap, one would likely use pmap_pte_quick.
3662          * But that isn't as quick as vtopte.
3663          */
3664         pte = vtopte(va);
3665         if (*pte) {
3666                 if (mpte != NULL) {
3667                         mpte->wire_count--;
3668                         mpte = NULL;
3669                 }
3670                 return (mpte);
3671         }
3672
3673         /*
3674          * Enter on the PV list if part of our managed memory.
3675          */
3676         if ((m->oflags & VPO_UNMANAGED) == 0 &&
3677             !pmap_try_insert_pv_entry(pmap, va, m)) {
3678                 if (mpte != NULL) {
3679                         free = NULL;
3680                         if (pmap_unwire_pte_hold(pmap, mpte, &free)) {
3681                                 pmap_invalidate_page(pmap, va);
3682                                 pmap_free_zero_pages(free);
3683                         }
3684
3685                         mpte = NULL;
3686                 }
3687                 return (mpte);
3688         }
3689
3690         /*
3691          * Increment counters
3692          */
3693         pmap->pm_stats.resident_count++;
3694
3695         pa = VM_PAGE_TO_PHYS(m) | pmap_cache_bits(m->md.pat_mode, 0);
3696 #ifdef PAE
3697         if ((prot & VM_PROT_EXECUTE) == 0)
3698                 pa |= pg_nx;
3699 #endif
3700
3701         /*
3702          * Now validate mapping with RO protection
3703          */
3704         if ((m->oflags & VPO_UNMANAGED) != 0)
3705                 pte_store(pte, pa | PG_V | PG_U);
3706         else
3707                 pte_store(pte, pa | PG_V | PG_U | PG_MANAGED);
3708         return (mpte);
3709 }
3710
3711 /*
3712  * Make a temporary mapping for a physical address.  This is only intended
3713  * to be used for panic dumps.
3714  */
3715 void *
3716 pmap_kenter_temporary(vm_paddr_t pa, int i)
3717 {
3718         vm_offset_t va;
3719
3720         va = (vm_offset_t)crashdumpmap + (i * PAGE_SIZE);
3721         pmap_kenter(va, pa);
3722         invlpg(va);
3723         return ((void *)crashdumpmap);
3724 }
3725
3726 /*
3727  * This code maps large physical mmap regions into the
3728  * processor address space.  Note that some shortcuts
3729  * are taken, but the code works.
3730  */
3731 void
3732 pmap_object_init_pt(pmap_t pmap, vm_offset_t addr, vm_object_t object,
3733     vm_pindex_t pindex, vm_size_t size)
3734 {
3735         pd_entry_t *pde;
3736         vm_paddr_t pa, ptepa;
3737         vm_page_t p;
3738         int pat_mode;
3739
3740         VM_OBJECT_LOCK_ASSERT(object, MA_OWNED);
3741         KASSERT(object->type == OBJT_DEVICE || object->type == OBJT_SG,
3742             ("pmap_object_init_pt: non-device object"));
3743         if (pseflag &&
3744             (addr & (NBPDR - 1)) == 0 && (size & (NBPDR - 1)) == 0) {
3745                 if (!vm_object_populate(object, pindex, pindex + atop(size)))
3746                         return;
3747                 p = vm_page_lookup(object, pindex);
3748                 KASSERT(p->valid == VM_PAGE_BITS_ALL,
3749                     ("pmap_object_init_pt: invalid page %p", p));
3750                 pat_mode = p->md.pat_mode;
3751
3752                 /*
3753                  * Abort the mapping if the first page is not physically
3754                  * aligned to a 2/4MB page boundary.
3755                  */
3756                 ptepa = VM_PAGE_TO_PHYS(p);
3757                 if (ptepa & (NBPDR - 1))
3758                         return;
3759
3760                 /*
3761                  * Skip the first page.  Abort the mapping if the rest of
3762                  * the pages are not physically contiguous or have differing
3763                  * memory attributes.
3764                  */
3765                 p = TAILQ_NEXT(p, listq);
3766                 for (pa = ptepa + PAGE_SIZE; pa < ptepa + size;
3767                     pa += PAGE_SIZE) {
3768                         KASSERT(p->valid == VM_PAGE_BITS_ALL,
3769                             ("pmap_object_init_pt: invalid page %p", p));
3770                         if (pa != VM_PAGE_TO_PHYS(p) ||
3771                             pat_mode != p->md.pat_mode)
3772                                 return;
3773                         p = TAILQ_NEXT(p, listq);
3774                 }
3775
3776                 /*
3777                  * Map using 2/4MB pages.  Since "ptepa" is 2/4M aligned and
3778                  * "size" is a multiple of 2/4M, adding the PAT setting to
3779                  * "pa" will not affect the termination of this loop.
3780                  */
3781                 PMAP_LOCK(pmap);
3782                 for (pa = ptepa | pmap_cache_bits(pat_mode, 1); pa < ptepa +
3783                     size; pa += NBPDR) {
3784                         pde = pmap_pde(pmap, addr);
3785                         if (*pde == 0) {
3786                                 pde_store(pde, pa | PG_PS | PG_M | PG_A |
3787                                     PG_U | PG_RW | PG_V);
3788                                 pmap->pm_stats.resident_count += NBPDR /
3789                                     PAGE_SIZE;
3790                                 pmap_pde_mappings++;
3791                         }
3792                         /* Else continue on if the PDE is already valid. */
3793                         addr += NBPDR;
3794                 }
3795                 PMAP_UNLOCK(pmap);
3796         }
3797 }
3798
3799 /*
3800  *      Routine:        pmap_change_wiring
3801  *      Function:       Change the wiring attribute for a map/virtual-address
3802  *                      pair.
3803  *      In/out conditions:
3804  *                      The mapping must already exist in the pmap.
3805  */
3806 void
3807 pmap_change_wiring(pmap_t pmap, vm_offset_t va, boolean_t wired)
3808 {
3809         pd_entry_t *pde;
3810         pt_entry_t *pte;
3811         boolean_t are_queues_locked;
3812
3813         are_queues_locked = FALSE;
3814 retry:
3815         PMAP_LOCK(pmap);
3816         pde = pmap_pde(pmap, va);
3817         if ((*pde & PG_PS) != 0) {
3818                 if (!wired != ((*pde & PG_W) == 0)) {
3819                         if (!are_queues_locked) {
3820                                 are_queues_locked = TRUE;
3821                                 if (!mtx_trylock(&vm_page_queue_mtx)) {
3822                                         PMAP_UNLOCK(pmap);
3823                                         vm_page_lock_queues();
3824                                         goto retry;
3825                                 }
3826                         }
3827                         if (!pmap_demote_pde(pmap, pde, va))
3828                                 panic("pmap_change_wiring: demotion failed");
3829                 } else
3830                         goto out;
3831         }
3832         pte = pmap_pte(pmap, va);
3833
3834         if (wired && !pmap_pte_w(pte))
3835                 pmap->pm_stats.wired_count++;
3836         else if (!wired && pmap_pte_w(pte))
3837                 pmap->pm_stats.wired_count--;
3838
3839         /*
3840          * Wiring is not a hardware characteristic so there is no need to
3841          * invalidate TLB.
3842          */
3843         pmap_pte_set_w(pte, wired);
3844         pmap_pte_release(pte);
3845 out:
3846         if (are_queues_locked)
3847                 vm_page_unlock_queues();
3848         PMAP_UNLOCK(pmap);
3849 }
3850
3851
3852
3853 /*
3854  *      Copy the range specified by src_addr/len
3855  *      from the source map to the range dst_addr/len
3856  *      in the destination map.
3857  *
3858  *      This routine is only advisory and need not do anything.
3859  */
3860
3861 void
3862 pmap_copy(pmap_t dst_pmap, pmap_t src_pmap, vm_offset_t dst_addr, vm_size_t len,
3863     vm_offset_t src_addr)
3864 {
3865         vm_page_t   free;
3866         vm_offset_t addr;
3867         vm_offset_t end_addr = src_addr + len;
3868         vm_offset_t pdnxt;
3869
3870         if (dst_addr != src_addr)
3871                 return;
3872
3873         if (!pmap_is_current(src_pmap))
3874                 return;
3875
3876         vm_page_lock_queues();
3877         if (dst_pmap < src_pmap) {
3878                 PMAP_LOCK(dst_pmap);
3879                 PMAP_LOCK(src_pmap);
3880         } else {
3881                 PMAP_LOCK(src_pmap);
3882                 PMAP_LOCK(dst_pmap);
3883         }
3884         sched_pin();
3885         for (addr = src_addr; addr < end_addr; addr = pdnxt) {
3886                 pt_entry_t *src_pte, *dst_pte;
3887                 vm_page_t dstmpte, srcmpte;
3888                 pd_entry_t srcptepaddr;
3889                 u_int ptepindex;
3890
3891                 KASSERT(addr < UPT_MIN_ADDRESS,
3892                     ("pmap_copy: invalid to pmap_copy page tables"));
3893
3894                 pdnxt = (addr + NBPDR) & ~PDRMASK;
3895                 if (pdnxt < addr)
3896                         pdnxt = end_addr;
3897                 ptepindex = addr >> PDRSHIFT;
3898
3899                 srcptepaddr = src_pmap->pm_pdir[ptepindex];
3900                 if (srcptepaddr == 0)
3901                         continue;
3902
3903                 if (srcptepaddr & PG_PS) {
3904                         if (dst_pmap->pm_pdir[ptepindex] == 0 &&
3905                             ((srcptepaddr & PG_MANAGED) == 0 ||
3906                             pmap_pv_insert_pde(dst_pmap, addr, srcptepaddr &
3907                             PG_PS_FRAME))) {
3908                                 dst_pmap->pm_pdir[ptepindex] = srcptepaddr &
3909                                     ~PG_W;
3910                                 dst_pmap->pm_stats.resident_count +=
3911                                     NBPDR / PAGE_SIZE;
3912                         }
3913                         continue;
3914                 }
3915
3916                 srcmpte = PHYS_TO_VM_PAGE(srcptepaddr & PG_FRAME);
3917                 KASSERT(srcmpte->wire_count > 0,
3918                     ("pmap_copy: source page table page is unused"));
3919
3920                 if (pdnxt > end_addr)
3921                         pdnxt = end_addr;
3922
3923                 src_pte = vtopte(addr);
3924                 while (addr < pdnxt) {
3925                         pt_entry_t ptetemp;
3926                         ptetemp = *src_pte;
3927                         /*
3928                          * we only virtual copy managed pages
3929                          */
3930                         if ((ptetemp & PG_MANAGED) != 0) {
3931                                 dstmpte = pmap_allocpte(dst_pmap, addr,
3932                                     M_NOWAIT);
3933                                 if (dstmpte == NULL)
3934                                         goto out;
3935                                 dst_pte = pmap_pte_quick(dst_pmap, addr);
3936                                 if (*dst_pte == 0 &&
3937                                     pmap_try_insert_pv_entry(dst_pmap, addr,
3938                                     PHYS_TO_VM_PAGE(ptetemp & PG_FRAME))) {
3939                                         /*
3940                                          * Clear the wired, modified, and
3941                                          * accessed (referenced) bits
3942                                          * during the copy.
3943                                          */
3944                                         *dst_pte = ptetemp & ~(PG_W | PG_M |
3945                                             PG_A);
3946                                         dst_pmap->pm_stats.resident_count++;
3947                                 } else {
3948                                         free = NULL;
3949                                         if (pmap_unwire_pte_hold(dst_pmap,
3950                                             dstmpte, &free)) {
3951                                                 pmap_invalidate_page(dst_pmap,
3952                                                     addr);
3953                                                 pmap_free_zero_pages(free);
3954                                         }
3955                                         goto out;
3956                                 }
3957                                 if (dstmpte->wire_count >= srcmpte->wire_count)
3958                                         break;
3959                         }
3960                         addr += PAGE_SIZE;
3961                         src_pte++;
3962                 }
3963         }
3964 out:
3965         sched_unpin();
3966         vm_page_unlock_queues();
3967         PMAP_UNLOCK(src_pmap);
3968         PMAP_UNLOCK(dst_pmap);
3969 }
3970
3971 static __inline void
3972 pagezero(void *page)
3973 {
3974 #if defined(I686_CPU)
3975         if (cpu_class == CPUCLASS_686) {
3976 #if defined(CPU_ENABLE_SSE)
3977                 if (cpu_feature & CPUID_SSE2)
3978                         sse2_pagezero(page);
3979                 else
3980 #endif
3981                         i686_pagezero(page);
3982         } else
3983 #endif
3984                 bzero(page, PAGE_SIZE);
3985 }
3986
3987 /*
3988  *      pmap_zero_page zeros the specified hardware page by mapping
3989  *      the page into KVM and using bzero to clear its contents.
3990  */
3991 void
3992 pmap_zero_page(vm_page_t m)
3993 {
3994         struct sysmaps *sysmaps;
3995
3996         sysmaps = &sysmaps_pcpu[PCPU_GET(cpuid)];
3997         mtx_lock(&sysmaps->lock);
3998         if (*sysmaps->CMAP2)
3999                 panic("pmap_zero_page: CMAP2 busy");
4000         sched_pin();
4001         *sysmaps->CMAP2 = PG_V | PG_RW | VM_PAGE_TO_PHYS(m) | PG_A | PG_M |
4002             pmap_cache_bits(m->md.pat_mode, 0);
4003         invlcaddr(sysmaps->CADDR2);
4004         pagezero(sysmaps->CADDR2);
4005         *sysmaps->CMAP2 = 0;
4006         sched_unpin();
4007         mtx_unlock(&sysmaps->lock);
4008 }
4009
4010 /*
4011  *      pmap_zero_page_area zeros the specified hardware page by mapping
4012  *      the page into KVM and using bzero to clear its contents.
4013  *
4014  *      off and size may not cover an area beyond a single hardware page.
4015  */
4016 void
4017 pmap_zero_page_area(vm_page_t m, int off, int size)
4018 {
4019         struct sysmaps *sysmaps;
4020
4021         sysmaps = &sysmaps_pcpu[PCPU_GET(cpuid)];
4022         mtx_lock(&sysmaps->lock);
4023         if (*sysmaps->CMAP2)
4024                 panic("pmap_zero_page_area: CMAP2 busy");
4025         sched_pin();
4026         *sysmaps->CMAP2 = PG_V | PG_RW | VM_PAGE_TO_PHYS(m) | PG_A | PG_M |
4027             pmap_cache_bits(m->md.pat_mode, 0);
4028         invlcaddr(sysmaps->CADDR2);
4029         if (off == 0 && size == PAGE_SIZE)
4030                 pagezero(sysmaps->CADDR2);
4031         else
4032                 bzero((char *)sysmaps->CADDR2 + off, size);
4033         *sysmaps->CMAP2 = 0;
4034         sched_unpin();
4035         mtx_unlock(&sysmaps->lock);
4036 }
4037
4038 /*
4039  *      pmap_zero_page_idle zeros the specified hardware page by mapping
4040  *      the page into KVM and using bzero to clear its contents.  This
4041  *      is intended to be called from the vm_pagezero process only and
4042  *      outside of Giant.
4043  */
4044 void
4045 pmap_zero_page_idle(vm_page_t m)
4046 {
4047
4048         if (*CMAP3)
4049                 panic("pmap_zero_page_idle: CMAP3 busy");
4050         sched_pin();
4051         *CMAP3 = PG_V | PG_RW | VM_PAGE_TO_PHYS(m) | PG_A | PG_M |
4052             pmap_cache_bits(m->md.pat_mode, 0);
4053         invlcaddr(CADDR3);
4054         pagezero(CADDR3);
4055         *CMAP3 = 0;
4056         sched_unpin();
4057 }
4058
4059 /*
4060  *      pmap_copy_page copies the specified (machine independent)
4061  *      page by mapping the page into virtual memory and using
4062  *      bcopy to copy the page, one machine dependent page at a
4063  *      time.
4064  */
4065 void
4066 pmap_copy_page(vm_page_t src, vm_page_t dst)
4067 {
4068         struct sysmaps *sysmaps;
4069
4070         sysmaps = &sysmaps_pcpu[PCPU_GET(cpuid)];
4071         mtx_lock(&sysmaps->lock);
4072         if (*sysmaps->CMAP1)
4073                 panic("pmap_copy_page: CMAP1 busy");
4074         if (*sysmaps->CMAP2)
4075                 panic("pmap_copy_page: CMAP2 busy");
4076         sched_pin();
4077         invlpg((u_int)sysmaps->CADDR1);
4078         invlpg((u_int)sysmaps->CADDR2);
4079         *sysmaps->CMAP1 = PG_V | VM_PAGE_TO_PHYS(src) | PG_A |
4080             pmap_cache_bits(src->md.pat_mode, 0);
4081         *sysmaps->CMAP2 = PG_V | PG_RW | VM_PAGE_TO_PHYS(dst) | PG_A | PG_M |
4082             pmap_cache_bits(dst->md.pat_mode, 0);
4083         bcopy(sysmaps->CADDR1, sysmaps->CADDR2, PAGE_SIZE);
4084         *sysmaps->CMAP1 = 0;
4085         *sysmaps->CMAP2 = 0;
4086         sched_unpin();
4087         mtx_unlock(&sysmaps->lock);
4088 }
4089
4090 /*
4091  * Returns true if the pmap's pv is one of the first
4092  * 16 pvs linked to from this page.  This count may
4093  * be changed upwards or downwards in the future; it
4094  * is only necessary that true be returned for a small
4095  * subset of pmaps for proper page aging.
4096  */
4097 boolean_t
4098 pmap_page_exists_quick(pmap_t pmap, vm_page_t m)
4099 {
4100         struct md_page *pvh;
4101         pv_entry_t pv;
4102         int loops = 0;
4103         boolean_t rv;
4104
4105         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4106             ("pmap_page_exists_quick: page %p is not managed", m));
4107         rv = FALSE;
4108         vm_page_lock_queues();
4109         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
4110                 if (PV_PMAP(pv) == pmap) {
4111                         rv = TRUE;
4112                         break;
4113                 }
4114                 loops++;
4115                 if (loops >= 16)
4116                         break;
4117         }
4118         if (!rv && loops < 16 && (m->flags & PG_FICTITIOUS) == 0) {
4119                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4120                 TAILQ_FOREACH(pv, &pvh->pv_list, pv_list) {
4121                         if (PV_PMAP(pv) == pmap) {
4122                                 rv = TRUE;
4123                                 break;
4124                         }
4125                         loops++;
4126                         if (loops >= 16)
4127                                 break;
4128                 }
4129         }
4130         vm_page_unlock_queues();
4131         return (rv);
4132 }
4133
4134 /*
4135  *      pmap_page_wired_mappings:
4136  *
4137  *      Return the number of managed mappings to the given physical page
4138  *      that are wired.
4139  */
4140 int
4141 pmap_page_wired_mappings(vm_page_t m)
4142 {
4143         int count;
4144
4145         count = 0;
4146         if ((m->oflags & VPO_UNMANAGED) != 0)
4147                 return (count);
4148         vm_page_lock_queues();
4149         count = pmap_pvh_wired_mappings(&m->md, count);
4150         if ((m->flags & PG_FICTITIOUS) == 0) {
4151             count = pmap_pvh_wired_mappings(pa_to_pvh(VM_PAGE_TO_PHYS(m)),
4152                 count);
4153         }
4154         vm_page_unlock_queues();
4155         return (count);
4156 }
4157
4158 /*
4159  *      pmap_pvh_wired_mappings:
4160  *
4161  *      Return the updated number "count" of managed mappings that are wired.
4162  */
4163 static int
4164 pmap_pvh_wired_mappings(struct md_page *pvh, int count)
4165 {
4166         pmap_t pmap;
4167         pt_entry_t *pte;
4168         pv_entry_t pv;
4169
4170         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
4171         sched_pin();
4172         TAILQ_FOREACH(pv, &pvh->pv_list, pv_list) {
4173                 pmap = PV_PMAP(pv);
4174                 PMAP_LOCK(pmap);
4175                 pte = pmap_pte_quick(pmap, pv->pv_va);
4176                 if ((*pte & PG_W) != 0)
4177                         count++;
4178                 PMAP_UNLOCK(pmap);
4179         }
4180         sched_unpin();
4181         return (count);
4182 }
4183
4184 /*
4185  * Returns TRUE if the given page is mapped individually or as part of
4186  * a 4mpage.  Otherwise, returns FALSE.
4187  */
4188 boolean_t
4189 pmap_page_is_mapped(vm_page_t m)
4190 {
4191         boolean_t rv;
4192
4193         if ((m->oflags & VPO_UNMANAGED) != 0)
4194                 return (FALSE);
4195         vm_page_lock_queues();
4196         rv = !TAILQ_EMPTY(&m->md.pv_list) ||
4197             ((m->flags & PG_FICTITIOUS) == 0 &&
4198             !TAILQ_EMPTY(&pa_to_pvh(VM_PAGE_TO_PHYS(m))->pv_list));
4199         vm_page_unlock_queues();
4200         return (rv);
4201 }
4202
4203 /*
4204  * Remove all pages from specified address space
4205  * this aids process exit speeds.  Also, this code
4206  * is special cased for current process only, but
4207  * can have the more generic (and slightly slower)
4208  * mode enabled.  This is much faster than pmap_remove
4209  * in the case of running down an entire address space.
4210  */
4211 void
4212 pmap_remove_pages(pmap_t pmap)
4213 {
4214         pt_entry_t *pte, tpte;
4215         vm_page_t free = NULL;
4216         vm_page_t m, mpte, mt;
4217         pv_entry_t pv;
4218         struct md_page *pvh;
4219         struct pv_chunk *pc, *npc;
4220         int field, idx;
4221         int32_t bit;
4222         uint32_t inuse, bitmask;
4223         int allfree;
4224
4225         if (pmap != PCPU_GET(curpmap)) {
4226                 printf("warning: pmap_remove_pages called with non-current pmap\n");
4227                 return;
4228         }
4229         vm_page_lock_queues();
4230         PMAP_LOCK(pmap);
4231         sched_pin();
4232         TAILQ_FOREACH_SAFE(pc, &pmap->pm_pvchunk, pc_list, npc) {
4233                 allfree = 1;
4234                 for (field = 0; field < _NPCM; field++) {
4235                         inuse = (~(pc->pc_map[field])) & pc_freemask[field];
4236                         while (inuse != 0) {
4237                                 bit = bsfl(inuse);
4238                                 bitmask = 1UL << bit;
4239                                 idx = field * 32 + bit;
4240                                 pv = &pc->pc_pventry[idx];
4241                                 inuse &= ~bitmask;
4242
4243                                 pte = pmap_pde(pmap, pv->pv_va);
4244                                 tpte = *pte;
4245                                 if ((tpte & PG_PS) == 0) {
4246                                         pte = vtopte(pv->pv_va);
4247                                         tpte = *pte & ~PG_PTE_PAT;
4248                                 }
4249
4250                                 if (tpte == 0) {
4251                                         printf(
4252                                             "TPTE at %p  IS ZERO @ VA %08x\n",
4253                                             pte, pv->pv_va);
4254                                         panic("bad pte");
4255                                 }
4256
4257 /*
4258  * We cannot remove wired pages from a process' mapping at this time
4259  */
4260                                 if (tpte & PG_W) {
4261                                         allfree = 0;
4262                                         continue;
4263                                 }
4264
4265                                 m = PHYS_TO_VM_PAGE(tpte & PG_FRAME);
4266                                 KASSERT(m->phys_addr == (tpte & PG_FRAME),
4267                                     ("vm_page_t %p phys_addr mismatch %016jx %016jx",
4268                                     m, (uintmax_t)m->phys_addr,
4269                                     (uintmax_t)tpte));
4270
4271                                 KASSERT((m->flags & PG_FICTITIOUS) != 0 ||
4272                                     m < &vm_page_array[vm_page_array_size],
4273                                     ("pmap_remove_pages: bad tpte %#jx",
4274                                     (uintmax_t)tpte));
4275
4276                                 pte_clear(pte);
4277
4278                                 /*
4279                                  * Update the vm_page_t clean/reference bits.
4280                                  */
4281                                 if ((tpte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
4282                                         if ((tpte & PG_PS) != 0) {
4283                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
4284                                                         vm_page_dirty(mt);
4285                                         } else
4286                                                 vm_page_dirty(m);
4287                                 }
4288
4289                                 /* Mark free */
4290                                 PV_STAT(pv_entry_frees++);
4291                                 PV_STAT(pv_entry_spare++);
4292                                 pv_entry_count--;
4293                                 pc->pc_map[field] |= bitmask;
4294                                 if ((tpte & PG_PS) != 0) {
4295                                         pmap->pm_stats.resident_count -= NBPDR / PAGE_SIZE;
4296                                         pvh = pa_to_pvh(tpte & PG_PS_FRAME);
4297                                         TAILQ_REMOVE(&pvh->pv_list, pv, pv_list);
4298                                         if (TAILQ_EMPTY(&pvh->pv_list)) {
4299                                                 for (mt = m; mt < &m[NBPDR / PAGE_SIZE]; mt++)
4300                                                         if (TAILQ_EMPTY(&mt->md.pv_list))
4301                                                                 vm_page_aflag_clear(mt, PGA_WRITEABLE);
4302                                         }
4303                                         mpte = pmap_lookup_pt_page(pmap, pv->pv_va);
4304                                         if (mpte != NULL) {
4305                                                 pmap_remove_pt_page(pmap, mpte);
4306                                                 pmap->pm_stats.resident_count--;
4307                                                 KASSERT(mpte->wire_count == NPTEPG,
4308                                                     ("pmap_remove_pages: pte page wire count error"));
4309                                                 mpte->wire_count = 0;
4310                                                 pmap_add_delayed_free_list(mpte, &free, FALSE);
4311                                                 atomic_subtract_int(&cnt.v_wire_count, 1);
4312                                         }
4313                                 } else {
4314                                         pmap->pm_stats.resident_count--;
4315                                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
4316                                         if (TAILQ_EMPTY(&m->md.pv_list) &&
4317                                             (m->flags & PG_FICTITIOUS) == 0) {
4318                                                 pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4319                                                 if (TAILQ_EMPTY(&pvh->pv_list))
4320                                                         vm_page_aflag_clear(m, PGA_WRITEABLE);
4321                                         }
4322                                         pmap_unuse_pt(pmap, pv->pv_va, &free);
4323                                 }
4324                         }
4325                 }
4326                 if (allfree) {
4327                         PV_STAT(pv_entry_spare -= _NPCPV);
4328                         PV_STAT(pc_chunk_count--);
4329                         PV_STAT(pc_chunk_frees++);
4330                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
4331                         m = PHYS_TO_VM_PAGE(pmap_kextract((vm_offset_t)pc));
4332                         pmap_qremove((vm_offset_t)pc, 1);
4333                         vm_page_unwire(m, 0);
4334                         vm_page_free(m);
4335                         pmap_ptelist_free(&pv_vafree, (vm_offset_t)pc);
4336                 }
4337         }
4338         sched_unpin();
4339         pmap_invalidate_all(pmap);
4340         vm_page_unlock_queues();
4341         PMAP_UNLOCK(pmap);
4342         pmap_free_zero_pages(free);
4343 }
4344
4345 /*
4346  *      pmap_is_modified:
4347  *
4348  *      Return whether or not the specified physical page was modified
4349  *      in any physical maps.
4350  */
4351 boolean_t
4352 pmap_is_modified(vm_page_t m)
4353 {
4354         boolean_t rv;
4355
4356         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4357             ("pmap_is_modified: page %p is not managed", m));
4358
4359         /*
4360          * If the page is not VPO_BUSY, then PGA_WRITEABLE cannot be
4361          * concurrently set while the object is locked.  Thus, if PGA_WRITEABLE
4362          * is clear, no PTEs can have PG_M set.
4363          */
4364         VM_OBJECT_LOCK_ASSERT(m->object, MA_OWNED);
4365         if ((m->oflags & VPO_BUSY) == 0 &&
4366             (m->aflags & PGA_WRITEABLE) == 0)
4367                 return (FALSE);
4368         vm_page_lock_queues();
4369         rv = pmap_is_modified_pvh(&m->md) ||
4370             ((m->flags & PG_FICTITIOUS) == 0 &&
4371             pmap_is_modified_pvh(pa_to_pvh(VM_PAGE_TO_PHYS(m))));
4372         vm_page_unlock_queues();
4373         return (rv);
4374 }
4375
4376 /*
4377  * Returns TRUE if any of the given mappings were used to modify
4378  * physical memory.  Otherwise, returns FALSE.  Both page and 2mpage
4379  * mappings are supported.
4380  */
4381 static boolean_t
4382 pmap_is_modified_pvh(struct md_page *pvh)
4383 {
4384         pv_entry_t pv;
4385         pt_entry_t *pte;
4386         pmap_t pmap;
4387         boolean_t rv;
4388
4389         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
4390         rv = FALSE;
4391         sched_pin();
4392         TAILQ_FOREACH(pv, &pvh->pv_list, pv_list) {
4393                 pmap = PV_PMAP(pv);
4394                 PMAP_LOCK(pmap);
4395                 pte = pmap_pte_quick(pmap, pv->pv_va);
4396                 rv = (*pte & (PG_M | PG_RW)) == (PG_M | PG_RW);
4397                 PMAP_UNLOCK(pmap);
4398                 if (rv)
4399                         break;
4400         }
4401         sched_unpin();
4402         return (rv);
4403 }
4404
4405 /*
4406  *      pmap_is_prefaultable:
4407  *
4408  *      Return whether or not the specified virtual address is elgible
4409  *      for prefault.
4410  */
4411 boolean_t
4412 pmap_is_prefaultable(pmap_t pmap, vm_offset_t addr)
4413 {
4414         pd_entry_t *pde;
4415         pt_entry_t *pte;
4416         boolean_t rv;
4417
4418         rv = FALSE;
4419         PMAP_LOCK(pmap);
4420         pde = pmap_pde(pmap, addr);
4421         if (*pde != 0 && (*pde & PG_PS) == 0) {
4422                 pte = vtopte(addr);
4423                 rv = *pte == 0;
4424         }
4425         PMAP_UNLOCK(pmap);
4426         return (rv);
4427 }
4428
4429 /*
4430  *      pmap_is_referenced:
4431  *
4432  *      Return whether or not the specified physical page was referenced
4433  *      in any physical maps.
4434  */
4435 boolean_t
4436 pmap_is_referenced(vm_page_t m)
4437 {
4438         boolean_t rv;
4439
4440         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4441             ("pmap_is_referenced: page %p is not managed", m));
4442         vm_page_lock_queues();
4443         rv = pmap_is_referenced_pvh(&m->md) ||
4444             ((m->flags & PG_FICTITIOUS) == 0 &&
4445             pmap_is_referenced_pvh(pa_to_pvh(VM_PAGE_TO_PHYS(m))));
4446         vm_page_unlock_queues();
4447         return (rv);
4448 }
4449
4450 /*
4451  * Returns TRUE if any of the given mappings were referenced and FALSE
4452  * otherwise.  Both page and 4mpage mappings are supported.
4453  */
4454 static boolean_t
4455 pmap_is_referenced_pvh(struct md_page *pvh)
4456 {
4457         pv_entry_t pv;
4458         pt_entry_t *pte;
4459         pmap_t pmap;
4460         boolean_t rv;
4461
4462         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
4463         rv = FALSE;
4464         sched_pin();
4465         TAILQ_FOREACH(pv, &pvh->pv_list, pv_list) {
4466                 pmap = PV_PMAP(pv);
4467                 PMAP_LOCK(pmap);
4468                 pte = pmap_pte_quick(pmap, pv->pv_va);
4469                 rv = (*pte & (PG_A | PG_V)) == (PG_A | PG_V);
4470                 PMAP_UNLOCK(pmap);
4471                 if (rv)
4472                         break;
4473         }
4474         sched_unpin();
4475         return (rv);
4476 }
4477
4478 /*
4479  * Clear the write and modified bits in each of the given page's mappings.
4480  */
4481 void
4482 pmap_remove_write(vm_page_t m)
4483 {
4484         struct md_page *pvh;
4485         pv_entry_t next_pv, pv;
4486         pmap_t pmap;
4487         pd_entry_t *pde;
4488         pt_entry_t oldpte, *pte;
4489         vm_offset_t va;
4490
4491         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4492             ("pmap_remove_write: page %p is not managed", m));
4493
4494         /*
4495          * If the page is not VPO_BUSY, then PGA_WRITEABLE cannot be set by
4496          * another thread while the object is locked.  Thus, if PGA_WRITEABLE
4497          * is clear, no page table entries need updating.
4498          */
4499         VM_OBJECT_LOCK_ASSERT(m->object, MA_OWNED);
4500         if ((m->oflags & VPO_BUSY) == 0 &&
4501             (m->aflags & PGA_WRITEABLE) == 0)
4502                 return;
4503         vm_page_lock_queues();
4504         sched_pin();
4505         if ((m->flags & PG_FICTITIOUS) != 0)
4506                 goto small_mappings;
4507         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4508         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_list, next_pv) {
4509                 va = pv->pv_va;
4510                 pmap = PV_PMAP(pv);
4511                 PMAP_LOCK(pmap);
4512                 pde = pmap_pde(pmap, va);
4513                 if ((*pde & PG_RW) != 0)
4514                         (void)pmap_demote_pde(pmap, pde, va);
4515                 PMAP_UNLOCK(pmap);
4516         }
4517 small_mappings:
4518         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
4519                 pmap = PV_PMAP(pv);
4520                 PMAP_LOCK(pmap);
4521                 pde = pmap_pde(pmap, pv->pv_va);
4522                 KASSERT((*pde & PG_PS) == 0, ("pmap_clear_write: found"
4523                     " a 4mpage in page %p's pv list", m));
4524                 pte = pmap_pte_quick(pmap, pv->pv_va);
4525 retry:
4526                 oldpte = *pte;
4527                 if ((oldpte & PG_RW) != 0) {
4528                         /*
4529                          * Regardless of whether a pte is 32 or 64 bits
4530                          * in size, PG_RW and PG_M are among the least
4531                          * significant 32 bits.
4532                          */
4533                         if (!atomic_cmpset_int((u_int *)pte, oldpte,
4534                             oldpte & ~(PG_RW | PG_M)))
4535                                 goto retry;
4536                         if ((oldpte & PG_M) != 0)
4537                                 vm_page_dirty(m);
4538                         pmap_invalidate_page(pmap, pv->pv_va);
4539                 }
4540                 PMAP_UNLOCK(pmap);
4541         }
4542         vm_page_aflag_clear(m, PGA_WRITEABLE);
4543         sched_unpin();
4544         vm_page_unlock_queues();
4545 }
4546
4547 /*
4548  *      pmap_ts_referenced:
4549  *
4550  *      Return a count of reference bits for a page, clearing those bits.
4551  *      It is not necessary for every reference bit to be cleared, but it
4552  *      is necessary that 0 only be returned when there are truly no
4553  *      reference bits set.
4554  *
4555  *      XXX: The exact number of bits to check and clear is a matter that
4556  *      should be tested and standardized at some point in the future for
4557  *      optimal aging of shared pages.
4558  */
4559 int
4560 pmap_ts_referenced(vm_page_t m)
4561 {
4562         struct md_page *pvh;
4563         pv_entry_t pv, pvf, pvn;
4564         pmap_t pmap;
4565         pd_entry_t oldpde, *pde;
4566         pt_entry_t *pte;
4567         vm_offset_t va;
4568         int rtval = 0;
4569
4570         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4571             ("pmap_ts_referenced: page %p is not managed", m));
4572         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4573         vm_page_lock_queues();
4574         sched_pin();
4575         if ((m->flags & PG_FICTITIOUS) != 0)
4576                 goto small_mappings;
4577         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_list, pvn) {
4578                 va = pv->pv_va;
4579                 pmap = PV_PMAP(pv);
4580                 PMAP_LOCK(pmap);
4581                 pde = pmap_pde(pmap, va);
4582                 oldpde = *pde;
4583                 if ((oldpde & PG_A) != 0) {
4584                         if (pmap_demote_pde(pmap, pde, va)) {
4585                                 if ((oldpde & PG_W) == 0) {
4586                                         /*
4587                                          * Remove the mapping to a single page
4588                                          * so that a subsequent access may
4589                                          * repromote.  Since the underlying
4590                                          * page table page is fully populated,
4591                                          * this removal never frees a page
4592                                          * table page.
4593                                          */
4594                                         va += VM_PAGE_TO_PHYS(m) - (oldpde &
4595                                             PG_PS_FRAME);
4596                                         pmap_remove_page(pmap, va, NULL);
4597                                         rtval++;
4598                                         if (rtval > 4) {
4599                                                 PMAP_UNLOCK(pmap);
4600                                                 goto out;
4601                                         }
4602                                 }
4603                         }
4604                 }
4605                 PMAP_UNLOCK(pmap);
4606         }
4607 small_mappings:
4608         if ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
4609                 pvf = pv;
4610                 do {
4611                         pvn = TAILQ_NEXT(pv, pv_list);
4612                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
4613                         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
4614                         pmap = PV_PMAP(pv);
4615                         PMAP_LOCK(pmap);
4616                         pde = pmap_pde(pmap, pv->pv_va);
4617                         KASSERT((*pde & PG_PS) == 0, ("pmap_ts_referenced:"
4618                             " found a 4mpage in page %p's pv list", m));
4619                         pte = pmap_pte_quick(pmap, pv->pv_va);
4620                         if ((*pte & PG_A) != 0) {
4621                                 atomic_clear_int((u_int *)pte, PG_A);
4622                                 pmap_invalidate_page(pmap, pv->pv_va);
4623                                 rtval++;
4624                                 if (rtval > 4)
4625                                         pvn = NULL;
4626                         }
4627                         PMAP_UNLOCK(pmap);
4628                 } while ((pv = pvn) != NULL && pv != pvf);
4629         }
4630 out:
4631         sched_unpin();
4632         vm_page_unlock_queues();
4633         return (rtval);
4634 }
4635
4636 /*
4637  *      Clear the modify bits on the specified physical page.
4638  */
4639 void
4640 pmap_clear_modify(vm_page_t m)
4641 {
4642         struct md_page *pvh;
4643         pv_entry_t next_pv, pv;
4644         pmap_t pmap;
4645         pd_entry_t oldpde, *pde;
4646         pt_entry_t oldpte, *pte;
4647         vm_offset_t va;
4648
4649         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4650             ("pmap_clear_modify: page %p is not managed", m));
4651         VM_OBJECT_LOCK_ASSERT(m->object, MA_OWNED);
4652         KASSERT((m->oflags & VPO_BUSY) == 0,
4653             ("pmap_clear_modify: page %p is busy", m));
4654
4655         /*
4656          * If the page is not PGA_WRITEABLE, then no PTEs can have PG_M set.
4657          * If the object containing the page is locked and the page is not
4658          * VPO_BUSY, then PGA_WRITEABLE cannot be concurrently set.
4659          */
4660         if ((m->aflags & PGA_WRITEABLE) == 0)
4661                 return;
4662         vm_page_lock_queues();
4663         sched_pin();
4664         if ((m->flags & PG_FICTITIOUS) != 0)
4665                 goto small_mappings;
4666         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4667         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_list, next_pv) {
4668                 va = pv->pv_va;
4669                 pmap = PV_PMAP(pv);
4670                 PMAP_LOCK(pmap);
4671                 pde = pmap_pde(pmap, va);
4672                 oldpde = *pde;
4673                 if ((oldpde & PG_RW) != 0) {
4674                         if (pmap_demote_pde(pmap, pde, va)) {
4675                                 if ((oldpde & PG_W) == 0) {
4676                                         /*
4677                                          * Write protect the mapping to a
4678                                          * single page so that a subsequent
4679                                          * write access may repromote.
4680                                          */
4681                                         va += VM_PAGE_TO_PHYS(m) - (oldpde &
4682                                             PG_PS_FRAME);
4683                                         pte = pmap_pte_quick(pmap, va);
4684                                         oldpte = *pte;
4685                                         if ((oldpte & PG_V) != 0) {
4686                                                 /*
4687                                                  * Regardless of whether a pte is 32 or 64 bits
4688                                                  * in size, PG_RW and PG_M are among the least
4689                                                  * significant 32 bits.
4690                                                  */
4691                                                 while (!atomic_cmpset_int((u_int *)pte,
4692                                                     oldpte,
4693                                                     oldpte & ~(PG_M | PG_RW)))
4694                                                         oldpte = *pte;
4695                                                 vm_page_dirty(m);
4696                                                 pmap_invalidate_page(pmap, va);
4697                                         }
4698                                 }
4699                         }
4700                 }
4701                 PMAP_UNLOCK(pmap);
4702         }
4703 small_mappings:
4704         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
4705                 pmap = PV_PMAP(pv);
4706                 PMAP_LOCK(pmap);
4707                 pde = pmap_pde(pmap, pv->pv_va);
4708                 KASSERT((*pde & PG_PS) == 0, ("pmap_clear_modify: found"
4709                     " a 4mpage in page %p's pv list", m));
4710                 pte = pmap_pte_quick(pmap, pv->pv_va);
4711                 if ((*pte & (PG_M | PG_RW)) == (PG_M | PG_RW)) {
4712                         /*
4713                          * Regardless of whether a pte is 32 or 64 bits
4714                          * in size, PG_M is among the least significant
4715                          * 32 bits.
4716                          */
4717                         atomic_clear_int((u_int *)pte, PG_M);
4718                         pmap_invalidate_page(pmap, pv->pv_va);
4719                 }
4720                 PMAP_UNLOCK(pmap);
4721         }
4722         sched_unpin();
4723         vm_page_unlock_queues();
4724 }
4725
4726 /*
4727  *      pmap_clear_reference:
4728  *
4729  *      Clear the reference bit on the specified physical page.
4730  */
4731 void
4732 pmap_clear_reference(vm_page_t m)
4733 {
4734         struct md_page *pvh;
4735         pv_entry_t next_pv, pv;
4736         pmap_t pmap;
4737         pd_entry_t oldpde, *pde;
4738         pt_entry_t *pte;
4739         vm_offset_t va;
4740
4741         KASSERT((m->oflags & VPO_UNMANAGED) == 0,
4742             ("pmap_clear_reference: page %p is not managed", m));
4743         vm_page_lock_queues();
4744         sched_pin();
4745         if ((m->flags & PG_FICTITIOUS) != 0)
4746                 goto small_mappings;
4747         pvh = pa_to_pvh(VM_PAGE_TO_PHYS(m));
4748         TAILQ_FOREACH_SAFE(pv, &pvh->pv_list, pv_list, next_pv) {
4749                 va = pv->pv_va;
4750                 pmap = PV_PMAP(pv);
4751                 PMAP_LOCK(pmap);
4752                 pde = pmap_pde(pmap, va);
4753                 oldpde = *pde;
4754                 if ((oldpde & PG_A) != 0) {
4755                         if (pmap_demote_pde(pmap, pde, va)) {
4756                                 /*
4757                                  * Remove the mapping to a single page so
4758                                  * that a subsequent access may repromote.
4759                                  * Since the underlying page table page is
4760                                  * fully populated, this removal never frees
4761                                  * a page table page.
4762                                  */
4763                                 va += VM_PAGE_TO_PHYS(m) - (oldpde &
4764                                     PG_PS_FRAME);
4765                                 pmap_remove_page(pmap, va, NULL);
4766                         }
4767                 }
4768                 PMAP_UNLOCK(pmap);
4769         }
4770 small_mappings:
4771         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
4772                 pmap = PV_PMAP(pv);
4773                 PMAP_LOCK(pmap);
4774                 pde = pmap_pde(pmap, pv->pv_va);
4775                 KASSERT((*pde & PG_PS) == 0, ("pmap_clear_reference: found"
4776                     " a 4mpage in page %p's pv list", m));
4777                 pte = pmap_pte_quick(pmap, pv->pv_va);
4778                 if ((*pte & PG_A) != 0) {
4779                         /*
4780                          * Regardless of whether a pte is 32 or 64 bits
4781                          * in size, PG_A is among the least significant
4782                          * 32 bits.
4783                          */
4784                         atomic_clear_int((u_int *)pte, PG_A);
4785                         pmap_invalidate_page(pmap, pv->pv_va);
4786                 }
4787                 PMAP_UNLOCK(pmap);
4788         }
4789         sched_unpin();
4790         vm_page_unlock_queues();
4791 }
4792
4793 /*
4794  * Miscellaneous support routines follow
4795  */
4796
4797 /* Adjust the cache mode for a 4KB page mapped via a PTE. */
4798 static __inline void
4799 pmap_pte_attr(pt_entry_t *pte, int cache_bits)
4800 {
4801         u_int opte, npte;
4802
4803         /*
4804          * The cache mode bits are all in the low 32-bits of the
4805          * PTE, so we can just spin on updating the low 32-bits.
4806          */
4807         do {
4808                 opte = *(u_int *)pte;
4809                 npte = opte & ~PG_PTE_CACHE;
4810                 npte |= cache_bits;
4811         } while (npte != opte && !atomic_cmpset_int((u_int *)pte, opte, npte));
4812 }
4813
4814 /* Adjust the cache mode for a 2/4MB page mapped via a PDE. */
4815 static __inline void
4816 pmap_pde_attr(pd_entry_t *pde, int cache_bits)
4817 {
4818         u_int opde, npde;
4819
4820         /*
4821          * The cache mode bits are all in the low 32-bits of the
4822          * PDE, so we can just spin on updating the low 32-bits.
4823          */
4824         do {
4825                 opde = *(u_int *)pde;
4826                 npde = opde & ~PG_PDE_CACHE;
4827                 npde |= cache_bits;
4828         } while (npde != opde && !atomic_cmpset_int((u_int *)pde, opde, npde));
4829 }
4830
4831 /*
4832  * Map a set of physical memory pages into the kernel virtual
4833  * address space. Return a pointer to where it is mapped. This
4834  * routine is intended to be used for mapping device memory,
4835  * NOT real memory.
4836  */
4837 void *
4838 pmap_mapdev_attr(vm_paddr_t pa, vm_size_t size, int mode)
4839 {
4840         vm_offset_t va, offset;
4841         vm_size_t tmpsize;
4842
4843         offset = pa & PAGE_MASK;
4844         size = roundup(offset + size, PAGE_SIZE);
4845         pa = pa & PG_FRAME;
4846
4847         if (pa < KERNLOAD && pa + size <= KERNLOAD)
4848                 va = KERNBASE + pa;
4849         else
4850                 va = kmem_alloc_nofault(kernel_map, size);
4851         if (!va)
4852                 panic("pmap_mapdev: Couldn't alloc kernel virtual memory");
4853
4854         for (tmpsize = 0; tmpsize < size; tmpsize += PAGE_SIZE)
4855                 pmap_kenter_attr(va + tmpsize, pa + tmpsize, mode);
4856         pmap_invalidate_range(kernel_pmap, va, va + tmpsize);
4857         pmap_invalidate_cache_range(va, va + size);
4858         return ((void *)(va + offset));
4859 }
4860
4861 void *
4862 pmap_mapdev(vm_paddr_t pa, vm_size_t size)
4863 {
4864
4865         return (pmap_mapdev_attr(pa, size, PAT_UNCACHEABLE));
4866 }
4867
4868 void *
4869 pmap_mapbios(vm_paddr_t pa, vm_size_t size)
4870 {
4871
4872         return (pmap_mapdev_attr(pa, size, PAT_WRITE_BACK));
4873 }
4874
4875 void
4876 pmap_unmapdev(vm_offset_t va, vm_size_t size)
4877 {
4878         vm_offset_t base, offset, tmpva;
4879
4880         if (va >= KERNBASE && va + size <= KERNBASE + KERNLOAD)
4881                 return;
4882         base = trunc_page(va);
4883         offset = va & PAGE_MASK;
4884         size = roundup(offset + size, PAGE_SIZE);
4885         for (tmpva = base; tmpva < (base + size); tmpva += PAGE_SIZE)
4886                 pmap_kremove(tmpva);
4887         pmap_invalidate_range(kernel_pmap, va, tmpva);
4888         kmem_free(kernel_map, base, size);
4889 }
4890
4891 /*
4892  * Sets the memory attribute for the specified page.
4893  */
4894 void
4895 pmap_page_set_memattr(vm_page_t m, vm_memattr_t ma)
4896 {
4897
4898         m->md.pat_mode = ma;
4899         if ((m->flags & PG_FICTITIOUS) != 0)
4900                 return;
4901
4902         /*
4903          * If "m" is a normal page, flush it from the cache.
4904          * See pmap_invalidate_cache_range().
4905          *
4906          * First, try to find an existing mapping of the page by sf
4907          * buffer. sf_buf_invalidate_cache() modifies mapping and
4908          * flushes the cache.
4909          */
4910         if (sf_buf_invalidate_cache(m))
4911                 return;
4912
4913         /*
4914          * If page is not mapped by sf buffer, but CPU does not
4915          * support self snoop, map the page transient and do
4916          * invalidation. In the worst case, whole cache is flushed by
4917          * pmap_invalidate_cache_range().
4918          */
4919         if ((cpu_feature & CPUID_SS) == 0)
4920                 pmap_flush_page(m);
4921 }
4922
4923 static void
4924 pmap_flush_page(vm_page_t m)
4925 {
4926         struct sysmaps *sysmaps;
4927         vm_offset_t sva, eva;
4928
4929         if ((cpu_feature & CPUID_CLFSH) != 0) {
4930                 sysmaps = &sysmaps_pcpu[PCPU_GET(cpuid)];
4931                 mtx_lock(&sysmaps->lock);
4932                 if (*sysmaps->CMAP2)
4933                         panic("pmap_flush_page: CMAP2 busy");
4934                 sched_pin();
4935                 *sysmaps->CMAP2 = PG_V | PG_RW | VM_PAGE_TO_PHYS(m) |
4936                     PG_A | PG_M | pmap_cache_bits(m->md.pat_mode, 0);
4937                 invlcaddr(sysmaps->CADDR2);
4938                 sva = (vm_offset_t)sysmaps->CADDR2;
4939                 eva = sva + PAGE_SIZE;
4940
4941                 /*
4942                  * Use mfence despite the ordering implied by
4943                  * mtx_{un,}lock() because clflush is not guaranteed
4944                  * to be ordered by any other instruction.
4945                  */
4946                 mfence();
4947                 for (; sva < eva; sva += cpu_clflush_line_size)
4948                         clflush(sva);
4949                 mfence();
4950                 *sysmaps->CMAP2 = 0;
4951                 sched_unpin();
4952                 mtx_unlock(&sysmaps->lock);
4953         } else
4954                 pmap_invalidate_cache();
4955 }
4956
4957 /*
4958  * Changes the specified virtual address range's memory type to that given by
4959  * the parameter "mode".  The specified virtual address range must be
4960  * completely contained within either the kernel map.
4961  *
4962  * Returns zero if the change completed successfully, and either EINVAL or
4963  * ENOMEM if the change failed.  Specifically, EINVAL is returned if some part
4964  * of the virtual address range was not mapped, and ENOMEM is returned if
4965  * there was insufficient memory available to complete the change.
4966  */
4967 int
4968 pmap_change_attr(vm_offset_t va, vm_size_t size, int mode)
4969 {
4970         vm_offset_t base, offset, tmpva;
4971         pd_entry_t *pde;
4972         pt_entry_t *pte;
4973         int cache_bits_pte, cache_bits_pde;
4974         boolean_t changed;
4975
4976         base = trunc_page(va);
4977         offset = va & PAGE_MASK;
4978         size = roundup(offset + size, PAGE_SIZE);
4979
4980         /*
4981          * Only supported on kernel virtual addresses above the recursive map.
4982          */
4983         if (base < VM_MIN_KERNEL_ADDRESS)
4984                 return (EINVAL);
4985
4986         cache_bits_pde = pmap_cache_bits(mode, 1);
4987         cache_bits_pte = pmap_cache_bits(mode, 0);
4988         changed = FALSE;
4989
4990         /*
4991          * Pages that aren't mapped aren't supported.  Also break down
4992          * 2/4MB pages into 4KB pages if required.
4993          */
4994         PMAP_LOCK(kernel_pmap);
4995         for (tmpva = base; tmpva < base + size; ) {
4996                 pde = pmap_pde(kernel_pmap, tmpva);
4997                 if (*pde == 0) {
4998                         PMAP_UNLOCK(kernel_pmap);
4999                         return (EINVAL);
5000                 }
5001                 if (*pde & PG_PS) {
5002                         /*
5003                          * If the current 2/4MB page already has
5004                          * the required memory type, then we need not
5005                          * demote this page.  Just increment tmpva to
5006                          * the next 2/4MB page frame.
5007                          */
5008                         if ((*pde & PG_PDE_CACHE) == cache_bits_pde) {
5009                                 tmpva = trunc_4mpage(tmpva) + NBPDR;
5010                                 continue;
5011                         }
5012
5013                         /*
5014                          * If the current offset aligns with a 2/4MB
5015                          * page frame and there is at least 2/4MB left
5016                          * within the range, then we need not break
5017                          * down this page into 4KB pages.
5018                          */
5019                         if ((tmpva & PDRMASK) == 0 &&
5020                             tmpva + PDRMASK < base + size) {
5021                                 tmpva += NBPDR;
5022                                 continue;
5023                         }
5024                         if (!pmap_demote_pde(kernel_pmap, pde, tmpva)) {
5025                                 PMAP_UNLOCK(kernel_pmap);
5026                                 return (ENOMEM);
5027                         }
5028                 }
5029                 pte = vtopte(tmpva);
5030                 if (*pte == 0) {
5031                         PMAP_UNLOCK(kernel_pmap);
5032                         return (EINVAL);
5033                 }
5034                 tmpva += PAGE_SIZE;
5035         }
5036         PMAP_UNLOCK(kernel_pmap);
5037
5038         /*
5039          * Ok, all the pages exist, so run through them updating their
5040          * cache mode if required.
5041          */
5042         for (tmpva = base; tmpva < base + size; ) {
5043                 pde = pmap_pde(kernel_pmap, tmpva);
5044                 if (*pde & PG_PS) {
5045                         if ((*pde & PG_PDE_CACHE) != cache_bits_pde) {
5046                                 pmap_pde_attr(pde, cache_bits_pde);
5047                                 changed = TRUE;
5048                         }
5049                         tmpva = trunc_4mpage(tmpva) + NBPDR;
5050                 } else {
5051                         pte = vtopte(tmpva);
5052                         if ((*pte & PG_PTE_CACHE) != cache_bits_pte) {
5053                                 pmap_pte_attr(pte, cache_bits_pte);
5054                                 changed = TRUE;
5055                         }
5056                         tmpva += PAGE_SIZE;
5057                 }
5058         }
5059
5060         /*
5061          * Flush CPU caches to make sure any data isn't cached that
5062          * shouldn't be, etc.
5063          */
5064         if (changed) {
5065                 pmap_invalidate_range(kernel_pmap, base, tmpva);
5066                 pmap_invalidate_cache_range(base, tmpva);
5067         }
5068         return (0);
5069 }
5070
5071 /*
5072  * perform the pmap work for mincore
5073  */
5074 int
5075 pmap_mincore(pmap_t pmap, vm_offset_t addr, vm_paddr_t *locked_pa)
5076 {
5077         pd_entry_t *pdep;
5078         pt_entry_t *ptep, pte;
5079         vm_paddr_t pa;
5080         int val;
5081
5082         PMAP_LOCK(pmap);
5083 retry:
5084         pdep = pmap_pde(pmap, addr);
5085         if (*pdep != 0) {
5086                 if (*pdep & PG_PS) {
5087                         pte = *pdep;
5088                         /* Compute the physical address of the 4KB page. */
5089                         pa = ((*pdep & PG_PS_FRAME) | (addr & PDRMASK)) &
5090                             PG_FRAME;
5091                         val = MINCORE_SUPER;
5092                 } else {
5093                         ptep = pmap_pte(pmap, addr);
5094                         pte = *ptep;
5095                         pmap_pte_release(ptep);
5096                         pa = pte & PG_FRAME;
5097                         val = 0;
5098                 }
5099         } else {
5100                 pte = 0;
5101                 pa = 0;
5102                 val = 0;
5103         }
5104         if ((pte & PG_V) != 0) {
5105                 val |= MINCORE_INCORE;
5106                 if ((pte & (PG_M | PG_RW)) == (PG_M | PG_RW))
5107                         val |= MINCORE_MODIFIED | MINCORE_MODIFIED_OTHER;
5108                 if ((pte & PG_A) != 0)
5109                         val |= MINCORE_REFERENCED | MINCORE_REFERENCED_OTHER;
5110         }
5111         if ((val & (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER)) !=
5112             (MINCORE_MODIFIED_OTHER | MINCORE_REFERENCED_OTHER) &&
5113             (pte & (PG_MANAGED | PG_V)) == (PG_MANAGED | PG_V)) {
5114                 /* Ensure that "PHYS_TO_VM_PAGE(pa)->object" doesn't change. */
5115                 if (vm_page_pa_tryrelock(pmap, pa, locked_pa))
5116                         goto retry;
5117         } else
5118                 PA_UNLOCK_COND(*locked_pa);
5119         PMAP_UNLOCK(pmap);
5120         return (val);
5121 }
5122
5123 void
5124 pmap_activate(struct thread *td)
5125 {
5126         pmap_t  pmap, oldpmap;
5127         u_int   cpuid;
5128         u_int32_t  cr3;
5129
5130         critical_enter();
5131         pmap = vmspace_pmap(td->td_proc->p_vmspace);
5132         oldpmap = PCPU_GET(curpmap);
5133         cpuid = PCPU_GET(cpuid);
5134 #if defined(SMP)
5135         CPU_CLR_ATOMIC(cpuid, &oldpmap->pm_active);
5136         CPU_SET_ATOMIC(cpuid, &pmap->pm_active);
5137 #else
5138         CPU_CLR(cpuid, &oldpmap->pm_active);
5139         CPU_SET(cpuid, &pmap->pm_active);
5140 #endif
5141 #ifdef PAE
5142         cr3 = vtophys(pmap->pm_pdpt);
5143 #else
5144         cr3 = vtophys(pmap->pm_pdir);
5145 #endif
5146         /*
5147          * pmap_activate is for the current thread on the current cpu
5148          */
5149         td->td_pcb->pcb_cr3 = cr3;
5150         load_cr3(cr3);
5151         PCPU_SET(curpmap, pmap);
5152         critical_exit();
5153 }
5154
5155 void
5156 pmap_sync_icache(pmap_t pm, vm_offset_t va, vm_size_t sz)
5157 {
5158 }
5159
5160 /*
5161  *      Increase the starting virtual address of the given mapping if a
5162  *      different alignment might result in more superpage mappings.
5163  */
5164 void
5165 pmap_align_superpage(vm_object_t object, vm_ooffset_t offset,
5166     vm_offset_t *addr, vm_size_t size)
5167 {
5168         vm_offset_t superpage_offset;
5169
5170         if (size < NBPDR)
5171                 return;
5172         if (object != NULL && (object->flags & OBJ_COLORED) != 0)
5173                 offset += ptoa(object->pg_color);
5174         superpage_offset = offset & PDRMASK;
5175         if (size - ((NBPDR - superpage_offset) & PDRMASK) < NBPDR ||
5176             (*addr & PDRMASK) == superpage_offset)
5177                 return;
5178         if ((*addr & PDRMASK) < superpage_offset)
5179                 *addr = (*addr & ~PDRMASK) + superpage_offset;
5180         else
5181                 *addr = ((*addr + PDRMASK) & ~PDRMASK) + superpage_offset;
5182 }
5183
5184
5185 #if defined(PMAP_DEBUG)
5186 pmap_pid_dump(int pid)
5187 {
5188         pmap_t pmap;
5189         struct proc *p;
5190         int npte = 0;
5191         int index;
5192
5193         sx_slock(&allproc_lock);
5194         FOREACH_PROC_IN_SYSTEM(p) {
5195                 if (p->p_pid != pid)
5196                         continue;
5197
5198                 if (p->p_vmspace) {
5199                         int i,j;
5200                         index = 0;
5201                         pmap = vmspace_pmap(p->p_vmspace);
5202                         for (i = 0; i < NPDEPTD; i++) {
5203                                 pd_entry_t *pde;
5204                                 pt_entry_t *pte;
5205                                 vm_offset_t base = i << PDRSHIFT;
5206
5207                                 pde = &pmap->pm_pdir[i];
5208                                 if (pde && pmap_pde_v(pde)) {
5209                                         for (j = 0; j < NPTEPG; j++) {
5210                                                 vm_offset_t va = base + (j << PAGE_SHIFT);
5211                                                 if (va >= (vm_offset_t) VM_MIN_KERNEL_ADDRESS) {
5212                                                         if (index) {
5213                                                                 index = 0;
5214                                                                 printf("\n");
5215                                                         }
5216                                                         sx_sunlock(&allproc_lock);
5217                                                         return (npte);
5218                                                 }
5219                                                 pte = pmap_pte(pmap, va);
5220                                                 if (pte && pmap_pte_v(pte)) {
5221                                                         pt_entry_t pa;
5222                                                         vm_page_t m;
5223                                                         pa = *pte;
5224                                                         m = PHYS_TO_VM_PAGE(pa & PG_FRAME);
5225                                                         printf("va: 0x%x, pt: 0x%x, h: %d, w: %d, f: 0x%x",
5226                                                                 va, pa, m->hold_count, m->wire_count, m->flags);
5227                                                         npte++;
5228                                                         index++;
5229                                                         if (index >= 2) {
5230                                                                 index = 0;
5231                                                                 printf("\n");
5232                                                         } else {
5233                                                                 printf(" ");
5234                                                         }
5235                                                 }
5236                                         }
5237                                 }
5238                         }
5239                 }
5240         }
5241         sx_sunlock(&allproc_lock);
5242         return (npte);
5243 }
5244 #endif
5245
5246 #if defined(DEBUG)
5247
5248 static void     pads(pmap_t pm);
5249 void            pmap_pvdump(vm_paddr_t pa);
5250
5251 /* print address space of pmap*/
5252 static void
5253 pads(pmap_t pm)
5254 {
5255         int i, j;
5256         vm_paddr_t va;
5257         pt_entry_t *ptep;
5258
5259         if (pm == kernel_pmap)
5260                 return;
5261         for (i = 0; i < NPDEPTD; i++)
5262                 if (pm->pm_pdir[i])
5263                         for (j = 0; j < NPTEPG; j++) {
5264                                 va = (i << PDRSHIFT) + (j << PAGE_SHIFT);
5265                                 if (pm == kernel_pmap && va < KERNBASE)
5266                                         continue;
5267                                 if (pm != kernel_pmap && va > UPT_MAX_ADDRESS)
5268                                         continue;
5269                                 ptep = pmap_pte(pm, va);
5270                                 if (pmap_pte_v(ptep))
5271                                         printf("%x:%x ", va, *ptep);
5272                         };
5273
5274 }
5275
5276 void
5277 pmap_pvdump(vm_paddr_t pa)
5278 {
5279         pv_entry_t pv;
5280         pmap_t pmap;
5281         vm_page_t m;
5282
5283         printf("pa %x", pa);
5284         m = PHYS_TO_VM_PAGE(pa);
5285         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
5286                 pmap = PV_PMAP(pv);
5287                 printf(" -> pmap %p, va %x", (void *)pmap, pv->pv_va);
5288                 pads(pmap);
5289         }
5290         printf(" ");
5291 }
5292 #endif