sys/amd64/amd64/pmap.c

   1 /*-
   2  * Copyright (c) 1991 Regents of the University of California.
   3  * All rights reserved.
   4  * Copyright (c) 1994 John S. Dyson
   5  * All rights reserved.
   6  * Copyright (c) 1994 David Greenman
   7  * All rights reserved.
   8  * Copyright (c) 2003 Peter Wemm
   9  * All rights reserved.
  10  * Copyright (c) 2005 Alan L. Cox <alc@cs.rice.edu>
  11  * All rights reserved.
  12  *
  13  * This code is derived from software contributed to Berkeley by
  14  * the Systems Programming Group of the University of Utah Computer
  15  * Science Department and William Jolitz of UUNET Technologies Inc.
  16  *
  17  * Redistribution and use in source and binary forms, with or without
  18  * modification, are permitted provided that the following conditions
  19  * are met:
  20  * 1. Redistributions of source code must retain the above copyright
  21  *    notice, this list of conditions and the following disclaimer.
  22  * 2. Redistributions in binary form must reproduce the above copyright
  23  *    notice, this list of conditions and the following disclaimer in the
  24  *    documentation and/or other materials provided with the distribution.
  25  * 3. All advertising materials mentioning features or use of this software
  26  *    must display the following acknowledgement:
  27  *      This product includes software developed by the University of
  28  *      California, Berkeley and its contributors.
  29  * 4. Neither the name of the University nor the names of its contributors
  30  *    may be used to endorse or promote products derived from this software
  31  *    without specific prior written permission.
  32  *
  33  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  34  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  35  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  36  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  37  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  38  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  39  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  40  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  41  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  42  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  43  * SUCH DAMAGE.
  44  *
  45  *      from:   @(#)pmap.c      7.7 (Berkeley)  5/12/91
  46  */
  47 /*-
  48  * Copyright (c) 2003 Networks Associates Technology, Inc.
  49  * All rights reserved.
  50  *
  51  * This software was developed for the FreeBSD Project by Jake Burkholder,
  52  * Safeport Network Services, and Network Associates Laboratories, the
  53  * Security Research Division of Network Associates, Inc. under
  54  * DARPA/SPAWAR contract N66001-01-C-8035 ("CBOSS"), as part of the DARPA
  55  * CHATS research program.
  56  *
  57  * Redistribution and use in source and binary forms, with or without
  58  * modification, are permitted provided that the following conditions
  59  * are met:
  60  * 1. Redistributions of source code must retain the above copyright
  61  *    notice, this list of conditions and the following disclaimer.
  62  * 2. Redistributions in binary form must reproduce the above copyright
  63  *    notice, this list of conditions and the following disclaimer in the
  64  *    documentation and/or other materials provided with the distribution.
  65  *
  66  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
  67  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  68  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  69  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
  70  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  71  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  72  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  73  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  74  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  75  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  76  * SUCH DAMAGE.
  77  */
  78
  79 #include <sys/cdefs.h>
  80 __FBSDID("$FreeBSD$");
  81
  82 /*
  83  *      Manages physical address maps.
  84  *
  85  *      In addition to hardware address maps, this
  86  *      module is called upon to provide software-use-only
  87  *      maps which may or may not be stored in the same
  88  *      form as hardware maps.  These pseudo-maps are
  89  *      used to store intermediate results from copy
  90  *      operations to and from address spaces.
  91  *
  92  *      Since the information managed by this module is
  93  *      also stored by the logical address mapping module,
  94  *      this module may throw away valid virtual-to-physical
  95  *      mappings at almost any time.  However, invalidations
  96  *      of virtual-to-physical mappings must be done as
  97  *      requested.
  98  *
  99  *      In order to cope with hardware architectures which
 100  *      make virtual-to-physical map invalidates expensive,
 101  *      this module may delay invalidate or reduced protection
 102  *      operations until such time as they are actually
 103  *      necessary.  This module is given full information as
 104  *      to which processors are currently using which maps,
 105  *      and to when physical maps must be made correct.
 106  */
 107
 108 #include "opt_msgbuf.h"
 109 #include "opt_pmap.h"
 110
 111 #include <sys/param.h>
 112 #include <sys/systm.h>
 113 #include <sys/kernel.h>
 114 #include <sys/lock.h>
 115 #include <sys/malloc.h>
 116 #include <sys/mman.h>
 117 #include <sys/msgbuf.h>
 118 #include <sys/mutex.h>
 119 #include <sys/proc.h>
 120 #include <sys/sx.h>
 121 #include <sys/vmmeter.h>
 122 #include <sys/sched.h>
 123 #include <sys/sysctl.h>
 124 #ifdef SMP
 125 #include <sys/smp.h>
 126 #endif
 127
 128 #include <vm/vm.h>
 129 #include <vm/vm_param.h>
 130 #include <vm/vm_kern.h>
 131 #include <vm/vm_page.h>
 132 #include <vm/vm_map.h>
 133 #include <vm/vm_object.h>
 134 #include <vm/vm_extern.h>
 135 #include <vm/vm_pageout.h>
 136 #include <vm/vm_pager.h>
 137 #include <vm/uma.h>
 138
 139 #include <machine/cpu.h>
 140 #include <machine/cputypes.h>
 141 #include <machine/md_var.h>
 142 #include <machine/pcb.h>
 143 #include <machine/specialreg.h>
 144 #ifdef SMP
 145 #include <machine/smp.h>
 146 #endif
 147
 148 #ifndef PMAP_SHPGPERPROC
 149 #define PMAP_SHPGPERPROC 200
 150 #endif
 151
 152 #if defined(DIAGNOSTIC)
 153 #define PMAP_DIAGNOSTIC
 154 #endif
 155
 156 #if !defined(PMAP_DIAGNOSTIC)
 157 #define PMAP_INLINE __inline
 158 #else
 159 #define PMAP_INLINE
 160 #endif
 161
 162 #define PV_STATS
 163 #ifdef PV_STATS
 164 #define PV_STAT(x)      do { x ; } while (0)
 165 #else
 166 #define PV_STAT(x)      do { } while (0)
 167 #endif
 168
 169 struct pmap kernel_pmap_store;
 170
 171 vm_paddr_t avail_start;         /* PA of first available physical page */
 172 vm_paddr_t avail_end;           /* PA of last available physical page */
 173 vm_offset_t virtual_avail;      /* VA of first avail page (after kernel bss) */
 174 vm_offset_t virtual_end;        /* VA of last avail page (end of kernel AS) */
 175
 176 static int nkpt;
 177 static int ndmpdp;
 178 static vm_paddr_t dmaplimit;
 179 vm_offset_t kernel_vm_end;
 180 pt_entry_t pg_nx;
 181
 182 static u_int64_t        KPTphys;        /* phys addr of kernel level 1 */
 183 static u_int64_t        KPDphys;        /* phys addr of kernel level 2 */
 184 u_int64_t               KPDPphys;       /* phys addr of kernel level 3 */
 185 u_int64_t               KPML4phys;      /* phys addr of kernel level 4 */
 186
 187 static u_int64_t        DMPDphys;       /* phys addr of direct mapped level 2 */
 188 static u_int64_t        DMPDPphys;      /* phys addr of direct mapped level 3 */
 189
 190 /*
 191  * Data for the pv entry allocation mechanism
 192  */
 193 static int pv_entry_count = 0, pv_entry_max = 0, pv_entry_high_water = 0;
 194 static int shpgperproc = PMAP_SHPGPERPROC;
 195
 196 /*
 197  * All those kernel PT submaps that BSD is so fond of
 198  */
 199 pt_entry_t *CMAP1 = 0;
 200 caddr_t CADDR1 = 0;
 201 struct msgbuf *msgbufp = 0;
 202
 203 /*
 204  * Crashdump maps.
 205  */
 206 static caddr_t crashdumpmap;
 207
 208 static void     free_pv_entry(pmap_t pmap, pv_entry_t pv);
 209 static pv_entry_t get_pv_entry(pmap_t locked_pmap, int try);
 210
 211 static vm_page_t pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va,
 212     vm_page_t m, vm_prot_t prot, vm_page_t mpte);
 213 static int pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq,
 214                 vm_offset_t sva, pd_entry_t ptepde);
 215 static void pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde);
 216 static void pmap_remove_entry(struct pmap *pmap, vm_page_t m,
 217                 vm_offset_t va);
 218 static void pmap_insert_entry(pmap_t pmap, vm_offset_t va, vm_page_t m);
 219 static boolean_t pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va,
 220     vm_page_t m);
 221
 222 static vm_page_t pmap_allocpde(pmap_t pmap, vm_offset_t va, int flags);
 223 static vm_page_t pmap_allocpte(pmap_t pmap, vm_offset_t va, int flags);
 224
 225 static vm_page_t _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex, int flags);
 226 static int _pmap_unwire_pte_hold(pmap_t pmap, vm_offset_t va, vm_page_t m);
 227 static int pmap_unuse_pt(pmap_t, vm_offset_t, pd_entry_t);
 228 static vm_offset_t pmap_kmem_choose(vm_offset_t addr);
 229
 230 CTASSERT(1 << PDESHIFT == sizeof(pd_entry_t));
 231 CTASSERT(1 << PTESHIFT == sizeof(pt_entry_t));
 232
 233 /*
 234  * Move the kernel virtual free pointer to the next
 235  * 2MB.  This is used to help improve performance
 236  * by using a large (2MB) page for much of the kernel
 237  * (.text, .data, .bss)
 238  */
 239 static vm_offset_t
 240 pmap_kmem_choose(vm_offset_t addr)
 241 {
 242         vm_offset_t newaddr = addr;
 243
 244         newaddr = (addr + (NBPDR - 1)) & ~(NBPDR - 1);
 245         return newaddr;
 246 }
 247
 248 /********************/
 249 /* Inline functions */
 250 /********************/
 251
 252 /* Return a non-clipped PD index for a given VA */
 253 static __inline vm_pindex_t
 254 pmap_pde_pindex(vm_offset_t va)
 255 {
 256         return va >> PDRSHIFT;
 257 }
 258
 259
 260 /* Return various clipped indexes for a given VA */
 261 static __inline vm_pindex_t
 262 pmap_pte_index(vm_offset_t va)
 263 {
 264
 265         return ((va >> PAGE_SHIFT) & ((1ul << NPTEPGSHIFT) - 1));
 266 }
 267
 268 static __inline vm_pindex_t
 269 pmap_pde_index(vm_offset_t va)
 270 {
 271
 272         return ((va >> PDRSHIFT) & ((1ul << NPDEPGSHIFT) - 1));
 273 }
 274
 275 static __inline vm_pindex_t
 276 pmap_pdpe_index(vm_offset_t va)
 277 {
 278
 279         return ((va >> PDPSHIFT) & ((1ul << NPDPEPGSHIFT) - 1));
 280 }
 281
 282 static __inline vm_pindex_t
 283 pmap_pml4e_index(vm_offset_t va)
 284 {
 285
 286         return ((va >> PML4SHIFT) & ((1ul << NPML4EPGSHIFT) - 1));
 287 }
 288
 289 /* Return a pointer to the PML4 slot that corresponds to a VA */
 290 static __inline pml4_entry_t *
 291 pmap_pml4e(pmap_t pmap, vm_offset_t va)
 292 {
 293
 294         if (!pmap)
 295                 return NULL;
 296         return (&pmap->pm_pml4[pmap_pml4e_index(va)]);
 297 }
 298
 299 /* Return a pointer to the PDP slot that corresponds to a VA */
 300 static __inline pdp_entry_t *
 301 pmap_pml4e_to_pdpe(pml4_entry_t *pml4e, vm_offset_t va)
 302 {
 303         pdp_entry_t *pdpe;
 304
 305         pdpe = (pdp_entry_t *)PHYS_TO_DMAP(*pml4e & PG_FRAME);
 306         return (&pdpe[pmap_pdpe_index(va)]);
 307 }
 308
 309 /* Return a pointer to the PDP slot that corresponds to a VA */
 310 static __inline pdp_entry_t *
 311 pmap_pdpe(pmap_t pmap, vm_offset_t va)
 312 {
 313         pml4_entry_t *pml4e;
 314
 315         pml4e = pmap_pml4e(pmap, va);
 316         if (pml4e == NULL || (*pml4e & PG_V) == 0)
 317                 return NULL;
 318         return (pmap_pml4e_to_pdpe(pml4e, va));
 319 }
 320
 321 /* Return a pointer to the PD slot that corresponds to a VA */
 322 static __inline pd_entry_t *
 323 pmap_pdpe_to_pde(pdp_entry_t *pdpe, vm_offset_t va)
 324 {
 325         pd_entry_t *pde;
 326
 327         pde = (pd_entry_t *)PHYS_TO_DMAP(*pdpe & PG_FRAME);
 328         return (&pde[pmap_pde_index(va)]);
 329 }
 330
 331 /* Return a pointer to the PD slot that corresponds to a VA */
 332 static __inline pd_entry_t *
 333 pmap_pde(pmap_t pmap, vm_offset_t va)
 334 {
 335         pdp_entry_t *pdpe;
 336
 337         pdpe = pmap_pdpe(pmap, va);
 338         if (pdpe == NULL || (*pdpe & PG_V) == 0)
 339                  return NULL;
 340         return (pmap_pdpe_to_pde(pdpe, va));
 341 }
 342
 343 /* Return a pointer to the PT slot that corresponds to a VA */
 344 static __inline pt_entry_t *
 345 pmap_pde_to_pte(pd_entry_t *pde, vm_offset_t va)
 346 {
 347         pt_entry_t *pte;
 348
 349         pte = (pt_entry_t *)PHYS_TO_DMAP(*pde & PG_FRAME);
 350         return (&pte[pmap_pte_index(va)]);
 351 }
 352
 353 /* Return a pointer to the PT slot that corresponds to a VA */
 354 static __inline pt_entry_t *
 355 pmap_pte(pmap_t pmap, vm_offset_t va)
 356 {
 357         pd_entry_t *pde;
 358
 359         pde = pmap_pde(pmap, va);
 360         if (pde == NULL || (*pde & PG_V) == 0)
 361                 return NULL;
 362         if ((*pde & PG_PS) != 0)        /* compat with i386 pmap_pte() */
 363                 return ((pt_entry_t *)pde);
 364         return (pmap_pde_to_pte(pde, va));
 365 }
 366
 367
 368 static __inline pt_entry_t *
 369 pmap_pte_pde(pmap_t pmap, vm_offset_t va, pd_entry_t *ptepde)
 370 {
 371         pd_entry_t *pde;
 372
 373         pde = pmap_pde(pmap, va);
 374         if (pde == NULL || (*pde & PG_V) == 0)
 375                 return NULL;
 376         *ptepde = *pde;
 377         if ((*pde & PG_PS) != 0)        /* compat with i386 pmap_pte() */
 378                 return ((pt_entry_t *)pde);
 379         return (pmap_pde_to_pte(pde, va));
 380 }
 381
 382
 383 PMAP_INLINE pt_entry_t *
 384 vtopte(vm_offset_t va)
 385 {
 386         u_int64_t mask = ((1ul << (NPTEPGSHIFT + NPDEPGSHIFT + NPDPEPGSHIFT + NPML4EPGSHIFT)) - 1);
 387
 388         return (PTmap + ((va >> PAGE_SHIFT) & mask));
 389 }
 390
 391 static __inline pd_entry_t *
 392 vtopde(vm_offset_t va)
 393 {
 394         u_int64_t mask = ((1ul << (NPDEPGSHIFT + NPDPEPGSHIFT + NPML4EPGSHIFT)) - 1);
 395
 396         return (PDmap + ((va >> PDRSHIFT) & mask));
 397 }
 398
 399 static u_int64_t
 400 allocpages(int n)
 401 {
 402         u_int64_t ret;
 403
 404         ret = avail_start;
 405         bzero((void *)ret, n * PAGE_SIZE);
 406         avail_start += n * PAGE_SIZE;
 407         return (ret);
 408 }
 409
 410 static void
 411 create_pagetables(void)
 412 {
 413         int i;
 414
 415         /* Allocate pages */
 416         KPTphys = allocpages(NKPT);
 417         KPML4phys = allocpages(1);
 418         KPDPphys = allocpages(NKPML4E);
 419         KPDphys = allocpages(NKPDPE);
 420
 421         ndmpdp = (ptoa(Maxmem) + NBPDP - 1) >> PDPSHIFT;
 422         if (ndmpdp < 4)         /* Minimum 4GB of dirmap */
 423                 ndmpdp = 4;
 424         DMPDPphys = allocpages(NDMPML4E);
 425         DMPDphys = allocpages(ndmpdp);
 426         dmaplimit = (vm_paddr_t)ndmpdp << PDPSHIFT;
 427
 428         /* Fill in the underlying page table pages */
 429         /* Read-only from zero to physfree */
 430         /* XXX not fully used, underneath 2M pages */
 431         for (i = 0; (i << PAGE_SHIFT) < avail_start; i++) {
 432                 ((pt_entry_t *)KPTphys)[i] = i << PAGE_SHIFT;
 433                 ((pt_entry_t *)KPTphys)[i] |= PG_RW | PG_V | PG_G;
 434         }
 435
 436         /* Now map the page tables at their location within PTmap */
 437         for (i = 0; i < NKPT; i++) {
 438                 ((pd_entry_t *)KPDphys)[i] = KPTphys + (i << PAGE_SHIFT);
 439                 ((pd_entry_t *)KPDphys)[i] |= PG_RW | PG_V;
 440         }
 441
 442         /* Map from zero to end of allocations under 2M pages */
 443         /* This replaces some of the KPTphys entries above */
 444         for (i = 0; (i << PDRSHIFT) < avail_start; i++) {
 445                 ((pd_entry_t *)KPDphys)[i] = i << PDRSHIFT;
 446                 ((pd_entry_t *)KPDphys)[i] |= PG_RW | PG_V | PG_PS | PG_G;
 447         }
 448
 449         /* And connect up the PD to the PDP */
 450         for (i = 0; i < NKPDPE; i++) {
 451                 ((pdp_entry_t *)KPDPphys)[i + KPDPI] = KPDphys + (i << PAGE_SHIFT);
 452                 ((pdp_entry_t *)KPDPphys)[i + KPDPI] |= PG_RW | PG_V | PG_U;
 453         }
 454
 455
 456         /* Now set up the direct map space using 2MB pages */
 457         for (i = 0; i < NPDEPG * ndmpdp; i++) {
 458                 ((pd_entry_t *)DMPDphys)[i] = (vm_paddr_t)i << PDRSHIFT;
 459                 ((pd_entry_t *)DMPDphys)[i] |= PG_RW | PG_V | PG_PS | PG_G;
 460         }
 461
 462         /* And the direct map space's PDP */
 463         for (i = 0; i < ndmpdp; i++) {
 464                 ((pdp_entry_t *)DMPDPphys)[i] = DMPDphys + (i << PAGE_SHIFT);
 465                 ((pdp_entry_t *)DMPDPphys)[i] |= PG_RW | PG_V | PG_U;
 466         }
 467
 468         /* And recursively map PML4 to itself in order to get PTmap */
 469         ((pdp_entry_t *)KPML4phys)[PML4PML4I] = KPML4phys;
 470         ((pdp_entry_t *)KPML4phys)[PML4PML4I] |= PG_RW | PG_V | PG_U;
 471
 472         /* Connect the Direct Map slot up to the PML4 */
 473         ((pdp_entry_t *)KPML4phys)[DMPML4I] = DMPDPphys;
 474         ((pdp_entry_t *)KPML4phys)[DMPML4I] |= PG_RW | PG_V | PG_U;
 475
 476         /* Connect the KVA slot up to the PML4 */
 477         ((pdp_entry_t *)KPML4phys)[KPML4I] = KPDPphys;
 478         ((pdp_entry_t *)KPML4phys)[KPML4I] |= PG_RW | PG_V | PG_U;
 479 }
 480
 481 /*
 482  *      Bootstrap the system enough to run with virtual memory.
 483  *
 484  *      On amd64 this is called after mapping has already been enabled
 485  *      and just syncs the pmap module with what has already been done.
 486  *      [We can't call it easily with mapping off since the kernel is not
 487  *      mapped with PA == VA, hence we would have to relocate every address
 488  *      from the linked base (virtual) address "KERNBASE" to the actual
 489  *      (physical) address starting relative to 0]
 490  */
 491 void
 492 pmap_bootstrap(vm_paddr_t *firstaddr)
 493 {
 494         vm_offset_t va;
 495         pt_entry_t *pte, *unused;
 496
 497         avail_start = *firstaddr;
 498
 499         /*
 500          * Create an initial set of page tables to run the kernel in.
 501          */
 502         create_pagetables();
 503         *firstaddr = avail_start;
 504
 505         virtual_avail = (vm_offset_t) KERNBASE + avail_start;
 506         virtual_avail = pmap_kmem_choose(virtual_avail);
 507
 508         virtual_end = VM_MAX_KERNEL_ADDRESS;
 509
 510
 511         /* XXX do %cr0 as well */
 512         load_cr4(rcr4() | CR4_PGE | CR4_PSE);
 513         load_cr3(KPML4phys);
 514
 515         /*
 516          * Initialize the kernel pmap (which is statically allocated).
 517          */
 518         PMAP_LOCK_INIT(kernel_pmap);
 519         kernel_pmap->pm_pml4 = (pdp_entry_t *) (KERNBASE + KPML4phys);
 520         kernel_pmap->pm_active = -1;    /* don't allow deactivation */
 521         TAILQ_INIT(&kernel_pmap->pm_pvchunk);
 522         nkpt = NKPT;
 523
 524         /*
 525          * Reserve some special page table entries/VA space for temporary
 526          * mapping of pages.
 527          */
 528 #define SYSMAP(c, p, v, n)      \
 529         v = (c)va; va += ((n)*PAGE_SIZE); p = pte; pte += (n);
 530
 531         va = virtual_avail;
 532         pte = vtopte(va);
 533
 534         /*
 535          * CMAP1 is only used for the memory test.
 536          */
 537         SYSMAP(caddr_t, CMAP1, CADDR1, 1)
 538
 539         /*
 540          * Crashdump maps.
 541          */
 542         SYSMAP(caddr_t, unused, crashdumpmap, MAXDUMPPGS)
 543
 544         /*
 545          * msgbufp is used to map the system message buffer.
 546          */
 547         SYSMAP(struct msgbuf *, unused, msgbufp, atop(round_page(MSGBUF_SIZE)))
 548
 549         virtual_avail = va;
 550
 551         *CMAP1 = 0;
 552
 553         invltlb();
 554
 555         /* Initialize the PAT MSR. */
 556         pmap_init_pat();
 557 }
 558
 559 /*
 560  * Setup the PAT MSR.
 561  */
 562 void
 563 pmap_init_pat(void)
 564 {
 565         uint64_t pat_msr;
 566
 567         /* Bail if this CPU doesn't implement PAT. */
 568         if (!(cpu_feature & CPUID_PAT))
 569                 panic("no PAT??");
 570
 571 #ifdef PAT_WORKS
 572         /*
 573          * Leave the indices 0-3 at the default of WB, WT, UC, and UC-.
 574          * Program 4 and 5 as WP and WC.
 575          * Leave 6 and 7 as UC and UC-.
 576          */
 577         pat_msr = rdmsr(MSR_PAT);
 578         pat_msr &= ~(PAT_MASK(4) | PAT_MASK(5));
 579         pat_msr |= PAT_VALUE(4, PAT_WRITE_PROTECTED) |
 580             PAT_VALUE(5, PAT_WRITE_COMBINING);
 581 #else
 582         /*
 583          * Due to some Intel errata, we can only safely use the lower 4
 584          * PAT entries.  Thus, just replace PAT Index 2 with WC instead
 585          * of UC-.
 586          *
 587          *   Intel Pentium III Processor Specification Update
 588          * Errata E.27 (Upper Four PAT Entries Not Usable With Mode B
 589          * or Mode C Paging)
 590          *
 591          *   Intel Pentium IV  Processor Specification Update
 592          * Errata N46 (PAT Index MSB May Be Calculated Incorrectly)
 593          */
 594         pat_msr = rdmsr(MSR_PAT);
 595         pat_msr &= ~PAT_MASK(2);
 596         pat_msr |= PAT_VALUE(2, PAT_WRITE_COMBINING);
 597 #endif
 598         wrmsr(MSR_PAT, pat_msr);
 599 }
 600
 601 /*
 602  *      Initialize a vm_page's machine-dependent fields.
 603  */
 604 void
 605 pmap_page_init(vm_page_t m)
 606 {
 607
 608         TAILQ_INIT(&m->md.pv_list);
 609         m->md.pv_list_count = 0;
 610 }
 611
 612 /*
 613  *      Initialize the pmap module.
 614  *      Called by vm_init, to initialize any structures that the pmap
 615  *      system needs to map virtual memory.
 616  */
 617 void
 618 pmap_init(void)
 619 {
 620
 621         /*
 622          * Initialize the address space (zone) for the pv entries.  Set a
 623          * high water mark so that the system can recover from excessive
 624          * numbers of pv entries.
 625          */
 626         TUNABLE_INT_FETCH("vm.pmap.shpgperproc", &shpgperproc);
 627         pv_entry_max = shpgperproc * maxproc + cnt.v_page_count;
 628         TUNABLE_INT_FETCH("vm.pmap.pv_entries", &pv_entry_max);
 629         pv_entry_high_water = 9 * (pv_entry_max / 10);
 630 }
 631
 632 SYSCTL_NODE(_vm, OID_AUTO, pmap, CTLFLAG_RD, 0, "VM/pmap parameters");
 633 static int
 634 pmap_pventry_proc(SYSCTL_HANDLER_ARGS)
 635 {
 636         int error;
 637
 638         error = sysctl_handle_int(oidp, oidp->oid_arg1, oidp->oid_arg2, req);
 639         if (error == 0 && req->newptr) {
 640                 shpgperproc = (pv_entry_max - cnt.v_page_count) / maxproc;
 641                 pv_entry_high_water = 9 * (pv_entry_max / 10);
 642         }
 643         return (error);
 644 }
 645 SYSCTL_PROC(_vm_pmap, OID_AUTO, pv_entry_max, CTLTYPE_INT|CTLFLAG_RW,
 646     &pv_entry_max, 0, pmap_pventry_proc, "IU", "Max number of PV entries");
 647
 648 static int
 649 pmap_shpgperproc_proc(SYSCTL_HANDLER_ARGS)
 650 {
 651         int error;
 652
 653         error = sysctl_handle_int(oidp, oidp->oid_arg1, oidp->oid_arg2, req);
 654         if (error == 0 && req->newptr) {
 655                 pv_entry_max = shpgperproc * maxproc + cnt.v_page_count;
 656                 pv_entry_high_water = 9 * (pv_entry_max / 10);
 657         }
 658         return (error);
 659 }
 660 SYSCTL_PROC(_vm_pmap, OID_AUTO, shpgperproc, CTLTYPE_INT|CTLFLAG_RW,
 661     &shpgperproc, 0, pmap_shpgperproc_proc, "IU", "Page share factor per proc");
 662
 663
 664 /***************************************************
 665  * Low level helper routines.....
 666  ***************************************************/
 667
 668 /*
 669  * Determine the appropriate bits to set in a PTE or PDE for a specified
 670  * caching mode.
 671  */
 672 static int
 673 pmap_cache_bits(int mode, boolean_t is_pde)
 674 {
 675         int pat_flag, pat_index, cache_bits;
 676
 677         /* The PAT bit is different for PTE's and PDE's. */
 678         pat_flag = is_pde ? PG_PDE_PAT : PG_PTE_PAT;
 679
 680         /* If we don't support PAT, map extended modes to older ones. */
 681         if (!(cpu_feature & CPUID_PAT)) {
 682                 switch (mode) {
 683                 case PAT_UNCACHEABLE:
 684                 case PAT_WRITE_THROUGH:
 685                 case PAT_WRITE_BACK:
 686                         break;
 687                 case PAT_UNCACHED:
 688                 case PAT_WRITE_COMBINING:
 689                 case PAT_WRITE_PROTECTED:
 690                         mode = PAT_UNCACHEABLE;
 691                         break;
 692                 }
 693         }
 694
 695         /* Map the caching mode to a PAT index. */
 696         switch (mode) {
 697 #ifdef PAT_WORKS
 698         case PAT_UNCACHEABLE:
 699                 pat_index = 3;
 700                 break;
 701         case PAT_WRITE_THROUGH:
 702                 pat_index = 1;
 703                 break;
 704         case PAT_WRITE_BACK:
 705                 pat_index = 0;
 706                 break;
 707         case PAT_UNCACHED:
 708                 pat_index = 2;
 709                 break;
 710         case PAT_WRITE_COMBINING:
 711                 pat_index = 5;
 712                 break;
 713         case PAT_WRITE_PROTECTED:
 714                 pat_index = 4;
 715                 break;
 716 #else
 717         case PAT_UNCACHED:
 718         case PAT_UNCACHEABLE:
 719         case PAT_WRITE_PROTECTED:
 720                 pat_index = 3;
 721                 break;
 722         case PAT_WRITE_THROUGH:
 723                 pat_index = 1;
 724                 break;
 725         case PAT_WRITE_BACK:
 726                 pat_index = 0;
 727                 break;
 728         case PAT_WRITE_COMBINING:
 729                 pat_index = 2;
 730                 break;
 731 #endif
 732         default:
 733                 panic("Unknown caching mode %d\n", mode);
 734         }
 735
 736         /* Map the 3-bit index value into the PAT, PCD, and PWT bits. */
 737         cache_bits = 0;
 738         if (pat_index & 0x4)
 739                 cache_bits |= pat_flag;
 740         if (pat_index & 0x2)
 741                 cache_bits |= PG_NC_PCD;
 742         if (pat_index & 0x1)
 743                 cache_bits |= PG_NC_PWT;
 744         return (cache_bits);
 745 }
 746 #ifdef SMP
 747 /*
 748  * For SMP, these functions have to use the IPI mechanism for coherence.
 749  */
 750 void
 751 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
 752 {
 753         u_int cpumask;
 754         u_int other_cpus;
 755
 756         if (smp_started) {
 757                 if (!(read_rflags() & PSL_I))
 758                         panic("%s: interrupts disabled", __func__);
 759                 mtx_lock_spin(&smp_ipi_mtx);
 760         } else
 761                 critical_enter();
 762         /*
 763          * We need to disable interrupt preemption but MUST NOT have
 764          * interrupts disabled here.
 765          * XXX we may need to hold schedlock to get a coherent pm_active
 766          * XXX critical sections disable interrupts again
 767          */
 768         if (pmap == kernel_pmap || pmap->pm_active == all_cpus) {
 769                 invlpg(va);
 770                 smp_invlpg(va);
 771         } else {
 772                 cpumask = PCPU_GET(cpumask);
 773                 other_cpus = PCPU_GET(other_cpus);
 774                 if (pmap->pm_active & cpumask)
 775                         invlpg(va);
 776                 if (pmap->pm_active & other_cpus)
 777                         smp_masked_invlpg(pmap->pm_active & other_cpus, va);
 778         }
 779         if (smp_started)
 780                 mtx_unlock_spin(&smp_ipi_mtx);
 781         else
 782                 critical_exit();
 783 }
 784
 785 void
 786 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
 787 {
 788         u_int cpumask;
 789         u_int other_cpus;
 790         vm_offset_t addr;
 791
 792         if (smp_started) {
 793                 if (!(read_rflags() & PSL_I))
 794                         panic("%s: interrupts disabled", __func__);
 795                 mtx_lock_spin(&smp_ipi_mtx);
 796         } else
 797                 critical_enter();
 798         /*
 799          * We need to disable interrupt preemption but MUST NOT have
 800          * interrupts disabled here.
 801          * XXX we may need to hold schedlock to get a coherent pm_active
 802          * XXX critical sections disable interrupts again
 803          */
 804         if (pmap == kernel_pmap || pmap->pm_active == all_cpus) {
 805                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
 806                         invlpg(addr);
 807                 smp_invlpg_range(sva, eva);
 808         } else {
 809                 cpumask = PCPU_GET(cpumask);
 810                 other_cpus = PCPU_GET(other_cpus);
 811                 if (pmap->pm_active & cpumask)
 812                         for (addr = sva; addr < eva; addr += PAGE_SIZE)
 813                                 invlpg(addr);
 814                 if (pmap->pm_active & other_cpus)
 815                         smp_masked_invlpg_range(pmap->pm_active & other_cpus,
 816                             sva, eva);
 817         }
 818         if (smp_started)
 819                 mtx_unlock_spin(&smp_ipi_mtx);
 820         else
 821                 critical_exit();
 822 }
 823
 824 void
 825 pmap_invalidate_all(pmap_t pmap)
 826 {
 827         u_int cpumask;
 828         u_int other_cpus;
 829
 830         if (smp_started) {
 831                 if (!(read_rflags() & PSL_I))
 832                         panic("%s: interrupts disabled", __func__);
 833                 mtx_lock_spin(&smp_ipi_mtx);
 834         } else
 835                 critical_enter();
 836         /*
 837          * We need to disable interrupt preemption but MUST NOT have
 838          * interrupts disabled here.
 839          * XXX we may need to hold schedlock to get a coherent pm_active
 840          * XXX critical sections disable interrupts again
 841          */
 842         if (pmap == kernel_pmap || pmap->pm_active == all_cpus) {
 843                 invltlb();
 844                 smp_invltlb();
 845         } else {
 846                 cpumask = PCPU_GET(cpumask);
 847                 other_cpus = PCPU_GET(other_cpus);
 848                 if (pmap->pm_active & cpumask)
 849                         invltlb();
 850                 if (pmap->pm_active & other_cpus)
 851                         smp_masked_invltlb(pmap->pm_active & other_cpus);
 852         }
 853         if (smp_started)
 854                 mtx_unlock_spin(&smp_ipi_mtx);
 855         else
 856                 critical_exit();
 857 }
 858
 859 void
 860 pmap_invalidate_cache(void)
 861 {
 862
 863         if (smp_started) {
 864                 if (!(read_rflags() & PSL_I))
 865                         panic("%s: interrupts disabled", __func__);
 866                 mtx_lock_spin(&smp_ipi_mtx);
 867         } else
 868                 critical_enter();
 869         /*
 870          * We need to disable interrupt preemption but MUST NOT have
 871          * interrupts disabled here.
 872          * XXX we may need to hold schedlock to get a coherent pm_active
 873          * XXX critical sections disable interrupts again
 874          */
 875         wbinvd();
 876         smp_cache_flush();
 877         if (smp_started)
 878                 mtx_unlock_spin(&smp_ipi_mtx);
 879         else
 880                 critical_exit();
 881 }
 882 #else /* !SMP */
 883 /*
 884  * Normal, non-SMP, invalidation functions.
 885  * We inline these within pmap.c for speed.
 886  */
 887 PMAP_INLINE void
 888 pmap_invalidate_page(pmap_t pmap, vm_offset_t va)
 889 {
 890
 891         if (pmap == kernel_pmap || pmap->pm_active)
 892                 invlpg(va);
 893 }
 894
 895 PMAP_INLINE void
 896 pmap_invalidate_range(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
 897 {
 898         vm_offset_t addr;
 899
 900         if (pmap == kernel_pmap || pmap->pm_active)
 901                 for (addr = sva; addr < eva; addr += PAGE_SIZE)
 902                         invlpg(addr);
 903 }
 904
 905 PMAP_INLINE void
 906 pmap_invalidate_all(pmap_t pmap)
 907 {
 908
 909         if (pmap == kernel_pmap || pmap->pm_active)
 910                 invltlb();
 911 }
 912
 913 PMAP_INLINE void
 914 pmap_invalidate_cache(void)
 915 {
 916
 917         wbinvd();
 918 }
 919 #endif /* !SMP */
 920
 921 /*
 922  * Are we current address space or kernel?
 923  */
 924 static __inline int
 925 pmap_is_current(pmap_t pmap)
 926 {
 927         return (pmap == kernel_pmap ||
 928             (pmap->pm_pml4[PML4PML4I] & PG_FRAME) == (PML4pml4e[0] & PG_FRAME));
 929 }
 930
 931 /*
 932  *      Routine:        pmap_extract
 933  *      Function:
 934  *              Extract the physical page address associated
 935  *              with the given map/virtual_address pair.
 936  */
 937 vm_paddr_t
 938 pmap_extract(pmap_t pmap, vm_offset_t va)
 939 {
 940         vm_paddr_t rtval;
 941         pt_entry_t *pte;
 942         pd_entry_t pde, *pdep;
 943
 944         rtval = 0;
 945         PMAP_LOCK(pmap);
 946         pdep = pmap_pde(pmap, va);
 947         if (pdep != NULL) {
 948                 pde = *pdep;
 949                 if (pde) {
 950                         if ((pde & PG_PS) != 0) {
 951                                 KASSERT((pde & PG_FRAME & PDRMASK) == 0,
 952                                     ("pmap_extract: bad pde"));
 953                                 rtval = (pde & PG_FRAME) | (va & PDRMASK);
 954                                 PMAP_UNLOCK(pmap);
 955                                 return rtval;
 956                         }
 957                         pte = pmap_pde_to_pte(pdep, va);
 958                         rtval = (*pte & PG_FRAME) | (va & PAGE_MASK);
 959                 }
 960         }
 961         PMAP_UNLOCK(pmap);
 962         return (rtval);
 963 }
 964
 965 /*
 966  *      Routine:        pmap_extract_and_hold
 967  *      Function:
 968  *              Atomically extract and hold the physical page
 969  *              with the given pmap and virtual address pair
 970  *              if that mapping permits the given protection.
 971  */
 972 vm_page_t
 973 pmap_extract_and_hold(pmap_t pmap, vm_offset_t va, vm_prot_t prot)
 974 {
 975         pd_entry_t pde, *pdep;
 976         pt_entry_t pte;
 977         vm_page_t m;
 978
 979         m = NULL;
 980         vm_page_lock_queues();
 981         PMAP_LOCK(pmap);
 982         pdep = pmap_pde(pmap, va);
 983         if (pdep != NULL && (pde = *pdep)) {
 984                 if (pde & PG_PS) {
 985                         if ((pde & PG_RW) || (prot & VM_PROT_WRITE) == 0) {
 986                                 KASSERT((pde & PG_FRAME & PDRMASK) == 0,
 987                                     ("pmap_extract_and_hold: bad pde"));
 988                                 m = PHYS_TO_VM_PAGE((pde & PG_FRAME) |
 989                                     (va & PDRMASK));
 990                                 vm_page_hold(m);
 991                         }
 992                 } else {
 993                         pte = *pmap_pde_to_pte(pdep, va);
 994                         if ((pte & PG_V) &&
 995                             ((pte & PG_RW) || (prot & VM_PROT_WRITE) == 0)) {
 996                                 m = PHYS_TO_VM_PAGE(pte & PG_FRAME);
 997                                 vm_page_hold(m);
 998                         }
 999                 }
1000         }
1001         vm_page_unlock_queues();
1002         PMAP_UNLOCK(pmap);
1003         return (m);
1004 }
1005
1006 vm_paddr_t
1007 pmap_kextract(vm_offset_t va)
1008 {
1009         pd_entry_t *pde;
1010         vm_paddr_t pa;
1011
1012         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS) {
1013                 pa = DMAP_TO_PHYS(va);
1014         } else {
1015                 pde = vtopde(va);
1016                 if (*pde & PG_PS) {
1017                         pa = (*pde & ~(NBPDR - 1)) | (va & (NBPDR - 1));
1018                 } else {
1019                         pa = *vtopte(va);
1020                         pa = (pa & PG_FRAME) | (va & PAGE_MASK);
1021                 }
1022         }
1023         return pa;
1024 }
1025
1026 /***************************************************
1027  * Low level mapping routines.....
1028  ***************************************************/
1029
1030 /*
1031  * Add a wired page to the kva.
1032  * Note: not SMP coherent.
1033  */
1034 PMAP_INLINE void
1035 pmap_kenter(vm_offset_t va, vm_paddr_t pa)
1036 {
1037         pt_entry_t *pte;
1038
1039         pte = vtopte(va);
1040         pte_store(pte, pa | PG_RW | PG_V | PG_G);
1041 }
1042
1043 PMAP_INLINE void
1044 pmap_kenter_attr(vm_offset_t va, vm_paddr_t pa, int mode)
1045 {
1046         pt_entry_t *pte;
1047
1048         pte = vtopte(va);
1049         pte_store(pte, pa | PG_RW | PG_V | PG_G | pmap_cache_bits(mode, 0));
1050 }
1051
1052 /*
1053  * Remove a page from the kernel pagetables.
1054  * Note: not SMP coherent.
1055  */
1056 PMAP_INLINE void
1057 pmap_kremove(vm_offset_t va)
1058 {
1059         pt_entry_t *pte;
1060
1061         pte = vtopte(va);
1062         pte_clear(pte);
1063 }
1064
1065 /*
1066  *      Used to map a range of physical addresses into kernel
1067  *      virtual address space.
1068  *
1069  *      The value passed in '*virt' is a suggested virtual address for
1070  *      the mapping. Architectures which can support a direct-mapped
1071  *      physical to virtual region can return the appropriate address
1072  *      within that region, leaving '*virt' unchanged. Other
1073  *      architectures should map the pages starting at '*virt' and
1074  *      update '*virt' with the first usable address after the mapped
1075  *      region.
1076  */
1077 vm_offset_t
1078 pmap_map(vm_offset_t *virt, vm_paddr_t start, vm_paddr_t end, int prot)
1079 {
1080         return PHYS_TO_DMAP(start);
1081 }
1082
1083
1084 /*
1085  * Add a list of wired pages to the kva
1086  * this routine is only used for temporary
1087  * kernel mappings that do not need to have
1088  * page modification or references recorded.
1089  * Note that old mappings are simply written
1090  * over.  The page *must* be wired.
1091  * Note: SMP coherent.  Uses a ranged shootdown IPI.
1092  */
1093 void
1094 pmap_qenter(vm_offset_t sva, vm_page_t *ma, int count)
1095 {
1096         pt_entry_t *endpte, oldpte, *pte;
1097
1098         oldpte = 0;
1099         pte = vtopte(sva);
1100         endpte = pte + count;
1101         while (pte < endpte) {
1102                 oldpte |= *pte;
1103                 pte_store(pte, VM_PAGE_TO_PHYS(*ma) | PG_G | PG_RW | PG_V);
1104                 pte++;
1105                 ma++;
1106         }
1107         if ((oldpte & PG_V) != 0)
1108                 pmap_invalidate_range(kernel_pmap, sva, sva + count *
1109                     PAGE_SIZE);
1110 }
1111
1112 /*
1113  * This routine tears out page mappings from the
1114  * kernel -- it is meant only for temporary mappings.
1115  * Note: SMP coherent.  Uses a ranged shootdown IPI.
1116  */
1117 void
1118 pmap_qremove(vm_offset_t sva, int count)
1119 {
1120         vm_offset_t va;
1121
1122         va = sva;
1123         while (count-- > 0) {
1124                 pmap_kremove(va);
1125                 va += PAGE_SIZE;
1126         }
1127         pmap_invalidate_range(kernel_pmap, sva, va);
1128 }
1129
1130 /***************************************************
1131  * Page table page management routines.....
1132  ***************************************************/
1133
1134 /*
1135  * This routine unholds page table pages, and if the hold count
1136  * drops to zero, then it decrements the wire count.
1137  */
1138 static PMAP_INLINE int
1139 pmap_unwire_pte_hold(pmap_t pmap, vm_offset_t va, vm_page_t m)
1140 {
1141
1142         --m->wire_count;
1143         if (m->wire_count == 0)
1144                 return _pmap_unwire_pte_hold(pmap, va, m);
1145         else
1146                 return 0;
1147 }
1148
1149 static int
1150 _pmap_unwire_pte_hold(pmap_t pmap, vm_offset_t va, vm_page_t m)
1151 {
1152         vm_offset_t pteva;
1153
1154         /*
1155          * unmap the page table page
1156          */
1157         if (m->pindex >= (NUPDE + NUPDPE)) {
1158                 /* PDP page */
1159                 pml4_entry_t *pml4;
1160                 pml4 = pmap_pml4e(pmap, va);
1161                 pteva = (vm_offset_t) PDPmap + amd64_ptob(m->pindex - (NUPDE + NUPDPE));
1162                 *pml4 = 0;
1163         } else if (m->pindex >= NUPDE) {
1164                 /* PD page */
1165                 pdp_entry_t *pdp;
1166                 pdp = pmap_pdpe(pmap, va);
1167                 pteva = (vm_offset_t) PDmap + amd64_ptob(m->pindex - NUPDE);
1168                 *pdp = 0;
1169         } else {
1170                 /* PTE page */
1171                 pd_entry_t *pd;
1172                 pd = pmap_pde(pmap, va);
1173                 pteva = (vm_offset_t) PTmap + amd64_ptob(m->pindex);
1174                 *pd = 0;
1175         }
1176         --pmap->pm_stats.resident_count;
1177         if (m->pindex < NUPDE) {
1178                 /* We just released a PT, unhold the matching PD */
1179                 vm_page_t pdpg;
1180
1181                 pdpg = PHYS_TO_VM_PAGE(*pmap_pdpe(pmap, va) & PG_FRAME);
1182                 pmap_unwire_pte_hold(pmap, va, pdpg);
1183         }
1184         if (m->pindex >= NUPDE && m->pindex < (NUPDE + NUPDPE)) {
1185                 /* We just released a PD, unhold the matching PDP */
1186                 vm_page_t pdppg;
1187
1188                 pdppg = PHYS_TO_VM_PAGE(*pmap_pml4e(pmap, va) & PG_FRAME);
1189                 pmap_unwire_pte_hold(pmap, va, pdppg);
1190         }
1191
1192         /*
1193          * Do an invltlb to make the invalidated mapping
1194          * take effect immediately.
1195          */
1196         pmap_invalidate_page(pmap, pteva);
1197
1198         vm_page_free_zero(m);
1199         atomic_subtract_int(&cnt.v_wire_count, 1);
1200         return 1;
1201 }
1202
1203 /*
1204  * After removing a page table entry, this routine is used to
1205  * conditionally free the page, and manage the hold/wire counts.
1206  */
1207 static int
1208 pmap_unuse_pt(pmap_t pmap, vm_offset_t va, pd_entry_t ptepde)
1209 {
1210         vm_page_t mpte;
1211
1212         if (va >= VM_MAXUSER_ADDRESS)
1213                 return 0;
1214         KASSERT(ptepde != 0, ("pmap_unuse_pt: ptepde != 0"));
1215         mpte = PHYS_TO_VM_PAGE(ptepde & PG_FRAME);
1216         return pmap_unwire_pte_hold(pmap, va, mpte);
1217 }
1218
1219 void
1220 pmap_pinit0(pmap_t pmap)
1221 {
1222
1223         PMAP_LOCK_INIT(pmap);
1224         pmap->pm_pml4 = (pml4_entry_t *)(KERNBASE + KPML4phys);
1225         pmap->pm_active = 0;
1226         TAILQ_INIT(&pmap->pm_pvchunk);
1227         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
1228 }
1229
1230 /*
1231  * Initialize a preallocated and zeroed pmap structure,
1232  * such as one in a vmspace structure.
1233  */
1234 void
1235 pmap_pinit(pmap_t pmap)
1236 {
1237         vm_page_t pml4pg;
1238         static vm_pindex_t color;
1239
1240         PMAP_LOCK_INIT(pmap);
1241
1242         /*
1243          * allocate the page directory page
1244          */
1245         while ((pml4pg = vm_page_alloc(NULL, color++, VM_ALLOC_NOOBJ |
1246             VM_ALLOC_NORMAL | VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL)
1247                 VM_WAIT;
1248
1249         pmap->pm_pml4 = (pml4_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pml4pg));
1250
1251         if ((pml4pg->flags & PG_ZERO) == 0)
1252                 pagezero(pmap->pm_pml4);
1253
1254         /* Wire in kernel global address entries. */
1255         pmap->pm_pml4[KPML4I] = KPDPphys | PG_RW | PG_V | PG_U;
1256         pmap->pm_pml4[DMPML4I] = DMPDPphys | PG_RW | PG_V | PG_U;
1257
1258         /* install self-referential address mapping entry(s) */
1259         pmap->pm_pml4[PML4PML4I] = VM_PAGE_TO_PHYS(pml4pg) | PG_V | PG_RW | PG_A | PG_M;
1260
1261         pmap->pm_active = 0;
1262         TAILQ_INIT(&pmap->pm_pvchunk);
1263         bzero(&pmap->pm_stats, sizeof pmap->pm_stats);
1264 }
1265
1266 /*
1267  * this routine is called if the page table page is not
1268  * mapped correctly.
1269  *
1270  * Note: If a page allocation fails at page table level two or three,
1271  * one or two pages may be held during the wait, only to be released
1272  * afterwards.  This conservative approach is easily argued to avoid
1273  * race conditions.
1274  */
1275 static vm_page_t
1276 _pmap_allocpte(pmap_t pmap, vm_pindex_t ptepindex, int flags)
1277 {
1278         vm_page_t m, pdppg, pdpg;
1279
1280         KASSERT((flags & (M_NOWAIT | M_WAITOK)) == M_NOWAIT ||
1281             (flags & (M_NOWAIT | M_WAITOK)) == M_WAITOK,
1282             ("_pmap_allocpte: flags is neither M_NOWAIT nor M_WAITOK"));
1283
1284         /*
1285          * Allocate a page table page.
1286          */
1287         if ((m = vm_page_alloc(NULL, ptepindex, VM_ALLOC_NOOBJ |
1288             VM_ALLOC_WIRED | VM_ALLOC_ZERO)) == NULL) {
1289                 if (flags & M_WAITOK) {
1290                         PMAP_UNLOCK(pmap);
1291                         vm_page_unlock_queues();
1292                         VM_WAIT;
1293                         vm_page_lock_queues();
1294                         PMAP_LOCK(pmap);
1295                 }
1296
1297                 /*
1298                  * Indicate the need to retry.  While waiting, the page table
1299                  * page may have been allocated.
1300                  */
1301                 return (NULL);
1302         }
1303         if ((m->flags & PG_ZERO) == 0)
1304                 pmap_zero_page(m);
1305
1306         /*
1307          * Map the pagetable page into the process address space, if
1308          * it isn't already there.
1309          */
1310
1311         pmap->pm_stats.resident_count++;
1312
1313         if (ptepindex >= (NUPDE + NUPDPE)) {
1314                 pml4_entry_t *pml4;
1315                 vm_pindex_t pml4index;
1316
1317                 /* Wire up a new PDPE page */
1318                 pml4index = ptepindex - (NUPDE + NUPDPE);
1319                 pml4 = &pmap->pm_pml4[pml4index];
1320                 *pml4 = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
1321
1322         } else if (ptepindex >= NUPDE) {
1323                 vm_pindex_t pml4index;
1324                 vm_pindex_t pdpindex;
1325                 pml4_entry_t *pml4;
1326                 pdp_entry_t *pdp;
1327
1328                 /* Wire up a new PDE page */
1329                 pdpindex = ptepindex - NUPDE;
1330                 pml4index = pdpindex >> NPML4EPGSHIFT;
1331
1332                 pml4 = &pmap->pm_pml4[pml4index];
1333                 if ((*pml4 & PG_V) == 0) {
1334                         /* Have to allocate a new pdp, recurse */
1335                         if (_pmap_allocpte(pmap, NUPDE + NUPDPE + pml4index,
1336                             flags) == NULL) {
1337                                 --m->wire_count;
1338                                 vm_page_free(m);
1339                                 return (NULL);
1340                         }
1341                 } else {
1342                         /* Add reference to pdp page */
1343                         pdppg = PHYS_TO_VM_PAGE(*pml4 & PG_FRAME);
1344                         pdppg->wire_count++;
1345                 }
1346                 pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
1347
1348                 /* Now find the pdp page */
1349                 pdp = &pdp[pdpindex & ((1ul << NPDPEPGSHIFT) - 1)];
1350                 *pdp = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
1351
1352         } else {
1353                 vm_pindex_t pml4index;
1354                 vm_pindex_t pdpindex;
1355                 pml4_entry_t *pml4;
1356                 pdp_entry_t *pdp;
1357                 pd_entry_t *pd;
1358
1359                 /* Wire up a new PTE page */
1360                 pdpindex = ptepindex >> NPDPEPGSHIFT;
1361                 pml4index = pdpindex >> NPML4EPGSHIFT;
1362
1363                 /* First, find the pdp and check that its valid. */
1364                 pml4 = &pmap->pm_pml4[pml4index];
1365                 if ((*pml4 & PG_V) == 0) {
1366                         /* Have to allocate a new pd, recurse */
1367                         if (_pmap_allocpte(pmap, NUPDE + pdpindex,
1368                             flags) == NULL) {
1369                                 --m->wire_count;
1370                                 vm_page_free(m);
1371                                 return (NULL);
1372                         }
1373                         pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
1374                         pdp = &pdp[pdpindex & ((1ul << NPDPEPGSHIFT) - 1)];
1375                 } else {
1376                         pdp = (pdp_entry_t *)PHYS_TO_DMAP(*pml4 & PG_FRAME);
1377                         pdp = &pdp[pdpindex & ((1ul << NPDPEPGSHIFT) - 1)];
1378                         if ((*pdp & PG_V) == 0) {
1379                                 /* Have to allocate a new pd, recurse */
1380                                 if (_pmap_allocpte(pmap, NUPDE + pdpindex,
1381                                     flags) == NULL) {
1382                                         --m->wire_count;
1383                                         vm_page_free(m);
1384                                         return (NULL);
1385                                 }
1386                         } else {
1387                                 /* Add reference to the pd page */
1388                                 pdpg = PHYS_TO_VM_PAGE(*pdp & PG_FRAME);
1389                                 pdpg->wire_count++;
1390                         }
1391                 }
1392                 pd = (pd_entry_t *)PHYS_TO_DMAP(*pdp & PG_FRAME);
1393
1394                 /* Now we know where the page directory page is */
1395                 pd = &pd[ptepindex & ((1ul << NPDEPGSHIFT) - 1)];
1396                 *pd = VM_PAGE_TO_PHYS(m) | PG_U | PG_RW | PG_V | PG_A | PG_M;
1397         }
1398
1399         return m;
1400 }
1401
1402 static vm_page_t
1403 pmap_allocpde(pmap_t pmap, vm_offset_t va, int flags)
1404 {
1405         vm_pindex_t pdpindex, ptepindex;
1406         pdp_entry_t *pdpe;
1407         vm_page_t pdpg;
1408
1409         KASSERT((flags & (M_NOWAIT | M_WAITOK)) == M_NOWAIT ||
1410             (flags & (M_NOWAIT | M_WAITOK)) == M_WAITOK,
1411             ("pmap_allocpde: flags is neither M_NOWAIT nor M_WAITOK"));
1412 retry:
1413         pdpe = pmap_pdpe(pmap, va);
1414         if (pdpe != NULL && (*pdpe & PG_V) != 0) {
1415                 /* Add a reference to the pd page. */
1416                 pdpg = PHYS_TO_VM_PAGE(*pdpe & PG_FRAME);
1417                 pdpg->wire_count++;
1418         } else {
1419                 /* Allocate a pd page. */
1420                 ptepindex = pmap_pde_pindex(va);
1421                 pdpindex = ptepindex >> NPDPEPGSHIFT;
1422                 pdpg = _pmap_allocpte(pmap, NUPDE + pdpindex, flags);
1423                 if (pdpg == NULL && (flags & M_WAITOK))
1424                         goto retry;
1425         }
1426         return (pdpg);
1427 }
1428
1429 static vm_page_t
1430 pmap_allocpte(pmap_t pmap, vm_offset_t va, int flags)
1431 {
1432         vm_pindex_t ptepindex;
1433         pd_entry_t *pd;
1434         vm_page_t m;
1435
1436         KASSERT((flags & (M_NOWAIT | M_WAITOK)) == M_NOWAIT ||
1437             (flags & (M_NOWAIT | M_WAITOK)) == M_WAITOK,
1438             ("pmap_allocpte: flags is neither M_NOWAIT nor M_WAITOK"));
1439
1440         /*
1441          * Calculate pagetable page index
1442          */
1443         ptepindex = pmap_pde_pindex(va);
1444 retry:
1445         /*
1446          * Get the page directory entry
1447          */
1448         pd = pmap_pde(pmap, va);
1449
1450         /*
1451          * This supports switching from a 2MB page to a
1452          * normal 4K page.
1453          */
1454         if (pd != 0 && (*pd & (PG_PS | PG_V)) == (PG_PS | PG_V)) {
1455                 *pd = 0;
1456                 pd = 0;
1457                 pmap->pm_stats.resident_count -= NBPDR / PAGE_SIZE;
1458                 pmap_unuse_pt(pmap, va, *pmap_pdpe(pmap, va));
1459                 pmap_invalidate_all(kernel_pmap);
1460         }
1461
1462         /*
1463          * If the page table page is mapped, we just increment the
1464          * hold count, and activate it.
1465          */
1466         if (pd != 0 && (*pd & PG_V) != 0) {
1467                 m = PHYS_TO_VM_PAGE(*pd & PG_FRAME);
1468                 m->wire_count++;
1469         } else {
1470                 /*
1471                  * Here if the pte page isn't mapped, or if it has been
1472                  * deallocated.
1473                  */
1474                 m = _pmap_allocpte(pmap, ptepindex, flags);
1475                 if (m == NULL && (flags & M_WAITOK))
1476                         goto retry;
1477         }
1478         return (m);
1479 }
1480
1481
1482 /***************************************************
1483  * Pmap allocation/deallocation routines.
1484  ***************************************************/
1485
1486 /*
1487  * Release any resources held by the given physical map.
1488  * Called when a pmap initialized by pmap_pinit is being released.
1489  * Should only be called if the map contains no valid mappings.
1490  */
1491 void
1492 pmap_release(pmap_t pmap)
1493 {
1494         vm_page_t m;
1495
1496         KASSERT(pmap->pm_stats.resident_count == 0,
1497             ("pmap_release: pmap resident count %ld != 0",
1498             pmap->pm_stats.resident_count));
1499
1500         m = PHYS_TO_VM_PAGE(pmap->pm_pml4[PML4PML4I] & PG_FRAME);
1501
1502         pmap->pm_pml4[KPML4I] = 0;      /* KVA */
1503         pmap->pm_pml4[DMPML4I] = 0;     /* Direct Map */
1504         pmap->pm_pml4[PML4PML4I] = 0;   /* Recursive Mapping */
1505
1506         vm_page_lock_queues();
1507         m->wire_count--;
1508         atomic_subtract_int(&cnt.v_wire_count, 1);
1509         vm_page_free_zero(m);
1510         vm_page_unlock_queues();
1511         PMAP_LOCK_DESTROY(pmap);
1512 }
1513 \f
1514 static int
1515 kvm_size(SYSCTL_HANDLER_ARGS)
1516 {
1517         unsigned long ksize = VM_MAX_KERNEL_ADDRESS - KERNBASE;
1518
1519         return sysctl_handle_long(oidp, &ksize, 0, req);
1520 }
1521 SYSCTL_PROC(_vm, OID_AUTO, kvm_size, CTLTYPE_LONG|CTLFLAG_RD,
1522     0, 0, kvm_size, "LU", "Size of KVM");
1523
1524 static int
1525 kvm_free(SYSCTL_HANDLER_ARGS)
1526 {
1527         unsigned long kfree = VM_MAX_KERNEL_ADDRESS - kernel_vm_end;
1528
1529         return sysctl_handle_long(oidp, &kfree, 0, req);
1530 }
1531 SYSCTL_PROC(_vm, OID_AUTO, kvm_free, CTLTYPE_LONG|CTLFLAG_RD,
1532     0, 0, kvm_free, "LU", "Amount of KVM free");
1533
1534 /*
1535  * grow the number of kernel page table entries, if needed
1536  */
1537 void
1538 pmap_growkernel(vm_offset_t addr)
1539 {
1540         vm_paddr_t paddr;
1541         vm_page_t nkpg;
1542         pd_entry_t *pde, newpdir;
1543         pdp_entry_t newpdp;
1544
1545         mtx_assert(&kernel_map->system_mtx, MA_OWNED);
1546         if (kernel_vm_end == 0) {
1547                 kernel_vm_end = KERNBASE;
1548                 nkpt = 0;
1549                 while ((*pmap_pde(kernel_pmap, kernel_vm_end) & PG_V) != 0) {
1550                         kernel_vm_end = (kernel_vm_end + PAGE_SIZE * NPTEPG) & ~(PAGE_SIZE * NPTEPG - 1);
1551                         nkpt++;
1552                 }
1553         }
1554         addr = roundup2(addr, PAGE_SIZE * NPTEPG);
1555         while (kernel_vm_end < addr) {
1556                 pde = pmap_pde(kernel_pmap, kernel_vm_end);
1557                 if (pde == NULL) {
1558                         /* We need a new PDP entry */
1559                         nkpg = vm_page_alloc(NULL, nkpt,
1560                             VM_ALLOC_NOOBJ | VM_ALLOC_SYSTEM | VM_ALLOC_WIRED);
1561                         if (!nkpg)
1562                                 panic("pmap_growkernel: no memory to grow kernel");
1563                         pmap_zero_page(nkpg);
1564                         paddr = VM_PAGE_TO_PHYS(nkpg);
1565                         newpdp = (pdp_entry_t)
1566                                 (paddr | PG_V | PG_RW | PG_A | PG_M);
1567                         *pmap_pdpe(kernel_pmap, kernel_vm_end) = newpdp;
1568                         continue; /* try again */
1569                 }
1570                 if ((*pde & PG_V) != 0) {
1571                         kernel_vm_end = (kernel_vm_end + PAGE_SIZE * NPTEPG) & ~(PAGE_SIZE * NPTEPG - 1);
1572                         continue;
1573                 }
1574
1575                 /*
1576                  * This index is bogus, but out of the way
1577                  */
1578                 nkpg = vm_page_alloc(NULL, nkpt,
1579                     VM_ALLOC_NOOBJ | VM_ALLOC_SYSTEM | VM_ALLOC_WIRED);
1580                 if (!nkpg)
1581                         panic("pmap_growkernel: no memory to grow kernel");
1582
1583                 nkpt++;
1584
1585                 pmap_zero_page(nkpg);
1586                 paddr = VM_PAGE_TO_PHYS(nkpg);
1587                 newpdir = (pd_entry_t) (paddr | PG_V | PG_RW | PG_A | PG_M);
1588                 *pmap_pde(kernel_pmap, kernel_vm_end) = newpdir;
1589
1590                 kernel_vm_end = (kernel_vm_end + PAGE_SIZE * NPTEPG) & ~(PAGE_SIZE * NPTEPG - 1);
1591         }
1592 }
1593
1594
1595 /***************************************************
1596  * page management routines.
1597  ***************************************************/
1598
1599 CTASSERT(sizeof(struct pv_chunk) == PAGE_SIZE);
1600 CTASSERT(_NPCM == 3);
1601 CTASSERT(_NPCPV == 168);
1602
1603 static __inline struct pv_chunk *
1604 pv_to_chunk(pv_entry_t pv)
1605 {
1606
1607         return (struct pv_chunk *)((uintptr_t)pv & ~(uintptr_t)PAGE_MASK);
1608 }
1609
1610 #define PV_PMAP(pv) (pv_to_chunk(pv)->pc_pmap)
1611
1612 #define PC_FREE0        0xfffffffffffffffful
1613 #define PC_FREE1        0xfffffffffffffffful
1614 #define PC_FREE2        0x000000fffffffffful
1615
1616 static uint64_t pc_freemask[3] = { PC_FREE0, PC_FREE1, PC_FREE2 };
1617
1618 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_count, CTLFLAG_RD, &pv_entry_count, 0,
1619         "Current number of pv entries");
1620
1621 #ifdef PV_STATS
1622 static int pc_chunk_count, pc_chunk_allocs, pc_chunk_frees, pc_chunk_tryfail;
1623
1624 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_count, CTLFLAG_RD, &pc_chunk_count, 0,
1625         "Current number of pv entry chunks");
1626 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_allocs, CTLFLAG_RD, &pc_chunk_allocs, 0,
1627         "Current number of pv entry chunks allocated");
1628 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_frees, CTLFLAG_RD, &pc_chunk_frees, 0,
1629         "Current number of pv entry chunks frees");
1630 SYSCTL_INT(_vm_pmap, OID_AUTO, pc_chunk_tryfail, CTLFLAG_RD, &pc_chunk_tryfail, 0,
1631         "Number of times tried to get a chunk page but failed.");
1632
1633 static long pv_entry_frees, pv_entry_allocs;
1634 static int pv_entry_spare;
1635
1636 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_frees, CTLFLAG_RD, &pv_entry_frees, 0,
1637         "Current number of pv entry frees");
1638 SYSCTL_LONG(_vm_pmap, OID_AUTO, pv_entry_allocs, CTLFLAG_RD, &pv_entry_allocs, 0,
1639         "Current number of pv entry allocs");
1640 SYSCTL_INT(_vm_pmap, OID_AUTO, pv_entry_spare, CTLFLAG_RD, &pv_entry_spare, 0,
1641         "Current number of spare pv entries");
1642
1643 static int pmap_collect_inactive, pmap_collect_active;
1644
1645 SYSCTL_INT(_vm_pmap, OID_AUTO, pmap_collect_inactive, CTLFLAG_RD, &pmap_collect_inactive, 0,
1646         "Current number times pmap_collect called on inactive queue");
1647 SYSCTL_INT(_vm_pmap, OID_AUTO, pmap_collect_active, CTLFLAG_RD, &pmap_collect_active, 0,
1648         "Current number times pmap_collect called on active queue");
1649 #endif
1650
1651 /*
1652  * We are in a serious low memory condition.  Resort to
1653  * drastic measures to free some pages so we can allocate
1654  * another pv entry chunk.  This is normally called to
1655  * unmap inactive pages, and if necessary, active pages.
1656  */
1657 static void
1658 pmap_collect(pmap_t locked_pmap, struct vpgqueues *vpq)
1659 {
1660         pd_entry_t ptepde;
1661         pmap_t pmap;
1662         pt_entry_t *pte, tpte;
1663         pv_entry_t next_pv, pv;
1664         vm_offset_t va;
1665         vm_page_t m;
1666
1667         TAILQ_FOREACH(m, &vpq->pl, pageq) {
1668                 if (m->hold_count || m->busy || (m->flags & PG_BUSY))
1669                         continue;
1670                 TAILQ_FOREACH_SAFE(pv, &m->md.pv_list, pv_list, next_pv) {
1671                         va = pv->pv_va;
1672                         pmap = PV_PMAP(pv);
1673                         /* Avoid deadlock and lock recursion. */
1674                         if (pmap > locked_pmap)
1675                                 PMAP_LOCK(pmap);
1676                         else if (pmap != locked_pmap && !PMAP_TRYLOCK(pmap))
1677                                 continue;
1678                         pmap->pm_stats.resident_count--;
1679                         pte = pmap_pte_pde(pmap, va, &ptepde);
1680                         tpte = pte_load_clear(pte);
1681                         KASSERT((tpte & PG_W) == 0,
1682                             ("pmap_collect: wired pte %#lx", tpte));
1683                         if (tpte & PG_A)
1684                                 vm_page_flag_set(m, PG_REFERENCED);
1685                         if (tpte & PG_M) {
1686                                 KASSERT((tpte & PG_RW),
1687         ("pmap_collect: modified page not writable: va: %#lx, pte: %#lx",
1688                                     va, tpte));
1689                                 vm_page_dirty(m);
1690                         }
1691                         pmap_invalidate_page(pmap, va);
1692                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
1693                         if (TAILQ_EMPTY(&m->md.pv_list))
1694                                 vm_page_flag_clear(m, PG_WRITEABLE);
1695                         m->md.pv_list_count--;
1696                         pmap_unuse_pt(pmap, va, ptepde);
1697                         free_pv_entry(pmap, pv);
1698                         if (pmap != locked_pmap)
1699                                 PMAP_UNLOCK(pmap);
1700                 }
1701         }
1702 }
1703
1704
1705 /*
1706  * free the pv_entry back to the free list
1707  */
1708 static void
1709 free_pv_entry(pmap_t pmap, pv_entry_t pv)
1710 {
1711         vm_page_t m;
1712         struct pv_chunk *pc;
1713         int idx, field, bit;
1714
1715         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
1716         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1717         PV_STAT(pv_entry_frees++);
1718         PV_STAT(pv_entry_spare++);
1719         pv_entry_count--;
1720         pc = pv_to_chunk(pv);
1721         idx = pv - &pc->pc_pventry[0];
1722         field = idx / 64;
1723         bit = idx % 64;
1724         pc->pc_map[field] |= 1ul << bit;
1725         /* move to head of list */
1726         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
1727         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
1728         if (pc->pc_map[0] != PC_FREE0 || pc->pc_map[1] != PC_FREE1 ||
1729             pc->pc_map[2] != PC_FREE2)
1730                 return;
1731         PV_STAT(pv_entry_spare -= _NPCPV);
1732         PV_STAT(pc_chunk_count--);
1733         PV_STAT(pc_chunk_frees++);
1734         /* entire chunk is free, return it */
1735         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
1736         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
1737         dump_drop_page(m->phys_addr);
1738         vm_page_free(m);
1739 }
1740
1741 /*
1742  * get a new pv_entry, allocating a block from the system
1743  * when needed.
1744  */
1745 static pv_entry_t
1746 get_pv_entry(pmap_t pmap, int try)
1747 {
1748         static const struct timeval printinterval = { 60, 0 };
1749         static struct timeval lastprint;
1750         static vm_pindex_t colour;
1751         int bit, field, page_req;
1752         pv_entry_t pv;
1753         struct pv_chunk *pc;
1754         vm_page_t m;
1755
1756         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1757         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
1758         PV_STAT(pv_entry_allocs++);
1759         pv_entry_count++;
1760         if (pv_entry_count > pv_entry_high_water)
1761                 pagedaemon_wakeup();
1762         pc = TAILQ_FIRST(&pmap->pm_pvchunk);
1763         if (pc != NULL) {
1764                 for (field = 0; field < _NPCM; field++) {
1765                         if (pc->pc_map[field]) {
1766                                 bit = bsfq(pc->pc_map[field]);
1767                                 break;
1768                         }
1769                 }
1770                 if (field < _NPCM) {
1771                         pv = &pc->pc_pventry[field * 64 + bit];
1772                         pc->pc_map[field] &= ~(1ul << bit);
1773                         /* If this was the last item, move it to tail */
1774                         if (pc->pc_map[0] == 0 && pc->pc_map[1] == 0 &&
1775                             pc->pc_map[2] == 0) {
1776                                 TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
1777                                 TAILQ_INSERT_TAIL(&pmap->pm_pvchunk, pc, pc_list);
1778                         }
1779                         PV_STAT(pv_entry_spare--);
1780                         return (pv);
1781                 }
1782         }
1783         /* No free items, allocate another chunk */
1784         page_req = try ? VM_ALLOC_NORMAL : VM_ALLOC_SYSTEM;
1785         m = vm_page_alloc(NULL, colour, page_req | VM_ALLOC_NOOBJ);
1786         if (m == NULL) {
1787                 if (try) {
1788                         pv_entry_count--;
1789                         PV_STAT(pc_chunk_tryfail++);
1790                         return (NULL);
1791                 }
1792                 /*
1793                  * Reclaim pv entries: At first, destroy mappings to inactive
1794                  * pages.  After that, if a pv chunk entry is still needed,
1795                  * destroy mappings to active pages.
1796                  */
1797                 if (ratecheck(&lastprint, &printinterval))
1798                         printf("Approaching the limit on PV entries, consider "
1799                             "increasing sysctl vm.pmap.shpgperproc or "
1800                             "vm.pmap.pv_entry_max\n");
1801                 PV_STAT(pmap_collect_inactive++);
1802                 pmap_collect(pmap, &vm_page_queues[PQ_INACTIVE]);
1803                 m = vm_page_alloc(NULL, colour,
1804                     VM_ALLOC_SYSTEM | VM_ALLOC_NOOBJ);
1805                 if (m == NULL) {
1806                         PV_STAT(pmap_collect_active++);
1807                         pmap_collect(pmap, &vm_page_queues[PQ_ACTIVE]);
1808                         m = vm_page_alloc(NULL, colour,
1809                             VM_ALLOC_SYSTEM | VM_ALLOC_NOOBJ);
1810                         if (m == NULL)
1811                                 panic("get_pv_entry: increase vm.pmap.shpgperproc");
1812                 }
1813         }
1814         PV_STAT(pc_chunk_count++);
1815         PV_STAT(pc_chunk_allocs++);
1816         colour++;
1817         dump_add_page(m->phys_addr);
1818         pc = (void *)PHYS_TO_DMAP(m->phys_addr);
1819         pc->pc_pmap = pmap;
1820         pc->pc_map[0] = PC_FREE0 & ~1ul;        /* preallocated bit 0 */
1821         pc->pc_map[1] = PC_FREE1;
1822         pc->pc_map[2] = PC_FREE2;
1823         pv = &pc->pc_pventry[0];
1824         TAILQ_INSERT_HEAD(&pmap->pm_pvchunk, pc, pc_list);
1825         PV_STAT(pv_entry_spare += _NPCPV - 1);
1826         return (pv);
1827 }
1828
1829 static void
1830 pmap_remove_entry(pmap_t pmap, vm_page_t m, vm_offset_t va)
1831 {
1832         pv_entry_t pv;
1833
1834         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1835         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
1836         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
1837                 if (pmap == PV_PMAP(pv) && va == pv->pv_va)
1838                         break;
1839         }
1840         KASSERT(pv != NULL, ("pmap_remove_entry: pv not found"));
1841         TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
1842         m->md.pv_list_count--;
1843         if (TAILQ_EMPTY(&m->md.pv_list))
1844                 vm_page_flag_clear(m, PG_WRITEABLE);
1845         free_pv_entry(pmap, pv);
1846 }
1847
1848 /*
1849  * Create a pv entry for page at pa for
1850  * (pmap, va).
1851  */
1852 static void
1853 pmap_insert_entry(pmap_t pmap, vm_offset_t va, vm_page_t m)
1854 {
1855         pv_entry_t pv;
1856
1857         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1858         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
1859         pv = get_pv_entry(pmap, FALSE);
1860         pv->pv_va = va;
1861         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
1862         m->md.pv_list_count++;
1863 }
1864
1865 /*
1866  * Conditionally create a pv entry.
1867  */
1868 static boolean_t
1869 pmap_try_insert_pv_entry(pmap_t pmap, vm_offset_t va, vm_page_t m)
1870 {
1871         pv_entry_t pv;
1872
1873         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1874         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
1875         if (pv_entry_count < pv_entry_high_water &&
1876             (pv = get_pv_entry(pmap, TRUE)) != NULL) {
1877                 pv->pv_va = va;
1878                 TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
1879                 m->md.pv_list_count++;
1880                 return (TRUE);
1881         } else
1882                 return (FALSE);
1883 }
1884
1885 /*
1886  * pmap_remove_pte: do the things to unmap a page in a process
1887  */
1888 static int
1889 pmap_remove_pte(pmap_t pmap, pt_entry_t *ptq, vm_offset_t va, pd_entry_t ptepde)
1890 {
1891         pt_entry_t oldpte;
1892         vm_page_t m;
1893
1894         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1895         oldpte = pte_load_clear(ptq);
1896         if (oldpte & PG_W)
1897                 pmap->pm_stats.wired_count -= 1;
1898         /*
1899          * Machines that don't support invlpg, also don't support
1900          * PG_G.
1901          */
1902         if (oldpte & PG_G)
1903                 pmap_invalidate_page(kernel_pmap, va);
1904         pmap->pm_stats.resident_count -= 1;
1905         if (oldpte & PG_MANAGED) {
1906                 m = PHYS_TO_VM_PAGE(oldpte & PG_FRAME);
1907                 if (oldpte & PG_M) {
1908                         KASSERT((oldpte & PG_RW),
1909         ("pmap_remove_pte: modified page not writable: va: %#lx, pte: %#lx",
1910                             va, oldpte));
1911                         vm_page_dirty(m);
1912                 }
1913                 if (oldpte & PG_A)
1914                         vm_page_flag_set(m, PG_REFERENCED);
1915                 pmap_remove_entry(pmap, m, va);
1916         }
1917         return (pmap_unuse_pt(pmap, va, ptepde));
1918 }
1919
1920 /*
1921  * Remove a single page from a process address space
1922  */
1923 static void
1924 pmap_remove_page(pmap_t pmap, vm_offset_t va, pd_entry_t *pde)
1925 {
1926         pt_entry_t *pte;
1927
1928         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
1929         if ((*pde & PG_V) == 0)
1930                 return;
1931         pte = pmap_pde_to_pte(pde, va);
1932         if ((*pte & PG_V) == 0)
1933                 return;
1934         pmap_remove_pte(pmap, pte, va, *pde);
1935         pmap_invalidate_page(pmap, va);
1936 }
1937
1938 /*
1939  *      Remove the given range of addresses from the specified map.
1940  *
1941  *      It is assumed that the start and end are properly
1942  *      rounded to the page size.
1943  */
1944 void
1945 pmap_remove(pmap_t pmap, vm_offset_t sva, vm_offset_t eva)
1946 {
1947         vm_offset_t va_next;
1948         pml4_entry_t *pml4e;
1949         pdp_entry_t *pdpe;
1950         pd_entry_t ptpaddr, *pde;
1951         pt_entry_t *pte;
1952         int anyvalid;
1953
1954         /*
1955          * Perform an unsynchronized read.  This is, however, safe.
1956          */
1957         if (pmap->pm_stats.resident_count == 0)
1958                 return;
1959
1960         anyvalid = 0;
1961
1962         vm_page_lock_queues();
1963         PMAP_LOCK(pmap);
1964
1965         /*
1966          * special handling of removing one page.  a very
1967          * common operation and easy to short circuit some
1968          * code.
1969          */
1970         if (sva + PAGE_SIZE == eva) {
1971                 pde = pmap_pde(pmap, sva);
1972                 if (pde && (*pde & PG_PS) == 0) {
1973                         pmap_remove_page(pmap, sva, pde);
1974                         goto out;
1975                 }
1976         }
1977
1978         for (; sva < eva; sva = va_next) {
1979
1980                 if (pmap->pm_stats.resident_count == 0)
1981                         break;
1982
1983                 pml4e = pmap_pml4e(pmap, sva);
1984                 if ((*pml4e & PG_V) == 0) {
1985                         va_next = (sva + NBPML4) & ~PML4MASK;
1986                         continue;
1987                 }
1988
1989                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
1990                 if ((*pdpe & PG_V) == 0) {
1991                         va_next = (sva + NBPDP) & ~PDPMASK;
1992                         continue;
1993                 }
1994
1995                 /*
1996                  * Calculate index for next page table.
1997                  */
1998                 va_next = (sva + NBPDR) & ~PDRMASK;
1999
2000                 pde = pmap_pdpe_to_pde(pdpe, sva);
2001                 ptpaddr = *pde;
2002
2003                 /*
2004                  * Weed out invalid mappings.
2005                  */
2006                 if (ptpaddr == 0)
2007                         continue;
2008
2009                 /*
2010                  * Check for large page.
2011                  */
2012                 if ((ptpaddr & PG_PS) != 0) {
2013                         *pde = 0;
2014                         pmap->pm_stats.resident_count -= NBPDR / PAGE_SIZE;
2015                         pmap_unuse_pt(pmap, sva, *pdpe);
2016                         anyvalid = 1;
2017                         continue;
2018                 }
2019
2020                 /*
2021                  * Limit our scan to either the end of the va represented
2022                  * by the current page table page, or to the end of the
2023                  * range being removed.
2024                  */
2025                 if (va_next > eva)
2026                         va_next = eva;
2027
2028                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
2029                     sva += PAGE_SIZE) {
2030                         if (*pte == 0)
2031                                 continue;
2032
2033                         /*
2034                          * The TLB entry for a PG_G mapping is invalidated
2035                          * by pmap_remove_pte().
2036                          */
2037                         if ((*pte & PG_G) == 0)
2038                                 anyvalid = 1;
2039                         if (pmap_remove_pte(pmap, pte, sva, ptpaddr))
2040                                 break;
2041                 }
2042         }
2043 out:
2044         vm_page_unlock_queues();
2045         if (anyvalid)
2046                 pmap_invalidate_all(pmap);
2047         PMAP_UNLOCK(pmap);
2048 }
2049
2050 /*
2051  *      Routine:        pmap_remove_all
2052  *      Function:
2053  *              Removes this physical page from
2054  *              all physical maps in which it resides.
2055  *              Reflects back modify bits to the pager.
2056  *
2057  *      Notes:
2058  *              Original versions of this routine were very
2059  *              inefficient because they iteratively called
2060  *              pmap_remove (slow...)
2061  */
2062
2063 void
2064 pmap_remove_all(vm_page_t m)
2065 {
2066         pv_entry_t pv;
2067         pmap_t pmap;
2068         pt_entry_t *pte, tpte;
2069         pd_entry_t ptepde;
2070
2071 #if defined(PMAP_DIAGNOSTIC)
2072         /*
2073          * XXX This makes pmap_remove_all() illegal for non-managed pages!
2074          */
2075         if (m->flags & PG_FICTITIOUS) {
2076                 panic("pmap_remove_all: illegal for unmanaged page, va: 0x%lx",
2077                     VM_PAGE_TO_PHYS(m));
2078         }
2079 #endif
2080         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2081         while ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
2082                 pmap = PV_PMAP(pv);
2083                 PMAP_LOCK(pmap);
2084                 pmap->pm_stats.resident_count--;
2085                 pte = pmap_pte_pde(pmap, pv->pv_va, &ptepde);
2086                 tpte = pte_load_clear(pte);
2087                 if (tpte & PG_W)
2088                         pmap->pm_stats.wired_count--;
2089                 if (tpte & PG_A)
2090                         vm_page_flag_set(m, PG_REFERENCED);
2091
2092                 /*
2093                  * Update the vm_page_t clean and reference bits.
2094                  */
2095                 if (tpte & PG_M) {
2096                         KASSERT((tpte & PG_RW),
2097         ("pmap_remove_all: modified page not writable: va: %#lx, pte: %#lx",
2098                             pv->pv_va, tpte));
2099                         vm_page_dirty(m);
2100                 }
2101                 pmap_invalidate_page(pmap, pv->pv_va);
2102                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
2103                 m->md.pv_list_count--;
2104                 pmap_unuse_pt(pmap, pv->pv_va, ptepde);
2105                 free_pv_entry(pmap, pv);
2106                 PMAP_UNLOCK(pmap);
2107         }
2108         vm_page_flag_clear(m, PG_WRITEABLE);
2109 }
2110
2111 /*
2112  *      Set the physical protection on the
2113  *      specified range of this map as requested.
2114  */
2115 void
2116 pmap_protect(pmap_t pmap, vm_offset_t sva, vm_offset_t eva, vm_prot_t prot)
2117 {
2118         vm_offset_t va_next;
2119         pml4_entry_t *pml4e;
2120         pdp_entry_t *pdpe;
2121         pd_entry_t ptpaddr, *pde;
2122         pt_entry_t *pte;
2123         int anychanged;
2124
2125         if ((prot & VM_PROT_READ) == VM_PROT_NONE) {
2126                 pmap_remove(pmap, sva, eva);
2127                 return;
2128         }
2129
2130         if (prot & VM_PROT_WRITE)
2131                 return;
2132
2133         anychanged = 0;
2134
2135         vm_page_lock_queues();
2136         PMAP_LOCK(pmap);
2137         for (; sva < eva; sva = va_next) {
2138
2139                 pml4e = pmap_pml4e(pmap, sva);
2140                 if ((*pml4e & PG_V) == 0) {
2141                         va_next = (sva + NBPML4) & ~PML4MASK;
2142                         continue;
2143                 }
2144
2145                 pdpe = pmap_pml4e_to_pdpe(pml4e, sva);
2146                 if ((*pdpe & PG_V) == 0) {
2147                         va_next = (sva + NBPDP) & ~PDPMASK;
2148                         continue;
2149                 }
2150
2151                 va_next = (sva + NBPDR) & ~PDRMASK;
2152
2153                 pde = pmap_pdpe_to_pde(pdpe, sva);
2154                 ptpaddr = *pde;
2155
2156                 /*
2157                  * Weed out invalid mappings.
2158                  */
2159                 if (ptpaddr == 0)
2160                         continue;
2161
2162                 /*
2163                  * Check for large page.
2164                  */
2165                 if ((ptpaddr & PG_PS) != 0) {
2166                         *pde &= ~(PG_M|PG_RW);
2167                         anychanged = 1;
2168                         continue;
2169                 }
2170
2171                 if (va_next > eva)
2172                         va_next = eva;
2173
2174                 for (pte = pmap_pde_to_pte(pde, sva); sva != va_next; pte++,
2175                     sva += PAGE_SIZE) {
2176                         pt_entry_t obits, pbits;
2177                         vm_page_t m;
2178
2179 retry:
2180                         obits = pbits = *pte;
2181                         if (pbits & PG_MANAGED) {
2182                                 m = NULL;
2183                                 if (pbits & PG_A) {
2184                                         m = PHYS_TO_VM_PAGE(pbits & PG_FRAME);
2185                                         vm_page_flag_set(m, PG_REFERENCED);
2186                                         pbits &= ~PG_A;
2187                                 }
2188                                 if ((pbits & PG_M) != 0) {
2189                                         if (m == NULL)
2190                                                 m = PHYS_TO_VM_PAGE(pbits &
2191                                                     PG_FRAME);
2192                                         vm_page_dirty(m);
2193                                 }
2194                         }
2195
2196                         pbits &= ~(PG_RW | PG_M);
2197
2198                         if (pbits != obits) {
2199                                 if (!atomic_cmpset_long(pte, obits, pbits))
2200                                         goto retry;
2201                                 if (obits & PG_G)
2202                                         pmap_invalidate_page(pmap, sva);
2203                                 else
2204                                         anychanged = 1;
2205                         }
2206                 }
2207         }
2208         vm_page_unlock_queues();
2209         if (anychanged)
2210                 pmap_invalidate_all(pmap);
2211         PMAP_UNLOCK(pmap);
2212 }
2213
2214 /*
2215  *      Insert the given physical page (p) at
2216  *      the specified virtual address (v) in the
2217  *      target physical map with the protection requested.
2218  *
2219  *      If specified, the page will be wired down, meaning
2220  *      that the related pte can not be reclaimed.
2221  *
2222  *      NB:  This is the only routine which MAY NOT lazy-evaluate
2223  *      or lose information.  That is, this routine must actually
2224  *      insert this page into the given map NOW.
2225  */
2226 void
2227 pmap_enter(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot,
2228            boolean_t wired)
2229 {
2230         vm_paddr_t pa;
2231         pd_entry_t *pde;
2232         pt_entry_t *pte;
2233         vm_paddr_t opa;
2234         pt_entry_t origpte, newpte;
2235         vm_page_t mpte, om;
2236         boolean_t invlva;
2237
2238         va = trunc_page(va);
2239 #ifdef PMAP_DIAGNOSTIC
2240         if (va > VM_MAX_KERNEL_ADDRESS)
2241                 panic("pmap_enter: toobig");
2242         if ((va >= UPT_MIN_ADDRESS) && (va < UPT_MAX_ADDRESS))
2243                 panic("pmap_enter: invalid to pmap_enter page table pages (va: 0x%lx)", va);
2244 #endif
2245
2246         mpte = NULL;
2247
2248         vm_page_lock_queues();
2249         PMAP_LOCK(pmap);
2250
2251         /*
2252          * In the case that a page table page is not
2253          * resident, we are creating it here.
2254          */
2255         if (va < VM_MAXUSER_ADDRESS) {
2256                 mpte = pmap_allocpte(pmap, va, M_WAITOK);
2257         }
2258 #if 0 && defined(PMAP_DIAGNOSTIC)
2259         else {
2260                 pd_entry_t *pdeaddr = pmap_pde(pmap, va);
2261                 origpte = *pdeaddr;
2262                 if ((origpte & PG_V) == 0) {
2263                         panic("pmap_enter: invalid kernel page table page, pde=%p, va=%p\n",
2264                                 origpte, va);
2265                 }
2266         }
2267 #endif
2268
2269         pde = pmap_pde(pmap, va);
2270         if (pde != NULL) {
2271                 if ((*pde & PG_PS) != 0)
2272                         panic("pmap_enter: attempted pmap_enter on 2MB page");
2273                 pte = pmap_pde_to_pte(pde, va);
2274         } else
2275                 pte = NULL;
2276
2277         /*
2278          * Page Directory table entry not valid, we need a new PT page
2279          */
2280         if (pte == NULL)
2281                 panic("pmap_enter: invalid page directory va=%#lx\n", va);
2282
2283         pa = VM_PAGE_TO_PHYS(m);
2284         om = NULL;
2285         origpte = *pte;
2286         opa = origpte & PG_FRAME;
2287
2288         /*
2289          * Mapping has not changed, must be protection or wiring change.
2290          */
2291         if (origpte && (opa == pa)) {
2292                 /*
2293                  * Wiring change, just update stats. We don't worry about
2294                  * wiring PT pages as they remain resident as long as there
2295                  * are valid mappings in them. Hence, if a user page is wired,
2296                  * the PT page will be also.
2297                  */
2298                 if (wired && ((origpte & PG_W) == 0))
2299                         pmap->pm_stats.wired_count++;
2300                 else if (!wired && (origpte & PG_W))
2301                         pmap->pm_stats.wired_count--;
2302
2303                 /*
2304                  * Remove extra pte reference
2305                  */
2306                 if (mpte)
2307                         mpte->wire_count--;
2308
2309                 /*
2310                  * We might be turning off write access to the page,
2311                  * so we go ahead and sense modify status.
2312                  */
2313                 if (origpte & PG_MANAGED) {
2314                         om = m;
2315                         pa |= PG_MANAGED;
2316                 }
2317                 goto validate;
2318         }
2319         /*
2320          * Mapping has changed, invalidate old range and fall through to
2321          * handle validating new mapping.
2322          */
2323         if (opa) {
2324                 if (origpte & PG_W)
2325                         pmap->pm_stats.wired_count--;
2326                 if (origpte & PG_MANAGED) {
2327                         om = PHYS_TO_VM_PAGE(opa);
2328                         pmap_remove_entry(pmap, om, va);
2329                 }
2330                 if (mpte != NULL) {
2331                         mpte->wire_count--;
2332                         KASSERT(mpte->wire_count > 0,
2333                             ("pmap_enter: missing reference to page table page,"
2334                              " va: 0x%lx", va));
2335                 }
2336         } else
2337                 pmap->pm_stats.resident_count++;
2338
2339         /*
2340          * Enter on the PV list if part of our managed memory.
2341          */
2342         if ((m->flags & (PG_FICTITIOUS | PG_UNMANAGED)) == 0) {
2343                 KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva,
2344                     ("pmap_enter: managed mapping within the clean submap"));
2345                 pmap_insert_entry(pmap, va, m);
2346                 pa |= PG_MANAGED;
2347         }
2348
2349         /*
2350          * Increment counters
2351          */
2352         if (wired)
2353                 pmap->pm_stats.wired_count++;
2354
2355 validate:
2356         /*
2357          * Now validate mapping with desired protection/wiring.
2358          */
2359         newpte = (pt_entry_t)(pa | PG_V);
2360         if ((prot & VM_PROT_WRITE) != 0)
2361                 newpte |= PG_RW;
2362         if ((prot & VM_PROT_EXECUTE) == 0)
2363                 newpte |= pg_nx;
2364         if (wired)
2365                 newpte |= PG_W;
2366         if (va < VM_MAXUSER_ADDRESS)
2367                 newpte |= PG_U;
2368         if (pmap == kernel_pmap)
2369                 newpte |= PG_G;
2370
2371         /*
2372          * if the mapping or permission bits are different, we need
2373          * to update the pte.
2374          */
2375         if ((origpte & ~(PG_M|PG_A)) != newpte) {
2376                 if (origpte & PG_V) {
2377                         invlva = FALSE;
2378                         origpte = pte_load_store(pte, newpte | PG_A);
2379                         if (origpte & PG_A) {
2380                                 if (origpte & PG_MANAGED)
2381                                         vm_page_flag_set(om, PG_REFERENCED);
2382                                 if (opa != VM_PAGE_TO_PHYS(m) || ((origpte &
2383                                     PG_NX) == 0 && (newpte & PG_NX)))
2384                                         invlva = TRUE;
2385                         }
2386                         if (origpte & PG_M) {
2387                                 KASSERT((origpte & PG_RW),
2388         ("pmap_enter: modified page not writable: va: %#lx, pte: %#lx",
2389                                     va, origpte));
2390                                 if ((origpte & PG_MANAGED) != 0)
2391                                         vm_page_dirty(om);
2392                                 if ((newpte & PG_RW) == 0)
2393                                         invlva = TRUE;
2394                         }
2395                         if (invlva)
2396                                 pmap_invalidate_page(pmap, va);
2397                 } else
2398                         pte_store(pte, newpte | PG_A);
2399         }
2400         vm_page_unlock_queues();
2401         PMAP_UNLOCK(pmap);
2402 }
2403
2404 /*
2405  * Maps a sequence of resident pages belonging to the same object.
2406  * The sequence begins with the given page m_start.  This page is
2407  * mapped at the given virtual address start.  Each subsequent page is
2408  * mapped at a virtual address that is offset from start by the same
2409  * amount as the page is offset from m_start within the object.  The
2410  * last page in the sequence is the page with the largest offset from
2411  * m_start that can be mapped at a virtual address less than the given
2412  * virtual address end.  Not every virtual page between start and end
2413  * is mapped; only those for which a resident page exists with the
2414  * corresponding offset from m_start are mapped.
2415  */
2416 void
2417 pmap_enter_object(pmap_t pmap, vm_offset_t start, vm_offset_t end,
2418     vm_page_t m_start, vm_prot_t prot)
2419 {
2420         vm_page_t m, mpte;
2421         vm_pindex_t diff, psize;
2422
2423         VM_OBJECT_LOCK_ASSERT(m_start->object, MA_OWNED);
2424         psize = atop(end - start);
2425         mpte = NULL;
2426         m = m_start;
2427         PMAP_LOCK(pmap);
2428         while (m != NULL && (diff = m->pindex - m_start->pindex) < psize) {
2429                 mpte = pmap_enter_quick_locked(pmap, start + ptoa(diff), m,
2430                     prot, mpte);
2431                 m = TAILQ_NEXT(m, listq);
2432         }
2433         PMAP_UNLOCK(pmap);
2434 }
2435
2436 /*
2437  * this code makes some *MAJOR* assumptions:
2438  * 1. Current pmap & pmap exists.
2439  * 2. Not wired.
2440  * 3. Read access.
2441  * 4. No page table pages.
2442  * but is *MUCH* faster than pmap_enter...
2443  */
2444
2445 void
2446 pmap_enter_quick(pmap_t pmap, vm_offset_t va, vm_page_t m, vm_prot_t prot)
2447 {
2448
2449         PMAP_LOCK(pmap);
2450         (void) pmap_enter_quick_locked(pmap, va, m, prot, NULL);
2451         PMAP_UNLOCK(pmap);
2452 }
2453
2454 static vm_page_t
2455 pmap_enter_quick_locked(pmap_t pmap, vm_offset_t va, vm_page_t m,
2456     vm_prot_t prot, vm_page_t mpte)
2457 {
2458         pt_entry_t *pte;
2459         vm_paddr_t pa;
2460
2461         KASSERT(va < kmi.clean_sva || va >= kmi.clean_eva ||
2462             (m->flags & (PG_FICTITIOUS | PG_UNMANAGED)) != 0,
2463             ("pmap_enter_quick_locked: managed mapping within the clean submap"));
2464         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2465         PMAP_LOCK_ASSERT(pmap, MA_OWNED);
2466
2467         /*
2468          * In the case that a page table page is not
2469          * resident, we are creating it here.
2470          */
2471         if (va < VM_MAXUSER_ADDRESS) {
2472                 vm_pindex_t ptepindex;
2473                 pd_entry_t *ptepa;
2474
2475                 /*
2476                  * Calculate pagetable page index
2477                  */
2478                 ptepindex = pmap_pde_pindex(va);
2479                 if (mpte && (mpte->pindex == ptepindex)) {
2480                         mpte->wire_count++;
2481                 } else {
2482                         /*
2483                          * Get the page directory entry
2484                          */
2485                         ptepa = pmap_pde(pmap, va);
2486
2487                         /*
2488                          * If the page table page is mapped, we just increment
2489                          * the hold count, and activate it.
2490                          */
2491                         if (ptepa && (*ptepa & PG_V) != 0) {
2492                                 if (*ptepa & PG_PS)
2493                                         panic("pmap_enter_quick: unexpected mapping into 2MB page");
2494                                 mpte = PHYS_TO_VM_PAGE(*ptepa & PG_FRAME);
2495                                 mpte->wire_count++;
2496                         } else {
2497                                 mpte = _pmap_allocpte(pmap, ptepindex,
2498                                     M_NOWAIT);
2499                                 if (mpte == NULL)
2500                                         return (mpte);
2501                         }
2502                 }
2503         } else {
2504                 mpte = NULL;
2505         }
2506
2507         /*
2508          * This call to vtopte makes the assumption that we are
2509          * entering the page into the current pmap.  In order to support
2510          * quick entry into any pmap, one would likely use pmap_pte.
2511          * But that isn't as quick as vtopte.
2512          */
2513         pte = vtopte(va);
2514         if (*pte) {
2515                 if (mpte != NULL) {
2516                         pmap_unwire_pte_hold(pmap, va, mpte);
2517                         mpte = NULL;
2518                 }
2519                 return (mpte);
2520         }
2521
2522         /*
2523          * Enter on the PV list if part of our managed memory.
2524          */
2525         if ((m->flags & (PG_FICTITIOUS | PG_UNMANAGED)) == 0 &&
2526             !pmap_try_insert_pv_entry(pmap, va, m)) {
2527                 if (mpte != NULL) {
2528                         pmap_unwire_pte_hold(pmap, va, mpte);
2529                         mpte = NULL;
2530                 }
2531                 return (mpte);
2532         }
2533
2534         /*
2535          * Increment counters
2536          */
2537         pmap->pm_stats.resident_count++;
2538
2539         pa = VM_PAGE_TO_PHYS(m);
2540         if ((prot & VM_PROT_EXECUTE) == 0)
2541                 pa |= pg_nx;
2542
2543         /*
2544          * Now validate mapping with RO protection
2545          */
2546         if (m->flags & (PG_FICTITIOUS|PG_UNMANAGED))
2547                 pte_store(pte, pa | PG_V | PG_U);
2548         else
2549                 pte_store(pte, pa | PG_V | PG_U | PG_MANAGED);
2550         return mpte;
2551 }
2552
2553 /*
2554  * Make a temporary mapping for a physical address.  This is only intended
2555  * to be used for panic dumps.
2556  */
2557 void *
2558 pmap_kenter_temporary(vm_paddr_t pa, int i)
2559 {
2560         vm_offset_t va;
2561
2562         va = (vm_offset_t)crashdumpmap + (i * PAGE_SIZE);
2563         pmap_kenter(va, pa);
2564         invlpg(va);
2565         return ((void *)crashdumpmap);
2566 }
2567
2568 /*
2569  * This code maps large physical mmap regions into the
2570  * processor address space.  Note that some shortcuts
2571  * are taken, but the code works.
2572  */
2573 void
2574 pmap_object_init_pt(pmap_t pmap, vm_offset_t addr,
2575                     vm_object_t object, vm_pindex_t pindex,
2576                     vm_size_t size)
2577 {
2578         vm_offset_t va;
2579         vm_page_t p, pdpg;
2580
2581         VM_OBJECT_LOCK_ASSERT(object, MA_OWNED);
2582         KASSERT(object->type == OBJT_DEVICE,
2583             ("pmap_object_init_pt: non-device object"));
2584         if (((addr & (NBPDR - 1)) == 0) && ((size & (NBPDR - 1)) == 0)) {
2585                 vm_page_t m[1];
2586                 pd_entry_t ptepa, *pde;
2587
2588                 PMAP_LOCK(pmap);
2589                 pde = pmap_pde(pmap, addr);
2590                 if (pde != 0 && (*pde & PG_V) != 0)
2591                         goto out;
2592                 PMAP_UNLOCK(pmap);
2593 retry:
2594                 p = vm_page_lookup(object, pindex);
2595                 if (p != NULL) {
2596                         if (vm_page_sleep_if_busy(p, FALSE, "init4p"))
2597                                 goto retry;
2598                 } else {
2599                         p = vm_page_alloc(object, pindex, VM_ALLOC_NORMAL);
2600                         if (p == NULL)
2601                                 return;
2602                         m[0] = p;
2603
2604                         if (vm_pager_get_pages(object, m, 1, 0) != VM_PAGER_OK) {
2605                                 vm_page_lock_queues();
2606                                 vm_page_free(p);
2607                                 vm_page_unlock_queues();
2608                                 return;
2609                         }
2610
2611                         p = vm_page_lookup(object, pindex);
2612                         vm_page_lock_queues();
2613                         vm_page_wakeup(p);
2614                         vm_page_unlock_queues();
2615                 }
2616
2617                 ptepa = VM_PAGE_TO_PHYS(p);
2618                 if (ptepa & (NBPDR - 1))
2619                         return;
2620
2621                 p->valid = VM_PAGE_BITS_ALL;
2622
2623                 PMAP_LOCK(pmap);
2624                 for (va = addr; va < addr + size; va += NBPDR) {
2625                         while ((pdpg =
2626                             pmap_allocpde(pmap, va, M_NOWAIT)) == NULL) {
2627                                 PMAP_UNLOCK(pmap);
2628                                 vm_page_lock_queues();
2629                                 vm_page_busy(p);
2630                                 vm_page_unlock_queues();
2631                                 VM_OBJECT_UNLOCK(object);
2632                                 VM_WAIT;
2633                                 VM_OBJECT_LOCK(object);
2634                                 vm_page_lock_queues();
2635                                 vm_page_wakeup(p);
2636                                 vm_page_unlock_queues();
2637                                 PMAP_LOCK(pmap);
2638                         }
2639                         pde = (pd_entry_t *)PHYS_TO_DMAP(VM_PAGE_TO_PHYS(pdpg));
2640                         pde = &pde[pmap_pde_index(va)];
2641                         if ((*pde & PG_V) == 0) {
2642                                 pde_store(pde, ptepa | PG_PS | PG_M | PG_A |
2643                                     PG_U | PG_RW | PG_V);
2644                                 pmap->pm_stats.resident_count +=
2645                                     NBPDR / PAGE_SIZE;
2646                         } else {
2647                                 pdpg->wire_count--;
2648                                 KASSERT(pdpg->wire_count > 0,
2649                                     ("pmap_object_init_pt: missing reference "
2650                                      "to page directory page, va: 0x%lx", va));
2651                         }
2652                         ptepa += NBPDR;
2653                 }
2654                 pmap_invalidate_all(pmap);
2655 out:
2656                 PMAP_UNLOCK(pmap);
2657         }
2658 }
2659
2660 /*
2661  *      Routine:        pmap_change_wiring
2662  *      Function:       Change the wiring attribute for a map/virtual-address
2663  *                      pair.
2664  *      In/out conditions:
2665  *                      The mapping must already exist in the pmap.
2666  */
2667 void
2668 pmap_change_wiring(pmap_t pmap, vm_offset_t va, boolean_t wired)
2669 {
2670         pt_entry_t *pte;
2671
2672         /*
2673          * Wiring is not a hardware characteristic so there is no need to
2674          * invalidate TLB.
2675          */
2676         PMAP_LOCK(pmap);
2677         pte = pmap_pte(pmap, va);
2678         if (wired && (*pte & PG_W) == 0) {
2679                 pmap->pm_stats.wired_count++;
2680                 atomic_set_long(pte, PG_W);
2681         } else if (!wired && (*pte & PG_W) != 0) {
2682                 pmap->pm_stats.wired_count--;
2683                 atomic_clear_long(pte, PG_W);
2684         }
2685         PMAP_UNLOCK(pmap);
2686 }
2687
2688
2689
2690 /*
2691  *      Copy the range specified by src_addr/len
2692  *      from the source map to the range dst_addr/len
2693  *      in the destination map.
2694  *
2695  *      This routine is only advisory and need not do anything.
2696  */
2697
2698 void
2699 pmap_copy(pmap_t dst_pmap, pmap_t src_pmap, vm_offset_t dst_addr, vm_size_t len,
2700           vm_offset_t src_addr)
2701 {
2702         vm_offset_t addr;
2703         vm_offset_t end_addr = src_addr + len;
2704         vm_offset_t va_next;
2705
2706         if (dst_addr != src_addr)
2707                 return;
2708
2709         if (!pmap_is_current(src_pmap))
2710                 return;
2711
2712         vm_page_lock_queues();
2713         if (dst_pmap < src_pmap) {
2714                 PMAP_LOCK(dst_pmap);
2715                 PMAP_LOCK(src_pmap);
2716         } else {
2717                 PMAP_LOCK(src_pmap);
2718                 PMAP_LOCK(dst_pmap);
2719         }
2720         for (addr = src_addr; addr < end_addr; addr = va_next) {
2721                 pt_entry_t *src_pte, *dst_pte;
2722                 vm_page_t dstmpde, dstmpte, srcmpte;
2723                 pml4_entry_t *pml4e;
2724                 pdp_entry_t *pdpe;
2725                 pd_entry_t srcptepaddr, *pde;
2726
2727                 if (addr >= UPT_MIN_ADDRESS)
2728                         panic("pmap_copy: invalid to pmap_copy page tables");
2729
2730                 pml4e = pmap_pml4e(src_pmap, addr);
2731                 if ((*pml4e & PG_V) == 0) {
2732                         va_next = (addr + NBPML4) & ~PML4MASK;
2733                         continue;
2734                 }
2735
2736                 pdpe = pmap_pml4e_to_pdpe(pml4e, addr);
2737                 if ((*pdpe & PG_V) == 0) {
2738                         va_next = (addr + NBPDP) & ~PDPMASK;
2739                         continue;
2740                 }
2741
2742                 va_next = (addr + NBPDR) & ~PDRMASK;
2743
2744                 pde = pmap_pdpe_to_pde(pdpe, addr);
2745                 srcptepaddr = *pde;
2746                 if (srcptepaddr == 0)
2747                         continue;
2748
2749                 if (srcptepaddr & PG_PS) {
2750                         dstmpde = pmap_allocpde(dst_pmap, addr, M_NOWAIT);
2751                         if (dstmpde == NULL)
2752                                 break;
2753                         pde = (pd_entry_t *)
2754                             PHYS_TO_DMAP(VM_PAGE_TO_PHYS(dstmpde));
2755                         pde = &pde[pmap_pde_index(addr)];
2756                         if (*pde == 0) {
2757                                 *pde = srcptepaddr & ~PG_W;
2758                                 dst_pmap->pm_stats.resident_count +=
2759                                     NBPDR / PAGE_SIZE;
2760                         } else
2761                                 pmap_unwire_pte_hold(dst_pmap, addr, dstmpde);
2762                         continue;
2763                 }
2764
2765                 srcmpte = PHYS_TO_VM_PAGE(srcptepaddr & PG_FRAME);
2766                 if (srcmpte->wire_count == 0)
2767                         panic("pmap_copy: source page table page is unused");
2768
2769                 if (va_next > end_addr)
2770                         va_next = end_addr;
2771
2772                 src_pte = vtopte(addr);
2773                 while (addr < va_next) {
2774                         pt_entry_t ptetemp;
2775                         ptetemp = *src_pte;
2776                         /*
2777                          * we only virtual copy managed pages
2778                          */
2779                         if ((ptetemp & PG_MANAGED) != 0) {
2780                                 dstmpte = pmap_allocpte(dst_pmap, addr,
2781                                     M_NOWAIT);
2782                                 if (dstmpte == NULL)
2783                                         break;
2784                                 dst_pte = (pt_entry_t *)
2785                                     PHYS_TO_DMAP(VM_PAGE_TO_PHYS(dstmpte));
2786                                 dst_pte = &dst_pte[pmap_pte_index(addr)];
2787                                 if (*dst_pte == 0 &&
2788                                     pmap_try_insert_pv_entry(dst_pmap, addr,
2789                                     PHYS_TO_VM_PAGE(ptetemp & PG_FRAME))) {
2790                                         /*
2791                                          * Clear the wired, modified, and
2792                                          * accessed (referenced) bits
2793                                          * during the copy.
2794                                          */
2795                                         *dst_pte = ptetemp & ~(PG_W | PG_M |
2796                                             PG_A);
2797                                         dst_pmap->pm_stats.resident_count++;
2798                                 } else
2799                                         pmap_unwire_pte_hold(dst_pmap, addr,
2800                                             dstmpte);
2801                                 if (dstmpte->wire_count >= srcmpte->wire_count)
2802                                         break;
2803                         }
2804                         addr += PAGE_SIZE;
2805                         src_pte++;
2806                 }
2807         }
2808         vm_page_unlock_queues();
2809         PMAP_UNLOCK(src_pmap);
2810         PMAP_UNLOCK(dst_pmap);
2811 }
2812
2813 /*
2814  *      pmap_zero_page zeros the specified hardware page by mapping
2815  *      the page into KVM and using bzero to clear its contents.
2816  */
2817 void
2818 pmap_zero_page(vm_page_t m)
2819 {
2820         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
2821
2822         pagezero((void *)va);
2823 }
2824
2825 /*
2826  *      pmap_zero_page_area zeros the specified hardware page by mapping
2827  *      the page into KVM and using bzero to clear its contents.
2828  *
2829  *      off and size may not cover an area beyond a single hardware page.
2830  */
2831 void
2832 pmap_zero_page_area(vm_page_t m, int off, int size)
2833 {
2834         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
2835
2836         if (off == 0 && size == PAGE_SIZE)
2837                 pagezero((void *)va);
2838         else
2839                 bzero((char *)va + off, size);
2840 }
2841
2842 /*
2843  *      pmap_zero_page_idle zeros the specified hardware page by mapping
2844  *      the page into KVM and using bzero to clear its contents.  This
2845  *      is intended to be called from the vm_pagezero process only and
2846  *      outside of Giant.
2847  */
2848 void
2849 pmap_zero_page_idle(vm_page_t m)
2850 {
2851         vm_offset_t va = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(m));
2852
2853         pagezero((void *)va);
2854 }
2855
2856 /*
2857  *      pmap_copy_page copies the specified (machine independent)
2858  *      page by mapping the page into virtual memory and using
2859  *      bcopy to copy the page, one machine dependent page at a
2860  *      time.
2861  */
2862 void
2863 pmap_copy_page(vm_page_t msrc, vm_page_t mdst)
2864 {
2865         vm_offset_t src = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(msrc));
2866         vm_offset_t dst = PHYS_TO_DMAP(VM_PAGE_TO_PHYS(mdst));
2867
2868         pagecopy((void *)src, (void *)dst);
2869 }
2870
2871 /*
2872  * Returns true if the pmap's pv is one of the first
2873  * 16 pvs linked to from this page.  This count may
2874  * be changed upwards or downwards in the future; it
2875  * is only necessary that true be returned for a small
2876  * subset of pmaps for proper page aging.
2877  */
2878 boolean_t
2879 pmap_page_exists_quick(pmap_t pmap, vm_page_t m)
2880 {
2881         pv_entry_t pv;
2882         int loops = 0;
2883
2884         if (m->flags & PG_FICTITIOUS)
2885                 return FALSE;
2886
2887         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
2888         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
2889                 if (PV_PMAP(pv) == pmap) {
2890                         return TRUE;
2891                 }
2892                 loops++;
2893                 if (loops >= 16)
2894                         break;
2895         }
2896         return (FALSE);
2897 }
2898
2899 /*
2900  * Remove all pages from specified address space
2901  * this aids process exit speeds.  Also, this code
2902  * is special cased for current process only, but
2903  * can have the more generic (and slightly slower)
2904  * mode enabled.  This is much faster than pmap_remove
2905  * in the case of running down an entire address space.
2906  */
2907 void
2908 pmap_remove_pages(pmap_t pmap)
2909 {
2910         pt_entry_t *pte, tpte;
2911         vm_page_t m;
2912         pv_entry_t pv;
2913         struct pv_chunk *pc, *npc;
2914         int field, idx;
2915         int64_t bit;
2916         uint64_t inuse, bitmask;
2917         int allfree;
2918
2919         if (pmap != vmspace_pmap(curthread->td_proc->p_vmspace)) {
2920                 printf("warning: pmap_remove_pages called with non-current pmap\n");
2921                 return;
2922         }
2923         vm_page_lock_queues();
2924         PMAP_LOCK(pmap);
2925         TAILQ_FOREACH_SAFE(pc, &pmap->pm_pvchunk, pc_list, npc) {
2926                 allfree = 1;
2927                 for (field = 0; field < _NPCM; field++) {
2928                         inuse = (~(pc->pc_map[field])) & pc_freemask[field];
2929                         while (inuse != 0) {
2930                                 bit = bsfq(inuse);
2931                                 bitmask = 1UL << bit;
2932                                 idx = field * 64 + bit;
2933                                 pv = &pc->pc_pventry[idx];
2934                                 inuse &= ~bitmask;
2935
2936                                 pte = vtopte(pv->pv_va);
2937                                 tpte = *pte;
2938
2939                                 if (tpte == 0) {
2940                                         printf(
2941                                             "TPTE at %p  IS ZERO @ VA %08lx\n",
2942                                             pte, pv->pv_va);
2943                                         panic("bad pte");
2944                                 }
2945
2946 /*
2947  * We cannot remove wired pages from a process' mapping at this time
2948  */
2949                                 if (tpte & PG_W) {
2950                                         allfree = 0;
2951                                         continue;
2952                                 }
2953
2954                                 m = PHYS_TO_VM_PAGE(tpte & PG_FRAME);
2955                                 KASSERT(m->phys_addr == (tpte & PG_FRAME),
2956                                     ("vm_page_t %p phys_addr mismatch %016jx %016jx",
2957                                     m, (uintmax_t)m->phys_addr,
2958                                     (uintmax_t)tpte));
2959
2960                                 KASSERT(m < &vm_page_array[vm_page_array_size],
2961                                         ("pmap_remove_pages: bad tpte %#jx",
2962                                         (uintmax_t)tpte));
2963
2964                                 pmap->pm_stats.resident_count--;
2965
2966                                 pte_clear(pte);
2967
2968                                 /*
2969                                  * Update the vm_page_t clean/reference bits.
2970                                  */
2971                                 if (tpte & PG_M)
2972                                         vm_page_dirty(m);
2973
2974                                 /* Mark free */
2975                                 PV_STAT(pv_entry_frees++);
2976                                 PV_STAT(pv_entry_spare++);
2977                                 pv_entry_count--;
2978                                 pc->pc_map[field] |= bitmask;
2979                                 m->md.pv_list_count--;
2980                                 TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
2981                                 if (TAILQ_EMPTY(&m->md.pv_list))
2982                                         vm_page_flag_clear(m, PG_WRITEABLE);
2983                                 pmap_unuse_pt(pmap, pv->pv_va,
2984                                     *vtopde(pv->pv_va));
2985                         }
2986                 }
2987                 if (allfree) {
2988                         PV_STAT(pv_entry_spare -= _NPCPV);
2989                         PV_STAT(pc_chunk_count--);
2990                         PV_STAT(pc_chunk_frees++);
2991                         TAILQ_REMOVE(&pmap->pm_pvchunk, pc, pc_list);
2992                         m = PHYS_TO_VM_PAGE(DMAP_TO_PHYS((vm_offset_t)pc));
2993                         dump_drop_page(m->phys_addr);
2994                         vm_page_free(m);
2995                 }
2996         }
2997         vm_page_unlock_queues();
2998         pmap_invalidate_all(pmap);
2999         PMAP_UNLOCK(pmap);
3000 }
3001
3002 /*
3003  *      pmap_is_modified:
3004  *
3005  *      Return whether or not the specified physical page was modified
3006  *      in any physical maps.
3007  */
3008 boolean_t
3009 pmap_is_modified(vm_page_t m)
3010 {
3011         pv_entry_t pv;
3012         pt_entry_t *pte;
3013         pmap_t pmap;
3014         boolean_t rv;
3015
3016         rv = FALSE;
3017         if (m->flags & PG_FICTITIOUS)
3018                 return (rv);
3019
3020         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3021         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
3022                 pmap = PV_PMAP(pv);
3023                 PMAP_LOCK(pmap);
3024                 pte = pmap_pte(pmap, pv->pv_va);
3025                 rv = (*pte & PG_M) != 0;
3026                 PMAP_UNLOCK(pmap);
3027                 if (rv)
3028                         break;
3029         }
3030         return (rv);
3031 }
3032
3033 /*
3034  *      pmap_is_prefaultable:
3035  *
3036  *      Return whether or not the specified virtual address is elgible
3037  *      for prefault.
3038  */
3039 boolean_t
3040 pmap_is_prefaultable(pmap_t pmap, vm_offset_t addr)
3041 {
3042         pd_entry_t *pde;
3043         pt_entry_t *pte;
3044         boolean_t rv;
3045
3046         rv = FALSE;
3047         PMAP_LOCK(pmap);
3048         pde = pmap_pde(pmap, addr);
3049         if (pde != NULL && (*pde & PG_V)) {
3050                 pte = vtopte(addr);
3051                 rv = (*pte & PG_V) == 0;
3052         }
3053         PMAP_UNLOCK(pmap);
3054         return (rv);
3055 }
3056
3057 /*
3058  * Clear the write and modified bits in each of the given page's mappings.
3059  */
3060 void
3061 pmap_remove_write(vm_page_t m)
3062 {
3063         pv_entry_t pv;
3064         pmap_t pmap;
3065         pt_entry_t oldpte, *pte;
3066
3067         if ((m->flags & PG_FICTITIOUS) != 0 ||
3068             (m->flags & PG_WRITEABLE) == 0)
3069                 return;
3070         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3071         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
3072                 pmap = PV_PMAP(pv);
3073                 PMAP_LOCK(pmap);
3074                 pte = pmap_pte(pmap, pv->pv_va);
3075 retry:
3076                 oldpte = *pte;
3077                 if (oldpte & PG_RW) {
3078                         if (!atomic_cmpset_long(pte, oldpte, oldpte &
3079                             ~(PG_RW | PG_M)))
3080                                 goto retry;
3081                         if ((oldpte & PG_M) != 0)
3082                                 vm_page_dirty(m);
3083                         pmap_invalidate_page(pmap, pv->pv_va);
3084                 }
3085                 PMAP_UNLOCK(pmap);
3086         }
3087         vm_page_flag_clear(m, PG_WRITEABLE);
3088 }
3089
3090 /*
3091  *      pmap_ts_referenced:
3092  *
3093  *      Return a count of reference bits for a page, clearing those bits.
3094  *      It is not necessary for every reference bit to be cleared, but it
3095  *      is necessary that 0 only be returned when there are truly no
3096  *      reference bits set.
3097  *
3098  *      XXX: The exact number of bits to check and clear is a matter that
3099  *      should be tested and standardized at some point in the future for
3100  *      optimal aging of shared pages.
3101  */
3102 int
3103 pmap_ts_referenced(vm_page_t m)
3104 {
3105         pv_entry_t pv, pvf, pvn;
3106         pmap_t pmap;
3107         pt_entry_t *pte;
3108         int rtval = 0;
3109
3110         if (m->flags & PG_FICTITIOUS)
3111                 return (rtval);
3112         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3113         if ((pv = TAILQ_FIRST(&m->md.pv_list)) != NULL) {
3114                 pvf = pv;
3115                 do {
3116                         pvn = TAILQ_NEXT(pv, pv_list);
3117                         TAILQ_REMOVE(&m->md.pv_list, pv, pv_list);
3118                         TAILQ_INSERT_TAIL(&m->md.pv_list, pv, pv_list);
3119                         pmap = PV_PMAP(pv);
3120                         PMAP_LOCK(pmap);
3121                         pte = pmap_pte(pmap, pv->pv_va);
3122                         if ((*pte & PG_A) != 0) {
3123                                 atomic_clear_long(pte, PG_A);
3124                                 pmap_invalidate_page(pmap, pv->pv_va);
3125                                 rtval++;
3126                                 if (rtval > 4)
3127                                         pvn = NULL;
3128                         }
3129                         PMAP_UNLOCK(pmap);
3130                 } while ((pv = pvn) != NULL && pv != pvf);
3131         }
3132         return (rtval);
3133 }
3134
3135 /*
3136  *      Clear the modify bits on the specified physical page.
3137  */
3138 void
3139 pmap_clear_modify(vm_page_t m)
3140 {
3141         pv_entry_t pv;
3142         pmap_t pmap;
3143         pt_entry_t *pte;
3144
3145         if ((m->flags & PG_FICTITIOUS) != 0)
3146                 return;
3147         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3148         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
3149                 pmap = PV_PMAP(pv);
3150                 PMAP_LOCK(pmap);
3151                 pte = pmap_pte(pmap, pv->pv_va);
3152                 if (*pte & PG_M) {
3153                         atomic_clear_long(pte, PG_M);
3154                         pmap_invalidate_page(pmap, pv->pv_va);
3155                 }
3156                 PMAP_UNLOCK(pmap);
3157         }
3158 }
3159
3160 /*
3161  *      pmap_clear_reference:
3162  *
3163  *      Clear the reference bit on the specified physical page.
3164  */
3165 void
3166 pmap_clear_reference(vm_page_t m)
3167 {
3168         pv_entry_t pv;
3169         pmap_t pmap;
3170         pt_entry_t *pte;
3171
3172         if ((m->flags & PG_FICTITIOUS) != 0)
3173                 return;
3174         mtx_assert(&vm_page_queue_mtx, MA_OWNED);
3175         TAILQ_FOREACH(pv, &m->md.pv_list, pv_list) {
3176                 pmap = PV_PMAP(pv);
3177                 PMAP_LOCK(pmap);
3178                 pte = pmap_pte(pmap, pv->pv_va);
3179                 if (*pte & PG_A) {
3180                         atomic_clear_long(pte, PG_A);
3181                         pmap_invalidate_page(pmap, pv->pv_va);
3182                 }
3183                 PMAP_UNLOCK(pmap);
3184         }
3185 }
3186
3187 /*
3188  * Miscellaneous support routines follow
3189  */
3190
3191 /* Adjust the cache mode for a 4KB page mapped via a PTE. */
3192 static __inline void
3193 pmap_pte_attr(vm_offset_t va, int mode)
3194 {
3195         pt_entry_t *pte;
3196         u_int opte, npte;
3197
3198         pte = vtopte(va);
3199
3200         /*
3201          * The cache mode bits are all in the low 32-bits of the
3202          * PTE, so we can just spin on updating the low 32-bits.
3203          */
3204         do {
3205                 opte = *(u_int *)pte;
3206                 npte = opte & ~(PG_PTE_PAT | PG_NC_PCD | PG_NC_PWT);
3207                 npte |= pmap_cache_bits(mode, 0);
3208         } while (npte != opte && !atomic_cmpset_int((u_int *)pte, opte, npte));
3209 }
3210
3211 /* Adjust the cache mode for a 2MB page mapped via a PDE. */
3212 static __inline void
3213 pmap_pde_attr(vm_offset_t va, int mode)
3214 {
3215         pd_entry_t *pde;
3216         u_int opde, npde;
3217
3218         pde = pmap_pde(kernel_pmap, va);
3219
3220         /*
3221          * The cache mode bits are all in the low 32-bits of the
3222          * PDE, so we can just spin on updating the low 32-bits.
3223          */
3224         do {
3225                 opde = *(u_int *)pde;
3226                 npde = opde & ~(PG_PDE_PAT | PG_NC_PCD | PG_NC_PWT);
3227                 npde |= pmap_cache_bits(mode, 1);
3228         } while (npde != opde && !atomic_cmpset_int((u_int *)pde, opde, npde));
3229 }
3230
3231 /*
3232  * Map a set of physical memory pages into the kernel virtual
3233  * address space. Return a pointer to where it is mapped. This
3234  * routine is intended to be used for mapping device memory,
3235  * NOT real memory.
3236  */
3237 void *
3238 pmap_mapdev_attr(vm_paddr_t pa, vm_size_t size, int mode)
3239 {
3240         vm_offset_t va, tmpva, offset;
3241
3242         /*
3243          * If this fits within the direct map window and use WB caching
3244          * mode, use the direct map.
3245          */
3246         if (pa < dmaplimit && (pa + size) < dmaplimit && mode == PAT_WRITE_BACK)
3247                 return ((void *)PHYS_TO_DMAP(pa));
3248         offset = pa & PAGE_MASK;
3249         size = roundup(offset + size, PAGE_SIZE);
3250         va = kmem_alloc_nofault(kernel_map, size);
3251         if (!va)
3252                 panic("pmap_mapdev: Couldn't alloc kernel virtual memory");
3253         pa = trunc_page(pa);
3254         for (tmpva = va; size > 0; ) {
3255                 pmap_kenter_attr(tmpva, pa, mode);
3256                 size -= PAGE_SIZE;
3257                 tmpva += PAGE_SIZE;
3258                 pa += PAGE_SIZE;
3259         }
3260         pmap_invalidate_range(kernel_pmap, va, tmpva);
3261         pmap_invalidate_cache();
3262         return ((void *)(va + offset));
3263 }
3264
3265 void *
3266 pmap_mapdev(vm_paddr_t pa, vm_size_t size)
3267 {
3268
3269         return (pmap_mapdev_attr(pa, size, PAT_UNCACHEABLE));
3270 }
3271
3272 void *
3273 pmap_mapbios(vm_paddr_t pa, vm_size_t size)
3274 {
3275
3276         return (pmap_mapdev_attr(pa, size, PAT_WRITE_BACK));
3277 }
3278
3279 void
3280 pmap_unmapdev(vm_offset_t va, vm_size_t size)
3281 {
3282         vm_offset_t base, offset, tmpva;
3283
3284         /* If we gave a direct map region in pmap_mapdev, do nothing */
3285         if (va >= DMAP_MIN_ADDRESS && va < DMAP_MAX_ADDRESS)
3286                 return;
3287         base = trunc_page(va);
3288         offset = va & PAGE_MASK;
3289         size = roundup(offset + size, PAGE_SIZE);
3290         for (tmpva = base; tmpva < (base + size); tmpva += PAGE_SIZE)
3291                 pmap_kremove(tmpva);
3292         pmap_invalidate_range(kernel_pmap, va, tmpva);
3293         kmem_free(kernel_map, base, size);
3294 }
3295
3296 int
3297 pmap_change_attr(va, size, mode)
3298         vm_offset_t va;
3299         vm_size_t size;
3300         int mode;
3301 {
3302         vm_offset_t base, offset, tmpva;
3303         pd_entry_t *pde;
3304         pt_entry_t *pte;
3305
3306         base = va & PG_FRAME;
3307         offset = va & PAGE_MASK;
3308         size = roundup(offset + size, PAGE_SIZE);
3309
3310         /* Only supported on kernel virtual addresses. */
3311         if (base <= VM_MAXUSER_ADDRESS)
3312                 return (EINVAL);
3313
3314         /*
3315          * XXX: We have to support tearing 2MB pages down into 4k pages if
3316          * needed here.
3317          */
3318         /* Pages that aren't mapped aren't supported. */
3319         for (tmpva = base; tmpva < (base + size); ) {
3320                 pde = pmap_pde(kernel_pmap, tmpva);
3321                 if (*pde == 0)
3322                         return (EINVAL);
3323                 if (*pde & PG_PS) {
3324                         /* Handle 2MB pages that are completely contained. */
3325                         if (size >= NBPDR) {
3326                                 tmpva += NBPDR;
3327                                 continue;
3328                         }
3329                         return (EINVAL);
3330                 }
3331                 pte = vtopte(va);
3332                 if (*pte == 0)
3333                         return (EINVAL);
3334                 tmpva += PAGE_SIZE;
3335         }
3336
3337         /*
3338          * Ok, all the pages exist, so run through them updating their
3339          * cache mode.
3340          */
3341         for (tmpva = base; size > 0; ) {
3342                 pde = pmap_pde(kernel_pmap, tmpva);
3343                 if (*pde & PG_PS) {
3344                         pmap_pde_attr(tmpva, mode);
3345                         tmpva += NBPDR;
3346                         size -= NBPDR;
3347                 } else {
3348                         pmap_pte_attr(tmpva, mode);
3349                         tmpva += PAGE_SIZE;
3350                         size -= PAGE_SIZE;
3351                 }
3352         }
3353
3354         /*
3355          * Flush CPU caches to make sure any data isn't cached that shouldn't
3356          * be, etc.
3357          */
3358         pmap_invalidate_range(kernel_pmap, base, tmpva);
3359         pmap_invalidate_cache();
3360         return (0);
3361 }
3362
3363 /*
3364  * perform the pmap work for mincore
3365  */
3366 int
3367 pmap_mincore(pmap_t pmap, vm_offset_t addr)
3368 {
3369         pt_entry_t *ptep, pte;
3370         vm_page_t m;
3371         int val = 0;
3372
3373         PMAP_LOCK(pmap);
3374         ptep = pmap_pte(pmap, addr);
3375         pte = (ptep != NULL) ? *ptep : 0;
3376         PMAP_UNLOCK(pmap);
3377
3378         if (pte != 0) {
3379                 vm_paddr_t pa;
3380
3381                 val = MINCORE_INCORE;
3382                 if ((pte & PG_MANAGED) == 0)
3383                         return val;
3384
3385                 pa = pte & PG_FRAME;
3386
3387                 m = PHYS_TO_VM_PAGE(pa);
3388
3389                 /*
3390                  * Modified by us
3391                  */
3392                 if (pte & PG_M)
3393                         val |= MINCORE_MODIFIED|MINCORE_MODIFIED_OTHER;
3394                 else {
3395                         /*
3396                          * Modified by someone else
3397                          */
3398                         vm_page_lock_queues();
3399                         if (m->dirty || pmap_is_modified(m))
3400                                 val |= MINCORE_MODIFIED_OTHER;
3401                         vm_page_unlock_queues();
3402                 }
3403                 /*
3404                  * Referenced by us
3405                  */
3406                 if (pte & PG_A)
3407                         val |= MINCORE_REFERENCED|MINCORE_REFERENCED_OTHER;
3408                 else {
3409                         /*
3410                          * Referenced by someone else
3411                          */
3412                         vm_page_lock_queues();
3413                         if ((m->flags & PG_REFERENCED) ||
3414                             pmap_ts_referenced(m)) {
3415                                 val |= MINCORE_REFERENCED_OTHER;
3416                                 vm_page_flag_set(m, PG_REFERENCED);
3417                         }
3418                         vm_page_unlock_queues();
3419                 }
3420         }
3421         return val;
3422 }
3423
3424 void
3425 pmap_activate(struct thread *td)
3426 {
3427         pmap_t  pmap, oldpmap;
3428         u_int64_t  cr3;
3429
3430         critical_enter();
3431         pmap = vmspace_pmap(td->td_proc->p_vmspace);
3432         oldpmap = PCPU_GET(curpmap);
3433 #ifdef SMP
3434 if (oldpmap)    /* XXX FIXME */
3435         atomic_clear_int(&oldpmap->pm_active, PCPU_GET(cpumask));
3436         atomic_set_int(&pmap->pm_active, PCPU_GET(cpumask));
3437 #else
3438 if (oldpmap)    /* XXX FIXME */
3439         oldpmap->pm_active &= ~PCPU_GET(cpumask);
3440         pmap->pm_active |= PCPU_GET(cpumask);
3441 #endif
3442         cr3 = vtophys(pmap->pm_pml4);
3443         td->td_pcb->pcb_cr3 = cr3;
3444         load_cr3(cr3);
3445         critical_exit();
3446 }
3447
3448 vm_offset_t
3449 pmap_addr_hint(vm_object_t obj, vm_offset_t addr, vm_size_t size)
3450 {
3451
3452         if ((obj == NULL) || (size < NBPDR) || (obj->type != OBJT_DEVICE)) {
3453                 return addr;
3454         }
3455
3456         addr = (addr + (NBPDR - 1)) & ~(NBPDR - 1);
3457         return addr;
3458 }