sys/vm/vm_kern.c

   1 /*-
   2  * SPDX-License-Identifier: (BSD-3-Clause AND MIT-CMU)
   3  *
   4  * Copyright (c) 1991, 1993
   5  *      The Regents of the University of California.  All rights reserved.
   6  *
   7  * This code is derived from software contributed to Berkeley by
   8  * The Mach Operating System project at Carnegie-Mellon University.
   9  *
  10  * Redistribution and use in source and binary forms, with or without
  11  * modification, are permitted provided that the following conditions
  12  * are met:
  13  * 1. Redistributions of source code must retain the above copyright
  14  *    notice, this list of conditions and the following disclaimer.
  15  * 2. Redistributions in binary form must reproduce the above copyright
  16  *    notice, this list of conditions and the following disclaimer in the
  17  *    documentation and/or other materials provided with the distribution.
  18  * 3. Neither the name of the University nor the names of its contributors
  19  *    may be used to endorse or promote products derived from this software
  20  *    without specific prior written permission.
  21  *
  22  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
  23  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
  24  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
  25  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
  26  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
  27  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
  28  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
  29  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
  30  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
  31  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
  32  * SUCH DAMAGE.
  33  *
  34  *      from: @(#)vm_kern.c     8.3 (Berkeley) 1/12/94
  35  *
  36  *
  37  * Copyright (c) 1987, 1990 Carnegie-Mellon University.
  38  * All rights reserved.
  39  *
  40  * Authors: Avadis Tevanian, Jr., Michael Wayne Young
  41  *
  42  * Permission to use, copy, modify and distribute this software and
  43  * its documentation is hereby granted, provided that both the copyright
  44  * notice and this permission notice appear in all copies of the
  45  * software, derivative works or modified versions, and any portions
  46  * thereof, and that both notices appear in supporting documentation.
  47  *
  48  * CARNEGIE MELLON ALLOWS FREE USE OF THIS SOFTWARE IN ITS "AS IS"
  49  * CONDITION.  CARNEGIE MELLON DISCLAIMS ANY LIABILITY OF ANY KIND
  50  * FOR ANY DAMAGES WHATSOEVER RESULTING FROM THE USE OF THIS SOFTWARE.
  51  *
  52  * Carnegie Mellon requests users of this software to return to
  53  *
  54  *  Software Distribution Coordinator  or  Software.Distribution@CS.CMU.EDU
  55  *  School of Computer Science
  56  *  Carnegie Mellon University
  57  *  Pittsburgh PA 15213-3890
  58  *
  59  * any improvements or extensions that they make and grant Carnegie the
  60  * rights to redistribute these changes.
  61  */
  62
  63 /*
  64  *      Kernel memory management.
  65  */
  66
  67 #include <sys/cdefs.h>
  68 #include "opt_vm.h"
  69
  70 #include <sys/param.h>
  71 #include <sys/systm.h>
  72 #include <sys/asan.h>
  73 #include <sys/domainset.h>
  74 #include <sys/eventhandler.h>
  75 #include <sys/kernel.h>
  76 #include <sys/lock.h>
  77 #include <sys/malloc.h>
  78 #include <sys/proc.h>
  79 #include <sys/rwlock.h>
  80 #include <sys/smp.h>
  81 #include <sys/sysctl.h>
  82 #include <sys/vmem.h>
  83 #include <sys/vmmeter.h>
  84
  85 #include <vm/vm.h>
  86 #include <vm/vm_param.h>
  87 #include <vm/vm_domainset.h>
  88 #include <vm/vm_kern.h>
  89 #include <vm/pmap.h>
  90 #include <vm/vm_map.h>
  91 #include <vm/vm_object.h>
  92 #include <vm/vm_page.h>
  93 #include <vm/vm_pageout.h>
  94 #include <vm/vm_pagequeue.h>
  95 #include <vm/vm_phys.h>
  96 #include <vm/vm_radix.h>
  97 #include <vm/vm_extern.h>
  98 #include <vm/uma.h>
  99
 100 struct vm_map kernel_map_store;
 101 struct vm_map exec_map_store;
 102 struct vm_map pipe_map_store;
 103
 104 const void *zero_region;
 105 CTASSERT((ZERO_REGION_SIZE & PAGE_MASK) == 0);
 106
 107 /* NB: Used by kernel debuggers. */
 108 const u_long vm_maxuser_address = VM_MAXUSER_ADDRESS;
 109
 110 u_int exec_map_entry_size;
 111 u_int exec_map_entries;
 112
 113 SYSCTL_ULONG(_vm, OID_AUTO, min_kernel_address, CTLFLAG_RD,
 114     SYSCTL_NULL_ULONG_PTR, VM_MIN_KERNEL_ADDRESS, "Min kernel address");
 115
 116 SYSCTL_ULONG(_vm, OID_AUTO, max_kernel_address, CTLFLAG_RD,
 117 #if defined(__arm__)
 118     &vm_max_kernel_address, 0,
 119 #else
 120     SYSCTL_NULL_ULONG_PTR, VM_MAX_KERNEL_ADDRESS,
 121 #endif
 122     "Max kernel address");
 123
 124 #if VM_NRESERVLEVEL > 0
 125 #define KVA_QUANTUM_SHIFT       (VM_LEVEL_0_ORDER + PAGE_SHIFT)
 126 #else
 127 /* On non-superpage architectures we want large import sizes. */
 128 #define KVA_QUANTUM_SHIFT       (8 + PAGE_SHIFT)
 129 #endif
 130 #define KVA_QUANTUM             (1ul << KVA_QUANTUM_SHIFT)
 131 #define KVA_NUMA_IMPORT_QUANTUM (KVA_QUANTUM * 128)
 132
 133 extern void     uma_startup2(void);
 134
 135 /*
 136  *      kva_alloc:
 137  *
 138  *      Allocate a virtual address range with no underlying object and
 139  *      no initial mapping to physical memory.  Any mapping from this
 140  *      range to physical memory must be explicitly created prior to
 141  *      its use, typically with pmap_qenter().  Any attempt to create
 142  *      a mapping on demand through vm_fault() will result in a panic.
 143  */
 144 vm_offset_t
 145 kva_alloc(vm_size_t size)
 146 {
 147         vm_offset_t addr;
 148
 149         size = round_page(size);
 150         if (vmem_alloc(kernel_arena, size, M_BESTFIT | M_NOWAIT, &addr))
 151                 return (0);
 152
 153         return (addr);
 154 }
 155
 156 /*
 157  *      kva_free:
 158  *
 159  *      Release a region of kernel virtual memory allocated
 160  *      with kva_alloc, and return the physical pages
 161  *      associated with that region.
 162  *
 163  *      This routine may not block on kernel maps.
 164  */
 165 void
 166 kva_free(vm_offset_t addr, vm_size_t size)
 167 {
 168
 169         size = round_page(size);
 170         vmem_free(kernel_arena, addr, size);
 171 }
 172
 173 static vm_page_t
 174 kmem_alloc_contig_pages(vm_object_t object, vm_pindex_t pindex, int domain,
 175     int pflags, u_long npages, vm_paddr_t low, vm_paddr_t high,
 176     u_long alignment, vm_paddr_t boundary, vm_memattr_t memattr)
 177 {
 178         vm_page_t m;
 179         int tries;
 180         bool wait, reclaim;
 181
 182         VM_OBJECT_ASSERT_WLOCKED(object);
 183
 184         /* Disallow an invalid combination of flags. */
 185         MPASS((pflags & (VM_ALLOC_WAITOK | VM_ALLOC_NORECLAIM)) !=
 186             (VM_ALLOC_WAITOK | VM_ALLOC_NORECLAIM));
 187
 188         wait = (pflags & VM_ALLOC_WAITOK) != 0;
 189         reclaim = (pflags & VM_ALLOC_NORECLAIM) == 0;
 190         pflags &= ~(VM_ALLOC_NOWAIT | VM_ALLOC_WAITOK | VM_ALLOC_WAITFAIL);
 191         pflags |= VM_ALLOC_NOWAIT;
 192         for (tries = wait ? 3 : 1;; tries--) {
 193                 m = vm_page_alloc_contig_domain(object, pindex, domain, pflags,
 194                     npages, low, high, alignment, boundary, memattr);
 195                 if (m != NULL || tries == 0 || !reclaim)
 196                         break;
 197
 198                 VM_OBJECT_WUNLOCK(object);
 199                 if (!vm_page_reclaim_contig_domain(domain, pflags, npages,
 200                     low, high, alignment, boundary) && wait)
 201                         vm_wait_domain(domain);
 202                 VM_OBJECT_WLOCK(object);
 203         }
 204         return (m);
 205 }
 206
 207 /*
 208  *      Allocates a region from the kernel address map and physical pages
 209  *      within the specified address range to the kernel object.  Creates a
 210  *      wired mapping from this region to these pages, and returns the
 211  *      region's starting virtual address.  The allocated pages are not
 212  *      necessarily physically contiguous.  If M_ZERO is specified through the
 213  *      given flags, then the pages are zeroed before they are mapped.
 214  */
 215 static vm_offset_t
 216 kmem_alloc_attr_domain(int domain, vm_size_t size, int flags, vm_paddr_t low,
 217     vm_paddr_t high, vm_memattr_t memattr)
 218 {
 219         vmem_t *vmem;
 220         vm_object_t object;
 221         vm_offset_t addr, i, offset;
 222         vm_page_t m;
 223         vm_size_t asize;
 224         int pflags;
 225         vm_prot_t prot;
 226
 227         object = kernel_object;
 228         asize = round_page(size);
 229         vmem = vm_dom[domain].vmd_kernel_arena;
 230         if (vmem_alloc(vmem, asize, M_BESTFIT | flags, &addr))
 231                 return (0);
 232         offset = addr - VM_MIN_KERNEL_ADDRESS;
 233         pflags = malloc2vm_flags(flags) | VM_ALLOC_WIRED;
 234         prot = (flags & M_EXEC) != 0 ? VM_PROT_ALL : VM_PROT_RW;
 235         VM_OBJECT_WLOCK(object);
 236         for (i = 0; i < asize; i += PAGE_SIZE) {
 237                 m = kmem_alloc_contig_pages(object, atop(offset + i),
 238                     domain, pflags, 1, low, high, PAGE_SIZE, 0, memattr);
 239                 if (m == NULL) {
 240                         VM_OBJECT_WUNLOCK(object);
 241                         kmem_unback(object, addr, i);
 242                         vmem_free(vmem, addr, asize);
 243                         return (0);
 244                 }
 245                 KASSERT(vm_page_domain(m) == domain,
 246                     ("kmem_alloc_attr_domain: Domain mismatch %d != %d",
 247                     vm_page_domain(m), domain));
 248                 if ((flags & M_ZERO) && (m->flags & PG_ZERO) == 0)
 249                         pmap_zero_page(m);
 250                 vm_page_valid(m);
 251                 pmap_enter(kernel_pmap, addr + i, m, prot,
 252                     prot | PMAP_ENTER_WIRED, 0);
 253         }
 254         VM_OBJECT_WUNLOCK(object);
 255         kasan_mark((void *)addr, size, asize, KASAN_KMEM_REDZONE);
 256         return (addr);
 257 }
 258
 259 vm_offset_t
 260 kmem_alloc_attr(vm_size_t size, int flags, vm_paddr_t low, vm_paddr_t high,
 261     vm_memattr_t memattr)
 262 {
 263
 264         return (kmem_alloc_attr_domainset(DOMAINSET_RR(), size, flags, low,
 265             high, memattr));
 266 }
 267
 268 vm_offset_t
 269 kmem_alloc_attr_domainset(struct domainset *ds, vm_size_t size, int flags,
 270     vm_paddr_t low, vm_paddr_t high, vm_memattr_t memattr)
 271 {
 272         struct vm_domainset_iter di;
 273         vm_offset_t addr;
 274         int domain;
 275
 276         vm_domainset_iter_policy_init(&di, ds, &domain, &flags);
 277         do {
 278                 addr = kmem_alloc_attr_domain(domain, size, flags, low, high,
 279                     memattr);
 280                 if (addr != 0)
 281                         break;
 282         } while (vm_domainset_iter_policy(&di, &domain) == 0);
 283
 284         return (addr);
 285 }
 286
 287 /*
 288  *      Allocates a region from the kernel address map and physically
 289  *      contiguous pages within the specified address range to the kernel
 290  *      object.  Creates a wired mapping from this region to these pages, and
 291  *      returns the region's starting virtual address.  If M_ZERO is specified
 292  *      through the given flags, then the pages are zeroed before they are
 293  *      mapped.
 294  */
 295 static vm_offset_t
 296 kmem_alloc_contig_domain(int domain, vm_size_t size, int flags, vm_paddr_t low,
 297     vm_paddr_t high, u_long alignment, vm_paddr_t boundary,
 298     vm_memattr_t memattr)
 299 {
 300         vmem_t *vmem;
 301         vm_object_t object;
 302         vm_offset_t addr, offset, tmp;
 303         vm_page_t end_m, m;
 304         vm_size_t asize;
 305         u_long npages;
 306         int pflags;
 307
 308         object = kernel_object;
 309         asize = round_page(size);
 310         vmem = vm_dom[domain].vmd_kernel_arena;
 311         if (vmem_alloc(vmem, asize, flags | M_BESTFIT, &addr))
 312                 return (0);
 313         offset = addr - VM_MIN_KERNEL_ADDRESS;
 314         pflags = malloc2vm_flags(flags) | VM_ALLOC_WIRED;
 315         npages = atop(asize);
 316         VM_OBJECT_WLOCK(object);
 317         m = kmem_alloc_contig_pages(object, atop(offset), domain,
 318             pflags, npages, low, high, alignment, boundary, memattr);
 319         if (m == NULL) {
 320                 VM_OBJECT_WUNLOCK(object);
 321                 vmem_free(vmem, addr, asize);
 322                 return (0);
 323         }
 324         KASSERT(vm_page_domain(m) == domain,
 325             ("kmem_alloc_contig_domain: Domain mismatch %d != %d",
 326             vm_page_domain(m), domain));
 327         end_m = m + npages;
 328         tmp = addr;
 329         for (; m < end_m; m++) {
 330                 if ((flags & M_ZERO) && (m->flags & PG_ZERO) == 0)
 331                         pmap_zero_page(m);
 332                 vm_page_valid(m);
 333                 pmap_enter(kernel_pmap, tmp, m, VM_PROT_RW,
 334                     VM_PROT_RW | PMAP_ENTER_WIRED, 0);
 335                 tmp += PAGE_SIZE;
 336         }
 337         VM_OBJECT_WUNLOCK(object);
 338         kasan_mark((void *)addr, size, asize, KASAN_KMEM_REDZONE);
 339         return (addr);
 340 }
 341
 342 vm_offset_t
 343 kmem_alloc_contig(vm_size_t size, int flags, vm_paddr_t low, vm_paddr_t high,
 344     u_long alignment, vm_paddr_t boundary, vm_memattr_t memattr)
 345 {
 346
 347         return (kmem_alloc_contig_domainset(DOMAINSET_RR(), size, flags, low,
 348             high, alignment, boundary, memattr));
 349 }
 350
 351 vm_offset_t
 352 kmem_alloc_contig_domainset(struct domainset *ds, vm_size_t size, int flags,
 353     vm_paddr_t low, vm_paddr_t high, u_long alignment, vm_paddr_t boundary,
 354     vm_memattr_t memattr)
 355 {
 356         struct vm_domainset_iter di;
 357         vm_offset_t addr;
 358         int domain;
 359
 360         vm_domainset_iter_policy_init(&di, ds, &domain, &flags);
 361         do {
 362                 addr = kmem_alloc_contig_domain(domain, size, flags, low, high,
 363                     alignment, boundary, memattr);
 364                 if (addr != 0)
 365                         break;
 366         } while (vm_domainset_iter_policy(&di, &domain) == 0);
 367
 368         return (addr);
 369 }
 370
 371 /*
 372  *      kmem_subinit:
 373  *
 374  *      Initializes a map to manage a subrange
 375  *      of the kernel virtual address space.
 376  *
 377  *      Arguments are as follows:
 378  *
 379  *      parent          Map to take range from
 380  *      min, max        Returned endpoints of map
 381  *      size            Size of range to find
 382  *      superpage_align Request that min is superpage aligned
 383  */
 384 void
 385 kmem_subinit(vm_map_t map, vm_map_t parent, vm_offset_t *min, vm_offset_t *max,
 386     vm_size_t size, bool superpage_align)
 387 {
 388         int ret;
 389
 390         size = round_page(size);
 391
 392         *min = vm_map_min(parent);
 393         ret = vm_map_find(parent, NULL, 0, min, size, 0, superpage_align ?
 394             VMFS_SUPER_SPACE : VMFS_ANY_SPACE, VM_PROT_ALL, VM_PROT_ALL,
 395             MAP_ACC_NO_CHARGE);
 396         if (ret != KERN_SUCCESS)
 397                 panic("kmem_subinit: bad status return of %d", ret);
 398         *max = *min + size;
 399         vm_map_init(map, vm_map_pmap(parent), *min, *max);
 400         if (vm_map_submap(parent, *min, *max, map) != KERN_SUCCESS)
 401                 panic("kmem_subinit: unable to change range to submap");
 402 }
 403
 404 /*
 405  *      kmem_malloc_domain:
 406  *
 407  *      Allocate wired-down pages in the kernel's address space.
 408  */
 409 static vm_offset_t
 410 kmem_malloc_domain(int domain, vm_size_t size, int flags)
 411 {
 412         vmem_t *arena;
 413         vm_offset_t addr;
 414         vm_size_t asize;
 415         int rv;
 416
 417         if (__predict_true((flags & M_EXEC) == 0))
 418                 arena = vm_dom[domain].vmd_kernel_arena;
 419         else
 420                 arena = vm_dom[domain].vmd_kernel_rwx_arena;
 421         asize = round_page(size);
 422         if (vmem_alloc(arena, asize, flags | M_BESTFIT, &addr))
 423                 return (0);
 424
 425         rv = kmem_back_domain(domain, kernel_object, addr, asize, flags);
 426         if (rv != KERN_SUCCESS) {
 427                 vmem_free(arena, addr, asize);
 428                 return (0);
 429         }
 430         kasan_mark((void *)addr, size, asize, KASAN_KMEM_REDZONE);
 431         return (addr);
 432 }
 433
 434 vm_offset_t
 435 kmem_malloc(vm_size_t size, int flags)
 436 {
 437
 438         return (kmem_malloc_domainset(DOMAINSET_RR(), size, flags));
 439 }
 440
 441 vm_offset_t
 442 kmem_malloc_domainset(struct domainset *ds, vm_size_t size, int flags)
 443 {
 444         struct vm_domainset_iter di;
 445         vm_offset_t addr;
 446         int domain;
 447
 448         vm_domainset_iter_policy_init(&di, ds, &domain, &flags);
 449         do {
 450                 addr = kmem_malloc_domain(domain, size, flags);
 451                 if (addr != 0)
 452                         break;
 453         } while (vm_domainset_iter_policy(&di, &domain) == 0);
 454
 455         return (addr);
 456 }
 457
 458 /*
 459  *      kmem_back_domain:
 460  *
 461  *      Allocate physical pages from the specified domain for the specified
 462  *      virtual address range.
 463  */
 464 int
 465 kmem_back_domain(int domain, vm_object_t object, vm_offset_t addr,
 466     vm_size_t size, int flags)
 467 {
 468         vm_offset_t offset, i;
 469         vm_page_t m, mpred;
 470         vm_prot_t prot;
 471         int pflags;
 472
 473         KASSERT(object == kernel_object,
 474             ("kmem_back_domain: only supports kernel object."));
 475
 476         offset = addr - VM_MIN_KERNEL_ADDRESS;
 477         pflags = malloc2vm_flags(flags) | VM_ALLOC_WIRED;
 478         pflags &= ~(VM_ALLOC_NOWAIT | VM_ALLOC_WAITOK | VM_ALLOC_WAITFAIL);
 479         if (flags & M_WAITOK)
 480                 pflags |= VM_ALLOC_WAITFAIL;
 481         prot = (flags & M_EXEC) != 0 ? VM_PROT_ALL : VM_PROT_RW;
 482
 483         i = 0;
 484         VM_OBJECT_WLOCK(object);
 485 retry:
 486         mpred = vm_radix_lookup_le(&object->rtree, atop(offset + i));
 487         for (; i < size; i += PAGE_SIZE, mpred = m) {
 488                 m = vm_page_alloc_domain_after(object, atop(offset + i),
 489                     domain, pflags, mpred);
 490
 491                 /*
 492                  * Ran out of space, free everything up and return. Don't need
 493                  * to lock page queues here as we know that the pages we got
 494                  * aren't on any queues.
 495                  */
 496                 if (m == NULL) {
 497                         if ((flags & M_NOWAIT) == 0)
 498                                 goto retry;
 499                         VM_OBJECT_WUNLOCK(object);
 500                         kmem_unback(object, addr, i);
 501                         return (KERN_NO_SPACE);
 502                 }
 503                 KASSERT(vm_page_domain(m) == domain,
 504                     ("kmem_back_domain: Domain mismatch %d != %d",
 505                     vm_page_domain(m), domain));
 506                 if (flags & M_ZERO && (m->flags & PG_ZERO) == 0)
 507                         pmap_zero_page(m);
 508                 KASSERT((m->oflags & VPO_UNMANAGED) != 0,
 509                     ("kmem_malloc: page %p is managed", m));
 510                 vm_page_valid(m);
 511                 pmap_enter(kernel_pmap, addr + i, m, prot,
 512                     prot | PMAP_ENTER_WIRED, 0);
 513                 if (__predict_false((prot & VM_PROT_EXECUTE) != 0))
 514                         m->oflags |= VPO_KMEM_EXEC;
 515         }
 516         VM_OBJECT_WUNLOCK(object);
 517
 518         return (KERN_SUCCESS);
 519 }
 520
 521 /*
 522  *      kmem_back:
 523  *
 524  *      Allocate physical pages for the specified virtual address range.
 525  */
 526 int
 527 kmem_back(vm_object_t object, vm_offset_t addr, vm_size_t size, int flags)
 528 {
 529         vm_offset_t end, next, start;
 530         int domain, rv;
 531
 532         KASSERT(object == kernel_object,
 533             ("kmem_back: only supports kernel object."));
 534
 535         for (start = addr, end = addr + size; addr < end; addr = next) {
 536                 /*
 537                  * We must ensure that pages backing a given large virtual page
 538                  * all come from the same physical domain.
 539                  */
 540                 if (vm_ndomains > 1) {
 541                         domain = (addr >> KVA_QUANTUM_SHIFT) % vm_ndomains;
 542                         while (VM_DOMAIN_EMPTY(domain))
 543                                 domain++;
 544                         next = roundup2(addr + 1, KVA_QUANTUM);
 545                         if (next > end || next < start)
 546                                 next = end;
 547                 } else {
 548                         domain = 0;
 549                         next = end;
 550                 }
 551                 rv = kmem_back_domain(domain, object, addr, next - addr, flags);
 552                 if (rv != KERN_SUCCESS) {
 553                         kmem_unback(object, start, addr - start);
 554                         break;
 555                 }
 556         }
 557         return (rv);
 558 }
 559
 560 /*
 561  *      kmem_unback:
 562  *
 563  *      Unmap and free the physical pages underlying the specified virtual
 564  *      address range.
 565  *
 566  *      A physical page must exist within the specified object at each index
 567  *      that is being unmapped.
 568  */
 569 static struct vmem *
 570 _kmem_unback(vm_object_t object, vm_offset_t addr, vm_size_t size)
 571 {
 572         struct vmem *arena;
 573         vm_page_t m, next;
 574         vm_offset_t end, offset;
 575         int domain;
 576
 577         KASSERT(object == kernel_object,
 578             ("kmem_unback: only supports kernel object."));
 579
 580         if (size == 0)
 581                 return (NULL);
 582         pmap_remove(kernel_pmap, addr, addr + size);
 583         offset = addr - VM_MIN_KERNEL_ADDRESS;
 584         end = offset + size;
 585         VM_OBJECT_WLOCK(object);
 586         m = vm_page_lookup(object, atop(offset));
 587         domain = vm_page_domain(m);
 588         if (__predict_true((m->oflags & VPO_KMEM_EXEC) == 0))
 589                 arena = vm_dom[domain].vmd_kernel_arena;
 590         else
 591                 arena = vm_dom[domain].vmd_kernel_rwx_arena;
 592         for (; offset < end; offset += PAGE_SIZE, m = next) {
 593                 next = vm_page_next(m);
 594                 vm_page_xbusy_claim(m);
 595                 vm_page_unwire_noq(m);
 596                 vm_page_free(m);
 597         }
 598         VM_OBJECT_WUNLOCK(object);
 599
 600         return (arena);
 601 }
 602
 603 void
 604 kmem_unback(vm_object_t object, vm_offset_t addr, vm_size_t size)
 605 {
 606
 607         (void)_kmem_unback(object, addr, size);
 608 }
 609
 610 /*
 611  *      kmem_free:
 612  *
 613  *      Free memory allocated with kmem_malloc.  The size must match the
 614  *      original allocation.
 615  */
 616 void
 617 kmem_free(vm_offset_t addr, vm_size_t size)
 618 {
 619         struct vmem *arena;
 620
 621         size = round_page(size);
 622         kasan_mark((void *)addr, size, size, 0);
 623         arena = _kmem_unback(kernel_object, addr, size);
 624         if (arena != NULL)
 625                 vmem_free(arena, addr, size);
 626 }
 627
 628 /*
 629  *      kmap_alloc_wait:
 630  *
 631  *      Allocates pageable memory from a sub-map of the kernel.  If the submap
 632  *      has no room, the caller sleeps waiting for more memory in the submap.
 633  *
 634  *      This routine may block.
 635  */
 636 vm_offset_t
 637 kmap_alloc_wait(vm_map_t map, vm_size_t size)
 638 {
 639         vm_offset_t addr;
 640
 641         size = round_page(size);
 642         if (!swap_reserve(size))
 643                 return (0);
 644
 645         for (;;) {
 646                 /*
 647                  * To make this work for more than one map, use the map's lock
 648                  * to lock out sleepers/wakers.
 649                  */
 650                 vm_map_lock(map);
 651                 addr = vm_map_findspace(map, vm_map_min(map), size);
 652                 if (addr + size <= vm_map_max(map))
 653                         break;
 654                 /* no space now; see if we can ever get space */
 655                 if (vm_map_max(map) - vm_map_min(map) < size) {
 656                         vm_map_unlock(map);
 657                         swap_release(size);
 658                         return (0);
 659                 }
 660                 map->needs_wakeup = TRUE;
 661                 vm_map_unlock_and_wait(map, 0);
 662         }
 663         vm_map_insert(map, NULL, 0, addr, addr + size, VM_PROT_RW, VM_PROT_RW,
 664             MAP_ACC_CHARGED);
 665         vm_map_unlock(map);
 666         return (addr);
 667 }
 668
 669 /*
 670  *      kmap_free_wakeup:
 671  *
 672  *      Returns memory to a submap of the kernel, and wakes up any processes
 673  *      waiting for memory in that map.
 674  */
 675 void
 676 kmap_free_wakeup(vm_map_t map, vm_offset_t addr, vm_size_t size)
 677 {
 678
 679         vm_map_lock(map);
 680         (void) vm_map_delete(map, trunc_page(addr), round_page(addr + size));
 681         if (map->needs_wakeup) {
 682                 map->needs_wakeup = FALSE;
 683                 vm_map_wakeup(map);
 684         }
 685         vm_map_unlock(map);
 686 }
 687
 688 void
 689 kmem_init_zero_region(void)
 690 {
 691         vm_offset_t addr, i;
 692         vm_page_t m;
 693
 694         /*
 695          * Map a single physical page of zeros to a larger virtual range.
 696          * This requires less looping in places that want large amounts of
 697          * zeros, while not using much more physical resources.
 698          */
 699         addr = kva_alloc(ZERO_REGION_SIZE);
 700         m = vm_page_alloc_noobj(VM_ALLOC_WIRED | VM_ALLOC_ZERO);
 701         for (i = 0; i < ZERO_REGION_SIZE; i += PAGE_SIZE)
 702                 pmap_qenter(addr + i, &m, 1);
 703         pmap_protect(kernel_pmap, addr, addr + ZERO_REGION_SIZE, VM_PROT_READ);
 704
 705         zero_region = (const void *)addr;
 706 }
 707
 708 /*
 709  * Import KVA from the kernel map into the kernel arena.
 710  */
 711 static int
 712 kva_import(void *unused, vmem_size_t size, int flags, vmem_addr_t *addrp)
 713 {
 714         vm_offset_t addr;
 715         int result;
 716
 717         KASSERT((size % KVA_QUANTUM) == 0,
 718             ("kva_import: Size %jd is not a multiple of %d",
 719             (intmax_t)size, (int)KVA_QUANTUM));
 720         addr = vm_map_min(kernel_map);
 721         result = vm_map_find(kernel_map, NULL, 0, &addr, size, 0,
 722             VMFS_SUPER_SPACE, VM_PROT_ALL, VM_PROT_ALL, MAP_NOFAULT);
 723         if (result != KERN_SUCCESS)
 724                 return (ENOMEM);
 725
 726         *addrp = addr;
 727
 728         return (0);
 729 }
 730
 731 /*
 732  * Import KVA from a parent arena into a per-domain arena.  Imports must be
 733  * KVA_QUANTUM-aligned and a multiple of KVA_QUANTUM in size.
 734  */
 735 static int
 736 kva_import_domain(void *arena, vmem_size_t size, int flags, vmem_addr_t *addrp)
 737 {
 738
 739         KASSERT((size % KVA_QUANTUM) == 0,
 740             ("kva_import_domain: Size %jd is not a multiple of %d",
 741             (intmax_t)size, (int)KVA_QUANTUM));
 742         return (vmem_xalloc(arena, size, KVA_QUANTUM, 0, 0, VMEM_ADDR_MIN,
 743             VMEM_ADDR_MAX, flags, addrp));
 744 }
 745
 746 /*
 747  *      kmem_init:
 748  *
 749  *      Create the kernel map; insert a mapping covering kernel text,
 750  *      data, bss, and all space allocated thus far (`boostrap' data).  The
 751  *      new map will thus map the range between VM_MIN_KERNEL_ADDRESS and
 752  *      `start' as allocated, and the range between `start' and `end' as free.
 753  *      Create the kernel vmem arena and its per-domain children.
 754  */
 755 void
 756 kmem_init(vm_offset_t start, vm_offset_t end)
 757 {
 758         vm_size_t quantum;
 759         int domain;
 760
 761         vm_map_init(kernel_map, kernel_pmap, VM_MIN_KERNEL_ADDRESS, end);
 762         kernel_map->system_map = 1;
 763         vm_map_lock(kernel_map);
 764         /* N.B.: cannot use kgdb to debug, starting with this assignment ... */
 765         (void)vm_map_insert(kernel_map, NULL, 0,
 766 #ifdef __amd64__
 767             KERNBASE,
 768 #else
 769             VM_MIN_KERNEL_ADDRESS,
 770 #endif
 771             start, VM_PROT_ALL, VM_PROT_ALL, MAP_NOFAULT);
 772         /* ... and ending with the completion of the above `insert' */
 773
 774 #ifdef __amd64__
 775         /*
 776          * Mark KVA used for the page array as allocated.  Other platforms
 777          * that handle vm_page_array allocation can simply adjust virtual_avail
 778          * instead.
 779          */
 780         (void)vm_map_insert(kernel_map, NULL, 0, (vm_offset_t)vm_page_array,
 781             (vm_offset_t)vm_page_array + round_2mpage(vm_page_array_size *
 782             sizeof(struct vm_page)),
 783             VM_PROT_RW, VM_PROT_RW, MAP_NOFAULT);
 784 #endif
 785         vm_map_unlock(kernel_map);
 786
 787         /*
 788          * Use a large import quantum on NUMA systems.  This helps minimize
 789          * interleaving of superpages, reducing internal fragmentation within
 790          * the per-domain arenas.
 791          */
 792         if (vm_ndomains > 1 && PMAP_HAS_DMAP)
 793                 quantum = KVA_NUMA_IMPORT_QUANTUM;
 794         else
 795                 quantum = KVA_QUANTUM;
 796
 797         /*
 798          * Initialize the kernel_arena.  This can grow on demand.
 799          */
 800         vmem_init(kernel_arena, "kernel arena", 0, 0, PAGE_SIZE, 0, 0);
 801         vmem_set_import(kernel_arena, kva_import, NULL, NULL, quantum);
 802
 803         for (domain = 0; domain < vm_ndomains; domain++) {
 804                 /*
 805                  * Initialize the per-domain arenas.  These are used to color
 806                  * the KVA space in a way that ensures that virtual large pages
 807                  * are backed by memory from the same physical domain,
 808                  * maximizing the potential for superpage promotion.
 809                  */
 810                 vm_dom[domain].vmd_kernel_arena = vmem_create(
 811                     "kernel arena domain", 0, 0, PAGE_SIZE, 0, M_WAITOK);
 812                 vmem_set_import(vm_dom[domain].vmd_kernel_arena,
 813                     kva_import_domain, NULL, kernel_arena, quantum);
 814
 815                 /*
 816                  * In architectures with superpages, maintain separate arenas
 817                  * for allocations with permissions that differ from the
 818                  * "standard" read/write permissions used for kernel memory,
 819                  * so as not to inhibit superpage promotion.
 820                  *
 821                  * Use the base import quantum since this arena is rarely used.
 822                  */
 823 #if VM_NRESERVLEVEL > 0
 824                 vm_dom[domain].vmd_kernel_rwx_arena = vmem_create(
 825                     "kernel rwx arena domain", 0, 0, PAGE_SIZE, 0, M_WAITOK);
 826                 vmem_set_import(vm_dom[domain].vmd_kernel_rwx_arena,
 827                     kva_import_domain, (vmem_release_t *)vmem_xfree,
 828                     kernel_arena, KVA_QUANTUM);
 829 #else
 830                 vm_dom[domain].vmd_kernel_rwx_arena =
 831                     vm_dom[domain].vmd_kernel_arena;
 832 #endif
 833         }
 834
 835         /*
 836          * This must be the very first call so that the virtual address
 837          * space used for early allocations is properly marked used in
 838          * the map.
 839          */
 840         uma_startup2();
 841 }
 842
 843 /*
 844  *      kmem_bootstrap_free:
 845  *
 846  *      Free pages backing preloaded data (e.g., kernel modules) to the
 847  *      system.  Currently only supported on platforms that create a
 848  *      vm_phys segment for preloaded data.
 849  */
 850 void
 851 kmem_bootstrap_free(vm_offset_t start, vm_size_t size)
 852 {
 853 #if defined(__i386__) || defined(__amd64__)
 854         struct vm_domain *vmd;
 855         vm_offset_t end, va;
 856         vm_paddr_t pa;
 857         vm_page_t m;
 858
 859         end = trunc_page(start + size);
 860         start = round_page(start);
 861
 862 #ifdef __amd64__
 863         /*
 864          * Preloaded files do not have execute permissions by default on amd64.
 865          * Restore the default permissions to ensure that the direct map alias
 866          * is updated.
 867          */
 868         pmap_change_prot(start, end - start, VM_PROT_RW);
 869 #endif
 870         for (va = start; va < end; va += PAGE_SIZE) {
 871                 pa = pmap_kextract(va);
 872                 m = PHYS_TO_VM_PAGE(pa);
 873
 874                 vmd = vm_pagequeue_domain(m);
 875                 vm_domain_free_lock(vmd);
 876                 vm_phys_free_pages(m, 0);
 877                 vm_domain_free_unlock(vmd);
 878
 879                 vm_domain_freecnt_inc(vmd, 1);
 880                 vm_cnt.v_page_count++;
 881         }
 882         pmap_remove(kernel_pmap, start, end);
 883         (void)vmem_add(kernel_arena, start, end - start, M_WAITOK);
 884 #endif
 885 }
 886
 887 #ifdef PMAP_WANT_ACTIVE_CPUS_NAIVE
 888 void
 889 pmap_active_cpus(pmap_t pmap, cpuset_t *res)
 890 {
 891         struct thread *td;
 892         struct proc *p;
 893         struct vmspace *vm;
 894         int c;
 895
 896         CPU_ZERO(res);
 897         CPU_FOREACH(c) {
 898                 td = cpuid_to_pcpu[c]->pc_curthread;
 899                 p = td->td_proc;
 900                 if (p == NULL)
 901                         continue;
 902                 vm = vmspace_acquire_ref(p);
 903                 if (vm == NULL)
 904                         continue;
 905                 if (pmap == vmspace_pmap(vm))
 906                         CPU_SET(c, res);
 907                 vmspace_free(vm);
 908         }
 909 }
 910 #endif
 911
 912 /*
 913  * Allow userspace to directly trigger the VM drain routine for testing
 914  * purposes.
 915  */
 916 static int
 917 debug_vm_lowmem(SYSCTL_HANDLER_ARGS)
 918 {
 919         int error, i;
 920
 921         i = 0;
 922         error = sysctl_handle_int(oidp, &i, 0, req);
 923         if (error != 0)
 924                 return (error);
 925         if ((i & ~(VM_LOW_KMEM | VM_LOW_PAGES)) != 0)
 926                 return (EINVAL);
 927         if (i != 0)
 928                 EVENTHANDLER_INVOKE(vm_lowmem, i);
 929         return (0);
 930 }
 931 SYSCTL_PROC(_debug, OID_AUTO, vm_lowmem,
 932     CTLTYPE_INT | CTLFLAG_MPSAFE | CTLFLAG_RW, 0, 0, debug_vm_lowmem, "I",
 933     "set to trigger vm_lowmem event with given flags");
 934
 935 static int
 936 debug_uma_reclaim(SYSCTL_HANDLER_ARGS)
 937 {
 938         int error, i;
 939
 940         i = 0;
 941         error = sysctl_handle_int(oidp, &i, 0, req);
 942         if (error != 0 || req->newptr == NULL)
 943                 return (error);
 944         if (i != UMA_RECLAIM_TRIM && i != UMA_RECLAIM_DRAIN &&
 945             i != UMA_RECLAIM_DRAIN_CPU)
 946                 return (EINVAL);
 947         uma_reclaim(i);
 948         return (0);
 949 }
 950 SYSCTL_PROC(_debug, OID_AUTO, uma_reclaim,
 951     CTLTYPE_INT | CTLFLAG_MPSAFE | CTLFLAG_RW, 0, 0, debug_uma_reclaim, "I",
 952     "set to generate request to reclaim uma caches");
 953
 954 static int
 955 debug_uma_reclaim_domain(SYSCTL_HANDLER_ARGS)
 956 {
 957         int domain, error, request;
 958
 959         request = 0;
 960         error = sysctl_handle_int(oidp, &request, 0, req);
 961         if (error != 0 || req->newptr == NULL)
 962                 return (error);
 963
 964         domain = request >> 4;
 965         request &= 0xf;
 966         if (request != UMA_RECLAIM_TRIM && request != UMA_RECLAIM_DRAIN &&
 967             request != UMA_RECLAIM_DRAIN_CPU)
 968                 return (EINVAL);
 969         if (domain < 0 || domain >= vm_ndomains)
 970                 return (EINVAL);
 971         uma_reclaim_domain(request, domain);
 972         return (0);
 973 }
 974 SYSCTL_PROC(_debug, OID_AUTO, uma_reclaim_domain,
 975     CTLTYPE_INT | CTLFLAG_MPSAFE | CTLFLAG_RW, 0, 0,
 976     debug_uma_reclaim_domain, "I",
 977     "");