]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/log
FreeBSD/FreeBSD.git
5 years agobectl(8): Check jailparam_* return values
kevans [Tue, 14 Aug 2018 18:35:33 +0000 (18:35 +0000)]
bectl(8): Check jailparam_* return values

Previous iteration of this assumed that these won't fail because we've
already setup the jail param to this point, but the allocations could still
fail in pretty bad conditions.

Admit that it's possible and return (ENOENT, EINVAL, ENOMEM, or 0) when
deleting arguments. EINVAL shouldn't happen since we're passing optarg;
which may satisfy *optarg == '\0' but never optarg == NULL.

CID: 13948851394901

5 years agolibbe(3): Fix leaky faucets
kevans [Tue, 14 Aug 2018 18:11:06 +0000 (18:11 +0000)]
libbe(3): Fix leaky faucets

Amongst them:
- Resource leaks
- Logically dead code
- Unused values
- Null termination issues

Reported by: asomers (pointer to Coverity), Coverity
CID: 139477713947911394830139484413948721394894,
CID: 1394900139490713949501394965

5 years agoMerge OpenSSL 1.0.2p.
jkim [Tue, 14 Aug 2018 17:48:02 +0000 (17:48 +0000)]
Merge OpenSSL 1.0.2p.

5 years agoUpdate the inet(4) and inet6(4) man pages to reflect the changes made
jtl [Tue, 14 Aug 2018 17:36:21 +0000 (17:36 +0000)]
Update the inet(4) and inet6(4) man pages to reflect the changes made
to the reassembly code in r337778, r337780, r337781, r337782, and
r337783.

Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoLower the default limits on the IPv6 reassembly queue.
jtl [Tue, 14 Aug 2018 17:32:07 +0000 (17:32 +0000)]
Lower the default limits on the IPv6 reassembly queue.

Currently, the limits are quite high. On machines with millions of
mbuf clusters, the reassembly queue limits can also run into
the millions. Lower these values.

Also, try to ensure that no bucket will have a reassembly
queue larger than approximately 100 items. This limits the cost to
find the correct reassembly queue when processing an incoming
fragment.

Due to the low limits on each bucket's length, increase the size of
the hash table from 64 to 1024.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoLower the default limits on the IPv4 reassembly queue.
jtl [Tue, 14 Aug 2018 17:30:46 +0000 (17:30 +0000)]
Lower the default limits on the IPv4 reassembly queue.

In particular, try to ensure that no bucket will have a reassembly
queue larger than approximately 100 items. This limits the cost to
find the correct reassembly queue when processing an incoming
fragment.

Due to the low limits on each bucket's length, increase the size of
the hash table from 64 to 1024.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoProvide part of the mitigation for L1TF-VMM.
kib [Tue, 14 Aug 2018 17:29:41 +0000 (17:29 +0000)]
Provide part of the mitigation for L1TF-VMM.

On the guest entry in bhyve, flush L1 data cache, using either L1D
flush command MSR if available, or by reading enough uninteresting
data to fill whole cache.

Flush is automatically enabled on CPUs which do not report RDCL_NO,
and can be disabled with the hw.vmm.l1d_flush tunable/kenv.

Security: CVE-2018-3646
Reviewed by: emaste. jhb, Tony Luck <tony.luck@intel.com>
Sponsored by: The FreeBSD Foundation

5 years agoDrop 0-byte IPv6 fragments.
jtl [Tue, 14 Aug 2018 17:29:22 +0000 (17:29 +0000)]
Drop 0-byte IPv6 fragments.

Currently, we process IPv6 fragments with 0 bytes of payload, add them
to the reassembly queue, and do not recognize them as duplicating or
overlapping with adjacent 0-byte fragments. An attacker can exploit this
to create long fragment queues.

There is no legitimate reason for a fragment with no payload. However,
because IPv6 packets with an empty payload are acceptable, allow an
"atomic" fragment with no payload.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoImplement a limit on on the number of IPv6 reassembly queues per bucket.
jtl [Tue, 14 Aug 2018 17:27:41 +0000 (17:27 +0000)]
Implement a limit on on the number of IPv6 reassembly queues per bucket.

There is a hashing algorithm which should distribute IPv6 reassembly
queues across the available buckets in a relatively even way. However,
if there is a flaw in the hashing algorithm which allows a large number
of IPv6 fragment reassembly queues to end up in a single bucket, a per-
bucket limit could help mitigate the performance impact of this flaw.

Implement such a limit, with a default of twice the maximum number of
reassembly queues divided by the number of buckets. Recalculate the
limit any time the maximum number of reassembly queues changes.
However, allow the user to override the value using a sysctl
(net.inet6.ip6.maxfragbucketsize).

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoAdd a limit of the number of fragments per IPv6 packet.
jtl [Tue, 14 Aug 2018 17:26:07 +0000 (17:26 +0000)]
Add a limit of the number of fragments per IPv6 packet.

The IPv4 fragment reassembly code supports a limit on the number of
fragments per packet. The default limit is currently 17 fragments.
Among other things, this limit serves to limit the number of fragments
the code must parse when trying to reassembly a packet.

Add a limit to the IPv6 reassembly code. By default, limit a packet
to 65 fragments (64 on the queue, plus one final fragment to complete
the packet). This allows an average fragment size of 1,008 bytes, which
should be sufficient to hold a fragment. (Recall that the IPv6 minimum
MTU is 1280 bytes. Therefore, this configuration allows a full-size
IPv6 packet to be fragmented on a link with the minimum MTU and still
carry approximately 272 bytes of headers before the fragmented portion
of the packet.)

Users can adjust this limit using the net.inet6.ip6.maxfragsperpacket
sysctl.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoMake the IPv6 fragment limits be global, rather than per-VNET, limits.
jtl [Tue, 14 Aug 2018 17:24:26 +0000 (17:24 +0000)]
Make the IPv6 fragment limits be global, rather than per-VNET, limits.

The IPv6 reassembly fragment limit is based on the number of mbuf clusters,
which are a global resource. However, the limit is currently applied
on a per-VNET basis. Given enough VNETs (or given sufficient customization
on enough VNETs), it is possible that the sum of all the VNET fragment
limits will exceed the number of mbuf clusters available in the system.

Given the fact that the fragment limits are intended (at least in part) to
regulate access to a global resource, the IPv6 fragment limit should
be applied on a global basis.

Note that it is still possible to disable fragmentation for a particular
VNET by setting the net.inet6.ip6.maxfragpackets sysctl to 0 for that
VNET. In addition, it is now possible to disable fragmentation globally
by setting the net.inet6.ip6.maxfrags sysctl to 0.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoImplement a limit on on the number of IPv4 reassembly queues per bucket.
jtl [Tue, 14 Aug 2018 17:23:05 +0000 (17:23 +0000)]
Implement a limit on on the number of IPv4 reassembly queues per bucket.

There is a hashing algorithm which should distribute IPv4 reassembly
queues across the available buckets in a relatively even way. However,
if there is a flaw in the hashing algorithm which allows a large number
of IPv4 fragment reassembly queues to end up in a single bucket, a per-
bucket limit could help mitigate the performance impact of this flaw.

Implement such a limit, with a default of twice the maximum number of
reassembly queues divided by the number of buckets. Recalculate the
limit any time the maximum number of reassembly queues changes.
However, allow the user to override the value using a sysctl
(net.inet.ip.maxfragbucketsize).

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agotftp: Close a resource leak when putting files
asomers [Tue, 14 Aug 2018 17:20:31 +0000 (17:20 +0000)]
tftp: Close a resource leak when putting files

Reported by: Coverity
CID: 1394842
MFC after: 2 weeks

5 years agoAdd a global limit on the number of IPv4 fragments.
jtl [Tue, 14 Aug 2018 17:19:49 +0000 (17:19 +0000)]
Add a global limit on the number of IPv4 fragments.

The IP reassembly fragment limit is based on the number of mbuf clusters,
which are a global resource. However, the limit is currently applied
on a per-VNET basis. Given enough VNETs (or given sufficient customization
of enough VNETs), it is possible that the sum of all the VNET limits
will exceed the number of mbuf clusters available in the system.

Given the fact that the fragment limit is intended (at least in part) to
regulate access to a global resource, the fragment limit should
be applied on a global basis.

VNET-specific limits can be adjusted by modifying the
net.inet.ip.maxfragpackets and net.inet.ip.maxfragsperpacket
sysctls.

To disable fragment reassembly globally, set net.inet.ip.maxfrags to 0.
To disable fragment reassembly for a particular VNET, set
net.inet.ip.maxfragpackets to 0.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoAdd definitions related to the L1D flush operation capability and MSR.
kib [Tue, 14 Aug 2018 17:19:11 +0000 (17:19 +0000)]
Add definitions related to the L1D flush operation capability and MSR.

Sponsored by: The FreeBSD Foundation

5 years agoImprove IPv6 reassembly performance by hashing fragments into buckets.
jtl [Tue, 14 Aug 2018 17:17:37 +0000 (17:17 +0000)]
Improve IPv6 reassembly performance by hashing fragments into buckets.

Currently, all IPv6 fragment reassembly queues are kept in a flat
linked list. This has a number of implications. Two significant
implications are: all reassembly operations share a common lock,
and it is possible for the linked list to grow quite large.

Improve IPv6 reassembly performance by hashing fragments into buckets,
each of which has its own lock. Calculate the hash key using a Jenkins
hash with a random seed.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoImprove hashing of IPv4 fragments.
jtl [Tue, 14 Aug 2018 17:15:47 +0000 (17:15 +0000)]
Improve hashing of IPv4 fragments.

Currently, IPv4 fragments are hashed into buckets based on a 32-bit
key which is calculated by (src_ip ^ ip_id) and combined with a random
seed. However, because an attacker can control the values of src_ip
and ip_id, it is possible to construct an attack which causes very
deep chains to form in a given bucket.

To ensure more uniform distribution (and lower predictability for
an attacker), calculate the hash based on a key which includes all
the fields we use to identify a reassembly queue (dst_ip, src_ip,
ip_id, and the ip protocol) as well as a random seed.

Reviewed by: jhb
Security: FreeBSD-SA-18:10.ip
Security: CVE-2018-6923

5 years agoReserve page at the physical address zero on amd64.
kib [Tue, 14 Aug 2018 17:14:33 +0000 (17:14 +0000)]
Reserve page at the physical address zero on amd64.

We always zero the invalidated PTE/PDE for superpage, which means that
L1TF CPU vulnerability (CVE-2018-3620) can be only used for reading
from the page at zero.

Note that both i386 and amd64 exclude the page from phys_avail[]
array, so this change is redundant, but I think that phys_avail[] on
UEFI-boot does not need to do that.  Eventually the blacklisting
should be made conditional on CPUs which report that they are not
vulnerable to L1TF.

Reviewed by: emaste. jhb
Sponsored by: The FreeBSD Foundation

5 years agoamd64: ensure that curproc->p_vmspace pmap always matches PCPU
kib [Tue, 14 Aug 2018 16:37:14 +0000 (16:37 +0000)]
amd64: ensure that curproc->p_vmspace pmap always matches PCPU
curpmap.

When performing context switch on a machine without PCID, if current
%cr3 equals to the new pmap %cr3, which is typical for kernel_pmap
vs. kernel process, I overlooked to update PCPU curpmap value.  Remove
check for %cr3 not equal to pm_cr3 for doing the update.  It is
believed that this case cannot happen at all, due to other changes in
this revision.

Also, do not set the very first curpmap to kernel_pmap, it should be
vmspace0 pmap instead to match curproc.

Move the common code to activate the initial pmap both on BSP and APs
into pmap_activate_boot() helper.

Reported by: eadler, ambrisko
Discussed with: kevans
Reviewed by: alc, markj (previous version)
Tested by: ambrisko (previous version)
Sponsored by: The FreeBSD Foundation
MFC after: 1 week
Differential revision: https://reviews.freebsd.org/D16618

5 years agoAdd support to the Marvell Xenon SDHCI controller.
loos [Tue, 14 Aug 2018 16:33:30 +0000 (16:33 +0000)]
Add support to the Marvell Xenon SDHCI controller.

Tested on Espresso.bin (37x0) and Macchiato.bin (8k) with SD cards and
eMMCs.

Obtained from: pfSense
Sponsored by: Rubicon Communications, LLC (Netgate)

5 years agoQuery MVPConf0.PVPE for number of CPUs.
br [Tue, 14 Aug 2018 16:29:10 +0000 (16:29 +0000)]
Query MVPConf0.PVPE for number of CPUs.

Rather than hard-coding the number of CPUs to 2, look up the PVPE field
in MVPConf0, as the valid VPE numbers are from 0 to PVPE inclusive.

Submitted by: "James Clarke" <jrtc4@cam.ac.uk>
Reviewed by: br
Sponsored by: DARPA, AFRL
Differential Revision: https://reviews.freebsd.org/D16644

5 years agoFix typo.
kib [Tue, 14 Aug 2018 16:27:17 +0000 (16:27 +0000)]
Fix typo.

Noted by: alc
MFC after: 3 days

5 years agoAvoid repeated address calculation for malta_ap_boot.
br [Tue, 14 Aug 2018 16:26:44 +0000 (16:26 +0000)]
Avoid repeated address calculation for malta_ap_boot.

Submitted by: "James Clarke" <jrtc4@cam.ac.uk>
Reviewed by: br, arichardson
Sponsored by: DARPA, AFRL
Differential Revision: https://reviews.freebsd.org/D16655

5 years agoRemove unused code.
br [Tue, 14 Aug 2018 16:22:14 +0000 (16:22 +0000)]
Remove unused code.

Sponsored by: DARPA, AFRL

5 years agoImport OpenSSL 1.0.2p.
jkim [Tue, 14 Aug 2018 16:18:14 +0000 (16:18 +0000)]
Import OpenSSL 1.0.2p.

5 years agoRewrite RISC-V disassembler:
br [Tue, 14 Aug 2018 16:03:03 +0000 (16:03 +0000)]
Rewrite RISC-V disassembler:
- Use macroses from encoding.h generated by riscv-opcodes.
- Add support for C-compressed ISA extension.

Sponsored by: DARPA, AFRL

5 years agoRemove cpu_pfr from arm. It's unused.
andrew [Tue, 14 Aug 2018 16:01:25 +0000 (16:01 +0000)]
Remove cpu_pfr from arm. It's unused.

5 years agoRemove an old comment now the code it references has been removed.
andrew [Tue, 14 Aug 2018 15:48:13 +0000 (15:48 +0000)]
Remove an old comment now the code it references has been removed.

5 years agoFix the spelling of armv4_idcache_inv_all in an END macro.
andrew [Tue, 14 Aug 2018 15:42:27 +0000 (15:42 +0000)]
Fix the spelling of armv4_idcache_inv_all in an END macro.

5 years agoUse the correct PTE when changing the attribute of multiple pages.
loos [Tue, 14 Aug 2018 15:27:50 +0000 (15:27 +0000)]
Use the correct PTE when changing the attribute of multiple pages.

Submitted by: andrew (long time ago)
Sponsored by: Rubicon Communications, LLC (Netgate)

5 years agoExplain why we aren't using memcpy().
markj [Tue, 14 Aug 2018 14:50:06 +0000 (14:50 +0000)]
Explain why we aren't using memcpy().

Reported by: jmg
X-MFC with: r337715
Sponsored by: The FreeBSD Foundation

5 years agoDon't use memcpy() in the early microcode loading code.
markj [Tue, 14 Aug 2018 14:02:53 +0000 (14:02 +0000)]
Don't use memcpy() in the early microcode loading code.

At some point memcpy() may be an ifunc, ifunc resolution cannot be done
until CPU identification has been performed, and CPU identification must
be done after loading any microcode updates.

X-MFC with: r337715
Sponsored by: The FreeBSD Foundation

5 years agoFix a typo on the PSCI smc call wrapper.
loos [Tue, 14 Aug 2018 13:56:49 +0000 (13:56 +0000)]
Fix a typo on the PSCI smc call wrapper.

Looks good from: andrew
Sponsored by: Rubicon Communications, LLC (Netgate)

5 years agoFix the !SMP x86 build.
markj [Tue, 14 Aug 2018 13:56:42 +0000 (13:56 +0000)]
Fix the !SMP x86 build.

Reported by: Michael Butler <imb@protected-networks.net>
X-MFC with: r337715
Sponsored by: The FreeBSD Foundation

5 years agoAdd good description of init and lock devices from sio to uart.
imp [Tue, 14 Aug 2018 13:52:10 +0000 (13:52 +0000)]
Add good description of init and lock devices from sio to uart.

5 years agoAdd the "autoro" flag to /media. This makes it attempt to mount
trasz [Tue, 14 Aug 2018 13:52:08 +0000 (13:52 +0000)]
Add the "autoro" flag to /media.  This makes it attempt to mount
it read-only instead of just failing if the media is write-protected.

The /net doesn't seem to require the flag.

MFC after: 2 weeks
Relnotes: yes
Sponsored by: DARPA, AFRL

5 years agoMFV r337744:
mm [Tue, 14 Aug 2018 11:42:32 +0000 (11:42 +0000)]
MFV r337744:
Sync libarchive with vendor..

Vendor changes:
  PR #1042: validate iso9660 directory record length

MFC after: 3 days
Security: CVE-2017-14501

5 years agoAdd init_exec kenv(1) variable, to make init(8) execute a file
trasz [Tue, 14 Aug 2018 11:01:52 +0000 (11:01 +0000)]
Add init_exec kenv(1) variable, to make init(8) execute a file
after opening the console, replacing init as PID 1.

From the user point of view, it makes it possible to run eg the
shell as PID 1, using 'set init_exec=/bin/sh' at the loader(8)
prompt.

Reviewed by: kib
MFC after: 2 weeks
Relnotes: yes
Sponsored by: DARPA, AFRL
Differential Revision: https://reviews.freebsd.org/D16625

5 years agoSupport reading from the arm64 ID registers from userspace.
andrew [Tue, 14 Aug 2018 11:00:54 +0000 (11:00 +0000)]
Support reading from the arm64 ID registers from userspace.

Trap reads to the arm64 ID registers and write a safe value into them. This
will allow us to put more useful values in these later and have userland
check them to find what features the hardware supports.

These are currently safe defaults, but will later be populated with better
values from the hardware.

Sponsored by: DARPA, AFRL
Differential Revision: https://reviews.freebsd.org/D16533

5 years agoUse a macro to set the assoc state. I missed this in r337706.
tuexen [Tue, 14 Aug 2018 08:33:47 +0000 (08:33 +0000)]
Use a macro to set the assoc state. I missed this in r337706.

5 years agoRemove a set but not used warning showing up in usrsctp.
tuexen [Tue, 14 Aug 2018 08:32:33 +0000 (08:32 +0000)]
Remove a set but not used warning showing up in usrsctp.

5 years agoRestore ability to send ICMP and ICMPv6 redirects.
ae [Tue, 14 Aug 2018 07:54:14 +0000 (07:54 +0000)]
Restore ability to send ICMP and ICMPv6 redirects.

It was lost when tryforward appeared. Now ip[6]_tryforward will be enabled
only when sending redirects for corresponding IP version is disabled via
sysctl. Otherwise will be used default forwarding function.

PR: 221137
Submitted by: mckay@
MFC after: 2 weeks

5 years agoAdd library and kernel support for AMD Family 17h counters
mmacy [Tue, 14 Aug 2018 05:18:43 +0000 (05:18 +0000)]
Add library and kernel support for AMD Family 17h counters

NB: lacks default sample rate for most counters

5 years agoAdd support for Linux-PAM's badly named expose_authtok option.
des [Tue, 14 Aug 2018 00:14:17 +0000 (00:14 +0000)]
Add support for Linux-PAM's badly named expose_authtok option.

Submitted by: Thomas Munro <munro@ip9.org>
MFC after: 1 week
Differential Revision: D16171

5 years agoExport the eeprom device size via readonly sysctl. Also export the write
ian [Mon, 13 Aug 2018 23:53:11 +0000 (23:53 +0000)]
Export the eeprom device size via readonly sysctl.  Also export the write
page size and address size, although they are likely to be inherently
less-interesting values outside of the driver.

5 years agopmc amd17h: fix inputs to jevents
mmacy [Mon, 13 Aug 2018 23:46:44 +0000 (23:46 +0000)]
pmc amd17h: fix inputs to jevents

5 years agoAdd PMC support for AMD Family CPUs
mmacy [Mon, 13 Aug 2018 22:34:57 +0000 (22:34 +0000)]
Add PMC support for AMD Family CPUs

5 years agoprintf: Add test for width and precision in %b format
jilles [Mon, 13 Aug 2018 21:54:27 +0000 (21:54 +0000)]
printf: Add test for width and precision in %b format

PR: 229641
Submitted by: pfg

5 years agoCopy out from kernel to data, not the other way around.
brooks [Mon, 13 Aug 2018 21:53:18 +0000 (21:53 +0000)]
Copy out from kernel to data, not the other way around.

MFC after: 3 days
Sponsored by: DARPA, AFRL

5 years agoRemove the duplicated CSUM_IP6_TCP introduced in r311849 from the TX
marius [Mon, 13 Aug 2018 20:29:39 +0000 (20:29 +0000)]
Remove the duplicated CSUM_IP6_TCP introduced in r311849 from the TX
checksum capabilities of IGB-class MACs. While at it, fix the line
wrapping.

PR: 230571

5 years agoPort the mps panic-safe shutdown_final handling to mpr
imp [Mon, 13 Aug 2018 19:59:42 +0000 (19:59 +0000)]
Port the mps panic-safe shutdown_final handling to mpr

r330951 by smh fixed the mps driver to avoid deadlocks when panicing.
The same code is needed for mpr, so port it here, along with the fix
which allows the CCBs scheduled to complete avoiding at least a scary
message and likely other unintended consequences.

Sponsored by: Netflix
Differential Review: https://reviews.freebsd.org/D16663

5 years agoCall xpt_sim_poll in shutdown_final handler.
imp [Mon, 13 Aug 2018 19:59:37 +0000 (19:59 +0000)]
Call xpt_sim_poll in shutdown_final handler.

When we're shutting down, we send a number of start/stop commands to
the known targets. We have to wait for them to complete. During a
panic, the interrupts are off, and using pause to wait for them to
fire and complete won't work: we have to poll after pause returns so
the completion routines of the CCBs run so we decrement work
outstanding counts.

Sponsored by: Netflix
Differential Review: https://reviews.freebsd.org/D16663

5 years agoCreate xpt_sim_poll and refactor a bit using it.
imp [Mon, 13 Aug 2018 19:59:32 +0000 (19:59 +0000)]
Create xpt_sim_poll and refactor a bit using it.

xpt_sim_poll takes the sim to poll as an argument. It will do the
proper locking protocol, call the SIM polling routine, and then call
camisr_runqueue to process completions on any CCBs the SIM's poll
routine completed. It will be used during late shutdown when a SIM is
waiting for CCBs it sent during shutdown to finish and the scheduler
isn't running because we've panic'd.

This sequence was used twice in cam_xpt, so refactor those to use this
new function.

Sponsored by: Netflix
Differential Review: https://reviews.freebsd.org/D16663

5 years agoWhitespace nit in t4_tom.h
np [Mon, 13 Aug 2018 19:21:28 +0000 (19:21 +0000)]
Whitespace nit in t4_tom.h

5 years agoevdev: Remove evdev.ko linkage dependency on kbd driver
wulf [Mon, 13 Aug 2018 19:05:53 +0000 (19:05 +0000)]
evdev: Remove evdev.ko linkage dependency on kbd driver

Move evdev_ev_kbd_event() helper from evdev to kbd.c as otherwise evdev
unconditionally requires all keyboard and console stuff to be compiled
into the kernel. This dependency happens as evdev_ev_kbd_event() helper
references kbdsw global variable defined in kbd.c through use of
kbdd_ioctl() macro.

While here make all keyboard drivers respect evdev_rcpt_mask while setting
typematic rate and LEDs with evdev interface.

Requested by: Milan Obuch <bsd@dino.sk>
Reviewed by: hselasky, gonzo
Differential Revision: https://reviews.freebsd.org/D16614

5 years agoevdev: remove soft context from evdev methods parameter list.
wulf [Mon, 13 Aug 2018 19:00:42 +0000 (19:00 +0000)]
evdev: remove soft context from evdev methods parameter list.

Now softc should be retrieved from struct edvev * pointer
with evdev_get_softc() helper.

wmt(4) is a sample of driver that support both KPI.

Reviewed by: hselasky, gonzo
Differential Revision: https://reviews.freebsd.org/D16614

5 years ago[ig4] Fix initialization sequence for newer ig4 chips
gonzo [Mon, 13 Aug 2018 18:53:14 +0000 (18:53 +0000)]
[ig4] Fix initialization sequence for newer ig4 chips

Newer chips may require assert/deassert after power down for proper
startup. Check respective flag in DEVIDLE_CTRL and perform operation
if neccesssary.

PR: 221777
Submitted by: marc.priggemeyer@gmail.com
Obtained from: DragonFly BSD
Tested on: Thinkpad T470

5 years agoAdd a space between a variable and escaped new line.
gjb [Mon, 13 Aug 2018 17:24:31 +0000 (17:24 +0000)]
Add a space between a variable and escaped new line.

MFC after: 3 days
MFC with: r337717
Sponsored by: The FreeBSD Foundation

5 years agoAdd lang/python2, lang/python3, and lang/python to GCE images
gjb [Mon, 13 Aug 2018 17:23:43 +0000 (17:23 +0000)]
Add lang/python2, lang/python3, and lang/python to GCE images
to help avoid hard-coding 'python<MAJOR>.<MINOR>' in several
scripts in the client-side scripts.

PR: 230248
MFC after: 3 days
Submitted by: gustavo.scalet@collabora.com
Sponsored by: The FreeBSD Foundation

5 years agoAdd microcode update configuration to the default loader.conf.
markj [Mon, 13 Aug 2018 17:14:06 +0000 (17:14 +0000)]
Add microcode update configuration to the default loader.conf.

MFC after: 6 weeks
Sponsored by: The FreeBSD Foundation

5 years agoImplement kernel support for early loading of Intel microcode updates.
markj [Mon, 13 Aug 2018 17:13:09 +0000 (17:13 +0000)]
Implement kernel support for early loading of Intel microcode updates.

Updates in the format described in section 9.11 of the Intel SDM can
now be applied as one of the first steps in booting the kernel.  Updates
that are loaded this way are automatically re-applied upon exit from
ACPI sleep states, in contrast with the existing cpucontrol(8)-based
method.  For the time being only Intel updates are supported.

Microcode update files are passed to the kernel via loader(8).  The
file type must be "cpu_microcode" in order for the file to be recognized
as a candidate microcode update.  Updates for multiple CPU types may be
concatenated together into a single file, in which case the kernel
will select and apply a matching update.  Memory used to store the
update file will be freed back to the system once the update is applied,
so this approach will not consume more memory than required.

Reviewed by: kib
MFC after: 6 weeks
Sponsored by: The FreeBSD Foundation
Differential Revision: https://reviews.freebsd.org/D16370

5 years agoPrevent some parallel swap-ins, rate-limit swapper swap-ins.
kib [Mon, 13 Aug 2018 16:48:46 +0000 (16:48 +0000)]
Prevent some parallel swap-ins, rate-limit swapper swap-ins.

If faultin() was called outside swapper (from PHOLD()), do not allow
swapper to initiate additional swap-ins.  Swapper' initiated swap-ins
are serialized because they are synchronous and executed in the
context of the thread0.  With the added limitation, we only allow
parallel swap-ins from PHOLD(), which is up to PHOLD() users to
manage, usually they do not need to.

Rate-limit swapper' swap-ins to one in the MAXSLP / 2 seconds
interval, counting faultin() swapins.

Suggested by: alc
Reviewed by: alc, markj
Tested by: pho
Sponsored by: The FreeBSD Foundation
MFC after: 2 weeks
Differential revision: https://reviews.freebsd.org/D16610

5 years agoMerge ACPICA 20180810.
jkim [Mon, 13 Aug 2018 16:26:26 +0000 (16:26 +0000)]
Merge ACPICA 20180810.

5 years agoAdd RISC-V instructions encoding.
br [Mon, 13 Aug 2018 16:07:18 +0000 (16:07 +0000)]
Add RISC-V instructions encoding.

This is the output of
$ cat opcodes opcodes-rvc-pseudo opcodes-rvc opcodes-custom |
    ./parse-opcodes -c

It is confirmed by author that the output of parse-opcodes is
in the public domain.

This will be required for DDB disassembler.

Discussed with: Andrew Waterman <waterman@eecs.berkeley.edu>
Obtained from: https://github.com/riscv/riscv-opcodes
Sponsored by: DARPA, AFRL

5 years agolualoader: Fix parsing of negative number loader.conf(5) variables
kevans [Mon, 13 Aug 2018 14:49:07 +0000 (14:49 +0000)]
lualoader: Fix parsing of negative number loader.conf(5) variables

They would previously cause errors, as the regex for these did not tolerate
a leading negative sign, and the variable would simply not parse.

5 years agolagg: allow lacp to manage the link state
gallatin [Mon, 13 Aug 2018 14:13:25 +0000 (14:13 +0000)]
lagg: allow lacp to manage the link state

Lacp needs to manage the link state itself. Unlike other
lagg protocols, the ability of lacp to pass traffic
depends not only on the lagg members having link, but also
on the lacp protocol converging to a distributing state with the
link partner.

If we prematurely mark the link as up, then we will send a
gratuitous arp (via arp_handle_ifllchange()) before the lacp
interface is capable of passing traffic. When this happens,
the gratuitous arp is lost, and our link partner may cache
a stale mac address (eg, when the base mac address for the
lagg bundle changes, due to a BIOS change re-ordering NIC
unit numbers)

Reviewed by: jtl, hselasky
Sponsored by: Netflix

5 years agoUse the stacb instead of the asoc in state macros.
tuexen [Mon, 13 Aug 2018 13:58:45 +0000 (13:58 +0000)]
Use the stacb instead of the asoc in state macros.

This is not a functional change. Just a preparation for upcoming
dtrace state change provider support.

5 years agoMove around text in loader(8), in particular stuff related to ZFS,
trasz [Mon, 13 Aug 2018 11:56:23 +0000 (11:56 +0000)]
Move around text in loader(8), in particular stuff related to ZFS,
to restore the usual section order.

MFC after: 2 weeks
Sponsored by: DARPA, AFRL

5 years agoUse consistently the macors to modify the assoc state.
tuexen [Mon, 13 Aug 2018 11:56:21 +0000 (11:56 +0000)]
Use consistently the macors to modify the assoc state.

No functional change.

5 years agoAdd USB ID for rebranded RTL8153 found on NVIDIA Jetson TX1 board.
mmel [Mon, 13 Aug 2018 07:28:25 +0000 (07:28 +0000)]
Add USB ID for rebranded RTL8153 found on NVIDIA Jetson TX1 board.

MFC after: 3 days

5 years agoImport DTS files from Linux 4.18
manu [Mon, 13 Aug 2018 06:40:20 +0000 (06:40 +0000)]
Import DTS files from Linux 4.18

5 years agoImport latest DTS files from Linux 4.18
manu [Mon, 13 Aug 2018 05:53:54 +0000 (05:53 +0000)]
Import latest DTS files from Linux 4.18

5 years agoInstall symlink for sys/nvpair.h in include/Makefile symlinks target
kevans [Mon, 13 Aug 2018 05:16:27 +0000 (05:16 +0000)]
Install symlink for sys/nvpair.h in include/Makefile symlinks target

Noticed while fixing the install/sysroot situation for libnvpair and
libzfs_core- if one uses the symlinks target, libzfs_core.h is not
installed.

5 years agolibbe(3)/bectl(8): Remove now-redundant include paths
kevans [Mon, 13 Aug 2018 05:01:19 +0000 (05:01 +0000)]
libbe(3)/bectl(8): Remove now-redundant include paths

These were previously necessary because the libnvpair and libzfs_core
includes were not installed into the SYSROOT, being a part of the copies
target in include/Makefile rather than being installed with the library.

This was fixed in r337696 and the headers are now installed properly, so we
may let go of the cruft.

5 years agolibbe(3): Light typo fix/word addition
kevans [Mon, 13 Aug 2018 03:43:49 +0000 (03:43 +0000)]
libbe(3): Light typo fix/word addition

5 years agolibbe(3): Fix be_import to delete temp snapshot
kevans [Mon, 13 Aug 2018 03:42:14 +0000 (03:42 +0000)]
libbe(3): Fix be_import to delete temp snapshot

Deleting the temp snapshot isn't immediately possible because it's the
origin of the newly imported boot environment. However, this is trivially
solved by opening the new boot environment and promoting it. The roles are
now reversed and the temp snapshot/dataset may be completely destroyed.

Remove the BUGS from libbe(3) and bectl(8).

5 years agoUse INCS for non-sys/ libnvpair and libzfs_core includes
kevans [Mon, 13 Aug 2018 03:38:32 +0000 (03:38 +0000)]
Use INCS for non-sys/ libnvpair and libzfs_core includes

While nothing was wrong with libnvpair.h, libzfs_core.h was only guarded by
MK_CDDL rather than MK_CDDL && MK_ZFS. Rather than ugl'if'ying
include/Makefile to impose the extra restriction, just move the non-sys/
includes into INCS with the respect lib builds.

This has the added bonus of allowing third party packagers to try and split
these libs out of the FreeBSD-runtime package, if they are so inclined.

The sys/ include was left alone- generally userland libraries shouldn't
install kernel headers.

MFC after: 1 week

5 years agofix static ZFS linking
mmacy [Sun, 12 Aug 2018 21:04:53 +0000 (21:04 +0000)]
fix static ZFS linking

Static linking of ZFS is a newish option and LINT doesn't include it

5 years agoipmi/opal: Enable polled mode and proper callback
jhibbits [Sun, 12 Aug 2018 20:33:55 +0000 (20:33 +0000)]
ipmi/opal: Enable polled mode and proper callback

Fix a NULL dereference that would occur any time an ioctl() was done, due to a
missing ipmi_enqueue_request callback.  Just use the default for now, until we
decide to properly enable IPMI interrupts.

Reported by: kbowling

5 years agoAdd explicit cast to silence a warning for the userland stack.
tuexen [Sun, 12 Aug 2018 14:05:15 +0000 (14:05 +0000)]
Add explicit cast to silence a warning for the userland stack.

Thanks to Felix Weinrank for providing the patch.

5 years agoMove inetd.conf to usr.sbin/inetd/
brd [Sun, 12 Aug 2018 13:29:40 +0000 (13:29 +0000)]
Move inetd.conf to usr.sbin/inetd/

This is pkgbase related as it uses CONFS to tag the file as a config file

Approved by: AllanJude (mentor)
Sponsored by: Essen Hackathon
Differential Revision: https://reviews.freebsd.org/D16693

5 years agoMove all the newsyslog related configs to usr.sbin/newsyslog/
brd [Sun, 12 Aug 2018 13:24:53 +0000 (13:24 +0000)]
Move all the newsyslog related configs to usr.sbin/newsyslog/

This is related to pkgbase and changes these to use CONFS so that these are
tagged as config files.

Approved by: AllanJude (mentor)
Sponsored by: Essen Hackathon
Differential Revision: https://reviews.freebsd.org/D16694

5 years agoAdding myself to committers-src.dot
lwhsu [Sun, 12 Aug 2018 12:58:05 +0000 (12:58 +0000)]
Adding myself to committers-src.dot

Approved by: markj (mentor)

5 years agoChasing r337661, fix systat after arc accounting change.
cy [Sun, 12 Aug 2018 07:47:44 +0000 (07:47 +0000)]
Chasing r337661, fix systat after arc accounting change.

5 years agoRemove unused stuff from iw_cxgbe.h
np [Sun, 12 Aug 2018 03:36:09 +0000 (03:36 +0000)]
Remove unused stuff from iw_cxgbe.h

5 years agoMFV/ZoL: Add dbuf hash and dbuf cache kstats
mmacy [Sun, 12 Aug 2018 03:15:30 +0000 (03:15 +0000)]
MFV/ZoL:  Add dbuf hash and dbuf cache kstats

TODO: KSTAT_TYPE_NAMED support

commit 5e021f56d3437d3523904652fe3cc23ea1f4cb70
Author: Giuseppe Di Natale <dinatale2@users.noreply.github.com>
Date:   Mon Jan 29 10:24:52 2018 -0800

    Add dbuf hash and dbuf cache kstats

    Introduce kstats about the dbuf hash and dbuf cache
    to make it easier to inspect state. This should help
    with debugging and understanding of these portions
    of the codebase.

    Correct format of dbuf kstat file.

    Introduce a dbc column to dbufs kstat to indicate if
    a dbuf is in the dbuf cache.

    Introduce field filtering in the dbufstat python script.

    Introduce a no header option to the dbufstat python script.

    Introduce a test case to test basic mru->mfu list movement
    in the ARC.

Reviewed-by: Tony Hutter <hutter2@llnl.gov>
Reviewed-by: Brian Behlendorf <behlendorf1@llnl.gov>
Signed-off-by: Giuseppe Di Natale <dinatale2@llnl.gov>
    Closes #6906

5 years agoMFV/ZoL: Fix stack dbuf_hold_impl()
mmacy [Sun, 12 Aug 2018 02:24:18 +0000 (02:24 +0000)]
MFV/ZoL:     Fix stack dbuf_hold_impl()

commit fc5bb51f08a6c91ff9ad3559d0266eeeab0b1f61
Author: Brian Behlendorf <behlendorf1@llnl.gov>
Date:   Thu Aug 26 10:52:00 2010 -0700

    Fix stack dbuf_hold_impl()

    This commit preserves the recursive function dbuf_hold_impl() but moves
    the local variables and function arguments to the heap to minimize
    the stack frame size.  Enough space is initially allocated on the
    stack for 20 levels of recursion.  This technique was based on commit
    34229a2f2ac07363f64ddd63e014964fff2f0671 which reduced stack usage of
    traverse_visitbp().

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
5 years agofix build DN_MAX_BONUSLEN -> DN_OLD_MAX_BONUSLEN
mmacy [Sun, 12 Aug 2018 02:12:44 +0000 (02:12 +0000)]
fix build DN_MAX_BONUSLEN -> DN_OLD_MAX_BONUSLEN

5 years agoRestore legacy dnode_phys layout on tier 2 arches
mmacy [Sun, 12 Aug 2018 02:09:06 +0000 (02:09 +0000)]
Restore legacy dnode_phys layout on tier 2 arches

Evidently gcc4 doesn't support anonymous union members

5 years agoAdd an overview section to bus_dma.9.
jhb [Sun, 12 Aug 2018 01:54:05 +0000 (01:54 +0000)]
Add an overview section to bus_dma.9.

Describe the role of tags and mapping objects as abstractions.
Describe static vs dynamic transaction types and give a brief overview
of the set of functions and object life cycles used for static vs
dynamic.

While here, fix a few other typos and expand a bit on parent tags.

Reviewed by: cem, imp
MFC after: 2 weeks
Differential Revision: https://reviews.freebsd.org/D16652

5 years agoMFV/ZoL: Fix stack noinline
mmacy [Sun, 12 Aug 2018 01:29:30 +0000 (01:29 +0000)]
MFV/ZoL: Fix stack noinline

commit 60948de1ef976aabaa3630707bcc8b5867508507
Author: Brian Behlendorf <behlendorf1@llnl.gov>
Date:   Thu Aug 26 10:58:36 2010 -0700

    Fix stack noinline

    Certain function must never be automatically inlined by gcc because
    they are stack heavy or called recursively.  This patch flags all
    such functions I've found as 'noinline' to prevent gcc from making
    the optimization.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
5 years agoMFV/ZoL: Fix PANIC: metaslab_free_dva(): bad DVA X:Y:Z
mmacy [Sun, 12 Aug 2018 01:17:32 +0000 (01:17 +0000)]
MFV/ZoL:    Fix PANIC: metaslab_free_dva(): bad DVA X:Y:Z

commit 81edd3e83409218879e7af293daa86b0c40eb015
Author: Peng <peng.hse@xtaotech.com>
Date:   Wed Jun 8 15:22:07 2016 +0800

    Fix PANIC: metaslab_free_dva(): bad DVA X:Y:Z

    The following scenario can result in garbage in the dn_spill field.
    The db->db_blkptr must be set to NULL when DNODE_FLAG_SPILL_BLKPTR
    is clear to ensure the dn_spill field is cleared.

    Current txg = A.
    * A new spill buffer is created. Its dbuf is initialized with
      db_blkptr = NULL and it's dirtied.

    Current txg = B.
    * The spill buffer is modified. It's marked as dirty in this txg.
    * Additional changes make the spill buffer unnecessary because the
      xattr fits into the bonus buffer, so it's removed. The dbuf is
      undirtied in this txg, but it's still referenced and cannot be
      destroyed.

    Current txg = C.
    * Starts syncing of txg A
    * dbuf_sync_leaf() is called for the spill buffer. Since db_blkptr
      is NULL, dbuf_check_blkptr() is called.
    * The dbuf starts being written and it reaches the ready state
      (not done yet).
    * A new change makes the spill buffer necessary again.
      sa_build_layouts() ends up calling dbuf_find() to locate the
      dbuf.  It finds the old dbuf because it has not been destroyed yet
      (it will be destroyed when the previous write is done and there
      are no more references). The old dbuf has db_blkptr != NULL.
    * txg A write is complete and the dbuf released. However it's still
      referenced, so it's not destroyed.

    Current txg = D.
    * Starts syncing of txg B
    * dbuf_sync_leaf() is called for the bonus buffer. Its contents are
      directly copied into the dnode, overwriting the blkptr area because,
      in txg B, the bonus buffer was big enough to hold the entire xattr.
    * At this point, the db_blkptr of the spill buffer used in txg C
      gets corrupted.

Signed-off-by: Peng <peng.hse@xtaotech.com>
Signed-off-by: Tim Chase <tim@chase2k.com>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
    Closes #3937

5 years agoMFV/ZoL: add dbuf stats
mmacy [Sun, 12 Aug 2018 01:10:18 +0000 (01:10 +0000)]
MFV/ZoL: add dbuf stats

NB: disabled pending the addition of KSTAT_TYPE_RAW support to the
SPL

commit e0b0ca983d6897bcddf05af2c0e5d01ff66f90db
Author: Brian Behlendorf <behlendorf1@llnl.gov>
Date:   Wed Oct 2 17:11:19 2013 -0700

    Add visibility in to cached dbufs

    Currently there is no mechanism to inspect which dbufs are being
    cached by the system.  There are some coarse counters in arcstats
    by they only give a rough idea of what's being cached.  This patch
    aims to improve the current situation by adding a new dbufs kstat.

    When read this new kstat will walk all cached dbufs linked in to
    the dbuf_hash.  For each dbuf it will dump detailed information
    about the buffer.  It will also dump additional information about
    the referenced arc buffer and its related dnode.  This provides a
    more complete view in to exactly what is being cached.

    With this generic infrastructure in place utilities can be written
    to post-process the data to understand exactly how the caching is
    working.  For example, the data could be processed to show a list
    of all cached dnodes and how much space they're consuming.  Or a
    similar list could be generated based on dnode type.  Many other
    ways to interpret the data exist based on what kinds of questions
    you're trying to answer.

Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
Signed-off-by: Prakash Surya <surya1@llnl.gov>
5 years agoMFV/ZoL: Implement large_dnode pool feature
mmacy [Sun, 12 Aug 2018 00:45:53 +0000 (00:45 +0000)]
MFV/ZoL: Implement large_dnode pool feature

commit 50c957f702ea6d08a634e42f73e8a49931dd8055
Author: Ned Bass <bass6@llnl.gov>
Date:   Wed Mar 16 18:25:34 2016 -0700

    Implement large_dnode pool feature

    Justification
    -------------

    This feature adds support for variable length dnodes. Our motivation is
    to eliminate the overhead associated with using spill blocks.  Spill
    blocks are used to store system attribute data (i.e. file metadata) that
    does not fit in the dnode's bonus buffer. By allowing a larger bonus
    buffer area the use of a spill block can be avoided.  Spill blocks
    potentially incur an additional read I/O for every dnode in a dnode
    block. As a worst case example, reading 32 dnodes from a 16k dnode block
    and all of the spill blocks could issue 33 separate reads. Now suppose
    those dnodes have size 1024 and therefore don't need spill blocks.  Then
    the worst case number of blocks read is reduced to from 33 to two--one
    per dnode block. In practice spill blocks may tend to be co-located on
    disk with the dnode blocks so the reduction in I/O would not be this
    drastic. In a badly fragmented pool, however, the improvement could be
    significant.

    ZFS-on-Linux systems that make heavy use of extended attributes would
    benefit from this feature. In particular, ZFS-on-Linux supports the
    xattr=sa dataset property which allows file extended attribute data
    to be stored in the dnode bonus buffer as an alternative to the
    traditional directory-based format. Workloads such as SELinux and the
    Lustre distributed filesystem often store enough xattr data to force
    spill bocks when xattr=sa is in effect. Large dnodes may therefore
    provide a performance benefit to such systems.

    Other use cases that may benefit from this feature include files with
    large ACLs and symbolic links with long target names. Furthermore,
    this feature may be desirable on other platforms in case future
    applications or features are developed that could make use of a
    larger bonus buffer area.

    Implementation
    --------------

    The size of a dnode may be a multiple of 512 bytes up to the size of
    a dnode block (currently 16384 bytes). A dn_extra_slots field was
    added to the current on-disk dnode_phys_t structure to describe the
    size of the physical dnode on disk. The 8 bits for this field were
    taken from the zero filled dn_pad2 field. The field represents how
    many "extra" dnode_phys_t slots a dnode consumes in its dnode block.
    This convention results in a value of 0 for 512 byte dnodes which
    preserves on-disk format compatibility with older software.

    Similarly, the in-memory dnode_t structure has a new dn_num_slots field
    to represent the total number of dnode_phys_t slots consumed on disk.
    Thus dn->dn_num_slots is 1 greater than the corresponding
    dnp->dn_extra_slots. This difference in convention was adopted
    because, unlike on-disk structures, backward compatibility is not a
    concern for in-memory objects, so we used a more natural way to
    represent size for a dnode_t.

    The default size for newly created dnodes is determined by the value of
    a new "dnodesize" dataset property. By default the property is set to
    "legacy" which is compatible with older software. Setting the property
    to "auto" will allow the filesystem to choose the most suitable dnode
    size. Currently this just sets the default dnode size to 1k, but future
    code improvements could dynamically choose a size based on observed
    workload patterns. Dnodes of varying sizes can coexist within the same
    dataset and even within the same dnode block. For example, to enable
    automatically-sized dnodes, run

     # zfs set dnodesize=auto tank/fish

    The user can also specify literal values for the dnodesize property.
    These are currently limited to powers of two from 1k to 16k. The
    power-of-2 limitation is only for simplicity of the user interface.
    Internally the implementation can handle any multiple of 512 up to 16k,
    and consumers of the DMU API can specify any legal dnode value.

    The size of a new dnode is determined at object allocation time and
    stored as a new field in the znode in-memory structure. New DMU
    interfaces are added to allow the consumer to specify the dnode size
    that a newly allocated object should use. Existing interfaces are
    unchanged to avoid having to update every call site and to preserve
    compatibility with external consumers such as Lustre. The new
    interfaces names are given below. The versions of these functions that
    don't take a dnodesize parameter now just call the _dnsize() versions
    with a dnodesize of 0, which means use the legacy dnode size.

    New DMU interfaces:
      dmu_object_alloc_dnsize()
      dmu_object_claim_dnsize()
      dmu_object_reclaim_dnsize()

    New ZAP interfaces:
      zap_create_dnsize()
      zap_create_norm_dnsize()
      zap_create_flags_dnsize()
      zap_create_claim_norm_dnsize()
      zap_create_link_dnsize()

    The constant DN_MAX_BONUSLEN is renamed to DN_OLD_MAX_BONUSLEN. The
    spa_maxdnodesize() function should be used to determine the maximum
    bonus length for a pool.

    These are a few noteworthy changes to key functions:

    * The prototype for dnode_hold_impl() now takes a "slots" parameter.
      When the DNODE_MUST_BE_FREE flag is set, this parameter is used to
      ensure the hole at the specified object offset is large enough to
      hold the dnode being created. The slots parameter is also used
      to ensure a dnode does not span multiple dnode blocks. In both of
      these cases, if a failure occurs, ENOSPC is returned. Keep in mind,
      these failure cases are only possible when using DNODE_MUST_BE_FREE.

      If the DNODE_MUST_BE_ALLOCATED flag is set, "slots" must be 0.
      dnode_hold_impl() will check if the requested dnode is already
      consumed as an extra dnode slot by an large dnode, in which case
      it returns ENOENT.

    * The function dmu_object_alloc() advances to the next dnode block
      if dnode_hold_impl() returns an error for a requested object.
      This is because the beginning of the next dnode block is the only
      location it can safely assume to either be a hole or a valid
      starting point for a dnode.

    * dnode_next_offset_level() and other functions that iterate
      through dnode blocks may no longer use a simple array indexing
      scheme. These now use the current dnode's dn_num_slots field to
      advance to the next dnode in the block. This is to ensure we
      properly skip the current dnode's bonus area and don't interpret it
      as a valid dnode.

    zdb
    ---
    The zdb command was updated to display a dnode's size under the
    "dnsize" column when the object is dumped.

    For ZIL create log records, zdb will now display the slot count for
    the object.

    ztest
    -----
    Ztest chooses a random dnodesize for every newly created object. The
    random distribution is more heavily weighted toward small dnodes to
    better simulate real-world datasets.

    Unused bonus buffer space is filled with non-zero values computed from
    the object number, dataset id, offset, and generation number.  This
    helps ensure that the dnode traversal code properly skips the interior
    regions of large dnodes, and that these interior regions are not
    overwritten by data belonging to other dnodes. A new test visits each
    object in a dataset. It verifies that the actual dnode size matches what
    was stored in the ztest block tag when it was created. It also verifies
    that the unused bonus buffer space is filled with the expected data
    patterns.

    ZFS Test Suite
    --------------
    Added six new large dnode-specific tests, and integrated the dnodesize
    property into existing tests for zfs allow and send/recv.

    Send/Receive
    ------------
    ZFS send streams for datasets containing large dnodes cannot be received
    on pools that don't support the large_dnode feature. A send stream with
    large dnodes sets a DMU_BACKUP_FEATURE_LARGE_DNODE flag which will be
    unrecognized by an incompatible receiving pool so that the zfs receive
    will fail gracefully.

    While not implemented here, it may be possible to generate a
    backward-compatible send stream from a dataset containing large
    dnodes. The implementation may be tricky, however, because the send
    object record for a large dnode would need to be resized to a 512
    byte dnode, possibly kicking in a spill block in the process. This
    means we would need to construct a new SA layout and possibly
    register it in the SA layout object. The SA layout is normally just
    sent as an ordinary object record. But if we are constructing new
    layouts while generating the send stream we'd have to build the SA
    layout object dynamically and send it at the end of the stream.

    For sending and receiving between pools that do support large dnodes,
    the drr_object send record type is extended with a new field to store
    the dnode slot count. This field was repurposed from unused padding
    in the structure.

    ZIL Replay
    ----------
    The dnode slot count is stored in the uppermost 8 bits of the lr_foid
    field. The bits were unused as the object id is currently capped at
    48 bits.

    Resizing Dnodes
    ---------------
    It should be possible to resize a dnode when it is dirtied if the
    current dnodesize dataset property differs from the dnode's size, but
    this functionality is not currently implemented. Clearly a dnode can
    only grow if there are sufficient contiguous unused slots in the
    dnode block, but it should always be possible to shrink a dnode.
    Growing dnodes may be useful to reduce fragmentation in a pool with
    many spill blocks in use. Shrinking dnodes may be useful to allow
    sending a dataset to a pool that doesn't support the large_dnode
    feature.

    Feature Reference Counting
    --------------------------
    The reference count for the large_dnode pool feature tracks the
    number of datasets that have ever contained a dnode of size larger
    than 512 bytes. The first time a large dnode is created in a dataset
    the dataset is converted to an extensible dataset. This is a one-way
    operation and the only way to decrement the feature count is to
    destroy the dataset, even if the dataset no longer contains any large
    dnodes. The complexity of reference counting on a per-dnode basis was
    too high, so we chose to track it on a per-dataset basis similarly to
    the large_block feature.

Signed-off-by: Ned Bass <bass6@llnl.gov>
Signed-off-by: Brian Behlendorf <behlendorf1@llnl.gov>
    Closes #3542

5 years agobectl(8): Use strcmp, rather than trying to directly compare
kevans [Sun, 12 Aug 2018 00:09:52 +0000 (00:09 +0000)]
bectl(8): Use strcmp, rather than trying to directly compare

5 years agogetopt_long(3): Document behavior of leading characters in optstring
kevans [Sun, 12 Aug 2018 00:08:14 +0000 (00:08 +0000)]
getopt_long(3): Document behavior of leading characters in optstring

Leading '+', '-', and ':' in optstring have special meaning. We briefly
mention that the first two have special meaning in that we say
POSIXLY_CORRECT turns them off, but we don't actually document their
meaning. Add a paragraph to RETURN VALUES explaining how they control
the treatment of non-option arguments.

A leading ':' has no mention; add a note that it suppresses warnings about
missing arguments.

Reviewed by: jilles
MFC after: 1 week
Differential Revision: https://reviews.freebsd.org/D14142

5 years agokrb5-config build: Remove gratuitous escaping
kevans [Sun, 12 Aug 2018 00:06:21 +0000 (00:06 +0000)]
krb5-config build: Remove gratuitous escaping

MFC after: 1 week

5 years agobectl(8): Rename "index" variable, which shadows a global in some lands
kevans [Sun, 12 Aug 2018 00:00:13 +0000 (00:00 +0000)]
bectl(8): Rename "index" variable, which shadows a global in some lands

5 years agoMerge libbe(3)/bectl(8) from projects/bectl into head
kevans [Sat, 11 Aug 2018 23:50:09 +0000 (23:50 +0000)]
Merge libbe(3)/bectl(8) from projects/bectl into head

bectl(8) is an administrative interface for working with ZFS boot
environments, intended to provide a superset of the functionality provided
by sysutils/beadm.

libbe(3) is the back-end library that the required functionality has been
pulled out into for later reuse.

These were originally written for GSoC 2017 under the mentorship of
allanjude@.

bectl(8) has proven pretty stable in my testing, with the known bug
documented in the man page.

Relnotes: yes

5 years agolibbe(3)/bectl(8): More SYSROOT/GCC build fixes
kevans [Sat, 11 Aug 2018 22:45:39 +0000 (22:45 +0000)]
libbe(3)/bectl(8): More SYSROOT/GCC build fixes

- Missing include path
- Fully specify libzfs's dependencies (except for deps pulled in by other
  deps) in Makefile.inc1
- Drop WARNS back down to 2 for libbe(3). I do this with much hesitation,
  but the libzfs headers are apparently a hot warning-filled mess as far as
  GCC 4.2 is concerned.