]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - share/man/man4/geom.4
Add tri-mode support (SAS/SATA/PCIe).
[FreeBSD/FreeBSD.git] / share / man / man4 / geom.4
1 .\"
2 .\" Copyright (c) 2002 Poul-Henning Kamp
3 .\" Copyright (c) 2002 Networks Associates Technology, Inc.
4 .\" All rights reserved.
5 .\"
6 .\" This software was developed for the FreeBSD Project by Poul-Henning Kamp
7 .\" and NAI Labs, the Security Research Division of Network Associates, Inc.
8 .\" under DARPA/SPAWAR contract N66001-01-C-8035 ("CBOSS"), as part of the
9 .\" DARPA CHATS research program.
10 .\"
11 .\" Redistribution and use in source and binary forms, with or without
12 .\" modification, are permitted provided that the following conditions
13 .\" are met:
14 .\" 1. Redistributions of source code must retain the above copyright
15 .\"    notice, this list of conditions and the following disclaimer.
16 .\" 2. Redistributions in binary form must reproduce the above copyright
17 .\"    notice, this list of conditions and the following disclaimer in the
18 .\"    documentation and/or other materials provided with the distribution.
19 .\" 3. The names of the authors may not be used to endorse or promote
20 .\"    products derived from this software without specific prior written
21 .\"    permission.
22 .\"
23 .\" THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
24 .\" ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
25 .\" IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
26 .\" ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
27 .\" FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
28 .\" DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
29 .\" OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
30 .\" HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
31 .\" LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
32 .\" OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
33 .\" SUCH DAMAGE.
34 .\"
35 .\" $FreeBSD$
36 .\"
37 .Dd April 20, 2017
38 .Dt GEOM 4
39 .Os
40 .Sh NAME
41 .Nm GEOM
42 .Nd "modular disk I/O request transformation framework"
43 .Sh SYNOPSIS
44 .Cd options GEOM_AES
45 .Cd options GEOM_BDE
46 .Cd options GEOM_BSD
47 .Cd options GEOM_CACHE
48 .Cd options GEOM_CONCAT
49 .Cd options GEOM_ELI
50 .Cd options GEOM_FOX
51 .Cd options GEOM_GATE
52 .Cd options GEOM_JOURNAL
53 .Cd options GEOM_LABEL
54 .Cd options GEOM_LINUX_LVM
55 .Cd options GEOM_MAP
56 .Cd options GEOM_MBR
57 .Cd options GEOM_MIRROR
58 .Cd options GEOM_MOUNTVER
59 .Cd options GEOM_MULTIPATH
60 .Cd options GEOM_NOP
61 .Cd options GEOM_PART_APM
62 .Cd options GEOM_PART_BSD
63 .Cd options GEOM_PART_BSD64
64 .Cd options GEOM_PART_EBR
65 .Cd options GEOM_PART_EBR_COMPAT
66 .Cd options GEOM_PART_GPT
67 .Cd options GEOM_PART_LDM
68 .Cd options GEOM_PART_MBR
69 .Cd options GEOM_PART_VTOC8
70 .Cd options GEOM_RAID
71 .Cd options GEOM_RAID3
72 .Cd options GEOM_SHSEC
73 .Cd options GEOM_STRIPE
74 .Cd options GEOM_SUNLABEL
75 .Cd options GEOM_UZIP
76 .Cd options GEOM_VIRSTOR
77 .Cd options GEOM_VOL
78 .Cd options GEOM_ZERO
79 .Sh DESCRIPTION
80 The
81 .Nm
82 framework provides an infrastructure in which
83 .Dq classes
84 can perform transformations on disk I/O requests on their path from
85 the upper kernel to the device drivers and back.
86 .Pp
87 Transformations in a
88 .Nm
89 context range from the simple geometric
90 displacement performed in typical disk partitioning modules over RAID
91 algorithms and device multipath resolution to full blown cryptographic
92 protection of the stored data.
93 .Pp
94 Compared to traditional
95 .Dq "volume management" ,
96 .Nm
97 differs from most
98 and in some cases all previous implementations in the following ways:
99 .Bl -bullet
100 .It
101 .Nm
102 is extensible.
103 It is trivially simple to write a new class
104 of transformation and it will not be given stepchild treatment.
105 If
106 someone for some reason wanted to mount IBM MVS diskpacks, a class
107 recognizing and configuring their VTOC information would be a trivial
108 matter.
109 .It
110 .Nm
111 is topologically agnostic.
112 Most volume management implementations
113 have very strict notions of how classes can fit together, very often
114 one fixed hierarchy is provided, for instance, subdisk - plex -
115 volume.
116 .El
117 .Pp
118 Being extensible means that new transformations are treated no differently
119 than existing transformations.
120 .Pp
121 Fixed hierarchies are bad because they make it impossible to express
122 the intent efficiently.
123 In the fixed hierarchy above, it is not possible to mirror two
124 physical disks and then partition the mirror into subdisks, instead
125 one is forced to make subdisks on the physical volumes and to mirror
126 these two and two, resulting in a much more complex configuration.
127 .Nm
128 on the other hand does not care in which order things are done,
129 the only restriction is that cycles in the graph will not be allowed.
130 .Sh "TERMINOLOGY AND TOPOLOGY"
131 .Nm
132 is quite object oriented and consequently the terminology
133 borrows a lot of context and semantics from the OO vocabulary:
134 .Pp
135 A
136 .Dq class ,
137 represented by the data structure
138 .Vt g_class
139 implements one
140 particular kind of transformation.
141 Typical examples are MBR disk
142 partition, BSD disklabel, and RAID5 classes.
143 .Pp
144 An instance of a class is called a
145 .Dq geom
146 and represented by the data structure
147 .Vt g_geom .
148 In a typical i386
149 .Fx
150 system, there
151 will be one geom of class MBR for each disk.
152 .Pp
153 A
154 .Dq provider ,
155 represented by the data structure
156 .Vt g_provider ,
157 is the front gate at which a geom offers service.
158 A provider is
159 .Do
160 a disk-like thing which appears in
161 .Pa /dev
162 .Dc - a logical
163 disk in other words.
164 All providers have three main properties:
165 .Dq name ,
166 .Dq sectorsize
167 and
168 .Dq size .
169 .Pp
170 A
171 .Dq consumer
172 is the backdoor through which a geom connects to another
173 geom provider and through which I/O requests are sent.
174 .Pp
175 The topological relationship between these entities are as follows:
176 .Bl -bullet
177 .It
178 A class has zero or more geom instances.
179 .It
180 A geom has exactly one class it is derived from.
181 .It
182 A geom has zero or more consumers.
183 .It
184 A geom has zero or more providers.
185 .It
186 A consumer can be attached to zero or one providers.
187 .It
188 A provider can have zero or more consumers attached.
189 .El
190 .Pp
191 All geoms have a rank-number assigned, which is used to detect and
192 prevent loops in the acyclic directed graph.
193 This rank number is
194 assigned as follows:
195 .Bl -enum
196 .It
197 A geom with no attached consumers has rank=1.
198 .It
199 A geom with attached consumers has a rank one higher than the
200 highest rank of the geoms of the providers its consumers are
201 attached to.
202 .El
203 .Sh "SPECIAL TOPOLOGICAL MANEUVERS"
204 In addition to the straightforward attach, which attaches a consumer
205 to a provider, and detach, which breaks the bond, a number of special
206 topological maneuvers exists to facilitate configuration and to
207 improve the overall flexibility.
208 .Bl -inset
209 .It Em TASTING
210 is a process that happens whenever a new class or new provider
211 is created, and it provides the class a chance to automatically configure an
212 instance on providers which it recognizes as its own.
213 A typical example is the MBR disk-partition class which will look for
214 the MBR table in the first sector and, if found and validated, will
215 instantiate a geom to multiplex according to the contents of the MBR.
216 .Pp
217 A new class will be offered to all existing providers in turn and a new
218 provider will be offered to all classes in turn.
219 .Pp
220 Exactly what a class does to recognize if it should accept the offered
221 provider is not defined by
222 .Nm ,
223 but the sensible set of options are:
224 .Bl -bullet
225 .It
226 Examine specific data structures on the disk.
227 .It
228 Examine properties like
229 .Dq sectorsize
230 or
231 .Dq mediasize
232 for the provider.
233 .It
234 Examine the rank number of the provider's geom.
235 .It
236 Examine the method name of the provider's geom.
237 .El
238 .It Em ORPHANIZATION
239 is the process by which a provider is removed while
240 it potentially is still being used.
241 .Pp
242 When a geom orphans a provider, all future I/O requests will
243 .Dq bounce
244 on the provider with an error code set by the geom.
245 Any
246 consumers attached to the provider will receive notification about
247 the orphanization when the event loop gets around to it, and they
248 can take appropriate action at that time.
249 .Pp
250 A geom which came into being as a result of a normal taste operation
251 should self-destruct unless it has a way to keep functioning whilst
252 lacking the orphaned provider.
253 Geoms like disk slicers should therefore self-destruct whereas
254 RAID5 or mirror geoms will be able to continue as long as they do
255 not lose quorum.
256 .Pp
257 When a provider is orphaned, this does not necessarily result in any
258 immediate change in the topology: any attached consumers are still
259 attached, any opened paths are still open, any outstanding I/O
260 requests are still outstanding.
261 .Pp
262 The typical scenario is:
263 .Pp
264 .Bl -bullet -offset indent -compact
265 .It
266 A device driver detects a disk has departed and orphans the provider for it.
267 .It
268 The geoms on top of the disk receive the orphanization event and
269 orphan all their providers in turn.
270 Providers which are not attached to will typically self-destruct
271 right away.
272 This process continues in a quasi-recursive fashion until all
273 relevant pieces of the tree have heard the bad news.
274 .It
275 Eventually the buck stops when it reaches geom_dev at the top
276 of the stack.
277 .It
278 Geom_dev will call
279 .Xr destroy_dev 9
280 to stop any more requests from
281 coming in.
282 It will sleep until any and all outstanding I/O requests have
283 been returned.
284 It will explicitly close (i.e.: zero the access counts), a change
285 which will propagate all the way down through the mesh.
286 It will then detach and destroy its geom.
287 .It
288 The geom whose provider is now detached will destroy the provider,
289 detach and destroy its consumer and destroy its geom.
290 .It
291 This process percolates all the way down through the mesh, until
292 the cleanup is complete.
293 .El
294 .Pp
295 While this approach seems byzantine, it does provide the maximum
296 flexibility and robustness in handling disappearing devices.
297 .Pp
298 The one absolutely crucial detail to be aware of is that if the
299 device driver does not return all I/O requests, the tree will
300 not unravel.
301 .It Em SPOILING
302 is a special case of orphanization used to protect
303 against stale metadata.
304 It is probably easiest to understand spoiling by going through
305 an example.
306 .Pp
307 Imagine a disk,
308 .Pa da0 ,
309 on top of which an MBR geom provides
310 .Pa da0s1
311 and
312 .Pa da0s2 ,
313 and on top of
314 .Pa da0s1
315 a BSD geom provides
316 .Pa da0s1a
317 through
318 .Pa da0s1e ,
319 and that both the MBR and BSD geoms have
320 autoconfigured based on data structures on the disk media.
321 Now imagine the case where
322 .Pa da0
323 is opened for writing and those
324 data structures are modified or overwritten: now the geoms would
325 be operating on stale metadata unless some notification system
326 can inform them otherwise.
327 .Pp
328 To avoid this situation, when the open of
329 .Pa da0
330 for write happens,
331 all attached consumers are told about this and geoms like
332 MBR and BSD will self-destruct as a result.
333 When
334 .Pa da0
335 is closed, it will be offered for tasting again
336 and, if the data structures for MBR and BSD are still there, new
337 geoms will instantiate themselves anew.
338 .Pp
339 Now for the fine print:
340 .Pp
341 If any of the paths through the MBR or BSD module were open, they
342 would have opened downwards with an exclusive bit thus rendering it
343 impossible to open
344 .Pa da0
345 for writing in that case.
346 Conversely,
347 the requested exclusive bit would render it impossible to open a
348 path through the MBR geom while
349 .Pa da0
350 is open for writing.
351 .Pp
352 From this it also follows that changing the size of open geoms can
353 only be done with their cooperation.
354 .Pp
355 Finally: the spoiling only happens when the write count goes from
356 zero to non-zero and the retasting happens only when the write count goes
357 from non-zero to zero.
358 .It Em CONFIGURE
359 is the process where the administrator issues instructions
360 for a particular class to instantiate itself.
361 There are multiple
362 ways to express intent in this case - a particular provider may be
363 specified with a level of override forcing, for instance, a BSD
364 disklabel module to attach to a provider which was not found palatable
365 during the TASTE operation.
366 .Pp
367 Finally, I/O is the reason we even do this: it concerns itself with
368 sending I/O requests through the graph.
369 .It Em "I/O REQUESTS" ,
370 represented by
371 .Vt "struct bio" ,
372 originate at a consumer,
373 are scheduled on its attached provider and, when processed, are returned
374 to the consumer.
375 It is important to realize that the
376 .Vt "struct bio"
377 which enters through the provider of a particular geom does not
378 .Do
379 come out on the other side
380 .Dc .
381 Even simple transformations like MBR and BSD will clone the
382 .Vt "struct bio" ,
383 modify the clone, and schedule the clone on their
384 own consumer.
385 Note that cloning the
386 .Vt "struct bio"
387 does not involve cloning the
388 actual data area specified in the I/O request.
389 .Pp
390 In total, four different I/O requests exist in
391 .Nm :
392 read, write, delete, and
393 .Dq "get attribute".
394 .Pp
395 Read and write are self explanatory.
396 .Pp
397 Delete indicates that a certain range of data is no longer used
398 and that it can be erased or freed as the underlying technology
399 supports.
400 Technologies like flash adaptation layers can arrange to erase
401 the relevant blocks before they will become reassigned and
402 cryptographic devices may want to fill random bits into the
403 range to reduce the amount of data available for attack.
404 .Pp
405 It is important to recognize that a delete indication is not a
406 request and consequently there is no guarantee that the data actually
407 will be erased or made unavailable unless guaranteed by specific
408 geoms in the graph.
409 If
410 .Dq "secure delete"
411 semantics are required, a
412 geom should be pushed which converts delete indications into (a
413 sequence of) write requests.
414 .Pp
415 .Dq "Get attribute"
416 supports inspection and manipulation
417 of out-of-band attributes on a particular provider or path.
418 Attributes are named by
419 .Tn ASCII
420 strings and they will be discussed in
421 a separate section below.
422 .El
423 .Pp
424 (Stay tuned while the author rests his brain and fingers: more to come.)
425 .Sh DIAGNOSTICS
426 Several flags are provided for tracing
427 .Nm
428 operations and unlocking
429 protection mechanisms via the
430 .Va kern.geom.debugflags
431 sysctl.
432 All of these flags are off by default, and great care should be taken in
433 turning them on.
434 .Bl -tag -width indent
435 .It 0x01 Pq Dv G_T_TOPOLOGY
436 Provide tracing of topology change events.
437 .It 0x02 Pq Dv G_T_BIO
438 Provide tracing of buffer I/O requests.
439 .It 0x04 Pq Dv G_T_ACCESS
440 Provide tracing of access check controls.
441 .It 0x08 (unused)
442 .It 0x10 (allow foot shooting)
443 Allow writing to Rank 1 providers.
444 This would, for example, allow the super-user to overwrite the MBR on the root
445 disk or write random sectors elsewhere to a mounted disk.
446 The implications are obvious.
447 .It 0x40 Pq Dv G_F_DISKIOCTL
448 This is unused at this time.
449 .It 0x80 Pq Dv G_F_CTLDUMP
450 Dump contents of gctl requests.
451 .El
452 .Sh SEE ALSO
453 .Xr libgeom 3 ,
454 .Xr DECLARE_GEOM_CLASS 9 ,
455 .Xr disk 9 ,
456 .Xr g_access 9 ,
457 .Xr g_attach 9 ,
458 .Xr g_bio 9 ,
459 .Xr g_consumer 9 ,
460 .Xr g_data 9 ,
461 .Xr g_event 9 ,
462 .Xr g_geom 9 ,
463 .Xr g_provider 9 ,
464 .Xr g_provider_by_name 9
465 .Sh HISTORY
466 This software was developed for the
467 .Fx
468 Project by
469 .An Poul-Henning Kamp
470 and NAI Labs, the Security Research Division of Network Associates, Inc.\&
471 under DARPA/SPAWAR contract N66001-01-C-8035
472 .Pq Dq CBOSS ,
473 as part of the
474 DARPA CHATS research program.
475 .Pp
476 The first precursor for
477 .Nm
478 was a gruesome hack to Minix 1.2 and was
479 never distributed.
480 An earlier attempt to implement a less general scheme
481 in
482 .Fx
483 never succeeded.
484 .Sh AUTHORS
485 .An Poul-Henning Kamp Aq Mt phk@FreeBSD.org