]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - sys/kern/vfs_mountroot.c
Exploit r288122 to address a cosmetic issue. Since the pages allocated
[FreeBSD/FreeBSD.git] / sys / kern / vfs_mountroot.c
1 /*-
2  * Copyright (c) 2010 Marcel Moolenaar
3  * Copyright (c) 1999-2004 Poul-Henning Kamp
4  * Copyright (c) 1999 Michael Smith
5  * Copyright (c) 1989, 1993
6  *      The Regents of the University of California.  All rights reserved.
7  * (c) UNIX System Laboratories, Inc.
8  * All or some portions of this file are derived from material licensed
9  * to the University of California by American Telephone and Telegraph
10  * Co. or Unix System Laboratories, Inc. and are reproduced herein with
11  * the permission of UNIX System Laboratories, Inc.
12  *
13  * Redistribution and use in source and binary forms, with or without
14  * modification, are permitted provided that the following conditions
15  * are met:
16  * 1. Redistributions of source code must retain the above copyright
17  *    notice, this list of conditions and the following disclaimer.
18  * 2. Redistributions in binary form must reproduce the above copyright
19  *    notice, this list of conditions and the following disclaimer in the
20  *    documentation and/or other materials provided with the distribution.
21  * 4. Neither the name of the University nor the names of its contributors
22  *    may be used to endorse or promote products derived from this software
23  *    without specific prior written permission.
24  *
25  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
26  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
27  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
28  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
29  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
30  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
31  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
32  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
33  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
34  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
35  * SUCH DAMAGE.
36  */
37
38 #include "opt_rootdevname.h"
39
40 #include <sys/cdefs.h>
41 __FBSDID("$FreeBSD$");
42
43 #include <sys/param.h>
44 #include <sys/conf.h>
45 #include <sys/cons.h>
46 #include <sys/fcntl.h>
47 #include <sys/jail.h>
48 #include <sys/kernel.h>
49 #include <sys/malloc.h>
50 #include <sys/mdioctl.h>
51 #include <sys/mount.h>
52 #include <sys/mutex.h>
53 #include <sys/namei.h>
54 #include <sys/priv.h>
55 #include <sys/proc.h>
56 #include <sys/filedesc.h>
57 #include <sys/reboot.h>
58 #include <sys/sbuf.h>
59 #include <sys/stat.h>
60 #include <sys/syscallsubr.h>
61 #include <sys/sysproto.h>
62 #include <sys/sx.h>
63 #include <sys/sysctl.h>
64 #include <sys/sysent.h>
65 #include <sys/systm.h>
66 #include <sys/vnode.h>
67
68 #include <geom/geom.h>
69
70 /*
71  * The root filesystem is detailed in the kernel environment variable
72  * vfs.root.mountfrom, which is expected to be in the general format
73  *
74  * <vfsname>:[<path>][  <vfsname>:[<path>] ...]
75  * vfsname   := the name of a VFS known to the kernel and capable
76  *              of being mounted as root
77  * path      := disk device name or other data used by the filesystem
78  *              to locate its physical store
79  *
80  * If the environment variable vfs.root.mountfrom is a space separated list,
81  * each list element is tried in turn and the root filesystem will be mounted
82  * from the first one that suceeds.
83  *
84  * The environment variable vfs.root.mountfrom.options is a comma delimited
85  * set of string mount options.  These mount options must be parseable
86  * by nmount() in the kernel.
87  */
88
89 static int parse_mount(char **);
90 static struct mntarg *parse_mountroot_options(struct mntarg *, const char *);
91
92 /*
93  * The vnode of the system's root (/ in the filesystem, without chroot
94  * active.)
95  */
96 struct vnode *rootvnode;
97
98 /*
99  * Mount of the system's /dev.
100  */
101 struct mount *rootdevmp;
102
103 char *rootdevnames[2] = {NULL, NULL};
104
105 struct mtx root_holds_mtx;
106 MTX_SYSINIT(root_holds, &root_holds_mtx, "root_holds", MTX_DEF);
107
108 struct root_hold_token {
109         const char                      *who;
110         LIST_ENTRY(root_hold_token)     list;
111 };
112
113 static LIST_HEAD(, root_hold_token)     root_holds =
114     LIST_HEAD_INITIALIZER(root_holds);
115
116 enum action {
117         A_CONTINUE,
118         A_PANIC,
119         A_REBOOT,
120         A_RETRY
121 };
122
123 static enum action root_mount_onfail = A_CONTINUE;
124
125 static int root_mount_mddev;
126 static int root_mount_complete;
127
128 /* By default wait up to 3 seconds for devices to appear. */
129 static int root_mount_timeout = 3;
130 TUNABLE_INT("vfs.mountroot.timeout", &root_mount_timeout);
131
132 struct root_hold_token *
133 root_mount_hold(const char *identifier)
134 {
135         struct root_hold_token *h;
136
137         if (root_mounted())
138                 return (NULL);
139
140         h = malloc(sizeof *h, M_DEVBUF, M_ZERO | M_WAITOK);
141         h->who = identifier;
142         mtx_lock(&root_holds_mtx);
143         LIST_INSERT_HEAD(&root_holds, h, list);
144         mtx_unlock(&root_holds_mtx);
145         return (h);
146 }
147
148 void
149 root_mount_rel(struct root_hold_token *h)
150 {
151
152         if (h == NULL)
153                 return;
154         mtx_lock(&root_holds_mtx);
155         LIST_REMOVE(h, list);
156         wakeup(&root_holds);
157         mtx_unlock(&root_holds_mtx);
158         free(h, M_DEVBUF);
159 }
160
161 int
162 root_mounted(void)
163 {
164
165         /* No mutex is acquired here because int stores are atomic. */
166         return (root_mount_complete);
167 }
168
169 void
170 root_mount_wait(void)
171 {
172
173         /*
174          * Panic on an obvious deadlock - the function can't be called from
175          * a thread which is doing the whole SYSINIT stuff.
176          */
177         KASSERT(curthread->td_proc->p_pid != 0,
178             ("root_mount_wait: cannot be called from the swapper thread"));
179         mtx_lock(&root_holds_mtx);
180         while (!root_mount_complete) {
181                 msleep(&root_mount_complete, &root_holds_mtx, PZERO, "rootwait",
182                     hz);
183         }
184         mtx_unlock(&root_holds_mtx);
185 }
186
187 static void
188 set_rootvnode(void)
189 {
190         struct proc *p;
191
192         if (VFS_ROOT(TAILQ_FIRST(&mountlist), LK_EXCLUSIVE, &rootvnode))
193                 panic("Cannot find root vnode");
194
195         VOP_UNLOCK(rootvnode, 0);
196
197         p = curthread->td_proc;
198         FILEDESC_XLOCK(p->p_fd);
199
200         if (p->p_fd->fd_cdir != NULL)
201                 vrele(p->p_fd->fd_cdir);
202         p->p_fd->fd_cdir = rootvnode;
203         VREF(rootvnode);
204
205         if (p->p_fd->fd_rdir != NULL)
206                 vrele(p->p_fd->fd_rdir);
207         p->p_fd->fd_rdir = rootvnode;
208         VREF(rootvnode);
209
210         FILEDESC_XUNLOCK(p->p_fd);
211 }
212
213 static int
214 vfs_mountroot_devfs(struct thread *td, struct mount **mpp)
215 {
216         struct vfsoptlist *opts;
217         struct vfsconf *vfsp;
218         struct mount *mp;
219         int error;
220
221         *mpp = NULL;
222
223         if (rootdevmp != NULL) {
224                 /*
225                  * Already have /dev; this happens during rerooting.
226                  */
227                 error = vfs_busy(rootdevmp, 0);
228                 if (error != 0)
229                         return (error);
230                 *mpp = rootdevmp;
231         } else {
232                 vfsp = vfs_byname("devfs");
233                 KASSERT(vfsp != NULL, ("Could not find devfs by name"));
234                 if (vfsp == NULL)
235                         return (ENOENT);
236
237                 mp = vfs_mount_alloc(NULLVP, vfsp, "/dev", td->td_ucred);
238
239                 error = VFS_MOUNT(mp);
240                 KASSERT(error == 0, ("VFS_MOUNT(devfs) failed %d", error));
241                 if (error)
242                         return (error);
243
244                 opts = malloc(sizeof(struct vfsoptlist), M_MOUNT, M_WAITOK);
245                 TAILQ_INIT(opts);
246                 mp->mnt_opt = opts;
247
248                 mtx_lock(&mountlist_mtx);
249                 TAILQ_INSERT_HEAD(&mountlist, mp, mnt_list);
250                 mtx_unlock(&mountlist_mtx);
251
252                 *mpp = mp;
253                 rootdevmp = mp;
254         }
255
256         set_rootvnode();
257
258         error = kern_symlinkat(td, "/", AT_FDCWD, "dev", UIO_SYSSPACE);
259         if (error)
260                 printf("kern_symlink /dev -> / returns %d\n", error);
261
262         return (error);
263 }
264
265 static void
266 vfs_mountroot_shuffle(struct thread *td, struct mount *mpdevfs)
267 {
268         struct nameidata nd;
269         struct mount *mporoot, *mpnroot;
270         struct vnode *vp, *vporoot, *vpdevfs;
271         char *fspath;
272         int error;
273
274         mpnroot = TAILQ_NEXT(mpdevfs, mnt_list);
275
276         /* Shuffle the mountlist. */
277         mtx_lock(&mountlist_mtx);
278         mporoot = TAILQ_FIRST(&mountlist);
279         TAILQ_REMOVE(&mountlist, mpdevfs, mnt_list);
280         if (mporoot != mpdevfs) {
281                 TAILQ_REMOVE(&mountlist, mpnroot, mnt_list);
282                 TAILQ_INSERT_HEAD(&mountlist, mpnroot, mnt_list);
283         }
284         TAILQ_INSERT_TAIL(&mountlist, mpdevfs, mnt_list);
285         mtx_unlock(&mountlist_mtx);
286
287         cache_purgevfs(mporoot);
288         if (mporoot != mpdevfs)
289                 cache_purgevfs(mpdevfs);
290
291         VFS_ROOT(mporoot, LK_EXCLUSIVE, &vporoot);
292
293         VI_LOCK(vporoot);
294         vporoot->v_iflag &= ~VI_MOUNT;
295         VI_UNLOCK(vporoot);
296         vporoot->v_mountedhere = NULL;
297         mporoot->mnt_flag &= ~MNT_ROOTFS;
298         mporoot->mnt_vnodecovered = NULL;
299         vput(vporoot);
300
301         /* Set up the new rootvnode, and purge the cache */
302         mpnroot->mnt_vnodecovered = NULL;
303         set_rootvnode();
304         cache_purgevfs(rootvnode->v_mount);
305
306         if (mporoot != mpdevfs) {
307                 /* Remount old root under /.mount or /mnt */
308                 fspath = "/.mount";
309                 NDINIT(&nd, LOOKUP, FOLLOW | LOCKLEAF, UIO_SYSSPACE,
310                     fspath, td);
311                 error = namei(&nd);
312                 if (error) {
313                         NDFREE(&nd, NDF_ONLY_PNBUF);
314                         fspath = "/mnt";
315                         NDINIT(&nd, LOOKUP, FOLLOW | LOCKLEAF, UIO_SYSSPACE,
316                             fspath, td);
317                         error = namei(&nd);
318                 }
319                 if (!error) {
320                         vp = nd.ni_vp;
321                         error = (vp->v_type == VDIR) ? 0 : ENOTDIR;
322                         if (!error)
323                                 error = vinvalbuf(vp, V_SAVE, 0, 0);
324                         if (!error) {
325                                 cache_purge(vp);
326                                 mporoot->mnt_vnodecovered = vp;
327                                 vp->v_mountedhere = mporoot;
328                                 strlcpy(mporoot->mnt_stat.f_mntonname,
329                                     fspath, MNAMELEN);
330                                 VOP_UNLOCK(vp, 0);
331                         } else
332                                 vput(vp);
333                 }
334                 NDFREE(&nd, NDF_ONLY_PNBUF);
335
336                 if (error && bootverbose)
337                         printf("mountroot: unable to remount previous root "
338                             "under /.mount or /mnt (error %d).\n", error);
339         }
340
341         /* Remount devfs under /dev */
342         NDINIT(&nd, LOOKUP, FOLLOW | LOCKLEAF, UIO_SYSSPACE, "/dev", td);
343         error = namei(&nd);
344         if (!error) {
345                 vp = nd.ni_vp;
346                 error = (vp->v_type == VDIR) ? 0 : ENOTDIR;
347                 if (!error)
348                         error = vinvalbuf(vp, V_SAVE, 0, 0);
349                 if (!error) {
350                         vpdevfs = mpdevfs->mnt_vnodecovered;
351                         if (vpdevfs != NULL) {
352                                 cache_purge(vpdevfs);
353                                 vpdevfs->v_mountedhere = NULL;
354                                 vrele(vpdevfs);
355                         }
356                         mpdevfs->mnt_vnodecovered = vp;
357                         vp->v_mountedhere = mpdevfs;
358                         VOP_UNLOCK(vp, 0);
359                 } else
360                         vput(vp);
361         }
362         if (error && bootverbose)
363                 printf("mountroot: unable to remount devfs under /dev "
364                     "(error %d).\n", error);
365         NDFREE(&nd, NDF_ONLY_PNBUF);
366
367         if (mporoot == mpdevfs) {
368                 vfs_unbusy(mpdevfs);
369                 /* Unlink the no longer needed /dev/dev -> / symlink */
370                 error = kern_unlinkat(td, AT_FDCWD, "/dev/dev",
371                     UIO_SYSSPACE, 0);
372                 if (error && bootverbose)
373                         printf("mountroot: unable to unlink /dev/dev "
374                             "(error %d)\n", error);
375         }
376 }
377
378 /*
379  * Configuration parser.
380  */
381
382 /* Parser character classes. */
383 #define CC_WHITESPACE           -1
384 #define CC_NONWHITESPACE        -2
385
386 /* Parse errors. */
387 #define PE_EOF                  -1
388 #define PE_EOL                  -2
389
390 static __inline int
391 parse_peek(char **conf)
392 {
393
394         return (**conf);
395 }
396
397 static __inline void
398 parse_poke(char **conf, int c)
399 {
400
401         **conf = c;
402 }
403
404 static __inline void
405 parse_advance(char **conf)
406 {
407
408         (*conf)++;
409 }
410
411 static int
412 parse_skipto(char **conf, int mc)
413 {
414         int c, match;
415
416         while (1) {
417                 c = parse_peek(conf);
418                 if (c == 0)
419                         return (PE_EOF);
420                 switch (mc) {
421                 case CC_WHITESPACE:
422                         match = (c == ' ' || c == '\t' || c == '\n') ? 1 : 0;
423                         break;
424                 case CC_NONWHITESPACE:
425                         if (c == '\n')
426                                 return (PE_EOL);
427                         match = (c != ' ' && c != '\t') ? 1 : 0;
428                         break;
429                 default:
430                         match = (c == mc) ? 1 : 0;
431                         break;
432                 }
433                 if (match)
434                         break;
435                 parse_advance(conf);
436         }
437         return (0);
438 }
439
440 static int
441 parse_token(char **conf, char **tok)
442 {
443         char *p;
444         size_t len;
445         int error;
446
447         *tok = NULL;
448         error = parse_skipto(conf, CC_NONWHITESPACE);
449         if (error)
450                 return (error);
451         p = *conf;
452         error = parse_skipto(conf, CC_WHITESPACE);
453         len = *conf - p;
454         *tok = malloc(len + 1, M_TEMP, M_WAITOK | M_ZERO);
455         bcopy(p, *tok, len);
456         return (0);
457 }
458
459 static void
460 parse_dir_ask_printenv(const char *var)
461 {
462         char *val;
463
464         val = kern_getenv(var);
465         if (val != NULL) {
466                 printf("  %s=%s\n", var, val);
467                 freeenv(val);
468         }
469 }
470
471 static int
472 parse_dir_ask(char **conf)
473 {
474         char name[80];
475         char *mnt;
476         int error;
477
478         printf("\nLoader variables:\n");
479         parse_dir_ask_printenv("vfs.root.mountfrom");
480         parse_dir_ask_printenv("vfs.root.mountfrom.options");
481
482         printf("\nManual root filesystem specification:\n");
483         printf("  <fstype>:<device> [options]\n");
484         printf("      Mount <device> using filesystem <fstype>\n");
485         printf("      and with the specified (optional) option list.\n");
486         printf("\n");
487         printf("    eg. ufs:/dev/da0s1a\n");
488         printf("        zfs:tank\n");
489         printf("        cd9660:/dev/acd0 ro\n");
490         printf("          (which is equivalent to: ");
491         printf("mount -t cd9660 -o ro /dev/acd0 /)\n");
492         printf("\n");
493         printf("  ?               List valid disk boot devices\n");
494         printf("  .               Yield 1 second (for background tasks)\n");
495         printf("  <empty line>    Abort manual input\n");
496
497         do {
498                 error = EINVAL;
499                 printf("\nmountroot> ");
500                 cngets(name, sizeof(name), GETS_ECHO);
501                 if (name[0] == '\0')
502                         break;
503                 if (name[0] == '?' && name[1] == '\0') {
504                         printf("\nList of GEOM managed disk devices:\n  ");
505                         g_dev_print();
506                         continue;
507                 }
508                 if (name[0] == '.' && name[1] == '\0') {
509                         pause("rmask", hz);
510                         continue;
511                 }
512                 mnt = name;
513                 error = parse_mount(&mnt);
514                 if (error == -1)
515                         printf("Invalid file system specification.\n");
516         } while (error != 0);
517
518         return (error);
519 }
520
521 static int
522 parse_dir_md(char **conf)
523 {
524         struct stat sb;
525         struct thread *td;
526         struct md_ioctl *mdio;
527         char *path, *tok;
528         int error, fd, len;
529
530         td = curthread;
531
532         error = parse_token(conf, &tok);
533         if (error)
534                 return (error);
535
536         len = strlen(tok);
537         mdio = malloc(sizeof(*mdio) + len + 1, M_TEMP, M_WAITOK | M_ZERO);
538         path = (void *)(mdio + 1);
539         bcopy(tok, path, len);
540         free(tok, M_TEMP);
541
542         /* Get file status. */
543         error = kern_statat(td, 0, AT_FDCWD, path, UIO_SYSSPACE, &sb, NULL);
544         if (error)
545                 goto out;
546
547         /* Open /dev/mdctl so that we can attach/detach. */
548         error = kern_openat(td, AT_FDCWD, "/dev/" MDCTL_NAME, UIO_SYSSPACE,
549             O_RDWR, 0);
550         if (error)
551                 goto out;
552
553         fd = td->td_retval[0];
554         mdio->md_version = MDIOVERSION;
555         mdio->md_type = MD_VNODE;
556
557         if (root_mount_mddev != -1) {
558                 mdio->md_unit = root_mount_mddev;
559                 DROP_GIANT();
560                 error = kern_ioctl(td, fd, MDIOCDETACH, (void *)mdio);
561                 PICKUP_GIANT();
562                 /* Ignore errors. We don't care. */
563                 root_mount_mddev = -1;
564         }
565
566         mdio->md_file = (void *)(mdio + 1);
567         mdio->md_options = MD_AUTOUNIT | MD_READONLY;
568         mdio->md_mediasize = sb.st_size;
569         mdio->md_unit = 0;
570         DROP_GIANT();
571         error = kern_ioctl(td, fd, MDIOCATTACH, (void *)mdio);
572         PICKUP_GIANT();
573         if (error)
574                 goto out;
575
576         if (mdio->md_unit > 9) {
577                 printf("rootmount: too many md units\n");
578                 mdio->md_file = NULL;
579                 mdio->md_options = 0;
580                 mdio->md_mediasize = 0;
581                 DROP_GIANT();
582                 error = kern_ioctl(td, fd, MDIOCDETACH, (void *)mdio);
583                 PICKUP_GIANT();
584                 /* Ignore errors. We don't care. */
585                 error = ERANGE;
586                 goto out;
587         }
588
589         root_mount_mddev = mdio->md_unit;
590         printf(MD_NAME "%u attached to %s\n", root_mount_mddev, mdio->md_file);
591
592         error = kern_close(td, fd);
593
594  out:
595         free(mdio, M_TEMP);
596         return (error);
597 }
598
599 static int
600 parse_dir_onfail(char **conf)
601 {
602         char *action;
603         int error;
604
605         error = parse_token(conf, &action);
606         if (error)
607                 return (error);
608
609         if (!strcmp(action, "continue"))
610                 root_mount_onfail = A_CONTINUE;
611         else if (!strcmp(action, "panic"))
612                 root_mount_onfail = A_PANIC;
613         else if (!strcmp(action, "reboot"))
614                 root_mount_onfail = A_REBOOT;
615         else if (!strcmp(action, "retry"))
616                 root_mount_onfail = A_RETRY;
617         else {
618                 printf("rootmount: %s: unknown action\n", action);
619                 error = EINVAL;
620         }
621
622         free(action, M_TEMP);
623         return (0);
624 }
625
626 static int
627 parse_dir_timeout(char **conf)
628 {
629         char *tok, *endtok;
630         long secs;
631         int error;
632
633         error = parse_token(conf, &tok);
634         if (error)
635                 return (error);
636
637         secs = strtol(tok, &endtok, 0);
638         error = (secs < 0 || *endtok != '\0') ? EINVAL : 0;
639         if (!error)
640                 root_mount_timeout = secs;
641         free(tok, M_TEMP);
642         return (error);
643 }
644
645 static int
646 parse_directive(char **conf)
647 {
648         char *dir;
649         int error;
650
651         error = parse_token(conf, &dir);
652         if (error)
653                 return (error);
654
655         if (strcmp(dir, ".ask") == 0)
656                 error = parse_dir_ask(conf);
657         else if (strcmp(dir, ".md") == 0)
658                 error = parse_dir_md(conf);
659         else if (strcmp(dir, ".onfail") == 0)
660                 error = parse_dir_onfail(conf);
661         else if (strcmp(dir, ".timeout") == 0)
662                 error = parse_dir_timeout(conf);
663         else {
664                 printf("mountroot: invalid directive `%s'\n", dir);
665                 /* Ignore the rest of the line. */
666                 (void)parse_skipto(conf, '\n');
667                 error = EINVAL;
668         }
669         free(dir, M_TEMP);
670         return (error);
671 }
672
673 static int
674 parse_mount_dev_present(const char *dev)
675 {
676         struct nameidata nd;
677         int error;
678
679         NDINIT(&nd, LOOKUP, FOLLOW | LOCKLEAF, UIO_SYSSPACE, dev, curthread);
680         error = namei(&nd);
681         if (!error)
682                 vput(nd.ni_vp);
683         NDFREE(&nd, NDF_ONLY_PNBUF);
684         return (error != 0) ? 0 : 1;
685 }
686
687 #define ERRMSGL 255
688 static int
689 parse_mount(char **conf)
690 {
691         char *errmsg;
692         struct mntarg *ma;
693         char *dev, *fs, *opts, *tok;
694         int delay, error, timeout;
695
696         error = parse_token(conf, &tok);
697         if (error)
698                 return (error);
699         fs = tok;
700         error = parse_skipto(&tok, ':');
701         if (error) {
702                 free(fs, M_TEMP);
703                 return (error);
704         }
705         parse_poke(&tok, '\0');
706         parse_advance(&tok);
707         dev = tok;
708
709         if (root_mount_mddev != -1) {
710                 /* Handle substitution for the md unit number. */
711                 tok = strstr(dev, "md#");
712                 if (tok != NULL)
713                         tok[2] = '0' + root_mount_mddev;
714         }
715
716         /* Parse options. */
717         error = parse_token(conf, &tok);
718         opts = (error == 0) ? tok : NULL;
719
720         printf("Trying to mount root from %s:%s [%s]...\n", fs, dev,
721             (opts != NULL) ? opts : "");
722
723         errmsg = malloc(ERRMSGL, M_TEMP, M_WAITOK | M_ZERO);
724
725         if (vfs_byname(fs) == NULL) {
726                 strlcpy(errmsg, "unknown file system", ERRMSGL);
727                 error = ENOENT;
728                 goto out;
729         }
730
731         if (strcmp(fs, "zfs") != 0 && strstr(fs, "nfs") == NULL && 
732             dev[0] != '\0' && !parse_mount_dev_present(dev)) {
733                 printf("mountroot: waiting for device %s ...\n", dev);
734                 delay = hz / 10;
735                 timeout = root_mount_timeout * hz;
736                 do {
737                         pause("rmdev", delay);
738                         timeout -= delay;
739                 } while (timeout > 0 && !parse_mount_dev_present(dev));
740                 if (timeout <= 0) {
741                         error = ENODEV;
742                         goto out;
743                 }
744         }
745
746         ma = NULL;
747         ma = mount_arg(ma, "fstype", fs, -1);
748         ma = mount_arg(ma, "fspath", "/", -1);
749         ma = mount_arg(ma, "from", dev, -1);
750         ma = mount_arg(ma, "errmsg", errmsg, ERRMSGL);
751         ma = mount_arg(ma, "ro", NULL, 0);
752         ma = parse_mountroot_options(ma, opts);
753         error = kernel_mount(ma, MNT_ROOTFS);
754
755  out:
756         if (error) {
757                 printf("Mounting from %s:%s failed with error %d",
758                     fs, dev, error);
759                 if (errmsg[0] != '\0')
760                         printf(": %s", errmsg);
761                 printf(".\n");
762         }
763         free(fs, M_TEMP);
764         free(errmsg, M_TEMP);
765         if (opts != NULL)
766                 free(opts, M_TEMP);
767         /* kernel_mount can return -1 on error. */
768         return ((error < 0) ? EDOOFUS : error);
769 }
770 #undef ERRMSGL
771
772 static int
773 vfs_mountroot_parse(struct sbuf *sb, struct mount *mpdevfs)
774 {
775         struct mount *mp;
776         char *conf;
777         int error;
778
779         root_mount_mddev = -1;
780
781 retry:
782         conf = sbuf_data(sb);
783         mp = TAILQ_NEXT(mpdevfs, mnt_list);
784         error = (mp == NULL) ? 0 : EDOOFUS;
785         root_mount_onfail = A_CONTINUE;
786         while (mp == NULL) {
787                 error = parse_skipto(&conf, CC_NONWHITESPACE);
788                 if (error == PE_EOL) {
789                         parse_advance(&conf);
790                         continue;
791                 }
792                 if (error < 0)
793                         break;
794                 switch (parse_peek(&conf)) {
795                 case '#':
796                         error = parse_skipto(&conf, '\n');
797                         break;
798                 case '.':
799                         error = parse_directive(&conf);
800                         break;
801                 default:
802                         error = parse_mount(&conf);
803                         if (error == -1) {
804                                 printf("mountroot: invalid file system "
805                                     "specification.\n");
806                                 error = 0;
807                         }
808                         break;
809                 }
810                 if (error < 0)
811                         break;
812                 /* Ignore any trailing garbage on the line. */
813                 if (parse_peek(&conf) != '\n') {
814                         printf("mountroot: advancing to next directive...\n");
815                         (void)parse_skipto(&conf, '\n');
816                 }
817                 mp = TAILQ_NEXT(mpdevfs, mnt_list);
818         }
819         if (mp != NULL)
820                 return (0);
821
822         /*
823          * We failed to mount (a new) root.
824          */
825         switch (root_mount_onfail) {
826         case A_CONTINUE:
827                 break;
828         case A_PANIC:
829                 panic("mountroot: unable to (re-)mount root.");
830                 /* NOTREACHED */
831         case A_RETRY:
832                 goto retry;
833         case A_REBOOT:
834                 kern_reboot(RB_NOSYNC);
835                 /* NOTREACHED */
836         }
837
838         return (error);
839 }
840
841 static void
842 vfs_mountroot_conf0(struct sbuf *sb)
843 {
844         char *s, *tok, *mnt, *opt;
845         int error;
846
847         sbuf_printf(sb, ".onfail panic\n");
848         sbuf_printf(sb, ".timeout %d\n", root_mount_timeout);
849         if (boothowto & RB_ASKNAME)
850                 sbuf_printf(sb, ".ask\n");
851 #ifdef ROOTDEVNAME
852         if (boothowto & RB_DFLTROOT)
853                 sbuf_printf(sb, "%s\n", ROOTDEVNAME);
854 #endif
855         if (boothowto & RB_CDROM) {
856                 sbuf_printf(sb, "cd9660:/dev/cd0 ro\n");
857                 sbuf_printf(sb, ".timeout 0\n");
858                 sbuf_printf(sb, "cd9660:/dev/acd0 ro\n");
859                 sbuf_printf(sb, ".timeout %d\n", root_mount_timeout);
860         }
861         s = kern_getenv("vfs.root.mountfrom");
862         if (s != NULL) {
863                 opt = kern_getenv("vfs.root.mountfrom.options");
864                 tok = s;
865                 error = parse_token(&tok, &mnt);
866                 while (!error) {
867                         sbuf_printf(sb, "%s %s\n", mnt,
868                             (opt != NULL) ? opt : "");
869                         free(mnt, M_TEMP);
870                         error = parse_token(&tok, &mnt);
871                 }
872                 if (opt != NULL)
873                         freeenv(opt);
874                 freeenv(s);
875         }
876         if (rootdevnames[0] != NULL)
877                 sbuf_printf(sb, "%s\n", rootdevnames[0]);
878         if (rootdevnames[1] != NULL)
879                 sbuf_printf(sb, "%s\n", rootdevnames[1]);
880 #ifdef ROOTDEVNAME
881         if (!(boothowto & RB_DFLTROOT))
882                 sbuf_printf(sb, "%s\n", ROOTDEVNAME);
883 #endif
884         if (!(boothowto & RB_ASKNAME))
885                 sbuf_printf(sb, ".ask\n");
886 }
887
888 static int
889 vfs_mountroot_readconf(struct thread *td, struct sbuf *sb)
890 {
891         static char buf[128];
892         struct nameidata nd;
893         off_t ofs;
894         ssize_t resid;
895         int error, flags, len;
896
897         NDINIT(&nd, LOOKUP, FOLLOW, UIO_SYSSPACE, "/.mount.conf", td);
898         flags = FREAD;
899         error = vn_open(&nd, &flags, 0, NULL);
900         if (error)
901                 return (error);
902
903         NDFREE(&nd, NDF_ONLY_PNBUF);
904         ofs = 0;
905         len = sizeof(buf) - 1;
906         while (1) {
907                 error = vn_rdwr(UIO_READ, nd.ni_vp, buf, len, ofs,
908                     UIO_SYSSPACE, IO_NODELOCKED, td->td_ucred,
909                     NOCRED, &resid, td);
910                 if (error)
911                         break;
912                 if (resid == len)
913                         break;
914                 buf[len - resid] = 0;
915                 sbuf_printf(sb, "%s", buf);
916                 ofs += len - resid;
917         }
918
919         VOP_UNLOCK(nd.ni_vp, 0);
920         vn_close(nd.ni_vp, FREAD, td->td_ucred, td);
921         return (error);
922 }
923
924 static void
925 vfs_mountroot_wait(void)
926 {
927         struct root_hold_token *h;
928         struct timeval lastfail;
929         int curfail;
930
931         curfail = 0;
932         while (1) {
933                 DROP_GIANT();
934                 g_waitidle();
935                 PICKUP_GIANT();
936                 mtx_lock(&root_holds_mtx);
937                 if (LIST_EMPTY(&root_holds)) {
938                         mtx_unlock(&root_holds_mtx);
939                         break;
940                 }
941                 if (ppsratecheck(&lastfail, &curfail, 1)) {
942                         printf("Root mount waiting for:");
943                         LIST_FOREACH(h, &root_holds, list)
944                                 printf(" %s", h->who);
945                         printf("\n");
946                 }
947                 msleep(&root_holds, &root_holds_mtx, PZERO | PDROP, "roothold",
948                     hz);
949         }
950 }
951
952 void
953 vfs_mountroot(void)
954 {
955         struct mount *mp;
956         struct sbuf *sb;
957         struct thread *td;
958         time_t timebase;
959         int error;
960
961         td = curthread;
962
963         vfs_mountroot_wait();
964
965         sb = sbuf_new_auto();
966         vfs_mountroot_conf0(sb);
967         sbuf_finish(sb);
968
969         error = vfs_mountroot_devfs(td, &mp);
970         while (!error) {
971                 error = vfs_mountroot_parse(sb, mp);
972                 if (!error) {
973                         vfs_mountroot_shuffle(td, mp);
974                         sbuf_clear(sb);
975                         error = vfs_mountroot_readconf(td, sb);
976                         sbuf_finish(sb);
977                 }
978         }
979
980         sbuf_delete(sb);
981
982         /*
983          * Iterate over all currently mounted file systems and use
984          * the time stamp found to check and/or initialize the RTC.
985          * Call inittodr() only once and pass it the largest of the
986          * timestamps we encounter.
987          */
988         timebase = 0;
989         mtx_lock(&mountlist_mtx);
990         mp = TAILQ_FIRST(&mountlist);
991         while (mp != NULL) {
992                 if (mp->mnt_time > timebase)
993                         timebase = mp->mnt_time;
994                 mp = TAILQ_NEXT(mp, mnt_list);
995         }
996         mtx_unlock(&mountlist_mtx);
997         inittodr(timebase);
998
999         /* Keep prison0's root in sync with the global rootvnode. */
1000         mtx_lock(&prison0.pr_mtx);
1001         prison0.pr_root = rootvnode;
1002         vref(prison0.pr_root);
1003         mtx_unlock(&prison0.pr_mtx);
1004
1005         mtx_lock(&root_holds_mtx);
1006         atomic_store_rel_int(&root_mount_complete, 1);
1007         wakeup(&root_mount_complete);
1008         mtx_unlock(&root_holds_mtx);
1009
1010         EVENTHANDLER_INVOKE(mountroot);
1011 }
1012
1013 static struct mntarg *
1014 parse_mountroot_options(struct mntarg *ma, const char *options)
1015 {
1016         char *p;
1017         char *name, *name_arg;
1018         char *val, *val_arg;
1019         char *opts;
1020
1021         if (options == NULL || options[0] == '\0')
1022                 return (ma);
1023
1024         p = opts = strdup(options, M_MOUNT);
1025         if (opts == NULL) {
1026                 return (ma);
1027         }
1028
1029         while((name = strsep(&p, ",")) != NULL) {
1030                 if (name[0] == '\0')
1031                         break;
1032
1033                 val = strchr(name, '=');
1034                 if (val != NULL) {
1035                         *val = '\0';
1036                         ++val;
1037                 }
1038                 if( strcmp(name, "rw") == 0 ||
1039                     strcmp(name, "noro") == 0) {
1040                         /*
1041                          * The first time we mount the root file system,
1042                          * we need to mount 'ro', so We need to ignore
1043                          * 'rw' and 'noro' mount options.
1044                          */
1045                         continue;
1046                 }
1047                 name_arg = strdup(name, M_MOUNT);
1048                 val_arg = NULL;
1049                 if (val != NULL)
1050                         val_arg = strdup(val, M_MOUNT);
1051
1052                 ma = mount_arg(ma, name_arg, val_arg,
1053                     (val_arg != NULL ? -1 : 0));
1054         }
1055         free(opts, M_MOUNT);
1056         return (ma);
1057 }