]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - sys/fs/fuse/fuse_ipc.c
fusefs: multiple interruptility improvements
[FreeBSD/FreeBSD.git] / sys / fs / fuse / fuse_ipc.c
1 /*-
2  * SPDX-License-Identifier: BSD-3-Clause
3  *
4  * Copyright (c) 2007-2009 Google Inc. and Amit Singh
5  * All rights reserved.
6  *
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions are
9  * met:
10  *
11  * * Redistributions of source code must retain the above copyright
12  *   notice, this list of conditions and the following disclaimer.
13  * * Redistributions in binary form must reproduce the above
14  *   copyright notice, this list of conditions and the following disclaimer
15  *   in the documentation and/or other materials provided with the
16  *   distribution.
17  * * Neither the name of Google Inc. nor the names of its
18  *   contributors may be used to endorse or promote products derived from
19  *   this software without specific prior written permission.
20  *
21  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
22  * "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
23  * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
24  * A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
25  * OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
26  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
27  * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
28  * DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
29  * THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
30  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
31  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
32  *
33  * Copyright (C) 2005 Csaba Henk.
34  * All rights reserved.
35  *
36  * Copyright (c) 2019 The FreeBSD Foundation
37  *
38  * Portions of this software were developed by BFF Storage Systems, LLC under
39  * sponsorship from the FreeBSD Foundation.
40  *
41  * Redistribution and use in source and binary forms, with or without
42  * modification, are permitted provided that the following conditions
43  * are met:
44  * 1. Redistributions of source code must retain the above copyright
45  *    notice, this list of conditions and the following disclaimer.
46  * 2. Redistributions in binary form must reproduce the above copyright
47  *    notice, this list of conditions and the following disclaimer in the
48  *    documentation and/or other materials provided with the distribution.
49  *
50  * THIS SOFTWARE IS PROVIDED BY AUTHOR AND CONTRIBUTORS ``AS IS'' AND
51  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
52  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
53  * ARE DISCLAIMED.  IN NO EVENT SHALL AUTHOR OR CONTRIBUTORS BE LIABLE
54  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
55  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
56  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
57  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
58  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
59  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
60  * SUCH DAMAGE.
61  */
62
63 #include <sys/cdefs.h>
64 __FBSDID("$FreeBSD$");
65
66 #include <sys/param.h>
67 #include <sys/module.h>
68 #include <sys/systm.h>
69 #include <sys/counter.h>
70 #include <sys/errno.h>
71 #include <sys/kernel.h>
72 #include <sys/conf.h>
73 #include <sys/uio.h>
74 #include <sys/malloc.h>
75 #include <sys/queue.h>
76 #include <sys/lock.h>
77 #include <sys/sx.h>
78 #include <sys/mutex.h>
79 #include <sys/proc.h>
80 #include <sys/mount.h>
81 #include <sys/sdt.h>
82 #include <sys/vnode.h>
83 #include <sys/signalvar.h>
84 #include <sys/syscallsubr.h>
85 #include <sys/sysctl.h>
86 #include <vm/uma.h>
87
88 #include "fuse.h"
89 #include "fuse_node.h"
90 #include "fuse_ipc.h"
91 #include "fuse_internal.h"
92
93 SDT_PROVIDER_DECLARE(fusefs);
94 /* 
95  * Fuse trace probe:
96  * arg0: verbosity.  Higher numbers give more verbose messages
97  * arg1: Textual message
98  */
99 SDT_PROBE_DEFINE2(fusefs, , ipc, trace, "int", "char*");
100
101 static void fdisp_make_pid(struct fuse_dispatcher *fdip, enum fuse_opcode op,
102     struct fuse_data *data, uint64_t nid, pid_t pid, struct ucred *cred);
103 static void fuse_interrupt_send(struct fuse_ticket *otick, int err);
104 static struct fuse_ticket *fticket_alloc(struct fuse_data *data);
105 static void fticket_refresh(struct fuse_ticket *ftick);
106 static void fticket_destroy(struct fuse_ticket *ftick);
107 static int fticket_wait_answer(struct fuse_ticket *ftick);
108 static inline int 
109 fticket_aw_pull_uio(struct fuse_ticket *ftick,
110     struct uio *uio);
111
112 static int fuse_body_audit(struct fuse_ticket *ftick, size_t blen);
113
114 static fuse_handler_t fuse_standard_handler;
115
116 static counter_u64_t fuse_ticket_count;
117 SYSCTL_COUNTER_U64(_vfs_fusefs_stats, OID_AUTO, ticket_count, CTLFLAG_RD,
118     &fuse_ticket_count, "Number of allocated tickets");
119
120 static long fuse_iov_permanent_bufsize = 1 << 19;
121
122 SYSCTL_LONG(_vfs_fusefs, OID_AUTO, iov_permanent_bufsize, CTLFLAG_RW,
123     &fuse_iov_permanent_bufsize, 0,
124     "limit for permanently stored buffer size for fuse_iovs");
125 static int fuse_iov_credit = 16;
126
127 SYSCTL_INT(_vfs_fusefs, OID_AUTO, iov_credit, CTLFLAG_RW,
128     &fuse_iov_credit, 0,
129     "how many times is an oversized fuse_iov tolerated");
130
131 MALLOC_DEFINE(M_FUSEMSG, "fuse_msgbuf", "fuse message buffer");
132 static uma_zone_t ticket_zone;
133
134 /* 
135  * TODO: figure out how to timeout INTERRUPT requests, because the daemon may
136  * leagally never respond
137  */
138 static int
139 fuse_interrupt_callback(struct fuse_ticket *tick, struct uio *uio)
140 {
141         struct fuse_ticket *otick, *x_tick;
142         struct fuse_interrupt_in *fii;
143         struct fuse_data *data = tick->tk_data;
144         bool found = false;
145
146         fii = (struct fuse_interrupt_in*)((char*)tick->tk_ms_fiov.base +
147                 sizeof(struct fuse_in_header));
148
149         fuse_lck_mtx_lock(data->aw_mtx);
150         TAILQ_FOREACH_SAFE(otick, &data->aw_head, tk_aw_link, x_tick) {
151                 if (otick->tk_unique == fii->unique) {
152                         found = true;
153                         break;
154                 }
155         }
156         fuse_lck_mtx_unlock(data->aw_mtx);
157
158         if (!found) {
159                 /* Original is already complete.  Just return */
160                 return 0;
161         }
162
163         /* Clear the original ticket's interrupt association */
164         otick->irq_unique = 0;
165
166         if (tick->tk_aw_ohead.error == ENOSYS) {
167                 fsess_set_notimpl(data->mp, FUSE_INTERRUPT);
168                 return 0;
169         } else if (tick->tk_aw_ohead.error == EAGAIN) {
170                 /* 
171                  * There are two reasons we might get this:
172                  * 1) the daemon received the INTERRUPT request before the
173                  *    original, or
174                  * 2) the daemon received the INTERRUPT request after it
175                  *    completed the original request.
176                  * In the first case we should re-send the INTERRUPT.  In the
177                  * second, we should ignore it.
178                  */
179                 /* Resend */
180                 fuse_interrupt_send(otick, EINTR);
181                 return 0;
182         } else {
183                 /* Illegal FUSE_INTERRUPT response */
184                 return EINVAL;
185         }
186 }
187
188 /* Interrupt the operation otick.  Return err as its error code */
189 void
190 fuse_interrupt_send(struct fuse_ticket *otick, int err)
191 {
192         struct fuse_dispatcher fdi;
193         struct fuse_interrupt_in *fii;
194         struct fuse_in_header *ftick_hdr;
195         struct fuse_data *data = otick->tk_data;
196         struct fuse_ticket *tick, *xtick;
197         struct ucred reused_creds;
198         gid_t reused_groups[1];
199
200         if (otick->irq_unique == 0) {
201                 /* 
202                  * If the daemon hasn't yet received otick, then we can answer
203                  * it ourselves and return.
204                  */
205                 fuse_lck_mtx_lock(data->ms_mtx);
206                 STAILQ_FOREACH_SAFE(tick, &otick->tk_data->ms_head, tk_ms_link,
207                         xtick) {
208                         if (tick == otick) {
209                                 STAILQ_REMOVE(&otick->tk_data->ms_head, tick,
210                                         fuse_ticket, tk_ms_link);
211                                 otick->tk_data->ms_count--;
212                                 otick->tk_ms_link.stqe_next = NULL;
213                                 fuse_lck_mtx_unlock(data->ms_mtx);
214
215                                 fuse_lck_mtx_lock(otick->tk_aw_mtx);
216                                 if (!fticket_answered(otick)) {
217                                         fticket_set_answered(otick);
218                                         otick->tk_aw_errno = err;
219                                         wakeup(otick);
220                                 }
221                                 fuse_lck_mtx_unlock(otick->tk_aw_mtx);
222
223                                 fuse_ticket_drop(tick);
224                                 return;
225                         }
226                 }
227                 fuse_lck_mtx_unlock(data->ms_mtx);
228
229                 /*
230                  * If the fuse daemon doesn't support interrupts, then there's
231                  * nothing more that we can do
232                  */
233                 if (!fsess_isimpl(data->mp, FUSE_INTERRUPT))
234                         return;
235
236                 /* 
237                  * If the fuse daemon has already received otick, then we must
238                  * send FUSE_INTERRUPT.
239                  */
240                 ftick_hdr = fticket_in_header(otick);
241                 reused_creds.cr_uid = ftick_hdr->uid;
242                 reused_groups[0] = ftick_hdr->gid;
243                 reused_creds.cr_groups = reused_groups;
244                 fdisp_init(&fdi, sizeof(*fii));
245                 fdisp_make_pid(&fdi, FUSE_INTERRUPT, data, ftick_hdr->nodeid,
246                         ftick_hdr->pid, &reused_creds);
247
248                 fii = fdi.indata;
249                 fii->unique = otick->tk_unique;
250                 fuse_insert_callback(fdi.tick, fuse_interrupt_callback);
251
252                 otick->irq_unique = fdi.tick->tk_unique;
253                 /* Interrupt ops should be delivered ASAP */
254                 fuse_insert_message(fdi.tick, true);
255                 fdisp_destroy(&fdi);
256         } else {
257                 /* This ticket has already been interrupted */
258         }
259 }
260
261 void
262 fiov_init(struct fuse_iov *fiov, size_t size)
263 {
264         uint32_t msize = FU_AT_LEAST(size);
265
266         fiov->len = 0;
267
268         fiov->base = malloc(msize, M_FUSEMSG, M_WAITOK | M_ZERO);
269
270         fiov->allocated_size = msize;
271         fiov->credit = fuse_iov_credit;
272 }
273
274 void
275 fiov_teardown(struct fuse_iov *fiov)
276 {
277         MPASS(fiov->base != NULL);
278         free(fiov->base, M_FUSEMSG);
279 }
280
281 void
282 fiov_adjust(struct fuse_iov *fiov, size_t size)
283 {
284         if (fiov->allocated_size < size ||
285             (fuse_iov_permanent_bufsize >= 0 &&
286             fiov->allocated_size - size > fuse_iov_permanent_bufsize &&
287             --fiov->credit < 0)) {
288
289                 fiov->base = realloc(fiov->base, FU_AT_LEAST(size), M_FUSEMSG,
290                     M_WAITOK | M_ZERO);
291                 if (!fiov->base) {
292                         panic("FUSE: realloc failed");
293                 }
294                 fiov->allocated_size = FU_AT_LEAST(size);
295                 fiov->credit = fuse_iov_credit;
296                 /* Clear data buffer after reallocation */
297                 bzero(fiov->base, size);
298         } else if (size > fiov->len) {
299                 /* Clear newly extended portion of data buffer */
300                 bzero((char*)fiov->base + fiov->len, size - fiov->len);
301         }
302         fiov->len = size;
303 }
304
305 /* Resize the fiov if needed, and clear it's buffer */
306 void
307 fiov_refresh(struct fuse_iov *fiov)
308 {
309         fiov_adjust(fiov, 0);
310 }
311
312 static int
313 fticket_ctor(void *mem, int size, void *arg, int flags)
314 {
315         struct fuse_ticket *ftick = mem;
316         struct fuse_data *data = arg;
317
318         FUSE_ASSERT_MS_DONE(ftick);
319         FUSE_ASSERT_AW_DONE(ftick);
320
321         ftick->tk_data = data;
322
323         if (ftick->tk_unique != 0)
324                 fticket_refresh(ftick);
325
326         /* May be truncated to 32 bits */
327         ftick->tk_unique = atomic_fetchadd_long(&data->ticketer, 1);
328         if (ftick->tk_unique == 0)
329                 ftick->tk_unique = atomic_fetchadd_long(&data->ticketer, 1);
330
331         ftick->irq_unique = 0;
332
333         refcount_init(&ftick->tk_refcount, 1);
334         counter_u64_add(fuse_ticket_count, 1);
335
336         return 0;
337 }
338
339 static void
340 fticket_dtor(void *mem, int size, void *arg)
341 {
342 #ifdef INVARIANTS
343         struct fuse_ticket *ftick = mem;
344 #endif
345
346         FUSE_ASSERT_MS_DONE(ftick);
347         FUSE_ASSERT_AW_DONE(ftick);
348
349         counter_u64_add(fuse_ticket_count, -1);
350 }
351
352 static int
353 fticket_init(void *mem, int size, int flags)
354 {
355         struct fuse_ticket *ftick = mem;
356
357         bzero(ftick, sizeof(struct fuse_ticket));
358
359         fiov_init(&ftick->tk_ms_fiov, sizeof(struct fuse_in_header));
360         ftick->tk_ms_type = FT_M_FIOV;
361
362         mtx_init(&ftick->tk_aw_mtx, "fuse answer delivery mutex", NULL, MTX_DEF);
363         fiov_init(&ftick->tk_aw_fiov, 0);
364         ftick->tk_aw_type = FT_A_FIOV;
365
366         return 0;
367 }
368
369 static void
370 fticket_fini(void *mem, int size)
371 {
372         struct fuse_ticket *ftick = mem;
373
374         fiov_teardown(&ftick->tk_ms_fiov);
375         fiov_teardown(&ftick->tk_aw_fiov);
376         mtx_destroy(&ftick->tk_aw_mtx);
377 }
378
379 static inline struct fuse_ticket *
380 fticket_alloc(struct fuse_data *data)
381 {
382         return uma_zalloc_arg(ticket_zone, data, M_WAITOK);
383 }
384
385 static inline void
386 fticket_destroy(struct fuse_ticket *ftick)
387 {
388         return uma_zfree(ticket_zone, ftick);
389 }
390
391 static inline
392 void
393 fticket_refresh(struct fuse_ticket *ftick)
394 {
395         FUSE_ASSERT_MS_DONE(ftick);
396         FUSE_ASSERT_AW_DONE(ftick);
397
398         fiov_refresh(&ftick->tk_ms_fiov);
399         ftick->tk_ms_bufdata = NULL;
400         ftick->tk_ms_bufsize = 0;
401         ftick->tk_ms_type = FT_M_FIOV;
402
403         bzero(&ftick->tk_aw_ohead, sizeof(struct fuse_out_header));
404
405         fiov_refresh(&ftick->tk_aw_fiov);
406         ftick->tk_aw_errno = 0;
407         ftick->tk_aw_bufdata = NULL;
408         ftick->tk_aw_bufsize = 0;
409         ftick->tk_aw_type = FT_A_FIOV;
410
411         ftick->tk_flag = 0;
412 }
413
414 /* Prepar the ticket to be reused, but don't clear its data buffers */
415 static inline void
416 fticket_reset(struct fuse_ticket *ftick)
417 {
418         FUSE_ASSERT_MS_DONE(ftick);
419         FUSE_ASSERT_AW_DONE(ftick);
420
421         ftick->tk_ms_bufdata = NULL;
422         ftick->tk_ms_bufsize = 0;
423         ftick->tk_ms_type = FT_M_FIOV;
424
425         bzero(&ftick->tk_aw_ohead, sizeof(struct fuse_out_header));
426
427         ftick->tk_aw_errno = 0;
428         ftick->tk_aw_bufdata = NULL;
429         ftick->tk_aw_bufsize = 0;
430         ftick->tk_aw_type = FT_A_FIOV;
431
432         ftick->tk_flag = 0;
433 }
434
435 static int
436 fticket_wait_answer(struct fuse_ticket *ftick)
437 {
438         struct thread *td = curthread;
439         sigset_t blockedset, oldset;
440         int err = 0, stops_deferred;
441         struct fuse_data *data;
442
443         if (fsess_isimpl(ftick->tk_data->mp, FUSE_INTERRUPT)) {
444                 SIGEMPTYSET(blockedset);
445         } else {
446                 /* May as well block all signals */
447                 SIGFILLSET(blockedset);
448         }
449         stops_deferred = sigdeferstop(SIGDEFERSTOP_SILENT);
450         kern_sigprocmask(td, SIG_BLOCK, NULL, &oldset, 0);
451
452         fuse_lck_mtx_lock(ftick->tk_aw_mtx);
453
454 retry:
455         if (fticket_answered(ftick)) {
456                 goto out;
457         }
458         data = ftick->tk_data;
459
460         if (fdata_get_dead(data)) {
461                 err = ENOTCONN;
462                 fticket_set_answered(ftick);
463                 goto out;
464         }
465         kern_sigprocmask(td, SIG_BLOCK, &blockedset, NULL, 0);
466         err = msleep(ftick, &ftick->tk_aw_mtx, PCATCH, "fu_ans",
467             data->daemon_timeout * hz);
468         kern_sigprocmask(td, SIG_SETMASK, &oldset, NULL, 0);
469         if (err == EWOULDBLOCK) {
470                 SDT_PROBE2(fusefs, , ipc, trace, 3,
471                         "fticket_wait_answer: EWOULDBLOCK");
472 #ifdef XXXIP                            /* die conditionally */
473                 if (!fdata_get_dead(data)) {
474                         fdata_set_dead(data);
475                 }
476 #endif
477                 err = ETIMEDOUT;
478                 fticket_set_answered(ftick);
479         } else if ((err == EINTR || err == ERESTART)) {
480                 /*
481                  * Whether we get EINTR or ERESTART depends on whether
482                  * SA_RESTART was set by sigaction(2).
483                  *
484                  * Try to interrupt the operation and wait for an EINTR response
485                  * to the original operation.  If the file system does not
486                  * support FUSE_INTERRUPT, then we'll just wait for it to
487                  * complete like normal.  If it does support FUSE_INTERRUPT,
488                  * then it will either respond EINTR to the original operation,
489                  * or EAGAIN to the interrupt.
490                  */
491                 sigset_t tmpset;
492                 int sig;
493
494                 SDT_PROBE2(fusefs, , ipc, trace, 4,
495                         "fticket_wait_answer: interrupt");
496                 fuse_lck_mtx_unlock(ftick->tk_aw_mtx);
497                 fuse_interrupt_send(ftick, err);
498
499                 PROC_LOCK(td->td_proc);
500                 mtx_lock(&td->td_proc->p_sigacts->ps_mtx);
501                 sig = cursig(td);
502                 tmpset = td->td_proc->p_siglist;
503                 SIGSETOR(tmpset, td->td_siglist);
504                 mtx_unlock(&td->td_proc->p_sigacts->ps_mtx);
505                 PROC_UNLOCK(td->td_proc);
506
507                 fuse_lck_mtx_lock(ftick->tk_aw_mtx);
508                 if (!SIGISMEMBER(tmpset, SIGKILL)) { 
509                         /* 
510                          * Block the just-delivered signal while we wait for an
511                          * interrupt response
512                          */
513                         SIGADDSET(blockedset, sig);
514                         goto retry;
515                 } else {
516                         /* Return immediately for fatal signals */
517                 }
518         } else if (err) {
519                 SDT_PROBE2(fusefs, , ipc, trace, 6,
520                         "fticket_wait_answer: other error");
521         } else {
522                 SDT_PROBE2(fusefs, , ipc, trace, 7, "fticket_wait_answer: OK");
523         }
524 out:
525         if (!(err || fticket_answered(ftick))) {
526                 SDT_PROBE2(fusefs, , ipc, trace, 1,
527                         "FUSE: requester was woken up but still no answer");
528                 err = ENXIO;
529         }
530         fuse_lck_mtx_unlock(ftick->tk_aw_mtx);
531         sigallowstop(stops_deferred);
532
533         return err;
534 }
535
536 static  inline
537 int
538 fticket_aw_pull_uio(struct fuse_ticket *ftick, struct uio *uio)
539 {
540         int err = 0;
541         size_t len = uio_resid(uio);
542
543         if (len) {
544                 switch (ftick->tk_aw_type) {
545                 case FT_A_FIOV:
546                         fiov_adjust(fticket_resp(ftick), len);
547                         err = uiomove(fticket_resp(ftick)->base, len, uio);
548                         break;
549
550                 case FT_A_BUF:
551                         ftick->tk_aw_bufsize = len;
552                         err = uiomove(ftick->tk_aw_bufdata, len, uio);
553                         break;
554
555                 default:
556                         panic("FUSE: unknown answer type for ticket %p", ftick);
557                 }
558         }
559         return err;
560 }
561
562 int
563 fticket_pull(struct fuse_ticket *ftick, struct uio *uio)
564 {
565         int err = 0;
566
567         if (ftick->tk_aw_ohead.error) {
568                 return 0;
569         }
570         err = fuse_body_audit(ftick, uio_resid(uio));
571         if (!err) {
572                 err = fticket_aw_pull_uio(ftick, uio);
573         }
574         return err;
575 }
576
577 struct fuse_data *
578 fdata_alloc(struct cdev *fdev, struct ucred *cred)
579 {
580         struct fuse_data *data;
581
582         data = malloc(sizeof(struct fuse_data), M_FUSEMSG, M_WAITOK | M_ZERO);
583
584         data->fdev = fdev;
585         mtx_init(&data->ms_mtx, "fuse message list mutex", NULL, MTX_DEF);
586         STAILQ_INIT(&data->ms_head);
587         data->ms_count = 0;
588         knlist_init_mtx(&data->ks_rsel.si_note, &data->ms_mtx);
589         mtx_init(&data->aw_mtx, "fuse answer list mutex", NULL, MTX_DEF);
590         TAILQ_INIT(&data->aw_head);
591         data->daemoncred = crhold(cred);
592         data->daemon_timeout = FUSE_DEFAULT_DAEMON_TIMEOUT;
593         sx_init(&data->rename_lock, "fuse rename lock");
594         data->ref = 1;
595
596         return data;
597 }
598
599 void
600 fdata_trydestroy(struct fuse_data *data)
601 {
602         data->ref--;
603         MPASS(data->ref >= 0);
604         if (data->ref != 0)
605                 return;
606
607         /* Driving off stage all that stuff thrown at device... */
608         sx_destroy(&data->rename_lock);
609         crfree(data->daemoncred);
610         mtx_destroy(&data->aw_mtx);
611         knlist_delete(&data->ks_rsel.si_note, curthread, 0);
612         knlist_destroy(&data->ks_rsel.si_note);
613         mtx_destroy(&data->ms_mtx);
614
615         free(data, M_FUSEMSG);
616 }
617
618 void
619 fdata_set_dead(struct fuse_data *data)
620 {
621         FUSE_LOCK();
622         if (fdata_get_dead(data)) {
623                 FUSE_UNLOCK();
624                 return;
625         }
626         fuse_lck_mtx_lock(data->ms_mtx);
627         data->dataflags |= FSESS_DEAD;
628         wakeup_one(data);
629         selwakeuppri(&data->ks_rsel, PZERO + 1);
630         wakeup(&data->ticketer);
631         fuse_lck_mtx_unlock(data->ms_mtx);
632         FUSE_UNLOCK();
633 }
634
635 struct fuse_ticket *
636 fuse_ticket_fetch(struct fuse_data *data)
637 {
638         int err = 0;
639         struct fuse_ticket *ftick;
640
641         ftick = fticket_alloc(data);
642
643         if (!(data->dataflags & FSESS_INITED)) {
644                 /* Sleep until get answer for INIT messsage */
645                 FUSE_LOCK();
646                 if (!(data->dataflags & FSESS_INITED) && data->ticketer > 2) {
647                         err = msleep(&data->ticketer, &fuse_mtx, PCATCH | PDROP,
648                             "fu_ini", 0);
649                         if (err)
650                                 fdata_set_dead(data);
651                 } else
652                         FUSE_UNLOCK();
653         }
654         return ftick;
655 }
656
657 int
658 fuse_ticket_drop(struct fuse_ticket *ftick)
659 {
660         int die;
661
662         die = refcount_release(&ftick->tk_refcount);
663         if (die)
664                 fticket_destroy(ftick);
665
666         return die;
667 }
668
669 void
670 fuse_insert_callback(struct fuse_ticket *ftick, fuse_handler_t * handler)
671 {
672         if (fdata_get_dead(ftick->tk_data)) {
673                 return;
674         }
675         ftick->tk_aw_handler = handler;
676
677         fuse_lck_mtx_lock(ftick->tk_data->aw_mtx);
678         fuse_aw_push(ftick);
679         fuse_lck_mtx_unlock(ftick->tk_data->aw_mtx);
680 }
681
682 /*
683  * Insert a new upgoing ticket into the message queue
684  *
685  * If urgent is true, insert at the front of the queue.  Otherwise, insert in
686  * FIFO order.
687  */
688 void
689 fuse_insert_message(struct fuse_ticket *ftick, bool urgent)
690 {
691         if (ftick->tk_flag & FT_DIRTY) {
692                 panic("FUSE: ticket reused without being refreshed");
693         }
694         ftick->tk_flag |= FT_DIRTY;
695
696         if (fdata_get_dead(ftick->tk_data)) {
697                 return;
698         }
699         fuse_lck_mtx_lock(ftick->tk_data->ms_mtx);
700         if (urgent)
701                 fuse_ms_push_head(ftick);
702         else
703                 fuse_ms_push(ftick);
704         wakeup_one(ftick->tk_data);
705         selwakeuppri(&ftick->tk_data->ks_rsel, PZERO + 1);
706         KNOTE_LOCKED(&ftick->tk_data->ks_rsel.si_note, 0);
707         fuse_lck_mtx_unlock(ftick->tk_data->ms_mtx);
708 }
709
710 static int
711 fuse_body_audit(struct fuse_ticket *ftick, size_t blen)
712 {
713         int err = 0;
714         enum fuse_opcode opcode;
715
716         opcode = fticket_opcode(ftick);
717
718         switch (opcode) {
719         case FUSE_BMAP:
720                 err = (blen == sizeof(struct fuse_bmap_out)) ? 0 : EINVAL;
721                 break;
722
723         case FUSE_LINK:
724         case FUSE_LOOKUP:
725         case FUSE_MKDIR:
726         case FUSE_MKNOD:
727         case FUSE_SYMLINK:
728                 if (fuse_libabi_geq(ftick->tk_data, 7, 9)) {
729                         err = (blen == sizeof(struct fuse_entry_out)) ?
730                                 0 : EINVAL;
731                 } else {
732                         err = (blen == FUSE_COMPAT_ENTRY_OUT_SIZE) ? 0 : EINVAL;
733                 }
734                 break;
735
736         case FUSE_FORGET:
737                 panic("FUSE: a handler has been intalled for FUSE_FORGET");
738                 break;
739
740         case FUSE_GETATTR:
741         case FUSE_SETATTR:
742                 if (fuse_libabi_geq(ftick->tk_data, 7, 9)) {
743                         err = (blen == sizeof(struct fuse_attr_out)) ? 
744                           0 : EINVAL;
745                 } else {
746                         err = (blen == FUSE_COMPAT_ATTR_OUT_SIZE) ? 0 : EINVAL;
747                 }
748                 break;
749
750         case FUSE_READLINK:
751                 err = (PAGE_SIZE >= blen) ? 0 : EINVAL;
752                 break;
753
754         case FUSE_UNLINK:
755                 err = (blen == 0) ? 0 : EINVAL;
756                 break;
757
758         case FUSE_RMDIR:
759                 err = (blen == 0) ? 0 : EINVAL;
760                 break;
761
762         case FUSE_RENAME:
763                 err = (blen == 0) ? 0 : EINVAL;
764                 break;
765
766         case FUSE_OPEN:
767                 err = (blen == sizeof(struct fuse_open_out)) ? 0 : EINVAL;
768                 break;
769
770         case FUSE_READ:
771                 err = (((struct fuse_read_in *)(
772                     (char *)ftick->tk_ms_fiov.base +
773                     sizeof(struct fuse_in_header)
774                     ))->size >= blen) ? 0 : EINVAL;
775                 break;
776
777         case FUSE_WRITE:
778                 err = (blen == sizeof(struct fuse_write_out)) ? 0 : EINVAL;
779                 break;
780
781         case FUSE_STATFS:
782                 if (fuse_libabi_geq(ftick->tk_data, 7, 4)) {
783                         err = (blen == sizeof(struct fuse_statfs_out)) ? 
784                           0 : EINVAL;
785                 } else {
786                         err = (blen == FUSE_COMPAT_STATFS_SIZE) ? 0 : EINVAL;
787                 }
788                 break;
789
790         case FUSE_RELEASE:
791                 err = (blen == 0) ? 0 : EINVAL;
792                 break;
793
794         case FUSE_FSYNC:
795                 err = (blen == 0) ? 0 : EINVAL;
796                 break;
797
798         case FUSE_SETXATTR:
799                 err = (blen == 0) ? 0 : EINVAL;
800                 break;
801
802         case FUSE_GETXATTR:
803         case FUSE_LISTXATTR:
804                 /*
805                  * These can have varying response lengths, and 0 length
806                  * isn't necessarily invalid.
807                  */
808                 err = 0;
809                 break;
810
811         case FUSE_REMOVEXATTR:
812                 err = (blen == 0) ? 0 : EINVAL;
813                 break;
814
815         case FUSE_FLUSH:
816                 err = (blen == 0) ? 0 : EINVAL;
817                 break;
818
819         case FUSE_INIT:
820                 if (blen == sizeof(struct fuse_init_out) ||
821                     blen == FUSE_COMPAT_INIT_OUT_SIZE ||
822                     blen == FUSE_COMPAT_22_INIT_OUT_SIZE) {
823                         err = 0;
824                 } else {
825                         err = EINVAL;
826                 }
827                 break;
828
829         case FUSE_OPENDIR:
830                 err = (blen == sizeof(struct fuse_open_out)) ? 0 : EINVAL;
831                 break;
832
833         case FUSE_READDIR:
834                 err = (((struct fuse_read_in *)(
835                     (char *)ftick->tk_ms_fiov.base +
836                     sizeof(struct fuse_in_header)
837                     ))->size >= blen) ? 0 : EINVAL;
838                 break;
839
840         case FUSE_RELEASEDIR:
841                 err = (blen == 0) ? 0 : EINVAL;
842                 break;
843
844         case FUSE_FSYNCDIR:
845                 err = (blen == 0) ? 0 : EINVAL;
846                 break;
847
848         case FUSE_GETLK:
849                 err = (blen == sizeof(struct fuse_lk_out)) ? 0 : EINVAL;
850                 break;
851
852         case FUSE_SETLK:
853                 err = (blen == 0) ? 0 : EINVAL;
854                 break;
855
856         case FUSE_SETLKW:
857                 err = (blen == 0) ? 0 : EINVAL;
858                 break;
859
860         case FUSE_ACCESS:
861                 err = (blen == 0) ? 0 : EINVAL;
862                 break;
863
864         case FUSE_CREATE:
865                 if (fuse_libabi_geq(ftick->tk_data, 7, 9)) {
866                         err = (blen == sizeof(struct fuse_entry_out) +
867                             sizeof(struct fuse_open_out)) ? 0 : EINVAL;
868                 } else {
869                         err = (blen == FUSE_COMPAT_ENTRY_OUT_SIZE +
870                             sizeof(struct fuse_open_out)) ? 0 : EINVAL;
871                 }
872                 break;
873
874         case FUSE_DESTROY:
875                 err = (blen == 0) ? 0 : EINVAL;
876                 break;
877
878         default:
879                 panic("FUSE: opcodes out of sync (%d)\n", opcode);
880         }
881
882         return err;
883 }
884
885 static inline void
886 fuse_setup_ihead(struct fuse_in_header *ihead, struct fuse_ticket *ftick,
887     uint64_t nid, enum fuse_opcode op, size_t blen, pid_t pid,
888     struct ucred *cred)
889 {
890         ihead->len = sizeof(*ihead) + blen;
891         ihead->unique = ftick->tk_unique;
892         ihead->nodeid = nid;
893         ihead->opcode = op;
894
895         ihead->pid = pid;
896         ihead->uid = cred->cr_uid;
897         ihead->gid = cred->cr_groups[0];
898 }
899
900 /*
901  * fuse_standard_handler just pulls indata and wakes up pretender.
902  * Doesn't try to interpret data, that's left for the pretender.
903  * Though might do a basic size verification before the pull-in takes place
904  */
905
906 static int
907 fuse_standard_handler(struct fuse_ticket *ftick, struct uio *uio)
908 {
909         int err = 0;
910
911         err = fticket_pull(ftick, uio);
912
913         fuse_lck_mtx_lock(ftick->tk_aw_mtx);
914
915         if (!fticket_answered(ftick)) {
916                 fticket_set_answered(ftick);
917                 ftick->tk_aw_errno = err;
918                 wakeup(ftick);
919         }
920         fuse_lck_mtx_unlock(ftick->tk_aw_mtx);
921
922         return err;
923 }
924
925 /*
926  * Reinitialize a dispatcher from a pid and node id, without resizing or
927  * clearing its data buffers
928  */
929 static void
930 fdisp_refresh_pid(struct fuse_dispatcher *fdip, enum fuse_opcode op,
931     struct mount *mp, uint64_t nid, pid_t pid, struct ucred *cred)
932 {
933         MPASS(fdip->tick);
934         MPASS2(sizeof(fdip->finh) + fdip->iosize <= fdip->tick->tk_ms_fiov.len,
935                 "Must use fdisp_make_pid to increase the size of the fiov");
936         fticket_reset(fdip->tick);
937
938         FUSE_DIMALLOC(&fdip->tick->tk_ms_fiov, fdip->finh,
939             fdip->indata, fdip->iosize);
940
941         fuse_setup_ihead(fdip->finh, fdip->tick, nid, op, fdip->iosize, pid,
942                 cred);
943 }
944
945 /* Initialize a dispatcher from a pid and node id */
946 static void
947 fdisp_make_pid(struct fuse_dispatcher *fdip, enum fuse_opcode op,
948     struct fuse_data *data, uint64_t nid, pid_t pid, struct ucred *cred)
949 {
950         if (fdip->tick) {
951                 fticket_refresh(fdip->tick);
952         } else {
953                 fdip->tick = fuse_ticket_fetch(data);
954         }
955
956         /* FUSE_DIMALLOC will bzero the fiovs when it enlarges them */
957         FUSE_DIMALLOC(&fdip->tick->tk_ms_fiov, fdip->finh,
958             fdip->indata, fdip->iosize);
959
960         fuse_setup_ihead(fdip->finh, fdip->tick, nid, op, fdip->iosize, pid, cred);
961 }
962
963 void
964 fdisp_make(struct fuse_dispatcher *fdip, enum fuse_opcode op, struct mount *mp,
965     uint64_t nid, struct thread *td, struct ucred *cred)
966 {
967         struct fuse_data *data = fuse_get_mpdata(mp);
968         RECTIFY_TDCR(td, cred);
969
970         return fdisp_make_pid(fdip, op, data, nid, td->td_proc->p_pid, cred);
971 }
972
973 void
974 fdisp_make_vp(struct fuse_dispatcher *fdip, enum fuse_opcode op,
975     struct vnode *vp, struct thread *td, struct ucred *cred)
976 {
977         struct mount *mp = vnode_mount(vp);
978         struct fuse_data *data = fuse_get_mpdata(mp);
979
980         RECTIFY_TDCR(td, cred);
981         return fdisp_make_pid(fdip, op, data, VTOI(vp),
982             td->td_proc->p_pid, cred);
983 }
984
985 /* Refresh a fuse_dispatcher so it can be reused, but don't zero its data */
986 void
987 fdisp_refresh_vp(struct fuse_dispatcher *fdip, enum fuse_opcode op,
988     struct vnode *vp, struct thread *td, struct ucred *cred)
989 {
990         RECTIFY_TDCR(td, cred);
991         return fdisp_refresh_pid(fdip, op, vnode_mount(vp), VTOI(vp),
992             td->td_proc->p_pid, cred);
993 }
994
995 void
996 fdisp_refresh(struct fuse_dispatcher *fdip)
997 {
998         fticket_refresh(fdip->tick);
999 }
1000
1001 SDT_PROBE_DEFINE2(fusefs, , ipc, fdisp_wait_answ_error, "char*", "int");
1002
1003 int
1004 fdisp_wait_answ(struct fuse_dispatcher *fdip)
1005 {
1006         int err = 0;
1007
1008         fdip->answ_stat = 0;
1009         fuse_insert_callback(fdip->tick, fuse_standard_handler);
1010         fuse_insert_message(fdip->tick, false);
1011
1012         if ((err = fticket_wait_answer(fdip->tick))) {
1013                 fuse_lck_mtx_lock(fdip->tick->tk_aw_mtx);
1014
1015                 if (fticket_answered(fdip->tick)) {
1016                         /*
1017                          * Just between noticing the interrupt and getting here,
1018                          * the standard handler has completed his job.
1019                          * So we drop the ticket and exit as usual.
1020                          */
1021                         SDT_PROBE2(fusefs, , ipc, fdisp_wait_answ_error,
1022                                 "IPC: interrupted, already answered", err);
1023                         fuse_lck_mtx_unlock(fdip->tick->tk_aw_mtx);
1024                         goto out;
1025                 } else {
1026                         /*
1027                          * So we were faster than the standard handler.
1028                          * Then by setting the answered flag we get *him*
1029                          * to drop the ticket.
1030                          */
1031                         SDT_PROBE2(fusefs, , ipc, fdisp_wait_answ_error,
1032                                 "IPC: interrupted, setting to answered", err);
1033                         fticket_set_answered(fdip->tick);
1034                         fuse_lck_mtx_unlock(fdip->tick->tk_aw_mtx);
1035                         return err;
1036                 }
1037         }
1038
1039         if (fdip->tick->tk_aw_errno == ENOTCONN) {
1040                 /* The daemon died while we were waiting for a response */
1041                 err = ENOTCONN;
1042                 goto out;
1043         } else if (fdip->tick->tk_aw_errno) {
1044                 /* 
1045                  * There was some sort of communication error with the daemon
1046                  * that the client wouldn't understand.
1047                  */
1048                 SDT_PROBE2(fusefs, , ipc, fdisp_wait_answ_error,
1049                         "IPC: explicit EIO-ing", fdip->tick->tk_aw_errno);
1050                 err = EIO;
1051                 goto out;
1052         }
1053         if ((err = fdip->tick->tk_aw_ohead.error)) {
1054                 SDT_PROBE2(fusefs, , ipc, fdisp_wait_answ_error,
1055                         "IPC: setting status", fdip->tick->tk_aw_ohead.error);
1056                 /*
1057                  * This means a "proper" fuse syscall error.
1058                  * We record this value so the caller will
1059                  * be able to know it's not a boring messaging
1060                  * failure, if she wishes so (and if not, she can
1061                  * just simply propagate the return value of this routine).
1062                  * [XXX Maybe a bitflag would do the job too,
1063                  * if other flags needed, this will be converted thusly.]
1064                  */
1065                 fdip->answ_stat = err;
1066                 goto out;
1067         }
1068         fdip->answ = fticket_resp(fdip->tick)->base;
1069         fdip->iosize = fticket_resp(fdip->tick)->len;
1070
1071         return 0;
1072
1073 out:
1074         return err;
1075 }
1076
1077 void
1078 fuse_ipc_init(void)
1079 {
1080         ticket_zone = uma_zcreate("fuse_ticket", sizeof(struct fuse_ticket),
1081             fticket_ctor, fticket_dtor, fticket_init, fticket_fini,
1082             UMA_ALIGN_PTR, 0);
1083         fuse_ticket_count = counter_u64_alloc(M_WAITOK);
1084         counter_u64_zero(fuse_ticket_count);
1085 }
1086
1087 void
1088 fuse_ipc_destroy(void)
1089 {
1090         counter_u64_free(fuse_ticket_count);
1091         uma_zdestroy(ticket_zone);
1092 }