]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - lib/libedit/chartype.c
file: update to 5.34
[FreeBSD/FreeBSD.git] / lib / libedit / chartype.c
1 /*      $NetBSD: chartype.c,v 1.23 2016/02/28 23:02:24 christos Exp $   */
2
3 /*-
4  * Copyright (c) 2009 The NetBSD Foundation, Inc.
5  * All rights reserved.
6  *
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions
9  * are met:
10  * 1. Redistributions of source code must retain the above copyright
11  *    notice, this list of conditions and the following disclaimer.
12  * 2. Redistributions in binary form must reproduce the above copyright
13  *    notice, this list of conditions and the following disclaimer in the
14  *    documentation and/or other materials provided with the distribution.
15  *
16  * THIS SOFTWARE IS PROVIDED BY THE NETBSD FOUNDATION, INC. AND CONTRIBUTORS
17  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED
18  * TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
19  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR CONTRIBUTORS
20  * BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
21  * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
22  * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
23  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
24  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
25  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
26  * POSSIBILITY OF SUCH DAMAGE.
27  */
28
29 /*
30  * chartype.c: character classification and meta information
31  */
32 #include "config.h"
33 #if !defined(lint) && !defined(SCCSID)
34 __RCSID("$NetBSD: chartype.c,v 1.23 2016/02/28 23:02:24 christos Exp $");
35 #endif /* not lint && not SCCSID */
36 #include <sys/cdefs.h>
37 __FBSDID("$FreeBSD$");
38
39 #include <ctype.h>
40 #include <stdlib.h>
41 #include <string.h>
42
43 #include "el.h"
44
45 #define CT_BUFSIZ ((size_t)1024)
46
47 #ifdef WIDECHAR
48 protected int
49 ct_conv_cbuff_resize(ct_buffer_t *conv, size_t csize)
50 {
51         void *p;
52
53         if (csize <= conv->csize)
54                 return 0;
55
56         conv->csize = csize;
57
58         p = el_realloc(conv->cbuff, conv->csize * sizeof(*conv->cbuff));
59         if (p == NULL) {
60                 conv->csize = 0;
61                 el_free(conv->cbuff);
62                 conv->cbuff = NULL;
63                 return -1;
64         }
65         conv->cbuff = p;
66         return 0;
67 }
68
69 protected int
70 ct_conv_wbuff_resize(ct_buffer_t *conv, size_t wsize)
71 {
72         void *p;
73
74         if (wsize <= conv->wsize)
75                 return 0;
76
77         conv->wsize = wsize;
78
79         p = el_realloc(conv->wbuff, conv->wsize * sizeof(*conv->wbuff));
80         if (p == NULL) {
81                 conv->wsize = 0;
82                 el_free(conv->wbuff);
83                 conv->wbuff = NULL;
84                 return -1;
85         }
86         conv->wbuff = p;
87         return 0;
88 }
89
90
91 public char *
92 ct_encode_string(const Char *s, ct_buffer_t *conv)
93 {
94         char *dst;
95         ssize_t used;
96
97         if (!s)
98                 return NULL;
99
100         dst = conv->cbuff;
101         for (;;) {
102                 used = (ssize_t)(dst - conv->cbuff);
103                 if ((conv->csize - (size_t)used) < 5) {
104                         if (ct_conv_cbuff_resize(conv,
105                             conv->csize + CT_BUFSIZ) == -1)
106                                 return NULL;
107                         dst = conv->cbuff + used;
108                 }
109                 if (!*s)
110                         break;
111                 used = ct_encode_char(dst, (size_t)5, *s);
112                 if (used == -1) /* failed to encode, need more buffer space */
113                         abort();
114                 ++s;
115                 dst += used;
116         }
117         *dst = '\0';
118         return conv->cbuff;
119 }
120
121 public Char *
122 ct_decode_string(const char *s, ct_buffer_t *conv)
123 {
124         size_t len;
125
126         if (!s)
127                 return NULL;
128
129         len = ct_mbstowcs(NULL, s, (size_t)0);
130         if (len == (size_t)-1)
131                 return NULL;
132
133         if (conv->wsize < ++len)
134                 if (ct_conv_wbuff_resize(conv, len + CT_BUFSIZ) == -1)
135                         return NULL;
136
137         ct_mbstowcs(conv->wbuff, s, conv->wsize);
138         return conv->wbuff;
139 }
140
141
142 protected Char **
143 ct_decode_argv(int argc, const char *argv[], ct_buffer_t *conv)
144 {
145         size_t bufspace;
146         int i;
147         Char *p;
148         Char **wargv;
149         ssize_t bytes;
150
151         /* Make sure we have enough space in the conversion buffer to store all
152          * the argv strings. */
153         for (i = 0, bufspace = 0; i < argc; ++i)
154                 bufspace += argv[i] ? strlen(argv[i]) + 1 : 0;
155         if (conv->wsize < ++bufspace)
156                 if (ct_conv_wbuff_resize(conv, bufspace + CT_BUFSIZ) == -1)
157                         return NULL;
158
159         wargv = el_malloc((size_t)argc * sizeof(*wargv));
160
161         for (i = 0, p = conv->wbuff; i < argc; ++i) {
162                 if (!argv[i]) {   /* don't pass null pointers to mbstowcs */
163                         wargv[i] = NULL;
164                         continue;
165                 } else {
166                         wargv[i] = p;
167                         bytes = (ssize_t)mbstowcs(p, argv[i], bufspace);
168                 }
169                 if (bytes == -1) {
170                         el_free(wargv);
171                         return NULL;
172                 } else
173                         bytes++;  /* include '\0' in the count */
174                 bufspace -= (size_t)bytes;
175                 p += bytes;
176         }
177
178         return wargv;
179 }
180
181
182 protected size_t
183 ct_enc_width(Char c)
184 {
185         /* UTF-8 encoding specific values */
186         if (c < 0x80)
187                 return 1;
188         else if (c < 0x0800)
189                 return 2;
190         else if (c < 0x10000)
191                 return 3;
192         else if (c < 0x110000)
193                 return 4;
194         else
195                 return 0; /* not a valid codepoint */
196 }
197
198 protected ssize_t
199 ct_encode_char(char *dst, size_t len, Char c)
200 {
201         ssize_t l = 0;
202         if (len < ct_enc_width(c))
203                 return -1;
204         l = ct_wctomb(dst, c);
205
206         if (l < 0) {
207                 ct_wctomb_reset;
208                 l = 0;
209         }
210         return l;
211 }
212
213 size_t
214 ct_mbrtowc(wchar_t *wc, const char *s, size_t n)
215 {
216         mbstate_t mbs;
217         /* This only works because UTF-8 is stateless */
218         memset(&mbs, 0, sizeof(mbs));
219         return mbrtowc(wc, s, n, &mbs);
220 }
221
222 #else
223
224 size_t
225 ct_mbrtowc(wchar_t *wc, const char *s, size_t n)
226 {
227         if (s == NULL)
228                 return 0;
229         if (n == 0)
230                 return (size_t)-2;
231         if (wc != NULL)
232                 *wc = *s;
233         return *s != '\0';
234 }
235 #endif
236
237 protected const Char *
238 ct_visual_string(const Char *s)
239 {
240         static Char *buff = NULL;
241         static size_t buffsize = 0;
242         void *p;
243         Char *dst;
244         ssize_t used = 0;
245
246         if (!s)
247                 return NULL;
248         if (!buff) {
249             buffsize = CT_BUFSIZ;
250             buff = el_malloc(buffsize * sizeof(*buff));
251         }
252         dst = buff;
253         while (*s) {
254                 used = ct_visual_char(dst, buffsize - (size_t)(dst - buff), *s);
255                 if (used == -1) { /* failed to encode, need more buffer space */
256                         used = dst - buff;
257                         buffsize += CT_BUFSIZ;
258                         p = el_realloc(buff, buffsize * sizeof(*buff));
259                         if (p == NULL)
260                                 goto out;
261                         buff = p;
262                         dst = buff + used;
263                         /* don't increment s here - we want to retry it! */
264                 }
265                 else
266                     ++s;
267                 dst += used;
268         }
269         if (dst >= (buff + buffsize)) { /* sigh */
270                 buffsize += 1;
271                 p = el_realloc(buff, buffsize * sizeof(*buff));
272                 if (p == NULL)
273                         goto out;
274                 buff = p;
275                 dst = buff + buffsize - 1;
276         }
277         *dst = 0;
278         return buff;
279 out:
280         el_free(buff);
281         buffsize = 0;
282         return NULL;
283 }
284
285
286
287 protected int
288 ct_visual_width(Char c)
289 {
290         int t = ct_chr_class(c);
291         switch (t) {
292         case CHTYPE_ASCIICTL:
293                 return 2; /* ^@ ^? etc. */
294         case CHTYPE_TAB:
295                 return 1; /* Hmm, this really need to be handled outside! */
296         case CHTYPE_NL:
297                 return 0; /* Should this be 1 instead? */
298 #ifdef WIDECHAR
299         case CHTYPE_PRINT:
300                 return wcwidth(c);
301         case CHTYPE_NONPRINT:
302                 if (c > 0xffff) /* prefer standard 4-byte display over 5-byte */
303                         return 8; /* \U+12345 */
304                 else
305                         return 7; /* \U+1234 */
306 #else
307         case CHTYPE_PRINT:
308                 return 1;
309         case CHTYPE_NONPRINT:
310                 return 4; /* \123 */
311 #endif
312         default:
313                 return 0; /* should not happen */
314         }
315 }
316
317
318 protected ssize_t
319 ct_visual_char(Char *dst, size_t len, Char c)
320 {
321         int t = ct_chr_class(c);
322         switch (t) {
323         case CHTYPE_TAB:
324         case CHTYPE_NL:
325         case CHTYPE_ASCIICTL:
326                 if (len < 2)
327                         return -1;   /* insufficient space */
328                 *dst++ = '^';
329                 if (c == '\177')
330                         *dst = '?'; /* DEL -> ^? */
331                 else
332                         *dst = c | 0100;    /* uncontrolify it */
333                 return 2;
334         case CHTYPE_PRINT:
335                 if (len < 1)
336                         return -1;  /* insufficient space */
337                 *dst = c;
338                 return 1;
339         case CHTYPE_NONPRINT:
340                 /* we only use single-width glyphs for display,
341                  * so this is right */
342                 if ((ssize_t)len < ct_visual_width(c))
343                         return -1;   /* insufficient space */
344 #ifdef WIDECHAR
345                 *dst++ = '\\';
346                 *dst++ = 'U';
347                 *dst++ = '+';
348 #define tohexdigit(v) "0123456789ABCDEF"[v]
349                 if (c > 0xffff) /* prefer standard 4-byte display over 5-byte */
350                         *dst++ = tohexdigit(((unsigned int) c >> 16) & 0xf);
351                 *dst++ = tohexdigit(((unsigned int) c >> 12) & 0xf);
352                 *dst++ = tohexdigit(((unsigned int) c >>  8) & 0xf);
353                 *dst++ = tohexdigit(((unsigned int) c >>  4) & 0xf);
354                 *dst   = tohexdigit(((unsigned int) c      ) & 0xf);
355                 return c > 0xffff ? 8 : 7;
356 #else
357                 *dst++ = '\\';
358 #define tooctaldigit(v) (Char)((v) + '0')
359                 *dst++ = tooctaldigit(((unsigned int) c >> 6) & 0x7);
360                 *dst++ = tooctaldigit(((unsigned int) c >> 3) & 0x7);
361                 *dst++ = tooctaldigit(((unsigned int) c     ) & 0x7);
362 #endif
363                 /*FALLTHROUGH*/
364         /* these two should be handled outside this function */
365         default:            /* we should never hit the default */
366                 return 0;
367         }
368 }
369
370
371
372
373 protected int
374 ct_chr_class(Char c)
375 {
376         if (c == '\t')
377                 return CHTYPE_TAB;
378         else if (c == '\n')
379                 return CHTYPE_NL;
380         else if (IsASCII(c) && Iscntrl(c))
381                 return CHTYPE_ASCIICTL;
382         else if (Isprint(c))
383                 return CHTYPE_PRINT;
384         else
385                 return CHTYPE_NONPRINT;
386 }