Branch data Line data Source code
1 : : /* guniprop.c - Unicode character properties.
2 : : *
3 : : * Copyright (C) 1999 Tom Tromey
4 : : * Copyright (C) 2000 Red Hat, Inc.
5 : : *
6 : : * SPDX-License-Identifier: LGPL-2.1-or-later
7 : : *
8 : : * This library is free software; you can redistribute it and/or
9 : : * modify it under the terms of the GNU Lesser General Public
10 : : * License as published by the Free Software Foundation; either
11 : : * version 2.1 of the License, or (at your option) any later version.
12 : : *
13 : : * This library is distributed in the hope that it will be useful,
14 : : * but WITHOUT ANY WARRANTY; without even the implied warranty of
15 : : * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
16 : : * Lesser General Public License for more details.
17 : : *
18 : : * You should have received a copy of the GNU Lesser General Public
19 : : * License along with this library; if not, see <http://www.gnu.org/licenses/>.
20 : : */
21 : :
22 : : #include "config.h"
23 : :
24 : : #include <stdlib.h>
25 : : #include <stddef.h>
26 : : #include <string.h>
27 : : #include <locale.h>
28 : :
29 : : #include "gmem.h"
30 : : #include "gstring.h"
31 : : #include "gtestutils.h"
32 : : #include "gtypes.h"
33 : : #include "gunicode.h"
34 : : #include "gunichartables.h"
35 : : #include "gmirroringtable.h"
36 : : #include "gscripttable.h"
37 : : #include "gunicodeprivate.h"
38 : : #ifdef G_OS_WIN32
39 : : #include "gwin32.h"
40 : : #endif
41 : :
42 : : #define G_UNICHAR_FULLWIDTH_A 0xff21
43 : : #define G_UNICHAR_FULLWIDTH_I 0xff29
44 : : #define G_UNICHAR_FULLWIDTH_J 0xff2a
45 : : #define G_UNICHAR_FULLWIDTH_F 0xff26
46 : : #define G_UNICHAR_FULLWIDTH_a 0xff41
47 : : #define G_UNICHAR_FULLWIDTH_f 0xff46
48 : :
49 : : #define ATTR_TABLE(Page) (((Page) <= G_UNICODE_LAST_PAGE_PART1) \
50 : : ? attr_table_part1[Page] \
51 : : : attr_table_part2[(Page) - 0xe00])
52 : :
53 : : #define ATTTABLE(Page, Char) \
54 : : ((ATTR_TABLE(Page) == G_UNICODE_MAX_TABLE_INDEX) ? 0 : (attr_data[ATTR_TABLE(Page)][Char]))
55 : :
56 : : #define TTYPE_PART1(Page, Char) \
57 : : ((type_table_part1[Page] >= G_UNICODE_MAX_TABLE_INDEX) \
58 : : ? (type_table_part1[Page] - G_UNICODE_MAX_TABLE_INDEX) \
59 : : : (type_data[type_table_part1[Page]][Char]))
60 : :
61 : : #define TTYPE_PART2(Page, Char) \
62 : : ((type_table_part2[Page] >= G_UNICODE_MAX_TABLE_INDEX) \
63 : : ? (type_table_part2[Page] - G_UNICODE_MAX_TABLE_INDEX) \
64 : : : (type_data[type_table_part2[Page]][Char]))
65 : :
66 : : #define TYPE(Char) \
67 : : (((Char) <= G_UNICODE_LAST_CHAR_PART1) \
68 : : ? TTYPE_PART1 ((Char) >> 8, (Char) & 0xff) \
69 : : : (((Char) >= 0xe0000 && (Char) <= G_UNICODE_LAST_CHAR) \
70 : : ? TTYPE_PART2 (((Char) - 0xe0000) >> 8, (Char) & 0xff) \
71 : : : G_UNICODE_UNASSIGNED))
72 : :
73 : :
74 : : #define IS(Type, Class) (((guint)1 << (Type)) & (Class))
75 : : #define OR(Type, Rest) (((guint)1 << (Type)) | (Rest))
76 : :
77 : :
78 : :
79 : : #define ISALPHA(Type) IS ((Type), \
80 : : OR (G_UNICODE_LOWERCASE_LETTER, \
81 : : OR (G_UNICODE_UPPERCASE_LETTER, \
82 : : OR (G_UNICODE_TITLECASE_LETTER, \
83 : : OR (G_UNICODE_MODIFIER_LETTER, \
84 : : OR (G_UNICODE_OTHER_LETTER, 0))))))
85 : :
86 : : #define ISALDIGIT(Type) IS ((Type), \
87 : : OR (G_UNICODE_DECIMAL_NUMBER, \
88 : : OR (G_UNICODE_LETTER_NUMBER, \
89 : : OR (G_UNICODE_OTHER_NUMBER, \
90 : : OR (G_UNICODE_LOWERCASE_LETTER, \
91 : : OR (G_UNICODE_UPPERCASE_LETTER, \
92 : : OR (G_UNICODE_TITLECASE_LETTER, \
93 : : OR (G_UNICODE_MODIFIER_LETTER, \
94 : : OR (G_UNICODE_OTHER_LETTER, 0)))))))))
95 : :
96 : : #define ISMARK(Type) IS ((Type), \
97 : : OR (G_UNICODE_NON_SPACING_MARK, \
98 : : OR (G_UNICODE_SPACING_MARK, \
99 : : OR (G_UNICODE_ENCLOSING_MARK, 0))))
100 : :
101 : : #define ISZEROWIDTHTYPE(Type) IS ((Type), \
102 : : OR (G_UNICODE_NON_SPACING_MARK, \
103 : : OR (G_UNICODE_ENCLOSING_MARK, \
104 : : OR (G_UNICODE_FORMAT, 0))))
105 : :
106 : : /**
107 : : * g_unichar_isalnum:
108 : : * @c: a Unicode character
109 : : *
110 : : * Determines whether a character is alphanumeric.
111 : : * Given some UTF-8 text, obtain a character value
112 : : * with g_utf8_get_char().
113 : : *
114 : : * Returns: %TRUE if @c is an alphanumeric character
115 : : **/
116 : : gboolean
117 : 166073 : g_unichar_isalnum (gunichar c)
118 : : {
119 : 166073 : return ISALDIGIT (TYPE (c)) ? TRUE : FALSE;
120 : : }
121 : :
122 : : /**
123 : : * g_unichar_isalpha:
124 : : * @c: a Unicode character
125 : : *
126 : : * Determines whether a character is alphabetic (i.e. a letter).
127 : : * Given some UTF-8 text, obtain a character value with
128 : : * g_utf8_get_char().
129 : : *
130 : : * Returns: %TRUE if @c is an alphabetic character
131 : : **/
132 : : gboolean
133 : 207 : g_unichar_isalpha (gunichar c)
134 : : {
135 : 207 : return ISALPHA (TYPE (c)) ? TRUE : FALSE;
136 : : }
137 : :
138 : :
139 : : /**
140 : : * g_unichar_iscntrl:
141 : : * @c: a Unicode character
142 : : *
143 : : * Determines whether a character is a control character.
144 : : * Given some UTF-8 text, obtain a character value with
145 : : * g_utf8_get_char().
146 : : *
147 : : * Returns: %TRUE if @c is a control character
148 : : **/
149 : : gboolean
150 : 139 : g_unichar_iscntrl (gunichar c)
151 : : {
152 : 139 : return TYPE (c) == G_UNICODE_CONTROL;
153 : : }
154 : :
155 : : /**
156 : : * g_unichar_isdigit:
157 : : * @c: a Unicode character
158 : : *
159 : : * Determines whether a character is numeric (i.e. a digit). This
160 : : * covers ASCII 0-9 and also digits in other languages/scripts. Given
161 : : * some UTF-8 text, obtain a character value with g_utf8_get_char().
162 : : *
163 : : * Returns: %TRUE if @c is a digit
164 : : **/
165 : : gboolean
166 : 149 : g_unichar_isdigit (gunichar c)
167 : : {
168 : 149 : return TYPE (c) == G_UNICODE_DECIMAL_NUMBER;
169 : : }
170 : :
171 : :
172 : : /**
173 : : * g_unichar_isgraph:
174 : : * @c: a Unicode character
175 : : *
176 : : * Determines whether a character is printable and not a space
177 : : * (returns %FALSE for control characters, format characters, and
178 : : * spaces). g_unichar_isprint() is similar, but returns %TRUE for
179 : : * spaces. Given some UTF-8 text, obtain a character value with
180 : : * g_utf8_get_char().
181 : : *
182 : : * Returns: %TRUE if @c is printable unless it's a space
183 : : **/
184 : : gboolean
185 : 152 : g_unichar_isgraph (gunichar c)
186 : : {
187 : 152 : return !IS (TYPE(c),
188 : : OR (G_UNICODE_CONTROL,
189 : : OR (G_UNICODE_FORMAT,
190 : : OR (G_UNICODE_UNASSIGNED,
191 : : OR (G_UNICODE_SURROGATE,
192 : : OR (G_UNICODE_SPACE_SEPARATOR,
193 : : 0))))));
194 : : }
195 : :
196 : : /**
197 : : * g_unichar_islower:
198 : : * @c: a Unicode character
199 : : *
200 : : * Determines whether a character is a lowercase letter.
201 : : * Given some UTF-8 text, obtain a character value with
202 : : * g_utf8_get_char().
203 : : *
204 : : * Returns: %TRUE if @c is a lowercase letter
205 : : **/
206 : : gboolean
207 : 141 : g_unichar_islower (gunichar c)
208 : : {
209 : 141 : return TYPE (c) == G_UNICODE_LOWERCASE_LETTER;
210 : : }
211 : :
212 : :
213 : : /**
214 : : * g_unichar_isprint:
215 : : * @c: a Unicode character
216 : : *
217 : : * Determines whether a character is printable.
218 : : * Unlike g_unichar_isgraph(), returns %TRUE for spaces.
219 : : * Given some UTF-8 text, obtain a character value with
220 : : * g_utf8_get_char().
221 : : *
222 : : * Returns: %TRUE if @c is printable
223 : : **/
224 : : gboolean
225 : 3699335 : g_unichar_isprint (gunichar c)
226 : : {
227 : 3699335 : return !IS (TYPE(c),
228 : : OR (G_UNICODE_CONTROL,
229 : : OR (G_UNICODE_FORMAT,
230 : : OR (G_UNICODE_UNASSIGNED,
231 : : OR (G_UNICODE_SURROGATE,
232 : : 0)))));
233 : : }
234 : :
235 : : /**
236 : : * g_unichar_ispunct:
237 : : * @c: a Unicode character
238 : : *
239 : : * Determines whether a character is punctuation or a symbol.
240 : : * Given some UTF-8 text, obtain a character value with
241 : : * g_utf8_get_char().
242 : : *
243 : : * Returns: %TRUE if @c is a punctuation or symbol character
244 : : **/
245 : : gboolean
246 : 145 : g_unichar_ispunct (gunichar c)
247 : : {
248 : 4 : return IS (TYPE(c),
249 : : OR (G_UNICODE_CONNECT_PUNCTUATION,
250 : : OR (G_UNICODE_DASH_PUNCTUATION,
251 : : OR (G_UNICODE_CLOSE_PUNCTUATION,
252 : : OR (G_UNICODE_FINAL_PUNCTUATION,
253 : : OR (G_UNICODE_INITIAL_PUNCTUATION,
254 : : OR (G_UNICODE_OTHER_PUNCTUATION,
255 : : OR (G_UNICODE_OPEN_PUNCTUATION,
256 : : OR (G_UNICODE_CURRENCY_SYMBOL,
257 : : OR (G_UNICODE_MODIFIER_SYMBOL,
258 : : OR (G_UNICODE_MATH_SYMBOL,
259 : : OR (G_UNICODE_OTHER_SYMBOL,
260 : 149 : 0)))))))))))) ? TRUE : FALSE;
261 : : }
262 : :
263 : : /**
264 : : * g_unichar_isspace:
265 : : * @c: a Unicode character
266 : : *
267 : : * Determines whether a character is a space, tab, or line separator
268 : : * (newline, carriage return, etc.). Given some UTF-8 text, obtain a
269 : : * character value with g_utf8_get_char().
270 : : *
271 : : * (Note: don't use this to do word breaking; you have to use
272 : : * Pango or equivalent to get word breaking right, the algorithm
273 : : * is fairly complex.)
274 : : *
275 : : * Returns: %TRUE if @c is a space character
276 : : **/
277 : : gboolean
278 : 145 : g_unichar_isspace (gunichar c)
279 : : {
280 : 145 : switch (c)
281 : : {
282 : : /* special-case these since Unicode thinks they are not spaces */
283 : 8 : case '\t':
284 : : case '\n':
285 : : case '\r':
286 : : case '\f':
287 : 8 : return TRUE;
288 : : break;
289 : :
290 : 137 : default:
291 : : {
292 : 4 : return IS (TYPE(c),
293 : : OR (G_UNICODE_SPACE_SEPARATOR,
294 : : OR (G_UNICODE_LINE_SEPARATOR,
295 : : OR (G_UNICODE_PARAGRAPH_SEPARATOR,
296 : 141 : 0)))) ? TRUE : FALSE;
297 : : }
298 : : break;
299 : : }
300 : : }
301 : :
302 : : /**
303 : : * g_unichar_ismark:
304 : : * @c: a Unicode character
305 : : *
306 : : * Determines whether a character is a mark (non-spacing mark,
307 : : * combining mark, or enclosing mark in Unicode speak).
308 : : * Given some UTF-8 text, obtain a character value
309 : : * with g_utf8_get_char().
310 : : *
311 : : * Note: in most cases where isalpha characters are allowed,
312 : : * ismark characters should be allowed to as they are essential
313 : : * for writing most European languages as well as many non-Latin
314 : : * scripts.
315 : : *
316 : : * Returns: %TRUE if @c is a mark character
317 : : *
318 : : * Since: 2.14
319 : : **/
320 : : gboolean
321 : 3189 : g_unichar_ismark (gunichar c)
322 : : {
323 : 3189 : return ISMARK (TYPE (c));
324 : : }
325 : :
326 : : /**
327 : : * g_unichar_isupper:
328 : : * @c: a Unicode character
329 : : *
330 : : * Determines if a character is uppercase.
331 : : *
332 : : * Returns: %TRUE if @c is an uppercase character
333 : : **/
334 : : gboolean
335 : 1962 : g_unichar_isupper (gunichar c)
336 : : {
337 : 1962 : return TYPE (c) == G_UNICODE_UPPERCASE_LETTER;
338 : : }
339 : :
340 : : /**
341 : : * g_unichar_istitle:
342 : : * @c: a Unicode character
343 : : *
344 : : * Determines if a character is titlecase. Some characters in
345 : : * Unicode which are composites, such as the DZ digraph
346 : : * have three case variants instead of just two. The titlecase
347 : : * form is used at the beginning of a word where only the
348 : : * first letter is capitalized. The titlecase form of the DZ
349 : : * digraph is U+01F2 LATIN CAPITAL LETTTER D WITH SMALL LETTER Z.
350 : : *
351 : : * Returns: %TRUE if the character is titlecase
352 : : **/
353 : : gboolean
354 : 13 : g_unichar_istitle (gunichar c)
355 : : {
356 : : unsigned int i;
357 : 356 : for (i = 0; i < G_N_ELEMENTS (title_table); ++i)
358 : 346 : if (title_table[i][0] == c)
359 : 3 : return TRUE;
360 : 10 : return FALSE;
361 : : }
362 : :
363 : : /**
364 : : * g_unichar_isxdigit:
365 : : * @c: a Unicode character.
366 : : *
367 : : * Determines if a character is a hexadecimal digit.
368 : : *
369 : : * Returns: %TRUE if the character is a hexadecimal digit
370 : : **/
371 : : gboolean
372 : 159 : g_unichar_isxdigit (gunichar c)
373 : : {
374 : 159 : return ((c >= 'a' && c <= 'f') ||
375 : 151 : (c >= 'A' && c <= 'F') ||
376 : 143 : (c >= G_UNICHAR_FULLWIDTH_a && c <= G_UNICHAR_FULLWIDTH_f) ||
377 : 456 : (c >= G_UNICHAR_FULLWIDTH_A && c <= G_UNICHAR_FULLWIDTH_F) ||
378 : 138 : (TYPE (c) == G_UNICODE_DECIMAL_NUMBER));
379 : : }
380 : :
381 : : /**
382 : : * g_unichar_isdefined:
383 : : * @c: a Unicode character
384 : : *
385 : : * Determines if a given character is assigned in the Unicode
386 : : * standard.
387 : : *
388 : : * Returns: %TRUE if the character has an assigned value
389 : : **/
390 : : gboolean
391 : 15 : g_unichar_isdefined (gunichar c)
392 : : {
393 : 15 : return !IS (TYPE(c),
394 : : OR (G_UNICODE_UNASSIGNED,
395 : : OR (G_UNICODE_SURROGATE,
396 : : 0)));
397 : : }
398 : :
399 : : /**
400 : : * g_unichar_iszerowidth:
401 : : * @c: a Unicode character
402 : : *
403 : : * Determines if a given character typically takes zero width when rendered.
404 : : * The return value is %TRUE for all non-spacing and enclosing marks
405 : : * (e.g., combining accents), format characters, zero-width
406 : : * space, but not U+00AD SOFT HYPHEN.
407 : : *
408 : : * A typical use of this function is with one of g_unichar_iswide() or
409 : : * g_unichar_iswide_cjk() to determine the number of cells a string occupies
410 : : * when displayed on a grid display (terminals). However, note that not all
411 : : * terminals support zero-width rendering of zero-width marks.
412 : : *
413 : : * Returns: %TRUE if the character has zero width
414 : : *
415 : : * Since: 2.14
416 : : **/
417 : : gboolean
418 : 1363 : g_unichar_iszerowidth (gunichar c)
419 : : {
420 : 1363 : if (G_UNLIKELY (c == 0x00AD))
421 : 1 : return FALSE;
422 : :
423 : 1362 : if (G_UNLIKELY (ISZEROWIDTHTYPE (TYPE (c))))
424 : 4 : return TRUE;
425 : :
426 : : /* A few additional codepoints are zero-width:
427 : : * - Part of the Hangul Jamo block covering medial/vowels/jungseong and
428 : : * final/trailing_consonants/jongseong Jamo
429 : : * - Jungseong and jongseong for Old Korean
430 : : * - Zero-width space (U+200B)
431 : : */
432 : 1358 : if (G_UNLIKELY ((c >= 0x1160 && c < 0x1200) ||
433 : : (c >= 0xD7B0 && c < 0xD800) ||
434 : : c == 0x200B))
435 : 5 : return TRUE;
436 : :
437 : 1353 : return FALSE;
438 : : }
439 : :
440 : : static int
441 : 224 : interval_compare (const void *key, const void *elt)
442 : : {
443 : 224 : gunichar c = GPOINTER_TO_UINT (key);
444 : 224 : struct Interval *interval = (struct Interval *)elt;
445 : :
446 : 224 : if (c < interval->start)
447 : 94 : return -1;
448 : 130 : if (c > interval->end)
449 : 112 : return +1;
450 : :
451 : 18 : return 0;
452 : : }
453 : :
454 : : #define G_WIDTH_TABLE_MIDPOINT (G_N_ELEMENTS (g_unicode_width_table_wide) / 2)
455 : :
456 : : static inline gboolean
457 : 68 : g_unichar_iswide_bsearch (gunichar ch)
458 : : {
459 : 68 : int lower = 0;
460 : 68 : int upper = G_N_ELEMENTS (g_unicode_width_table_wide) - 1;
461 : : static int saved_mid = G_WIDTH_TABLE_MIDPOINT;
462 : 68 : int mid = saved_mid;
463 : :
464 : : do
465 : : {
466 : 456 : if (ch < g_unicode_width_table_wide[mid].start)
467 : 144 : upper = mid - 1;
468 : 312 : else if (ch > g_unicode_width_table_wide[mid].end)
469 : 286 : lower = mid + 1;
470 : : else
471 : 26 : return TRUE;
472 : :
473 : 430 : mid = (lower + upper) / 2;
474 : : }
475 : 430 : while (lower <= upper);
476 : :
477 : 42 : return FALSE;
478 : : }
479 : :
480 : : static const struct Interval default_wide_blocks[] = {
481 : : { 0x3400, 0x4dbf },
482 : : { 0x4e00, 0x9fff },
483 : : { 0xf900, 0xfaff },
484 : : { 0x20000, 0x2fffd },
485 : : { 0x30000, 0x3fffd }
486 : : };
487 : :
488 : : /**
489 : : * g_unichar_iswide:
490 : : * @c: a Unicode character
491 : : *
492 : : * Determines if a character is typically rendered in a double-width
493 : : * cell.
494 : : *
495 : : * Returns: %TRUE if the character is wide
496 : : **/
497 : : gboolean
498 : 1430 : g_unichar_iswide (gunichar c)
499 : : {
500 : 1430 : if (c < g_unicode_width_table_wide[0].start)
501 : 1362 : return FALSE;
502 : 68 : else if (g_unichar_iswide_bsearch (c))
503 : 26 : return TRUE;
504 : 56 : else if (g_unichar_type (c) == G_UNICODE_UNASSIGNED &&
505 : 14 : bsearch (GUINT_TO_POINTER (c),
506 : : default_wide_blocks,
507 : : G_N_ELEMENTS (default_wide_blocks),
508 : : sizeof default_wide_blocks[0],
509 : : interval_compare))
510 : 8 : return TRUE;
511 : :
512 : 34 : return FALSE;
513 : : }
514 : :
515 : :
516 : : /**
517 : : * g_unichar_iswide_cjk:
518 : : * @c: a Unicode character
519 : : *
520 : : * Determines if a character is typically rendered in a double-width
521 : : * cell under legacy East Asian locales. If a character is wide according to
522 : : * g_unichar_iswide(), then it is also reported wide with this function, but
523 : : * the converse is not necessarily true. See the
524 : : * [Unicode Standard Annex #11](http://www.unicode.org/reports/tr11/)
525 : : * for details.
526 : : *
527 : : * If a character passes the g_unichar_iswide() test then it will also pass
528 : : * this test, but not the other way around. Note that some characters may
529 : : * pass both this test and g_unichar_iszerowidth().
530 : : *
531 : : * Returns: %TRUE if the character is wide in legacy East Asian locales
532 : : *
533 : : * Since: 2.12
534 : : */
535 : : gboolean
536 : 43 : g_unichar_iswide_cjk (gunichar c)
537 : : {
538 : 43 : if (g_unichar_iswide (c))
539 : 17 : return TRUE;
540 : :
541 : : /* bsearch() is declared attribute(nonnull(1)) so we can't validly search
542 : : * for a NULL key */
543 : 26 : if (c == 0)
544 : 1 : return FALSE;
545 : :
546 : 25 : if (bsearch (GUINT_TO_POINTER (c),
547 : : g_unicode_width_table_ambiguous,
548 : : G_N_ELEMENTS (g_unicode_width_table_ambiguous),
549 : : sizeof g_unicode_width_table_ambiguous[0],
550 : : interval_compare))
551 : 10 : return TRUE;
552 : :
553 : 15 : return FALSE;
554 : : }
555 : :
556 : :
557 : : /**
558 : : * g_unichar_toupper:
559 : : * @c: a Unicode character
560 : : *
561 : : * Converts a character to uppercase.
562 : : *
563 : : * Returns: the result of converting @c to uppercase.
564 : : * If @c is not a lowercase or titlecase character,
565 : : * or has no upper case equivalent @c is returned unchanged.
566 : : **/
567 : : gunichar
568 : 216 : g_unichar_toupper (gunichar c)
569 : : {
570 : 216 : int t = TYPE (c);
571 : 216 : if (t == G_UNICODE_LOWERCASE_LETTER)
572 : : {
573 : 80 : gunichar val = ATTTABLE (c >> 8, c & 0xff);
574 : 80 : if (val >= 0x1000000)
575 : : {
576 : 1 : const gchar *p = special_case_table + (val - 0x1000000);
577 : 1 : val = g_utf8_get_char (p);
578 : : }
579 : : /* Some lowercase letters, e.g., U+000AA, FEMININE ORDINAL INDICATOR,
580 : : * do not have an uppercase equivalent, in which case val will be
581 : : * zero.
582 : : */
583 : 80 : return val ? val : c;
584 : : }
585 : 136 : else if (t == G_UNICODE_TITLECASE_LETTER)
586 : : {
587 : : unsigned int i;
588 : 8 : for (i = 0; i < G_N_ELEMENTS (title_table); ++i)
589 : : {
590 : 8 : if (title_table[i][0] == c)
591 : 2 : return title_table[i][1] ? title_table[i][1] : c;
592 : : }
593 : : }
594 : 134 : return c;
595 : : }
596 : :
597 : : /**
598 : : * g_unichar_tolower:
599 : : * @c: a Unicode character.
600 : : *
601 : : * Converts a character to lower case.
602 : : *
603 : : * Returns: the result of converting @c to lower case.
604 : : * If @c is not an upperlower or titlecase character,
605 : : * or has no lowercase equivalent @c is returned unchanged.
606 : : **/
607 : : gunichar
608 : 36754 : g_unichar_tolower (gunichar c)
609 : : {
610 : 36754 : int t = TYPE (c);
611 : 36754 : if (t == G_UNICODE_UPPERCASE_LETTER)
612 : : {
613 : 5324 : gunichar val = ATTTABLE (c >> 8, c & 0xff);
614 : 5324 : if (val >= 0x1000000)
615 : : {
616 : 1 : const gchar *p = special_case_table + (val - 0x1000000);
617 : 1 : return g_utf8_get_char (p);
618 : : }
619 : : else
620 : : {
621 : : /* Not all uppercase letters are guaranteed to have a lowercase
622 : : * equivalent. If this is the case, val will be zero. */
623 : 5323 : return val ? val : c;
624 : : }
625 : : }
626 : 31430 : else if (t == G_UNICODE_TITLECASE_LETTER)
627 : : {
628 : : unsigned int i;
629 : 18 : for (i = 0; i < G_N_ELEMENTS (title_table); ++i)
630 : : {
631 : 18 : if (title_table[i][0] == c)
632 : 6 : return title_table[i][2];
633 : : }
634 : : }
635 : 31424 : return c;
636 : : }
637 : :
638 : : /**
639 : : * g_unichar_totitle:
640 : : * @c: a Unicode character
641 : : *
642 : : * Converts a character to the titlecase.
643 : : *
644 : : * Returns: the result of converting @c to titlecase.
645 : : * If @c is not an uppercase or lowercase character,
646 : : * @c is returned unchanged.
647 : : **/
648 : : gunichar
649 : 17 : g_unichar_totitle (gunichar c)
650 : : {
651 : : unsigned int i;
652 : :
653 : : /* We handle U+0000 explicitly because some elements in
654 : : * title_table[i][1] may be null. */
655 : 17 : if (c == 0)
656 : 1 : return c;
657 : :
658 : 340 : for (i = 0; i < G_N_ELEMENTS (title_table); ++i)
659 : : {
660 : 330 : if (title_table[i][0] == c || title_table[i][1] == c
661 : 326 : || title_table[i][2] == c)
662 : 6 : return title_table[i][0];
663 : : }
664 : :
665 : 10 : if (TYPE (c) == G_UNICODE_LOWERCASE_LETTER)
666 : 1 : return g_unichar_toupper (c);
667 : :
668 : 9 : return c;
669 : : }
670 : :
671 : : /**
672 : : * g_unichar_digit_value:
673 : : * @c: a Unicode character
674 : : *
675 : : * Determines the numeric value of a character as a decimal
676 : : * digit.
677 : : *
678 : : * Returns: If @c is a decimal digit (according to
679 : : * g_unichar_isdigit()), its numeric value. Otherwise, -1.
680 : : **/
681 : : int
682 : 148 : g_unichar_digit_value (gunichar c)
683 : : {
684 : 148 : if (TYPE (c) == G_UNICODE_DECIMAL_NUMBER)
685 : 14 : return ATTTABLE (c >> 8, c & 0xff);
686 : 134 : return -1;
687 : : }
688 : :
689 : : /**
690 : : * g_unichar_xdigit_value:
691 : : * @c: a Unicode character
692 : : *
693 : : * Determines the numeric value of a character as a hexadecimal
694 : : * digit.
695 : : *
696 : : * Returns: If @c is a hex digit (according to
697 : : * g_unichar_isxdigit()), its numeric value. Otherwise, -1.
698 : : **/
699 : : int
700 : 156 : g_unichar_xdigit_value (gunichar c)
701 : : {
702 : 156 : if (c >= 'A' && c <= 'F')
703 : 8 : return c - 'A' + 10;
704 : 148 : if (c >= 'a' && c <= 'f')
705 : 8 : return c - 'a' + 10;
706 : 140 : if (c >= G_UNICHAR_FULLWIDTH_A && c <= G_UNICHAR_FULLWIDTH_F)
707 : 2 : return c - G_UNICHAR_FULLWIDTH_A + 10;
708 : 138 : if (c >= G_UNICHAR_FULLWIDTH_a && c <= G_UNICHAR_FULLWIDTH_f)
709 : 2 : return c - G_UNICHAR_FULLWIDTH_a + 10;
710 : 136 : if (TYPE (c) == G_UNICODE_DECIMAL_NUMBER)
711 : 14 : return ATTTABLE (c >> 8, c & 0xff);
712 : 122 : return -1;
713 : : }
714 : :
715 : : /**
716 : : * g_unichar_type:
717 : : * @c: a Unicode character
718 : : *
719 : : * Classifies a Unicode character by type.
720 : : *
721 : : * Returns: the type of the character.
722 : : **/
723 : : GUnicodeType
724 : 600 : g_unichar_type (gunichar c)
725 : : {
726 : 600 : return TYPE (c);
727 : : }
728 : :
729 : : /*
730 : : * Case mapping functions
731 : : */
732 : :
733 : : typedef enum {
734 : : LOCALE_NORMAL,
735 : : LOCALE_TURKIC,
736 : : LOCALE_LITHUANIAN
737 : : } LocaleType;
738 : :
739 : : static LocaleType
740 : 29061 : get_locale_type (void)
741 : : {
742 : : #ifdef G_OS_WIN32
743 : : char *tem = g_win32_getlocale ();
744 : : char locale[2];
745 : :
746 : : locale[0] = tem[0];
747 : : locale[1] = tem[1];
748 : : g_free (tem);
749 : : #else
750 : 29061 : const char *locale = setlocale (LC_CTYPE, NULL);
751 : :
752 : 29061 : if (locale == NULL)
753 : 0 : return LOCALE_NORMAL;
754 : : #endif
755 : :
756 : 29061 : switch (locale[0])
757 : : {
758 : 12 : case 'a':
759 : 12 : if (locale[1] == 'z')
760 : 12 : return LOCALE_TURKIC;
761 : 0 : break;
762 : 44 : case 'l':
763 : 44 : if (locale[1] == 't')
764 : 44 : return LOCALE_LITHUANIAN;
765 : 0 : break;
766 : 14 : case 't':
767 : 14 : if (locale[1] == 'r')
768 : 14 : return LOCALE_TURKIC;
769 : 0 : break;
770 : : }
771 : :
772 : 28991 : return LOCALE_NORMAL;
773 : : }
774 : :
775 : : G_ALWAYS_INLINE static inline void
776 : : increase_size (size_t *sizeptr, size_t add)
777 : : {
778 : 91122 : g_assert (G_MAXSIZE - *(sizeptr) >= add);
779 : 99690 : *(sizeptr) += add;
780 : 99690 : }
781 : :
782 : : G_ALWAYS_INLINE static inline void
783 : : append_utf8_char_to_buffer (gunichar c,
784 : : char *out_buffer,
785 : : size_t *in_out_len)
786 : : {
787 : : gint utf8_len;
788 : : char *buffer;
789 : :
790 : 8568 : buffer = out_buffer ? out_buffer + *(in_out_len) : NULL;
791 : 8568 : utf8_len = g_unichar_to_utf8 (c, buffer);
792 : :
793 : 8568 : g_assert (utf8_len >= 0);
794 : 8568 : increase_size (in_out_len, utf8_len);
795 : 8568 : }
796 : :
797 : : static void
798 : 12 : append_mark (const char **p_inout,
799 : : char *out_buffer,
800 : : size_t *in_out_len,
801 : : gboolean remove_dot)
802 : : {
803 : 12 : const char *p = *p_inout;
804 : :
805 : 18 : while (*p)
806 : : {
807 : 6 : gunichar c = g_utf8_get_char (p);
808 : :
809 : 6 : if (ISMARK (TYPE (c)))
810 : : {
811 : 6 : if (!remove_dot || c != 0x307 /* COMBINING DOT ABOVE */)
812 : : append_utf8_char_to_buffer (c, out_buffer, in_out_len);
813 : 6 : p = g_utf8_next_char (p);
814 : : }
815 : : else
816 : 0 : break;
817 : : }
818 : :
819 : 12 : *p_inout = p;
820 : 12 : }
821 : :
822 : : static void
823 : 262 : append_special_case (char *out_buffer,
824 : : size_t *in_out_len,
825 : : int offset,
826 : : int type,
827 : : int which)
828 : : {
829 : 262 : const gchar *p = special_case_table + offset;
830 : : size_t len;
831 : :
832 : 262 : if (type != G_UNICODE_TITLECASE_LETTER)
833 : 154 : p = g_utf8_next_char (p);
834 : :
835 : 262 : if (which == 1)
836 : 54 : p += strlen (p) + 1;
837 : :
838 : 262 : len = strlen (p);
839 : 262 : g_assert (len < G_MAXSIZE - *in_out_len);
840 : :
841 : 262 : if (out_buffer)
842 : 131 : memcpy (out_buffer + *in_out_len, p, len);
843 : :
844 : : increase_size (in_out_len, len);
845 : 262 : }
846 : :
847 : : static gsize
848 : 49614 : real_toupper (const gchar *str,
849 : : gssize max_len,
850 : : gchar *out_buffer,
851 : : LocaleType locale_type)
852 : : {
853 : 49614 : const gchar *p = str;
854 : 49614 : const char *last = NULL;
855 : 49614 : gsize len = 0;
856 : 49614 : gboolean last_was_i = FALSE;
857 : :
858 : 140522 : while ((max_len < 0 || p < str + max_len) && *p)
859 : : {
860 : 90908 : gunichar c = g_utf8_get_char (p);
861 : 90908 : int t = TYPE (c);
862 : : gunichar val;
863 : :
864 : 90908 : last = p;
865 : 90908 : p = g_utf8_next_char (p);
866 : :
867 : 90908 : if (locale_type == LOCALE_LITHUANIAN)
868 : : {
869 : 80 : if (c == 'i')
870 : 8 : last_was_i = TRUE;
871 : : else
872 : : {
873 : 72 : if (last_was_i)
874 : 8 : {
875 : : /* Nasty, need to remove any dot above. Though
876 : : * I think only E WITH DOT ABOVE occurs in practice
877 : : * which could simplify this considerably.
878 : : */
879 : : gsize decomp_len, i;
880 : : gunichar decomp[G_UNICHAR_MAX_DECOMPOSITION_LENGTH];
881 : :
882 : 8 : decomp_len = g_unichar_fully_decompose (c, FALSE, decomp, G_N_ELEMENTS (decomp));
883 : 20 : for (i=0; i < decomp_len; i++)
884 : : {
885 : :
886 : 12 : if (decomp[i] != 0x307 /* COMBINING DOT ABOVE */)
887 : 8 : append_utf8_char_to_buffer (g_unichar_toupper (decomp[i]),
888 : : out_buffer, &len);
889 : : }
890 : :
891 : 8 : append_mark (&p, out_buffer, &len, TRUE);
892 : :
893 : 8 : continue;
894 : : }
895 : :
896 : 64 : if (!ISMARK (t))
897 : 36 : last_was_i = FALSE;
898 : : }
899 : : }
900 : :
901 : 90900 : if (locale_type == LOCALE_TURKIC && c == 'i')
902 : : {
903 : : /* i => LATIN CAPITAL LETTER I WITH DOT ABOVE */
904 : 10 : append_utf8_char_to_buffer (0x130, out_buffer, &len);
905 : : }
906 : 90890 : else if (c == 0x0345) /* COMBINING GREEK YPOGEGRAMMENI */
907 : : {
908 : : /* Nasty, need to move it after other combining marks .. this would go away if
909 : : * we normalized first.
910 : : */
911 : 4 : append_mark (&p, out_buffer, &len, TRUE);
912 : :
913 : : /* And output as GREEK CAPITAL LETTER IOTA */
914 : : append_utf8_char_to_buffer (0x399, out_buffer, &len);
915 : : }
916 : 90886 : else if (IS (t,
917 : : OR (G_UNICODE_LOWERCASE_LETTER,
918 : : OR (G_UNICODE_TITLECASE_LETTER,
919 : : 0))))
920 : : {
921 : 4730 : val = ATTTABLE (c >> 8, c & 0xff);
922 : :
923 : 4730 : if (val >= 0x1000000)
924 : : {
925 : 206 : append_special_case (out_buffer, &len, val - 0x1000000, t,
926 : : t == G_UNICODE_LOWERCASE_LETTER ? 0 : 1);
927 : : }
928 : : else
929 : : {
930 : 4524 : if (t == G_UNICODE_TITLECASE_LETTER)
931 : : {
932 : : unsigned int i;
933 : 20 : for (i = 0; i < G_N_ELEMENTS (title_table); ++i)
934 : : {
935 : 20 : if (title_table[i][0] == c)
936 : : {
937 : 8 : val = title_table[i][1];
938 : 8 : break;
939 : : }
940 : : }
941 : : }
942 : :
943 : : /* Some lowercase letters, e.g., U+000AA, FEMININE ORDINAL INDICATOR,
944 : : * do not have an uppercase equivalent, in which case val will be
945 : : * zero. */
946 : 4524 : append_utf8_char_to_buffer (val ? val : c, out_buffer, &len);
947 : : }
948 : : }
949 : : else
950 : : {
951 : 86156 : gsize char_len = g_utf8_skip[*(guchar *)last];
952 : :
953 : 86156 : if (out_buffer)
954 : 43078 : memcpy (out_buffer + len, last, char_len);
955 : :
956 : : increase_size (&len, char_len);
957 : : }
958 : :
959 : : }
960 : :
961 : 49614 : return len;
962 : : }
963 : :
964 : : /**
965 : : * g_utf8_strup:
966 : : * @str: a UTF-8 encoded string
967 : : * @len: length of @str, in bytes, or -1 if @str is nul-terminated.
968 : : *
969 : : * Converts all Unicode characters in the string that have a case
970 : : * to uppercase. The exact manner that this is done depends
971 : : * on the current locale, and may result in the number of
972 : : * characters in the string increasing. (For instance, the
973 : : * German ess-zet will be changed to SS.)
974 : : *
975 : : * Returns: a newly allocated string, with all characters
976 : : * converted to uppercase.
977 : : **/
978 : : gchar *
979 : 24808 : g_utf8_strup (const gchar *str,
980 : : gssize len)
981 : : {
982 : : gsize result_len;
983 : : LocaleType locale_type;
984 : : gchar *result;
985 : :
986 : 24808 : g_return_val_if_fail (str != NULL, NULL);
987 : :
988 : 24807 : locale_type = get_locale_type ();
989 : :
990 : : /*
991 : : * We use a two pass approach to keep memory management simple
992 : : */
993 : 24807 : result_len = real_toupper (str, len, NULL, locale_type);
994 : 24807 : g_assert (result_len < G_MAXSIZE);
995 : :
996 : 24807 : result = g_malloc (result_len + 1);
997 : 24807 : real_toupper (str, len, result, locale_type);
998 : 24807 : result[result_len] = '\0';
999 : :
1000 : 24807 : return result;
1001 : : }
1002 : :
1003 : : /* traverses the string checking for characters with combining class == 230
1004 : : * until a base character is found */
1005 : : static gboolean
1006 : 24 : has_more_above (const gchar *str)
1007 : : {
1008 : 24 : const gchar *p = str;
1009 : : gint combining_class;
1010 : :
1011 : 28 : while (*p)
1012 : : {
1013 : 28 : combining_class = g_unichar_combining_class (g_utf8_get_char (p));
1014 : 28 : if (combining_class == 230)
1015 : 24 : return TRUE;
1016 : 4 : else if (combining_class == 0)
1017 : 0 : break;
1018 : :
1019 : 4 : p = g_utf8_next_char (p);
1020 : : }
1021 : :
1022 : 0 : return FALSE;
1023 : : }
1024 : :
1025 : : static gsize
1026 : 8508 : real_tolower (const gchar *str,
1027 : : gssize max_len,
1028 : : gchar *out_buffer,
1029 : : LocaleType locale_type)
1030 : : {
1031 : 8508 : const gchar *p = str;
1032 : 8508 : const char *last = NULL;
1033 : 8508 : gsize len = 0;
1034 : :
1035 : 17240 : while ((max_len < 0 || p < str + max_len) && *p)
1036 : : {
1037 : 8732 : gunichar c = g_utf8_get_char (p);
1038 : 8732 : int t = TYPE (c);
1039 : : gunichar val;
1040 : :
1041 : 8732 : last = p;
1042 : 8732 : p = g_utf8_next_char (p);
1043 : :
1044 : 8732 : if (locale_type == LOCALE_TURKIC && (c == 'I' || c == 0x130 ||
1045 : : c == G_UNICHAR_FULLWIDTH_I))
1046 : 22 : {
1047 : 42 : gboolean combining_dot = (c == 'I' || c == G_UNICHAR_FULLWIDTH_I) &&
1048 : 20 : g_utf8_get_char (p) == 0x0307;
1049 : 22 : if (combining_dot || c == 0x130)
1050 : : {
1051 : : /* I + COMBINING DOT ABOVE => i (U+0069)
1052 : : * LATIN CAPITAL LETTER I WITH DOT ABOVE => i (U+0069) */
1053 : : append_utf8_char_to_buffer (0x0069, out_buffer, &len);
1054 : :
1055 : 12 : if (combining_dot)
1056 : 10 : p = g_utf8_next_char (p);
1057 : : }
1058 : : else
1059 : : {
1060 : : /* I => LATIN SMALL LETTER DOTLESS I */
1061 : : append_utf8_char_to_buffer (0x131, out_buffer, &len);
1062 : : }
1063 : : }
1064 : : /* Introduce an explicit dot above when lowercasing capital I's and J's
1065 : : * whenever there are more accents above. [SpecialCasing.txt] */
1066 : 8710 : else if (locale_type == LOCALE_LITHUANIAN &&
1067 : 80 : (c == 0x00cc || c == 0x00cd || c == 0x0128))
1068 : : {
1069 : : append_utf8_char_to_buffer (0x0069, out_buffer, &len);
1070 : : append_utf8_char_to_buffer (0x0307, out_buffer, &len);
1071 : :
1072 : 12 : switch (c)
1073 : : {
1074 : 4 : case 0x00cc:
1075 : : append_utf8_char_to_buffer (0x0300, out_buffer, &len);
1076 : 4 : break;
1077 : 4 : case 0x00cd:
1078 : : append_utf8_char_to_buffer (0x0301, out_buffer, &len);
1079 : 4 : break;
1080 : 4 : case 0x0128:
1081 : : append_utf8_char_to_buffer (0x0303, out_buffer, &len);
1082 : 4 : break;
1083 : : }
1084 : : }
1085 : 8698 : else if (locale_type == LOCALE_LITHUANIAN &&
1086 : 56 : (c == 'I' || c == G_UNICHAR_FULLWIDTH_I ||
1087 : 76 : c == 'J' || c == G_UNICHAR_FULLWIDTH_J || c == 0x012e) &&
1088 : 24 : has_more_above (p))
1089 : : {
1090 : 24 : append_utf8_char_to_buffer (g_unichar_tolower (c), out_buffer, &len);
1091 : 24 : append_utf8_char_to_buffer (0x0307, out_buffer, &len);
1092 : : }
1093 : 8674 : else if (c == 0x03A3) /* GREEK CAPITAL LETTER SIGMA */
1094 : : {
1095 : 6 : if ((max_len < 0 || p < str + max_len) && *p)
1096 : 4 : {
1097 : 4 : gunichar next_c = g_utf8_get_char (p);
1098 : 4 : int next_type = TYPE(next_c);
1099 : :
1100 : : /* SIGMA mapps differently depending on whether it is
1101 : : * final or not. The following simplified test would
1102 : : * fail in the case of combining marks following the
1103 : : * sigma, but I don't think that occurs in real text.
1104 : : * The test here matches that in ICU.
1105 : : */
1106 : 4 : if (ISALPHA (next_type)) /* Lu,Ll,Lt,Lm,Lo */
1107 : 2 : val = 0x3c3; /* GREEK SMALL SIGMA */
1108 : : else
1109 : 2 : val = 0x3c2; /* GREEK SMALL FINAL SIGMA */
1110 : : }
1111 : : else
1112 : 2 : val = 0x3c2; /* GREEK SMALL FINAL SIGMA */
1113 : :
1114 : : append_utf8_char_to_buffer (val, out_buffer, &len);
1115 : : }
1116 : 8668 : else if (IS (t,
1117 : : OR (G_UNICODE_UPPERCASE_LETTER,
1118 : : OR (G_UNICODE_TITLECASE_LETTER,
1119 : : 0))))
1120 : : {
1121 : 3964 : val = ATTTABLE (c >> 8, c & 0xff);
1122 : :
1123 : 3964 : if (val >= 0x1000000)
1124 : : {
1125 : 56 : append_special_case (out_buffer, &len, val - 0x1000000, t, 0);
1126 : : }
1127 : : else
1128 : : {
1129 : 3908 : if (t == G_UNICODE_TITLECASE_LETTER)
1130 : : {
1131 : : unsigned int i;
1132 : 20 : for (i = 0; i < G_N_ELEMENTS (title_table); ++i)
1133 : : {
1134 : 20 : if (title_table[i][0] == c)
1135 : : {
1136 : 8 : val = title_table[i][2];
1137 : 8 : break;
1138 : : }
1139 : : }
1140 : : }
1141 : :
1142 : : /* Not all uppercase letters are guaranteed to have a lowercase
1143 : : * equivalent. If this is the case, val will be zero. */
1144 : 3908 : append_utf8_char_to_buffer (val ? val : c, out_buffer, &len);
1145 : : }
1146 : : }
1147 : : else
1148 : : {
1149 : 4704 : gsize char_len = g_utf8_skip[*(guchar *)last];
1150 : :
1151 : 4704 : if (out_buffer)
1152 : 2352 : memcpy (out_buffer + len, last, char_len);
1153 : :
1154 : : increase_size (&len, char_len);
1155 : : }
1156 : :
1157 : : }
1158 : :
1159 : 8508 : return len;
1160 : : }
1161 : :
1162 : : /**
1163 : : * g_utf8_strdown:
1164 : : * @str: a UTF-8 encoded string
1165 : : * @len: length of @str, in bytes, or -1 if @str is nul-terminated.
1166 : : *
1167 : : * Converts all Unicode characters in the string that have a case
1168 : : * to lowercase. The exact manner that this is done depends
1169 : : * on the current locale, and may result in the number of
1170 : : * characters in the string changing.
1171 : : *
1172 : : * Returns: a newly allocated string, with all characters
1173 : : * converted to lowercase.
1174 : : **/
1175 : : gchar *
1176 : 4255 : g_utf8_strdown (const gchar *str,
1177 : : gssize len)
1178 : : {
1179 : : gsize result_len;
1180 : : LocaleType locale_type;
1181 : : gchar *result;
1182 : :
1183 : 4255 : g_return_val_if_fail (str != NULL, NULL);
1184 : :
1185 : 4254 : locale_type = get_locale_type ();
1186 : :
1187 : : /*
1188 : : * We use a two pass approach to keep memory management simple
1189 : : */
1190 : 4254 : result_len = real_tolower (str, len, NULL, locale_type);
1191 : 4254 : g_assert (result_len < G_MAXSIZE);
1192 : :
1193 : 4254 : result = g_malloc (result_len + 1);
1194 : 4254 : real_tolower (str, len, result, locale_type);
1195 : 4254 : result[result_len] = '\0';
1196 : :
1197 : 4254 : return result;
1198 : : }
1199 : :
1200 : : /**
1201 : : * g_utf8_casefold:
1202 : : * @str: a UTF-8 encoded string
1203 : : * @len: length of @str, in bytes, or -1 if @str is nul-terminated.
1204 : : *
1205 : : * Converts a string into a form that is independent of case. The
1206 : : * result will not correspond to any particular case, but can be
1207 : : * compared for equality or ordered with the results of calling
1208 : : * g_utf8_casefold() on other strings.
1209 : : *
1210 : : * Note that calling g_utf8_casefold() followed by g_utf8_collate() is
1211 : : * only an approximation to the correct linguistic case insensitive
1212 : : * ordering, though it is a fairly good one. Getting this exactly
1213 : : * right would require a more sophisticated collation function that
1214 : : * takes case sensitivity into account. GLib does not currently
1215 : : * provide such a function.
1216 : : *
1217 : : * Returns: a newly allocated string, that is a
1218 : : * case independent form of @str.
1219 : : **/
1220 : : gchar *
1221 : 7397 : g_utf8_casefold (const gchar *str,
1222 : : gssize len)
1223 : : {
1224 : : GString *result;
1225 : : const char *p;
1226 : :
1227 : 7397 : g_return_val_if_fail (str != NULL, NULL);
1228 : :
1229 : 7396 : result = g_string_new (NULL);
1230 : 7396 : p = str;
1231 : 44221 : while ((len < 0 || p < str + len) && *p)
1232 : : {
1233 : 36825 : gunichar ch = g_utf8_get_char (p);
1234 : :
1235 : 36825 : int start = 0;
1236 : 36825 : int end = G_N_ELEMENTS (casefold_table);
1237 : :
1238 : 36825 : if (ch >= casefold_table[start].ch &&
1239 : 2089 : ch <= casefold_table[end - 1].ch)
1240 : : {
1241 : : while (TRUE)
1242 : 13355 : {
1243 : 15091 : int half = (start + end) / 2;
1244 : 15091 : if (ch == casefold_table[half].ch)
1245 : : {
1246 : 254 : g_string_append (result, casefold_table[half].data);
1247 : 254 : goto next;
1248 : : }
1249 : 14837 : else if (half == start)
1250 : 1482 : break;
1251 : 13355 : else if (ch > casefold_table[half].ch)
1252 : 4423 : start = half;
1253 : : else
1254 : 8932 : end = half;
1255 : : }
1256 : : }
1257 : :
1258 : 36571 : g_string_append_unichar (result, g_unichar_tolower (ch));
1259 : :
1260 : 36825 : next:
1261 : 36825 : p = g_utf8_next_char (p);
1262 : : }
1263 : :
1264 : 7396 : return g_string_free (result, FALSE);
1265 : : }
1266 : :
1267 : : /**
1268 : : * g_unichar_get_mirror_char:
1269 : : * @ch: a Unicode character
1270 : : * @mirrored_ch: (out): location to store the mirrored character
1271 : : *
1272 : : * In Unicode, some characters are "mirrored". This means that their
1273 : : * images are mirrored horizontally in text that is laid out from right
1274 : : * to left. For instance, "(" would become its mirror image, ")", in
1275 : : * right-to-left text.
1276 : : *
1277 : : * If @ch has the Unicode mirrored property and there is another unicode
1278 : : * character that typically has a glyph that is the mirror image of @ch's
1279 : : * glyph and @mirrored_ch is set, it puts that character in the address
1280 : : * pointed to by @mirrored_ch. Otherwise the original character is put.
1281 : : *
1282 : : * Returns: %TRUE if @ch has a mirrored character, %FALSE otherwise
1283 : : *
1284 : : * Since: 2.4
1285 : : **/
1286 : : gboolean
1287 : 7 : g_unichar_get_mirror_char (gunichar ch,
1288 : : gunichar *mirrored_ch)
1289 : : {
1290 : : gboolean found;
1291 : : gunichar mirrored;
1292 : :
1293 : 7 : mirrored = GLIB_GET_MIRRORING(ch);
1294 : :
1295 : 7 : found = ch != mirrored;
1296 : 7 : if (mirrored_ch)
1297 : 7 : *mirrored_ch = mirrored;
1298 : :
1299 : 7 : return found;
1300 : :
1301 : : }
1302 : :
1303 : : #define G_SCRIPT_TABLE_MIDPOINT (G_N_ELEMENTS (g_script_table) / 2)
1304 : :
1305 : : static inline GUnicodeScript
1306 : 1106043 : g_unichar_get_script_bsearch (gunichar ch)
1307 : : {
1308 : 1106043 : int lower = 0;
1309 : 1106043 : int upper = G_N_ELEMENTS (g_script_table) - 1;
1310 : : static int saved_mid = G_SCRIPT_TABLE_MIDPOINT;
1311 : 1106043 : int mid = saved_mid;
1312 : :
1313 : :
1314 : : do
1315 : : {
1316 : 2856359 : if (ch < g_script_table[mid].start)
1317 : 1749223 : upper = mid - 1;
1318 : 1107136 : else if (ch >= g_script_table[mid].start + g_script_table[mid].chars)
1319 : 954539 : lower = mid + 1;
1320 : : else
1321 : 152597 : return g_script_table[saved_mid = mid].script;
1322 : :
1323 : 2703762 : mid = (lower + upper) / 2;
1324 : : }
1325 : 2703762 : while (lower <= upper);
1326 : :
1327 : 953446 : return G_UNICODE_SCRIPT_UNKNOWN;
1328 : : }
1329 : :
1330 : : /**
1331 : : * g_unichar_get_script:
1332 : : * @ch: a Unicode character
1333 : : *
1334 : : * Looks up the #GUnicodeScript for a particular character (as defined
1335 : : * by Unicode Standard Annex \#24). No check is made for @ch being a
1336 : : * valid Unicode character; if you pass in invalid character, the
1337 : : * result is undefined.
1338 : : *
1339 : : * This function is equivalent to pango_script_for_unichar() and the
1340 : : * two are interchangeable.
1341 : : *
1342 : : * Returns: the #GUnicodeScript for the character.
1343 : : *
1344 : : * Since: 2.14
1345 : : */
1346 : : GUnicodeScript
1347 : 1114287 : g_unichar_get_script (gunichar ch)
1348 : : {
1349 : 1114287 : if (ch < G_EASY_SCRIPTS_RANGE)
1350 : 8244 : return g_script_easy_table[ch];
1351 : : else
1352 : 1106043 : return g_unichar_get_script_bsearch (ch);
1353 : : }
1354 : :
1355 : :
1356 : : /* http://unicode.org/iso15924/ */
1357 : : static const guint32 iso15924_tags[] =
1358 : : {
1359 : : #define PACK(a,b,c,d) ((guint32)((((guint8)(a))<<24)|(((guint8)(b))<<16)|(((guint8)(c))<<8)|((guint8)(d))))
1360 : :
1361 : : PACK ('Z','y','y','y'), /* G_UNICODE_SCRIPT_COMMON */
1362 : : PACK ('Z','i','n','h'), /* G_UNICODE_SCRIPT_INHERITED */
1363 : : PACK ('A','r','a','b'), /* G_UNICODE_SCRIPT_ARABIC */
1364 : : PACK ('A','r','m','n'), /* G_UNICODE_SCRIPT_ARMENIAN */
1365 : : PACK ('B','e','n','g'), /* G_UNICODE_SCRIPT_BENGALI */
1366 : : PACK ('B','o','p','o'), /* G_UNICODE_SCRIPT_BOPOMOFO */
1367 : : PACK ('C','h','e','r'), /* G_UNICODE_SCRIPT_CHEROKEE */
1368 : : PACK ('C','o','p','t'), /* G_UNICODE_SCRIPT_COPTIC */
1369 : : PACK ('C','y','r','l'), /* G_UNICODE_SCRIPT_CYRILLIC */
1370 : : PACK ('D','s','r','t'), /* G_UNICODE_SCRIPT_DESERET */
1371 : : PACK ('D','e','v','a'), /* G_UNICODE_SCRIPT_DEVANAGARI */
1372 : : PACK ('E','t','h','i'), /* G_UNICODE_SCRIPT_ETHIOPIC */
1373 : : PACK ('G','e','o','r'), /* G_UNICODE_SCRIPT_GEORGIAN */
1374 : : PACK ('G','o','t','h'), /* G_UNICODE_SCRIPT_GOTHIC */
1375 : : PACK ('G','r','e','k'), /* G_UNICODE_SCRIPT_GREEK */
1376 : : PACK ('G','u','j','r'), /* G_UNICODE_SCRIPT_GUJARATI */
1377 : : PACK ('G','u','r','u'), /* G_UNICODE_SCRIPT_GURMUKHI */
1378 : : PACK ('H','a','n','i'), /* G_UNICODE_SCRIPT_HAN */
1379 : : PACK ('H','a','n','g'), /* G_UNICODE_SCRIPT_HANGUL */
1380 : : PACK ('H','e','b','r'), /* G_UNICODE_SCRIPT_HEBREW */
1381 : : PACK ('H','i','r','a'), /* G_UNICODE_SCRIPT_HIRAGANA */
1382 : : PACK ('K','n','d','a'), /* G_UNICODE_SCRIPT_KANNADA */
1383 : : PACK ('K','a','n','a'), /* G_UNICODE_SCRIPT_KATAKANA */
1384 : : PACK ('K','h','m','r'), /* G_UNICODE_SCRIPT_KHMER */
1385 : : PACK ('L','a','o','o'), /* G_UNICODE_SCRIPT_LAO */
1386 : : PACK ('L','a','t','n'), /* G_UNICODE_SCRIPT_LATIN */
1387 : : PACK ('M','l','y','m'), /* G_UNICODE_SCRIPT_MALAYALAM */
1388 : : PACK ('M','o','n','g'), /* G_UNICODE_SCRIPT_MONGOLIAN */
1389 : : PACK ('M','y','m','r'), /* G_UNICODE_SCRIPT_MYANMAR */
1390 : : PACK ('O','g','a','m'), /* G_UNICODE_SCRIPT_OGHAM */
1391 : : PACK ('I','t','a','l'), /* G_UNICODE_SCRIPT_OLD_ITALIC */
1392 : : PACK ('O','r','y','a'), /* G_UNICODE_SCRIPT_ORIYA */
1393 : : PACK ('R','u','n','r'), /* G_UNICODE_SCRIPT_RUNIC */
1394 : : PACK ('S','i','n','h'), /* G_UNICODE_SCRIPT_SINHALA */
1395 : : PACK ('S','y','r','c'), /* G_UNICODE_SCRIPT_SYRIAC */
1396 : : PACK ('T','a','m','l'), /* G_UNICODE_SCRIPT_TAMIL */
1397 : : PACK ('T','e','l','u'), /* G_UNICODE_SCRIPT_TELUGU */
1398 : : PACK ('T','h','a','a'), /* G_UNICODE_SCRIPT_THAANA */
1399 : : PACK ('T','h','a','i'), /* G_UNICODE_SCRIPT_THAI */
1400 : : PACK ('T','i','b','t'), /* G_UNICODE_SCRIPT_TIBETAN */
1401 : : PACK ('C','a','n','s'), /* G_UNICODE_SCRIPT_CANADIAN_ABORIGINAL */
1402 : : PACK ('Y','i','i','i'), /* G_UNICODE_SCRIPT_YI */
1403 : : PACK ('T','g','l','g'), /* G_UNICODE_SCRIPT_TAGALOG */
1404 : : PACK ('H','a','n','o'), /* G_UNICODE_SCRIPT_HANUNOO */
1405 : : PACK ('B','u','h','d'), /* G_UNICODE_SCRIPT_BUHID */
1406 : : PACK ('T','a','g','b'), /* G_UNICODE_SCRIPT_TAGBANWA */
1407 : :
1408 : : /* Unicode-4.0 additions */
1409 : : PACK ('B','r','a','i'), /* G_UNICODE_SCRIPT_BRAILLE */
1410 : : PACK ('C','p','r','t'), /* G_UNICODE_SCRIPT_CYPRIOT */
1411 : : PACK ('L','i','m','b'), /* G_UNICODE_SCRIPT_LIMBU */
1412 : : PACK ('O','s','m','a'), /* G_UNICODE_SCRIPT_OSMANYA */
1413 : : PACK ('S','h','a','w'), /* G_UNICODE_SCRIPT_SHAVIAN */
1414 : : PACK ('L','i','n','b'), /* G_UNICODE_SCRIPT_LINEAR_B */
1415 : : PACK ('T','a','l','e'), /* G_UNICODE_SCRIPT_TAI_LE */
1416 : : PACK ('U','g','a','r'), /* G_UNICODE_SCRIPT_UGARITIC */
1417 : :
1418 : : /* Unicode-4.1 additions */
1419 : : PACK ('T','a','l','u'), /* G_UNICODE_SCRIPT_NEW_TAI_LUE */
1420 : : PACK ('B','u','g','i'), /* G_UNICODE_SCRIPT_BUGINESE */
1421 : : PACK ('G','l','a','g'), /* G_UNICODE_SCRIPT_GLAGOLITIC */
1422 : : PACK ('T','f','n','g'), /* G_UNICODE_SCRIPT_TIFINAGH */
1423 : : PACK ('S','y','l','o'), /* G_UNICODE_SCRIPT_SYLOTI_NAGRI */
1424 : : PACK ('X','p','e','o'), /* G_UNICODE_SCRIPT_OLD_PERSIAN */
1425 : : PACK ('K','h','a','r'), /* G_UNICODE_SCRIPT_KHAROSHTHI */
1426 : :
1427 : : /* Unicode-5.0 additions */
1428 : : PACK ('Z','z','z','z'), /* G_UNICODE_SCRIPT_UNKNOWN */
1429 : : PACK ('B','a','l','i'), /* G_UNICODE_SCRIPT_BALINESE */
1430 : : PACK ('X','s','u','x'), /* G_UNICODE_SCRIPT_CUNEIFORM */
1431 : : PACK ('P','h','n','x'), /* G_UNICODE_SCRIPT_PHOENICIAN */
1432 : : PACK ('P','h','a','g'), /* G_UNICODE_SCRIPT_PHAGS_PA */
1433 : : PACK ('N','k','o','o'), /* G_UNICODE_SCRIPT_NKO */
1434 : :
1435 : : /* Unicode-5.1 additions */
1436 : : PACK ('K','a','l','i'), /* G_UNICODE_SCRIPT_KAYAH_LI */
1437 : : PACK ('L','e','p','c'), /* G_UNICODE_SCRIPT_LEPCHA */
1438 : : PACK ('R','j','n','g'), /* G_UNICODE_SCRIPT_REJANG */
1439 : : PACK ('S','u','n','d'), /* G_UNICODE_SCRIPT_SUNDANESE */
1440 : : PACK ('S','a','u','r'), /* G_UNICODE_SCRIPT_SAURASHTRA */
1441 : : PACK ('C','h','a','m'), /* G_UNICODE_SCRIPT_CHAM */
1442 : : PACK ('O','l','c','k'), /* G_UNICODE_SCRIPT_OL_CHIKI */
1443 : : PACK ('V','a','i','i'), /* G_UNICODE_SCRIPT_VAI */
1444 : : PACK ('C','a','r','i'), /* G_UNICODE_SCRIPT_CARIAN */
1445 : : PACK ('L','y','c','i'), /* G_UNICODE_SCRIPT_LYCIAN */
1446 : : PACK ('L','y','d','i'), /* G_UNICODE_SCRIPT_LYDIAN */
1447 : :
1448 : : /* Unicode-5.2 additions */
1449 : : PACK ('A','v','s','t'), /* G_UNICODE_SCRIPT_AVESTAN */
1450 : : PACK ('B','a','m','u'), /* G_UNICODE_SCRIPT_BAMUM */
1451 : : PACK ('E','g','y','p'), /* G_UNICODE_SCRIPT_EGYPTIAN_HIEROGLYPHS */
1452 : : PACK ('A','r','m','i'), /* G_UNICODE_SCRIPT_IMPERIAL_ARAMAIC */
1453 : : PACK ('P','h','l','i'), /* G_UNICODE_SCRIPT_INSCRIPTIONAL_PAHLAVI */
1454 : : PACK ('P','r','t','i'), /* G_UNICODE_SCRIPT_INSCRIPTIONAL_PARTHIAN */
1455 : : PACK ('J','a','v','a'), /* G_UNICODE_SCRIPT_JAVANESE */
1456 : : PACK ('K','t','h','i'), /* G_UNICODE_SCRIPT_KAITHI */
1457 : : PACK ('L','i','s','u'), /* G_UNICODE_SCRIPT_LISU */
1458 : : PACK ('M','t','e','i'), /* G_UNICODE_SCRIPT_MEETEI_MAYEK */
1459 : : PACK ('S','a','r','b'), /* G_UNICODE_SCRIPT_OLD_SOUTH_ARABIAN */
1460 : : PACK ('O','r','k','h'), /* G_UNICODE_SCRIPT_OLD_TURKIC */
1461 : : PACK ('S','a','m','r'), /* G_UNICODE_SCRIPT_SAMARITAN */
1462 : : PACK ('L','a','n','a'), /* G_UNICODE_SCRIPT_TAI_THAM */
1463 : : PACK ('T','a','v','t'), /* G_UNICODE_SCRIPT_TAI_VIET */
1464 : :
1465 : : /* Unicode-6.0 additions */
1466 : : PACK ('B','a','t','k'), /* G_UNICODE_SCRIPT_BATAK */
1467 : : PACK ('B','r','a','h'), /* G_UNICODE_SCRIPT_BRAHMI */
1468 : : PACK ('M','a','n','d'), /* G_UNICODE_SCRIPT_MANDAIC */
1469 : :
1470 : : /* Unicode-6.1 additions */
1471 : : PACK ('C','a','k','m'), /* G_UNICODE_SCRIPT_CHAKMA */
1472 : : PACK ('M','e','r','c'), /* G_UNICODE_SCRIPT_MEROITIC_CURSIVE */
1473 : : PACK ('M','e','r','o'), /* G_UNICODE_SCRIPT_MEROITIC_HIEROGLYPHS */
1474 : : PACK ('P','l','r','d'), /* G_UNICODE_SCRIPT_MIAO */
1475 : : PACK ('S','h','r','d'), /* G_UNICODE_SCRIPT_SHARADA */
1476 : : PACK ('S','o','r','a'), /* G_UNICODE_SCRIPT_SORA_SOMPENG */
1477 : : PACK ('T','a','k','r'), /* G_UNICODE_SCRIPT_TAKRI */
1478 : :
1479 : : /* Unicode 7.0 additions */
1480 : : PACK ('B','a','s','s'), /* G_UNICODE_SCRIPT_BASSA_VAH */
1481 : : PACK ('A','g','h','b'), /* G_UNICODE_SCRIPT_CAUCASIAN_ALBANIAN */
1482 : : PACK ('D','u','p','l'), /* G_UNICODE_SCRIPT_DUPLOYAN */
1483 : : PACK ('E','l','b','a'), /* G_UNICODE_SCRIPT_ELBASAN */
1484 : : PACK ('G','r','a','n'), /* G_UNICODE_SCRIPT_GRANTHA */
1485 : : PACK ('K','h','o','j'), /* G_UNICODE_SCRIPT_KHOJKI*/
1486 : : PACK ('S','i','n','d'), /* G_UNICODE_SCRIPT_KHUDAWADI */
1487 : : PACK ('L','i','n','a'), /* G_UNICODE_SCRIPT_LINEAR_A */
1488 : : PACK ('M','a','h','j'), /* G_UNICODE_SCRIPT_MAHAJANI */
1489 : : PACK ('M','a','n','i'), /* G_UNICODE_SCRIPT_MANICHAEAN */
1490 : : PACK ('M','e','n','d'), /* G_UNICODE_SCRIPT_MENDE_KIKAKUI */
1491 : : PACK ('M','o','d','i'), /* G_UNICODE_SCRIPT_MODI */
1492 : : PACK ('M','r','o','o'), /* G_UNICODE_SCRIPT_MRO */
1493 : : PACK ('N','b','a','t'), /* G_UNICODE_SCRIPT_NABATAEAN */
1494 : : PACK ('N','a','r','b'), /* G_UNICODE_SCRIPT_OLD_NORTH_ARABIAN */
1495 : : PACK ('P','e','r','m'), /* G_UNICODE_SCRIPT_OLD_PERMIC */
1496 : : PACK ('H','m','n','g'), /* G_UNICODE_SCRIPT_PAHAWH_HMONG */
1497 : : PACK ('P','a','l','m'), /* G_UNICODE_SCRIPT_PALMYRENE */
1498 : : PACK ('P','a','u','c'), /* G_UNICODE_SCRIPT_PAU_CIN_HAU */
1499 : : PACK ('P','h','l','p'), /* G_UNICODE_SCRIPT_PSALTER_PAHLAVI */
1500 : : PACK ('S','i','d','d'), /* G_UNICODE_SCRIPT_SIDDHAM */
1501 : : PACK ('T','i','r','h'), /* G_UNICODE_SCRIPT_TIRHUTA */
1502 : : PACK ('W','a','r','a'), /* G_UNICODE_SCRIPT_WARANG_CITI */
1503 : :
1504 : : /* Unicode 8.0 additions */
1505 : : PACK ('A','h','o','m'), /* G_UNICODE_SCRIPT_AHOM */
1506 : : PACK ('H','l','u','w'), /* G_UNICODE_SCRIPT_ANATOLIAN_HIEROGLYPHS */
1507 : : PACK ('H','a','t','r'), /* G_UNICODE_SCRIPT_HATRAN */
1508 : : PACK ('M','u','l','t'), /* G_UNICODE_SCRIPT_MULTANI */
1509 : : PACK ('H','u','n','g'), /* G_UNICODE_SCRIPT_OLD_HUNGARIAN */
1510 : : PACK ('S','g','n','w'), /* G_UNICODE_SCRIPT_SIGNWRITING */
1511 : :
1512 : : /* Unicode 9.0 additions */
1513 : : PACK ('A','d','l','m'), /* G_UNICODE_SCRIPT_ADLAM */
1514 : : PACK ('B','h','k','s'), /* G_UNICODE_SCRIPT_BHAIKSUKI */
1515 : : PACK ('M','a','r','c'), /* G_UNICODE_SCRIPT_MARCHEN */
1516 : : PACK ('N','e','w','a'), /* G_UNICODE_SCRIPT_NEWA */
1517 : : PACK ('O','s','g','e'), /* G_UNICODE_SCRIPT_OSAGE */
1518 : : PACK ('T','a','n','g'), /* G_UNICODE_SCRIPT_TANGUT */
1519 : :
1520 : : /* Unicode 10.0 additions */
1521 : : PACK ('G','o','n','m'), /* G_UNICODE_SCRIPT_MASARAM_GONDI */
1522 : : PACK ('N','s','h','u'), /* G_UNICODE_SCRIPT_NUSHU */
1523 : : PACK ('S','o','y','o'), /* G_UNICODE_SCRIPT_SOYOMBO */
1524 : : PACK ('Z','a','n','b'), /* G_UNICODE_SCRIPT_ZANABAZAR_SQUARE */
1525 : :
1526 : : /* Unicode 11.0 additions */
1527 : : PACK ('D','o','g','r'), /* G_UNICODE_SCRIPT_DOGRA */
1528 : : PACK ('G','o','n','g'), /* G_UNICODE_SCRIPT_GUNJALA_GONDI */
1529 : : PACK ('R','o','h','g'), /* G_UNICODE_SCRIPT_HANIFI_ROHINGYA */
1530 : : PACK ('M','a','k','a'), /* G_UNICODE_SCRIPT_MAKASAR */
1531 : : PACK ('M','e','d','f'), /* G_UNICODE_SCRIPT_MEDEFAIDRIN */
1532 : : PACK ('S','o','g','o'), /* G_UNICODE_SCRIPT_OLD_SOGDIAN */
1533 : : PACK ('S','o','g','d'), /* G_UNICODE_SCRIPT_SOGDIAN */
1534 : :
1535 : : /* Unicode 12.0 additions */
1536 : : PACK ('E','l','y','m'), /* G_UNICODE_SCRIPT_ELYMAIC */
1537 : : PACK ('N','a','n','d'), /* G_UNICODE_SCRIPT_NANDINAGARI */
1538 : : PACK ('H','m','n','p'), /* G_UNICODE_SCRIPT_NYIAKENG_PUACHUE_HMONG */
1539 : : PACK ('W','c','h','o'), /* G_UNICODE_SCRIPT_WANCHO */
1540 : :
1541 : : /* Unicode 13.0 additions */
1542 : : PACK ('C', 'h', 'r', 's'), /* G_UNICODE_SCRIPT_CHORASMIAN */
1543 : : PACK ('D', 'i', 'a', 'k'), /* G_UNICODE_SCRIPT_DIVES_AKURU */
1544 : : PACK ('K', 'i', 't', 's'), /* G_UNICODE_SCRIPT_KHITAN_SMALL_SCRIPT */
1545 : : PACK ('Y', 'e', 'z', 'i'), /* G_UNICODE_SCRIPT_YEZIDI */
1546 : :
1547 : : /* Unicode 14.0 additions */
1548 : : PACK ('C', 'p', 'm', 'n'), /* G_UNICODE_SCRIPT_CYPRO_MINOAN */
1549 : : PACK ('O', 'u', 'g', 'r'), /* G_UNICODE_SCRIPT_OLD_UYHUR */
1550 : : PACK ('T', 'n', 's', 'a'), /* G_UNICODE_SCRIPT_TANGSA */
1551 : : PACK ('T', 'o', 't', 'o'), /* G_UNICODE_SCRIPT_TOTO */
1552 : : PACK ('V', 'i', 't', 'h'), /* G_UNICODE_SCRIPT_VITHKUQI */
1553 : :
1554 : : /* not really a Unicode script, but part of ISO 15924 */
1555 : : PACK ('Z', 'm', 't', 'h'), /* G_UNICODE_SCRIPT_MATH */
1556 : :
1557 : : /* Unicode 15.0 additions */
1558 : : PACK ('K', 'a', 'w', 'i'), /* G_UNICODE_SCRIPT_KAWI */
1559 : : PACK ('N', 'a', 'g', 'm'), /* G_UNICODE_SCRIPT_NAG_MUNDARI */
1560 : :
1561 : : /* Unicode 16.0 additions */
1562 : : PACK ('T', 'o', 'd', 'r'), /* G_UNICODE_SCRIPT_TODHRI */
1563 : : PACK ('G', 'a', 'r', 'a'), /* G_UNICODE_SCRIPT_GARAY */
1564 : : PACK ('T', 'u', 't', 'g'), /* G_UNICODE_SCRIPT_TULU_TIGALARI */
1565 : : PACK ('S', 'u', 'n', 'u'), /* G_UNICODE_SCRIPT_SUNUWAR */
1566 : : PACK ('G', 'u', 'k', 'h'), /* G_UNICODE_SCRIPT_GURUNG_KHEMA */
1567 : : PACK ('K', 'r', 'a', 'i'), /* G_UNICODE_SCRIPT_KIRAT_RAI */
1568 : : PACK ('O', 'n', 'a', 'o'), /* G_UNICODE_SCRIPT_OL_ONAL */
1569 : :
1570 : : PACK ('S', 'i', 'd', 't'), /* G_UNICODE_SCRIPT_SIDETIC */
1571 : : PACK ('T', 'o', 'l', 's'), /* G_UNICODE_SCRIPT_TOLONG_SIKI */
1572 : : PACK ('T', 'a', 'y', 'o'), /* G_UNICODE_SCRIPT_TAI_YO */
1573 : : PACK ('B', 'e', 'r', 'f'), /* G_UNICODE_SCRIPT_BERIA_ERFE */
1574 : :
1575 : : #undef PACK
1576 : : };
1577 : :
1578 : : /**
1579 : : * g_unicode_script_to_iso15924:
1580 : : * @script: a Unicode script
1581 : : *
1582 : : * Looks up the ISO 15924 code for @script. ISO 15924 assigns four-letter
1583 : : * codes to scripts. For example, the code for Arabic is 'Arab'. The
1584 : : * four letter codes are encoded as a @guint32 by this function in a
1585 : : * big-endian fashion. That is, the code returned for Arabic is
1586 : : * 0x41726162 (0x41 is ASCII code for 'A', 0x72 is ASCII code for 'r', etc).
1587 : : *
1588 : : * See
1589 : : * [Codes for the representation of names of scripts](http://unicode.org/iso15924/codelists.html)
1590 : : * for details.
1591 : : *
1592 : : * Returns: the ISO 15924 code for @script, encoded as an integer,
1593 : : * of zero if @script is %G_UNICODE_SCRIPT_INVALID_CODE or
1594 : : * ISO 15924 code 'Zzzz' (script code for UNKNOWN) if @script is not understood.
1595 : : *
1596 : : * Since: 2.30
1597 : : */
1598 : : guint32
1599 : 351 : g_unicode_script_to_iso15924 (GUnicodeScript script)
1600 : : {
1601 : 351 : if (G_UNLIKELY (script == G_UNICODE_SCRIPT_INVALID_CODE))
1602 : 1 : return 0;
1603 : :
1604 : 350 : if (G_UNLIKELY (script < 0 || script >= (int) G_N_ELEMENTS (iso15924_tags)))
1605 : 1 : return 0x5A7A7A7A;
1606 : :
1607 : 349 : return iso15924_tags[script];
1608 : : }
1609 : :
1610 : : /**
1611 : : * g_unicode_script_from_iso15924:
1612 : : * @iso15924: a Unicode script
1613 : : *
1614 : : * Looks up the Unicode script for @iso15924. ISO 15924 assigns four-letter
1615 : : * codes to scripts. For example, the code for Arabic is 'Arab'.
1616 : : * This function accepts four letter codes encoded as a @guint32 in a
1617 : : * big-endian fashion. That is, the code expected for Arabic is
1618 : : * 0x41726162 (0x41 is ASCII code for 'A', 0x72 is ASCII code for 'r', etc).
1619 : : *
1620 : : * See
1621 : : * [Codes for the representation of names of scripts](http://unicode.org/iso15924/codelists.html)
1622 : : * for details.
1623 : : *
1624 : : * Returns: the Unicode script for @iso15924, or
1625 : : * of %G_UNICODE_SCRIPT_INVALID_CODE if @iso15924 is zero and
1626 : : * %G_UNICODE_SCRIPT_UNKNOWN if @iso15924 is unknown.
1627 : : *
1628 : : * Since: 2.30
1629 : : */
1630 : : GUnicodeScript
1631 : 350 : g_unicode_script_from_iso15924 (guint32 iso15924)
1632 : : {
1633 : : unsigned int i;
1634 : :
1635 : 350 : if (!iso15924)
1636 : 1 : return G_UNICODE_SCRIPT_INVALID_CODE;
1637 : :
1638 : 30631 : for (i = 0; i < G_N_ELEMENTS (iso15924_tags); i++)
1639 : 30630 : if (iso15924_tags[i] == iso15924)
1640 : 348 : return (GUnicodeScript) i;
1641 : :
1642 : 1 : return G_UNICODE_SCRIPT_UNKNOWN;
1643 : : }
|