system.unicode
Таблица system.unicode — это виртуальная таблица, которая предоставляет информацию о символах Unicode и их свойствах (https://unicode-org.github.io/icu/userguide/strings/properties.html). Эта таблица генерируется на лету.
Столбцы
Примечание
Имена свойств кодовых точек Unicode в документации ICU преобразованы в snake case.
code_point(String) — Представление кодовой точки в UTF-8.code_point_value(Int32) — Числовое значение кодовой точки.notation(String) — Обозначение кодовой точки в Unicode.- Binary Properties (UInt8) — Бинарные свойства кодовой точки.
alphabetic,ascii_hex_digit,case_ignorable...
- Enumerated Properties (Int32) — Перечислимые свойства кодовой точки.
bidi_class,bidi_paired_bracket_type,block...
- String Properties (String) — Строковые свойства (ASCII String, Unicode String или кодовая точка) кодовой точки.
case_folding,decomposition_mapping,name...
Примечание
Отображение (mapping) несколько специфично, см. документацию ICU. Например, simple_uppercase_mapping и uppercase_mapping — не совсем одно и то же. Языкозависимые преобразования не реализованы (например, в турецком верхний регистр для i — это "İ" (U+0130)).
numeric_value(Float64) — Числовое значение кодовой точки.script_extensions(Array(LowCardinality(String))) — Расширения письма (script extensions) для кодовой точки.identifier_type(Array(LowCardinality(String))) — Тип идентификатора кодовой точки.general_category_mask(Int32) — Маска общей категории кодовой точки.
Пример